Trabajo Fin de Máster - USC

103
Trabajo Fin de Máster Detección de outliers en grandes bases de datos Sergio Da Vila Davila Máster en Técnicas Estadísticas Curso 2019-2020

Transcript of Trabajo Fin de Máster - USC

Page 1: Trabajo Fin de Máster - USC

Trabajo Fin de Maacutester

Deteccioacuten de outliers en grandes basesde datos

Sergio Da Vila Davila

Maacutester en Teacutecnicas Estadiacutesticas

Curso 2019-2020

ii

iii

Propuesta de Trabajo Fin de Maacutester

Tiacutetulo en galego Deteccioacuten de outliers en grandes bases de datos

Tiacutetulo en espantildeol Deteccioacuten de outliers en grandes bases de datos

English title Outlier detection in big data

Modalidad Modalidad B

Autora Sergio Da Vila Davila Universidad de Santiago de Compostela

Directora Mariacutea Joseacute Lombardiacutea Cortintildea Universidade da Coruntildea

Tutora Esther Loacutepez Vizcaiacuteno Instituto Galego de Estadiacutestica

Breve resumen del trabajo

La presencia de valores atiacutepicos en un conjunto de datos puede condicionar gravemente lasconclusiones que se extraigan de ellos Por ello se realiza una comparativa de diferentesmeacutetodos de deteccioacuten de valores atiacutepicos en series temporales a traveacutes de un estudio desimulacioacuten Este estudio nos permite observar cuales son los mejores meacutetodos y analizartanto la presencia de atiacutepicos como el efecto del Covid19 sobre los conjuntos de datos delIGE

Recomendaciones

Otras observaciones

iv

v

Dontildea Mariacutea Joseacute Lombardiacutea Cortintildea profesora titular de Universidad del Departamento de Matemaacute-ticas da Universidade da Coruntildea y dontildea Esther Loacutepez Vizcaiacuteno responsable del Servicio de Difusioacutene Informacioacuten del Instituto Galego de Estadiacutestica informan que el Trabajo Fin de Maacutester titulado

Deteccioacuten de outliers en grandes bases de datos

fue realizado bajo su direccioacuten por don Sergio Da Vila Davila para el Maacutester en Teacutecnicas EstadiacutesticasEstimando que el trabajo estaacute terminado dan su conformidad para su presentacioacuten y defensa ante untribunal

En Santiago de Compostela a 14 de julio de 2020

La directora

Dontildea Mariacutea Joseacute Lombardiacutea Cortintildea

La tutora

Dontildea Esther Loacutepez Vizcaiacuteno

El autor

Don Sergio Da Vila Davila

vi

Iacutendice general

Resumen ix

1 Introduccioacuten 1

2 Modelizacioacuten de series temporales 5

21 Conceptos baacutesicos 5

22 Meacutetodos de modelizacioacuten de series temporales 8

221 X-13ARIMA-SEATS 8

222 TRAMO-SEATS 8

223 STL 10

224 STR 11

225 Twitter 11

23 Resumen meacutetodos de modelizacioacuten de series temporales 13

3 Deteccioacuten de valores atiacutepicos 15

31 Conceptos baacutesicos 15

32 Meacutetodos de deteccioacuten de valores atiacutepicos 17

321 X-13ARIMA-SEATS 17

322 TRAMO-SEATS 18

323 GESD 19

324 Isolation Forest 20

325 HDoutliers 21

33 Resumen meacutetodos de deteccioacuten de valores atiacutepicos 23

34 Meacutetodos de deteccioacuten de valores atiacutepicos en series temporales 24

4 Estudio de simulacioacuten 27

41 Escenarios 27

42 Iacutendice de Youden 29

43 Resultados 32

44 Conclusiones 41

vii

viii IacuteNDICE GENERAL

5 Aplicacioacuten a datos reales 4351 Anaacutelisis Series IGE 4352 Anaacutelisis Graacutefico 66

6 Conclusiones 71

A Tablas 73A1 Tablas de sensibilidad 73A2 Tablas de exceso 82

Bibliografiacutea 91

Resumen

Resumen en espantildeol

El objetivo de este trabajo es el de realizar un anaacutelisis acerca de la presencia de valores atiacutepicos enlos diferentes conjuntos de datos del Instituto Gallego de Estadiacutestica Para ello realizamos una revisioacutenbibliograacutefica que nos permite conocer los meacutetodos actuales y el recorrido que se produjo hasta llegar alos mismos A traveacutes de esta revisioacuten comprendemos la idea que se esconde detraacutes de la deteccioacuten devalores atiacutepicos en series temporales y somos capaces de proponer nuestros propios meacutetodos

Para comparar el comportamiento de los diferentes meacutetodos realizamos un estudio de simulacioacutenel cual nos sirve para contrastar el buen comportamiento de nuestras propuestas y para descartar otrosmeacutetodos

Finalmente aplicamos los meacutetodos que han reflejado un comportamiento maacutes consistente en elestudio de simulacioacuten y analizamos el efecto del Covid19 en el incremento de valores atiacutepicos en losconjuntos de datos Ademaacutes con el objetivo de reducir la incertidumbre asociada al campo de ladeteccioacuten de valores atiacutepicos introducimos una nueva herramienta graacutefica

English abstract

The aim of this project is to carry out an analysis about the presence of outliers in the differentdata sets of the Galician Institute of Statistics We carried out a bibliographic review that allows us toknow the current methods and the route that took place until we reached them Through this reviewwe understand the idea behind the detection of outliers in time series and we are able to propose ourown methods

To compare the behavior of the different methods we carried out a simulation study which helpsus compare the good behavior of our proposals and to rule out other methods

Finally we applied the methods that have reflected a more consistent behavior in the simulationstudy and analyzed the effect of Covid19 on the increase of outliers in the data sets Furthermore withthe aim of reducing the uncertainty associated with the field of outlier detection we introduced a newgraphical tool

ix

x RESUMEN

Capiacutetulo 1

Introduccioacuten

El Instituto Galego de Estadiacutestica (IGE) es un organismo autoacutenomo de la Xunta de Galicia creadoen el antildeo 1988 cuyo objetivo es el de promover el desarrollo del sistema estadiacutestico de la comunidadautoacutenoma mediante servicios de recopilacioacuten y difusioacuten de la documentacioacuten estadiacutestica disponibledesenvolver bases de datos de intereacutes puacuteblico analizar las necesidades y la evolucioacuten de la demandade estadiacutesticas y asegurar su difusioacuten El IGE se erige por tanto como una de las principales fuentesde informacioacuten de datos de caraacutecter socioeconoacutemico de Galicia y de sus divisiones territoriales

Al igual que el resto de organismos del mismo aacutembito el IGE estaacute experimentando un incrementocontinuo tanto en la generacioacuten como en el almacenamiento de datos Es por esto que se hace devital importancia el incorporar una herramienta que nos permita identificar de un modo automaacuteticoposibles candidatos a valores atiacutepicos dentro de nuestros conjuntos de datos

Un dato atiacutepico o outlier en ingleacutes es una observacioacuten anoacutemala en comparacioacuten con el restode datos contenidos en un determinado conjunto de datos Puede deberse a diversos motivos desdeerrores humanos errores relacionados con la medicioacuten grabacioacuten e introduccioacuten de los datos hastacausas como que el dato procede de una poblacioacuten diferente de la que se pretende estudiar

Existen multitud de definiciones que nos permiten dibujarnos una idea de a queacute nos referimoscuando hablamos de valores atiacutepicos

ldquoUn dato atiacutepico es una observacioacuten que se desviacutea tanto del resto de observaciones como paracrear la sospecha de que fue creada por un mecanismo generador diferenterdquo - Hawkins (1980)

ldquoUn dato atiacutepico es una observacioacuten (o conjunto de observaciones) que son inconsistentes con elresto de datosrdquo - Barnett y Lewis (1996)

ldquoUn outlier es una observacioacuten que se encuentra fuera del patroacuten general de una distribucioacutenrdquo-Moore y McCabe (1999)

ldquoLos datos atiacutepicos pueden ser dependiendo de la circunstancia errores no deseados que puedenafectar negativamente al resultado o valiosas pepitas de informacioacuten inesperadardquo- Rousseeuw yHubert (2011)

Eliminar un dato de una muestra por haberlo considerado atiacutepico puede llevar a perder informacioacutenrelevante debido a una singularidad del mecanismo generador y a su vez incluir un dato atiacutepico en una

1

2 CAPIacuteTULO 1 INTRODUCCIOacuteN

muestra puede confundir los resultados Ambos casos alteran los anaacutelisis posteriores y pueden dirigira conclusiones incorrectas si se llegara a tomar la decisioacuten equivocada Por lo tanto la importanciareside en identificar de manera adecuada queacute datos son atiacutepicos y cuaacuteles no

Esta identificacioacuten seraacute de gran utilidad dado que permitiraacute tanto realizar mejores anaacutelisis comopoder interpretar sucesos relevantes en el contexto socio-econoacutemico gallego

El problema de la deteccioacuten de atiacutepicos es un tema ampliamente tratado en la literatura por loque nuestro trabajo consistiraacute en realizar un estudio comparativo de los meacutetodos maacutes comunes en laactualidad y plantear posibles mejoras

Uno de los criterios a los que le prestaremos mayor atencioacuten en este estudio seraacute a la sensibilidaddel meacutetodo dado que si este es muy sensible e identifica muchos candidatos como atiacutepicos no serviraacute degran ayuda Por otra parte si apenas sentildeala ninguacuten caso seraacute similar a no aplicar ninguna herramientade deteccioacuten

Para estudiar este comportamiento realizaremos un estudio de simulacioacuten en el que a traveacutes devalores atiacutepicos previamente identificados podremos analizar el comportamiento de cada meacutetodoAdemaacutes dado que trabajamos con un gran volumen de datos una caracteriacutestica que se les exigiraacute alos meacutetodos seraacute una raacutepida velocidad de ejecucioacuten

La deteccioacuten de datos atiacutepicos tiene aplicaciones en muchos aacutembitos deteccioacuten de operacionesfraudulentas en tarjetas de creacutedito solicitudes para preacutestamos de clientes potencialmente morososdeteccioacuten de intrusiones en redes de comunicacioacuten monitorizacioacuten de paraacutemetros de fabricacioacuten paradeteccioacuten de producciones defectuosas anomaliacuteas en monitorizaciones meacutedicas anaacutelisis electoraleslimpieza de datos prediccioacuten del tiempo o hasta en astronomiacutea donde un punto anoacutemalo puedeimplicar el descubrimiento de una nueva estrella

En este trabajo nos centraremos en datos reales provenientes de la paacutegina web del IGE recogidosen siete conjuntos

Conjunto 1 Viajeros noches y estancia media en establecimientos hoteleros y de turismo ruralen Espantildea Galicia y sus provincias Datos mensuales Los datos proceden del Instituto Nacio-nal de Estadiacutestica (INE) de la Encuesta de ocupacioacuten hotelera y la Encuesta de ocupacioacuten enalojamientos de turismo rural (httpwwwigeeuigebdtigeapidatos3476)

Conjunto 2 Poblacioacuten de 16 y maacutes antildeos por sexo grupos de edad y relacioacuten con la actividadeconoacutemica en Galicia Datos trimestrales Los datos proceden de la Encuesta de Poblacioacuten Activa(EPA) elaborada conjuntamente entre el INE y el IGE (httpwwwigeeuigebdtigeapidatos6356)

Conjunto 3 Contratos registrados seguacuten su modalidad Datos mensuales Esta informacioacuten proce-de de la Estadiacutestica de contratos registrados elaborada por el Servicio Puacuteblico de Empleo Estatal(SEPE) (httpwwwigeeuigebdtigeapidatos308)

Conjunto 4 Iacutendice de produccioacuten industrial general y por destino econoacutemico de los bienes en Ga-licia (Base 2015) Datos mensuales La informacioacuten procede del Iacutendice de Produccioacuten Industrialoperacioacuten estadiacutestica ejecutada por el INE (httpwwwigeeuigebdtigeapidatos9048)

Conjunto 5 Transacciones inmobiliarias por reacutegimen y tipo de vivienda Nuacutemero valor totaly valor medio Datos trimestrales La fuente de esta informacioacuten es el Ministerio de Fomento y

3

hace referencia a la compraventa de viviendas elevadas a escritura puacuteblica ante notario (httpwwwigeeuigebdtigeapidatos4052)

Conjunto 6 Bajas de demandas de empleo seguacuten geacutenero y duracioacuten de la demanda en Galiciay sus provincias Datos mensuales La fuente de esta informacioacuten es el SEPE y hace referenciaa las bajas que los servicios de empleo puacuteblico tuvieron debido a una colocacioacuten no hacer larenovacioacuten de la demanda en el periodo establecido o por otras causas (httpwwwigeeuigebdtigeapidatos1243)

Conjunto 7 Afiliaciones a la Seguridad Social uacuteltimo diacutea del mes en Galicia y sus provinciasDatos mensuales La informacioacuten procede del Ministerio de Seguridad Social y Migraciones yhace referencia a las personas trabajadoras que estaacuten en alta en la Seguridad Social (httpwwwigeeuigebdtigeapidatos4885)

Los motivos por los que se han escogido estos conjuntos obedece a diversas razones En primerlugar el maacutes importante incluir series en las que existe el conocimiento de que se presentan atiacutepicosA partir de ahiacute se ha conformado un conjunto de series que permitiesen recoger la mayor amalgamade naturalezas posibles que se presentan en las series que trata el IGE mercado laboral turismoconstruccioacuten o industria Seriacutean aacutembitos que se recogen a lo largo de la seleccioacuten de datos realizadaAdemaacutes se han incorporado series con distinta frecuencia de obtencioacuten tanto series mensuales comotrimestrales

En este trabajo se recoge una comparativa de meacutetodos los cuales se pueden englobar bajo dosvisiones de coacutemo abordar la identificacioacuten de anomaliacuteas en series de tiempo Por un lado existen losmeacutetodos cuyo mecanismo se fundamenta en modelos de series temporales que realizan un procesoiterativo para estimar el modelo integrando la posible influencia de observaciones atiacutepicas Por el otrouna visioacuten maacutes reciente se plantea a traveacutes de realizar un proceso de deteccioacuten en dos partes en laprimera se le aplica a la serie de tiempo un meacutetodo de descomposicioacuten para despueacutes aplicar un meacutetodode deteccioacuten de atiacutepicos sobre el residuo

Dado que ambos enfoques comparten un nexo comuacuten como es la modelizacioacuten de la serie de tiempoy la localizacioacuten de atiacutepicos las podemos tratar conjuntamente en dos capiacutetulos el Capiacutetulo 2 y elCapiacutetulo 3

En el Capiacutetulo 2 se estudian las propiedades de modelizacioacuten de cada meacutetodo La importancia deun buen meacutetodo de modelizacioacuten de series temporales reside en que cuanto mejor se consiga extraer elmecanismo generador de la serie de tiempo maacutes resaltaraacuten las observaciones atiacutepicas En el Capiacutetulo 3se describen los meacutetodos de deteccioacuten de atiacutepicos Estos dos capiacutetulos conforman la parte teoacuterica deltrabajo

Para estudiar el comportamiento de los diferentes meacutetodos se plantea un profundo estudio desimulacioacuten en el Capiacutetulo 4 en el que se utiliza el Iacutendice de Youden como herramienta discriminatoriaacerca de queacute meacutetodos ofrecen mejores resultados En el Capiacutetulo 5 se tratan los datos proporcionadospor el IGE a traveacutes de los meacutetodos que han presentado un mejor comportamiento en el estudio desimulacioacuten Para finalizar el Capiacutetulo 6 expone las conclusiones que hemos extraiacutedo a lo largo de larealizacioacuten de este trabajo

4 CAPIacuteTULO 1 INTRODUCCIOacuteN

Capiacutetulo 2

Modelizacioacuten de series temporales

21 Conceptos baacutesicos

En este apartado definiremos los elementos principales que rodean a las series de tiempo Para ellopodemos echar mano de infinidad de manuales dado que las mismas son objeto de estudio en multitudde campos desde las ciencias sociales y econoacutemicas hasta ramas que requieren de un bagaje muchomaacutes matemaacutetico En este trabajo haremos uso de Pentildea (2010) y Woodward Gray y Elliott (2017)

En la estadiacutestica baacutesica estamos acostumbrados a trabajar con una muestra donde las observacio-nes X1 X2 Xn son variables aleatorias independientes e ideacutenticamente distribuidas Sin embargocuando las muestras se extraen en base a instantes de tiempo es muy probable que las observacionesesteacuten correlacionadas entre si Este tipo de muestras con dependencia temporal se denominan series detiempo Es decir una serie de tiempo es una secuencia de observaciones ordenadas cronoloacutegicamente

Este tipo de datos se utilizan en muacuteltiples disciplinas algunos ejemplos podriacutean incluir desde elaacutembito econoacutemico como la evolucioacuten del Producto Interior Bruto (PIB) o del precio del petroacuteleo hastaaacutembitos como la meteorologiacutea midiendo la temperatura de una localidad durante un periacuteodo de tiempoo el aacutembito sanitario siguiendo la evolucioacuten de una enfermedad en un paciente

Uno de los principales inconvenientes a la hora de trabajar con series temporales son los datos atiacute-picos Estos datos atiacutepicos pueden tener dos naturalezas errores no deseados o pepitas de informacioacuten(Rousseeuw y Hubert 2011) Estas pepitas de informacioacuten pueden servirnos por ejemplo para locali-zar sucesos importantes como huelgas medidas de poliacutetica econoacutemica o desastres naturales (Goacutemez yTaguas 1995) Al igual que en el resto de campos de la estadiacutestica que en nuestro conjunto de datos seencuentren valores atiacutepicos puede llevarnos a incurrir en errores de especificacioacuten Como se mencionaen Chang Tiao y Chen (1988) es importante ser capaz de identificar estos sucesos para comprendermejor la estructura subyacente de la serie

Uno de los modelos maacutes comuacutenmente usado y utilizado como punto de partida en el anaacutelisisde series temporales es el modelo ARIMA Los modelos ARIMA ajustan los valores de la serie enbase a las observaciones previas y errores aleatorios con una estructura que le permite incluir tantocomponentes ciacuteclicos como estacionales Siendo Xtt una serie de tiempo un modelo ARIMA seriacuteaaquel que admite una representacioacuten

5

6 CAPIacuteTULO 2 MODELIZACIOacuteN DE SERIES TEMPORALES

φ(B)(1minusB)dXt = c+ θ(B)at

donde Xt es la observacioacuten t de la serie de tiempo B el operador retardo definido por BXt = Xtminus1φ(B) = (1minusφ1(B)minusφ2B

2minusminusφpBp) φ(B) = (1minusθ1Bminusθ2B2minusminusθqBq) cφ1 φ2 φpθ1 θ2 θp

son constantes d es el nuacutemero de diferencias necesarias para eliminar la tendencia de la serie at esruido blanco y p y q los oacuterdenes de los procesos autorregresivos (AR) y de medias moviles (MA)

Con esta representacioacuten del modelo ARIMA se puede deducir raacutepidamente que estos no son maacutes quela mezcla de los dos primeros modelos de series temporales formulados los modelos AR y los modelosMA Ademaacutes si el proceso que genera la serie de tiempo presenta la posibilidad de estar formado porcomponentes de largo periacuteodo temporal se debe hacer uso de los ARIMA estacional muacuteltiplicativoARIMA(pdq)x(PDQ) cuya representacioacuten seriacutea

φ(B)Φ(Bs)(1minusB)d(1minusBs)DXt = c+ θ(B)Θ(Bs)at

En esta nueva formulacioacuten D es el nuacutemero de diferenciaciones estacionales aplicadas para eliminarla componente estacional Φi y Θj las constantes respectivas a la parte estacional para i = 1 2 P yj = 1 2 Q con P igual al orden del proceso AR estacional y Q al orden del proceso MA estacional

Sin embargo la presencia de atiacutepicos puede llevar a un incorrecto ajuste de los paraacutemetros delmodelo debido a que se pueden ver sesgados por el efecto del atiacutepico La mala estimacioacuten de losparaacutemetros nos conduce a diversos errores dado que podemos no diseccionar bien la estructura dela serie como para entender su comportamiento Ademaacutes en el caso de que el atiacutepico se produzcaen la uacuteltima parte de la serie afectariacutea a las estimaciones futuras incurriendo en un error mayor deprediccioacuten

Por ello surgieron meacutetodos como X-13ARIMA-SEATS o TRAMO-SEATS que parten de los mo-delos ARIMA e introducen mejoras como la deteccioacuten y correccioacuten de atiacutepicos Estos meacutetodos fueronampliamente utilizados durante mucho tiempo para la modelizacioacuten de series temporales Sin embargoel desarrollo de la tecnologiacutea provocoacute la creacioacuten del Internet de las Cosas (Mahdavinejad et al 2018)un entorno en el que casi la totalidad de los objetos y personas estaacute conectado a internet dejandohuella de su comportamiento Las caracteriacutesticas de esta red provocaron un incremento enorme en lacreacioacuten y obtencioacuten de datos unas caracteriacutesticas para las cuales no estaban preparados estos meacutetodosdisentildeados para escalar a conjuntos de tamantildeo pequentildeo o mediano

Es aquiacute donde surge un nuevo enfoque para la deteccioacuten de valores atiacutepicos en series de tiempobasado en aplicar un proceso de descomposicioacuten y analizar los residuos Los procesos de descomposicioacutentienen por objetivo diseccionar una serie en tres componentes tendencia estacionalidad y residuo demodo que se pueda establecer un patroacuten de como se comporta En este trabajo el objetivo no es buscarel modelo maacutes preciso sino aquel que consiga trazar mejor la estructura subyacente de la serie de formaque resalte los posibles valores atiacutepicos en su componente residual y es por ello que estos modelosresultan de tanto intereacutes El primer meacutetodo basado en esta idea que recibioacute cierta repercusioacuten fue elpresentado por el equipo de Twitter (Hochenbaum Vallis y Kejariwal 2017) el cual fue maacutes tardeampliado en el paquete Anomalize de R (Dancho y Vaughan 2019)

Esta forma de proceder en dos partes descomposicioacuten maacutes deteccioacuten se debe a la idea de quevisualizar o localizar atiacutepicos en una serie es complicado debido a causas como la estacionalidad o

21 CONCEPTOS BAacuteSICOS 7

tendencia de la serie Aplicarle a la serie un proceso de descomposicioacuten permite extraer estas compo-nentes y resaltar las posibles anomaliacuteas A continuacioacuten en la Figura 21 mostramos un ejemplo deeste procedimiento utilizando uno de los meacutetodos que se emplearaacuten posteriormente en el trabajo STL

Figura 21 A la izquierda la serie referente al Nuacutemero Total de Afiliaciones a la Seguridad Social eluacuteltimo diacutea de mes en Pontevedra perteneciente al Conjunto 7 A la derecha los residuos obtenidos trasaplicarle la descomposicioacuten STL

Como se puede apreciar en la Figura 21 observar alguacuten comportamiento extrantildeo en la serie detiempo es complicado debido a las fluctuaciones que va sufriendo a lo largo de los antildeos Sin embargouna vez aplicado el proceso de descomposicioacuten y eliminado los efectos de estacionalidad y tendenciapodemos ver el efecto de la crisis del Covid-19 apareciendo en los uacuteltimos datos de la serie Esta crisisprovoca que los datos reales de esos meses disten mucho de los esperados lo que se traduce en fuertesincrementos en el tamantildeo del residuo

Lo interesante de estos meacutetodos es que los procesos de descomposicioacuten de series de tiempo soncapaces de analizar multitud de series de caracteriacutesticas muy diferentes y filtrarlas de tal modo que elproblema acabe residiendo en lo que aparentemente es un sencillo problema de deteccioacuten de valoresatiacutepicos en el caso univariante Mientras que los meacutetodos como X-13ARIMA-SEATS o TRAMO-SEATS se encuentran limitados en su disentildeo a trabajar solamente con series con frecuencias mensualeso trimestrales

Sin embargo Wilkinson (2017) resalta que el problema de la deteccioacuten de valores atiacutepicos en elcaso univariante es engantildeosamente sencillo lo cual puede llevarnos a cometer errores en la deteccioacutende atiacutepicos pese a haber realizado una buena descomposicioacuten de la serie Por ello en este trabajo seplantea un capiacutetulo dedicado a analizar las propiedades de diferentes meacutetodos de deteccioacuten

Por tanto en el trabajo coexisten dos mecanismos de deteccioacuten de atiacutepicos en series temporalesPor un lado los meacutetodos de ajuste de series temporales que incorporan la deteccioacuten y correccioacuten deatiacutepicos al modelo de modo automaacutetico Y por el otro aquellos meacutetodos de deteccioacuten de atiacutepicos cuyaidea se centra en aplicar un proceso de descomposicioacuten maacutes anaacutelisis del residuo

En la Seccioacuten 22 se describen los procesos de modelizacioacuten de series temporales utilizados y en elCapiacutetulo 3 se describen los procesos de deteccioacuten de atiacutepicos

8 CAPIacuteTULO 2 MODELIZACIOacuteN DE SERIES TEMPORALES

22 Meacutetodos de modelizacioacuten de series temporales

221 X-13ARIMA-SEATS

El meacutetodo X-13ARIMA-SEATS es la versioacuten actualizada y mejorada del modelo X-11 desarrolladopor Shiskin Young y Musgrave (1967) X-13ARIMA-SEATS fue creado por el Censo de los EstadosUnidos (US Census Bureau) y forma parte de una familia de modelos de ajuste para series temporalesque se han ido desarrollando y estaacuten disentildeados para trabajar con series econoacutemicas estacionales Unaexplicacioacuten completa del meacutetodo y de coacutemo ha de implantarse se puede encontrar en Time SeriesResearch Staff (2017)

Este modelo se basa en la estimacioacuten de lo que sus autores denominan modelos regARIMA Estosson modelos de regresioacuten con errores ARIMA En concreto la media de la serie estaacute descrita por unacombinacioacuten lineal de regresores y la matriz de covarianzas es la de un proceso ARIMA Se incluyenregresores para modelar efectos de calendario como festivos vacaciones o diacutea de la semana Ademaacutestambieacuten se incluyen otro tipo de regresores para modelar el efecto de las anomaliacuteas que se puedanpresentar El modo en que se aborda este campo lo trataremos en profundidad en el Capiacutetulo 3 conel resto de meacutetodos de deteccioacuten

El proceso de ajuste comienza por un pre-ajuste de la serie a traveacutes de eliminar el efecto determiniacutes-tico mediante un modelo de regresioacuten con errores ARIMA En el siguiente paso la serie pre-ajustada sedescompone en tendencia (t) estacionalidad (s) y residuo (i) Esta descomposicioacuten puede ser aditiva(y = t+s+i) multiplicativa (y = tlowastslowasti) log-aditiva (log(y) = log(t)+log(s)+log(i)) o pseudo-aditiva(y = t lowast (s+ iminus 1)) Este paso en el que se aplica el proceso de descomposicioacuten se basa en el uso delalgoritmo X11 que descompone la serie a traveacutes de filtros lineales La serie final ajustada debe estarlibre de estacionalidad y efectos de calendario

X-13ARIMA-SEATS estaacute implementado en la libreriacutea RJDemetra de R en la funcioacuten x13 y lasespecificaciones necesarias para llevar a cabo la deteccioacuten de atiacutepicos se tratan en el Capiacutetulo 3 juntocon la explicacioacuten del proceso de deteccioacuten

222 TRAMO-SEATS

El meacutetodo TRAMO-SEATS (Goacutemez y Maravall 1997) fue disentildeado por el Banco de Espantildea parael anaacutelisis de series de tiempo Esta herramienta estaacute formada por dos mecanismos La parte TRAMO(Time Series Regression with Arima noise Missing Observations and Outliers) y la parte SEATS(Signal Extraction in ARIMA Time Series)

Como se introduce en Goacutemez y Taguas (1995) el programa TRAMO puede ser utilizado inde-pendientemente de SEATS sin embargo SEATS ha sido disentildeado para trabajar conjuntamente conTRAMO Su finalidad es la de realizar un anaacutelisis detallado de series temporales ya que cuenta conmecanismos para realizar tareas de estimacioacuten prediccioacuten interpolacioacuten de modelos de regresioacuten convalores ausentes con errores ARIMA y correccioacuten de valores atiacutepicos El programa incluye variables deregresioacuten para modelizar los diacuteas de calendario que pueden influir en el comportamiento de la serie co-mo puede ser la Pascua y variables de intervencioacuten que permiten corregir el efecto de las observacionesatiacutepicas La idea en la que se basa el modelo es muy similar a la del modelo X-13ARIMA-SEATS

TRAMO elimina de la serie los efectos especiales identifica y elimina automaacuteticamente los efectos

22 MEacuteTODOS DE MODELIZACIOacuteN DE SERIES TEMPORALES 9

de varios tipos de atiacutepicos e interpola las observaciones ausentes Tambieacuten cuenta con un moacuteduloque permite la identificacioacuten automaacutetica de modelos herramienta que imitaron los desarrolladores deX-13ARIMA-SEATS y que en su momento le permitioacute relevar de tareas monoacutetonas a los analistasEste procedimiento de identificacioacuten automaacutetica estaacute basado en estimar primero las raiacuteces unitarias yutilizar despueacutes el Criterio de Informacioacuten Bayesiano (BIC ) para especificar un modelo ARMA a laserie diferenciada

Figura 22 Esquema de funcionamiento de TRAMO-SEATS (Goacutemez y Maravall 1997)

La Figura 22 (Goacutemez y Maravall 1997) muestra como se integran ambas partes TRAMO ySEATS para formar en conjunto el mecanismo completo de modelizacioacuten

SEATS fue disentildeado originalmente para desestacionalizar series temporales El programa descom-pone una serie que sigue un modelo ARIMA en varios componentes tendencia componente estacionalciclo y componente irregular La descomposicioacuten puede ser aditiva o multiplicativa La descomposicioacutenparte de la hipoacutetesis de ortogonalidad de los componentes que a su vez siguen modelos ARIMA Paraidentificar los componentes se requiere que excepto el irregular esteacuten limpios de ruido blanco De estemodo se maximiza la varianza de este uacuteltimo y al contrario la tendencia el componente estacional yel ciclo son lo maacutes estables posibles

El modelo tratado por SEATS es el de una serie integrada lineal con innovaciones gaussianas Estahipoacutetesis puede no ser cierta en muacuteltiples ocasiones pero siempre es necesario extraer un modelo espor ello que SEATS fue disentildeada para ser utilizada de forma conjunta con TRAMO

TRAMO-SEATS estaacute implementado en la libreriacutea RJDemetra de R en la funcioacuten tramoseats y las

10 CAPIacuteTULO 2 MODELIZACIOacuteN DE SERIES TEMPORALES

especificaciones necesarias para llevar a cabo la deteccioacuten de atiacutepicos se tratan en el capiacutetulo 3 juntocon la explicacioacuten del proceso de deteccioacuten

223 STL

STL es un proceso de filtrado para descomponer series de tiempo en tendencia estacionalidad yresiduo cuyo nombre se debe a sus siglas en ingleacutes Seasonal-Trend decomposition based on Loessintroducido por Cleveland Cleveland McRae y Terpenning (1990) El propoacutesito de este meacutetodo fue elde desarrollar un meacutetodo de descomposicioacuten de series de tiempo que cumpliese los siguientes requisitos

1 Disentildeo sencillo y uso inmediato

2 Flexibilidad a la hora de especificar las variaciones en la tendencia y estacionalidad

3 Poder descomponer series de tiempo con valores faltantes

4 Tendencia y estacionalidad robusta de modo que no se vea distorsionada por datos anoacutemalos

5 Raacutepida computacioacuten y faacutecil implementacioacuten incluso para series temporales largas

El procedimiento de STL consiste en una secuencia de operaciones de suavizado realizadas todasellas salvo una por el mismo suavizador loess El mecanismo consiste en dos bucles uno interno yotro externo

Cada vuelta del bucle interno consiste en un suavizado estacional que actualiza dicha componenteseguido de un suavizado de la tendencia que actualiza la componente asociada con la tendencia Porotra parte cada vuelta del bucle externo consiste en aplicarle una serie de pesos robustos al bucleinterno Estos pesos se utilizan en la siguiente vuelta del bucle interno para reducir la influencia de losdatos anoacutemalos

La aplicacioacuten de la estimacioacuten robusta seraacute necesaria cuando exista un conocimiento previo de quelos datos tienen un comportamiento no gaussiano que conduce a una variacioacuten transitoria extrema delo contrario se pueden omitir las iteraciones del bucle externo y STL consistiriacutea solamente en el bucleinterno

A diferencia de otros meacutetodos como TRAMO-SEATS o X-13ARIMA-SEATS STL puede tratarcualquier tipo de estacionalidad en vez de estar atado a estacionalidades mensuales o trimestrales Sucomponente estacional es capaz de cambiar a lo largo del tiempo y dicho cambio puede ser controladopor el usuario Lo mismo sucede con el suavizado de la componente relacionada con la tendencia Unode sus inconvenientes es que no opera si en la serie se encuentran valores faltantes

En R encontramos este meacutetodo bajo la funcioacuten stl a la cual solo habraacute que especificarle unparaacutemetro Dicho paraacutemetro es el relacionado con el suavizado de la componente estacional e indicaal mecanismo el nuacutemero de observaciones consecutivas a utilizar para estimar los valores de dichacomponente Se podriacutea introducir un valor numeacuterico si tenemos alguacuten indicio sobre el posible desarrollode la componente estacional sin embargo dado que vamos a aplicarlo a un gran nuacutemero de series elanaacutelisis individual seriacutea costoso La solucioacuten utilizada en este trabajo pasa por fijar este paraacutemetrocomo perioacutedico lo cual asume que la evolucioacuten de la componente estacional es ideacutentica a lo largo delos antildeos que se desarrolla la serie

22 MEacuteTODOS DE MODELIZACIOacuteN DE SERIES TEMPORALES 11

224 STR

STR es un meacutetodo de descomposicioacuten de series de tiempo presentado por Dokumentov y Hyndman(2015) Sus siglas se deben a su nombre en ingleacutes Seasonal-Trend decomposition procedure based onRegression similar a la idea de STL salvo que ahora en vez de basarse en loess lo hace en regresioacutenEn concreto seguacuten los autores STR es similar a la regresioacuten Ridge (Hoerl y Kennard 1970) y suversioacuten robusta Robust STR (Dokumentov y Hyndman 2015) se podriacutea relacionar con una regresioacutenLASSO (Tibshirani 1996)

La idea de su desarrollo se originoacute debido a que los autores consideran que a pesar de existir variosalgoritmos de descomposicioacuten de series de tiempo existen muchas caracteriacutesticas en ellas que dichosalgoritmos son incapaces de tratar Las principales deficiencias que encuentran son

Incapacidad para proporcionar un modelo estadiacutestico significativo y simple

Incapacidad (o dificultad) para calcular intervalos de confianza

Incapacidad para tener en cuenta regresores

Incapacidad para tener en cuenta estacionalidad fraccionada

Incapacidad para tener en cuenta muacuteltiples estacionalidades

Incapacidad para tener en cuenta estacionalidades complejas y regresores que afecten a los datosde un modo estacional

El objetivo con el que se desarrolloacute STR fue el de corregir estas deficiencias a la par que presentar unmeacutetodo claro geneacuterico simple y robusto si fuera necesario Para solucionar estas deficiencias enfocan ladescomposicioacuten como un problema a resolver a traveacutes de una regresioacuten cuantil o de miacutenimos cuadradosordinarios

De acuerdo a sus desarrolladores STR constituye el meacutetodo de descomposicioacuten de series de tiempomaacutes geneacuterico disponible en el momento de su publicacioacuten Sin embargo matizan una gran desventajaque presenta el meacutetodo y es su ineficiencia o la ralentizacioacuten que sufre el mecanismo a la hora de tratarcasos en los que se utilizan varios componentes o predictores estacionales

Uno de sus desarrolladores Rob J Hyndman es conocido por sus aportaciones en el campo delas series de tiempo y su posterior implantacioacuten en paquetes para el software R como el famosopaquete forecast En este caso tambieacuten ha colaborado en la implantacioacuten de STR con el paquete stR(Dokumentov y Hyndman 2018)

225 Twitter

En Hochenbaum et al (2017) se aborda el problema de deteccioacuten de valores atiacutepicos en series detiempo introduciendo la idea de descomposicioacuten maacutes deteccioacuten como hemos comentado en la introduc-cioacuten de esta seccioacuten El equipo de Twitter plantea en su artiacuteculo utilizar en un primer momento STLcomo meacutetodo de descomposicioacuten para obtener los residuos sin embargo a la hora de trabajar con estemeacutetodo encuentran una serie de inconvenientes Estos inconvenientes estariacutean provocados por ciertasanomaliacuteas espurias producidas en el residuo

12 CAPIacuteTULO 2 MODELIZACIOacuteN DE SERIES TEMPORALES

Para corregir esta situacioacuten optan por utilizar la mediana de la serie de tiempo para representar latendencia ldquoestablerdquo que despueacutes seraacute utilizada para calcular el residuo

De este modo afirman que reemplazando la tendencia con la mediana se eliminan las anomaliacuteasespurias o ilegiacutetimas del residuo Los mismos desarrolladores publicaron un paquete en la plataformaGitHub (Twitter Inc 2015) que nos permitiacutea hacer uso de este mecanismo sin embargo su manteni-miento cesoacute a finales de 2015 y el paquete fue eliminado de la plataforma CRAN en marzo de 2019 Elpaquete Anomalize (Dancho y Vaughan 2019) recoge este mecanismo y seraacute el paquete que utilizaremosen este trabajo para utilizar esta modificacioacuten del meacutetodo STL bajo la funcioacuten decompose_twitter

23 RESUMEN MEacuteTODOS DE MODELIZACIOacuteN DE SERIES TEMPORALES 13

23 Resumen meacutetodos de modelizacioacuten de series temporales

Meacutetodo Ventajas Contras

X-13ARIMA-SEATS(2017)

Capaz de tratar con valores fal-tantesIntegra diversos tipos de descom-posicioacutenRaacutepida velocidad de ejecucioacuten

Disentildeado para trabajar solo conseries mensuales o trimestrales

TRAMO-SEATS(1997) Capaz de tratar con valores fal-tantesIntegra diversos tipos de descom-posicioacutenRaacutepida velocidad de ejecucioacuten

Disentildeado para trabajar solo conseries mensuales o trimestrales

STL(1990) Puede tratar series de cualquierfrecuenciaRaacutepidoCuenta con versioacuten robusta

No admite valores faltantesCarece de flexibilidad cuando elperiacuteodo estacional es largo y seobserva mucho ruido en la serieAuacuten con su versioacuten robusta pue-de verse afectado por la influen-cia de los atiacutepicos

STR(2015) Puede tratar series de cualquierfrecuenciaCuenta con versioacuten robustaAdmite valores faltantesSensible a cambios de estaciona-lidad

No puede seguir cambios bruscosen la tendenciaExtremadamente lento en com-paracioacuten al resto de meacutetodos

Twitter(2017) Puede tratar series de cualquierfrecuenciaElimina anomaliacuteas espuacutereas en lacomponente residualRaacutepido

No admite valores faltantesNo cuenta con versioacuten robusta

Cuadro 21 Resumen de los meacutetodos de modelizacioacuten de series temporales

14 CAPIacuteTULO 2 MODELIZACIOacuteN DE SERIES TEMPORALES

Capiacutetulo 3

Deteccioacuten de valores atiacutepicos

31 Conceptos baacutesicos

El problema que supone en la estadiacutestica la presencia de valores atiacutepicos aparecioacute muy pronto EnHawkins (1980) mencionan que este problema pudo haber surgido ya en los siglos XVIII y XIX enencuestas estadiacutesticas que se realizaban Las primeras decisiones de queacute hacer con ellos se basaron encriterios puramente subjetivos en los que era el propio analista el que decidiacutea descartar una observacioacutensi pareciacutea anoacutemala respecto al resto de los datos

Posteriormente se comenzaron a plantear posibles soluciones para tratar el problema bajo uncriterio La primera de ellas fue la presentada por Peirce (1852) basada en lo que se podriacutea entendercomo un test de razoacuten de verosimilitud donde todos los valores que superasen el umbral determinadopor cσ seriacutean rechazados siendo c una constante a calcular y σ la desviacioacuten tiacutepica de la muestraVarios autores realizaron criacuteticas a este meacutetodo y propusieron su correccioacuten a este criterio una de ellasfue la de Chauvenet (1963) Esta pasaba por calificar a una observacioacuten como atiacutepico si su valor sesituaba fuera del intervalo definido por 1(4n) puntos de la distribucioacuten Normal siendo n el tamantildeode la muestra

En ese momento surgen diversas propuestas no muy relevantes que trataron de abordar dichoproblema hasta que surgioacute la llevada a cabo por Thompson (1935) Su estudio condujo a descubrir ladistribucioacuten nula de un residuo estudentizado

xi minus xs

donde xi es la observacioacuten sospechosa de ser atiacutepica x la media muestral y s la desviacioacuten tiacutepica de lamuestra A partir de esto pudo deducir un procedimiento de deteccioacuten de atiacutepicos que rechazariacutea unaproporcioacuten fija de todos los datos buenos y devolveriacutea una tabla con los valores criacuteticos adecuados

Esta idea supuso el desarrollo del test de Grubbs (1950) el cual utilizando la misma notacioacutenanterior basaba su regla en los momentos muestrales de una normal

G =max1leilen|xi minus x|

s

Grubbs (1950) asocioacute G con una distribucioacuten t con el objetivo de encontrar un maacuteximo y un miacutenimo

15

16 CAPIacuteTULO 3 DETECCIOacuteN DE VALORES ATIacutePICOS

para localizar atiacutepicos Esta idea fue posteriormente ampliada dando lugar al meacutetodo GESD (Rosner1983) el cual se detalla en la siguiente seccioacuten

Posteriormente se presentoacute una de las herramientas maacutes comuacutenmente utilizadas para la identifi-cacioacuten de atiacutepicos el boxplot introducido en Tukey (1977) Sin embargo el objetivo inicial no fue ladeteccioacuten de atiacutepicos sino como un meacutetodo para trazar una idea del intervalo en el que se encuentranla gran parte de nuestros datos Ademaacutes la forma en la que se construye provoca dos grandes incon-venientes No se puede aplicar a distribuciones sesgadas y dado que no incluye el tamantildeo muestral ensu formulacioacuten tenderaacute a etiquetar falsos atiacutepicos cuanto maacutes grande sea la muestra

A la par que se iban presentando estas ideas para la buacutesqueda de valores atiacutepicos en un conjuntode datos se fueron presentando mecanismos enfocados a las series de tiempo

Uno de los primeros aportes al tratamiento de datos atiacutepicos en series de tiempo fue propuestopor G E P Box y Tiao (1975) Sin embargo este meacutetodo solamente permitiacutea modelar el efecto de laobservacioacuten atiacutepica si se conociacutea de antemano el momento de la intervencioacuten por lo que no se podriacuteaconsiderar una herramienta de deteccioacuten sino maacutes bien una herramienta de intervencioacuten

Posteriormente se propusieron diversos meacutetodos para abordar el problema de la estimacioacuten demodelos ARIMA en series bajo esta circunstancia El primero de ellos fue el de Abraham y Box(1979) que se basaba en proponer un enfoque bayesiano para resolver el problema partiendo de ideassimilares a las que se habiacutean propuesto en otros contextos por autores como Tukey (1977) Otro meacutetodoque buscaba resolver tambieacuten el mismo problema fue el propuesto por Chang y Tiao (1983) cuya idease centraba en aplicar un proceso iterativo

Fue en este artiacuteculo (Chang y Tiao 1983) donde se propuso por primera vez un meacutetodo de deteccioacutene identificacioacuten de atiacutepicos Tsay (1986) propuso su versioacuten que se basaba en combinar el procesoiterativo presentado en Chang y Tiao (1983) con la funcioacuten de autocorrelacioacuten muestral extendidadesarrollada en Tsay y Tiao (1984) la cual permite eliminar la necesidad de determinar el orden dediferenciacioacuten para producir una serie estacionaria que modelar

En Chen y Liu (1993) se reconocen los numerosos aportes hechos en los anteriores artiacuteculos citadospero matiza que algunos problemas seguiacutean estando vigentes

a La presencia de atiacutepicos puede resultar en un modelo inapropiado

b Incluso si el modelo es el apropiado los atiacutepicos pueden seguir produciendo sesgo en el paraacutemetroestimado y por tanto afectar a la deteccioacuten del atiacutepico

c Algunos atiacutepicos no van a ser identificados debido a un problema de enmascaramiento

Su objetivo era presentar un meacutetodo que fuese capaz de resolver los problemas b y c de modo quese pudiese generalizar para aplicar a los cuatro tipos de atiacutepicos en series temporales que se habiacutean idointroduciendo Los cuatro tipos son

IO (atiacutepico innovativo) existe un atiacutepico innovativo en el momento t cuando la innovacioacuten en esepunto esteacute directamente provocada por una cantidad desconocida debido a un suceso imprevisto

AO (atiacutepico aditivo) diremos que se produce un atiacutepico aditivo si en el momento t la serie segenera de manera diferente al resto

32 MEacuteTODOS DE DETECCIOacuteN DE VALORES ATIacutePICOS 17

LS (cambio de nivel) existe un cambio de nivel si en el momento t la serie experimenta unincremento de todos sus valores A diferencia del resto tiene un efecto permanente sobre la serieuna vez aparece

TC (cambio temporal) similar al cambio de nivel solo que el efecto no es permanente y decreceexponencialmente con el tiempo

X-13ARIMA-SEATS y TRAMO-SEATS basan su proceso de deteccioacuten de atiacutepicos en meacutetodosinspirados en el artiacuteculo de Chen y Liu (1993) cuya idea se fundamenta en integrar un mecanismoiterativo disentildeado para trabajar con series de tiempo que localiza e integra los atiacutepicos al modelo Porotra parte en la siguiente seccioacuten introducimos los meacutetodos de deteccioacuten de atiacutepicos que acompantildeana los procesos de descomposicioacuten de series de tiempo estos son GESD Isolation Forest y HDoutliersEstos meacutetodos son desarrollos de los mecanismos e ideas tratados al comienzo de esta seccioacuten como elmeacutetodo Grubbs (Grubbs 1950)

32 Meacutetodos de deteccioacuten de valores atiacutepicos

321 X-13ARIMA-SEATS

El anaacutelisis de diagnoacutestico del modelo regARIMA se realiza a traveacutes del anaacutelisis de los residuos delmodelo estimado Para el apartado de anaacutelisis de valores atiacutepicos X-13ARIMA-SEATS se fundamentaen Chang y Tiao (1983) con extensiones y modificaciones tratadas en Bell (1983) y Otto y Bell (1990)donde los valores atiacutepicos pueden ser de tres de los cuatro tipos antes mencionados AO LS y TC

El enfoque que plantea este mecanismo de deteccioacuten es similar a la regresioacuten paso a paso procedi-miento de regresioacuten en el que se construye el modelo a traveacutes de ir antildeadiendo o eliminando variablespredictoras en base a criterios de informacioacuten

En este caso las variables candidatas para la regresioacuten son las AO LS y TC para todos los puntosen los que la deteccioacuten de atiacutepicos se realiza Es decir se calcula el t-estadiacutestico para ver la significa-tividad de cada tipo de atiacutepico en cada instante temporal se busca significatividad entre todos estost-estadiacutesticos y se antildeade la correspondiente variable de regresioacuten (AO LS o TC) al modelo con el finde corregir los efectos que producen estas observaciones atiacutepicas De este modo se identifica e introduceel efecto de un momento atiacutepico en el modelo Mientras se produce el proceso de deteccioacuten de atiacutepicosse utiliza un estimador robusto de la desviacioacuten residual estaacutendar 148lowastla mediana del valor absolutode la desviacioacuten residual

X-13ARIMA-SEATS antildeade dos variaciones a este meacutetodo El meacutetodo addone en el que cada vezque se antildeade al modelo un atiacutepico se lleva a cabo una re-estimacioacuten del modelo y el meacutetodo addallque re-estima el modelo solo cuando un nuacutemero de variables atiacutepicas han sido antildeadidas al modelo

Este meacutetodo estaacute implantado en R a traveacutes de la funcioacuten x13 del paquete RJDemetra Dicha funcioacutenrequiere de un paraacutemetro de especificacioacuten spec en que se concreta el modelo que queremos introducirEste paraacutemetro es el que nos ofrece diversas posibilidades de modelizacioacuten de la serie como se recogeen la Figura 31 entre ellas los efectos de calendario o los atiacutepicos que presente la serie Dado quebuscamos sucesos atiacutepicos en su sentido maacutes amplio vamos a omitir incluir los efectos de calendarioy solamente introducir la deteccioacuten automaacutetica de atiacutepicos Esto provoca que en nuestro trabajo la

18 CAPIacuteTULO 3 DETECCIOacuteN DE VALORES ATIacutePICOS

especificacioacuten que nos interesa y con la que hemos trabajado sea RSA3 La opcioacuten RSA3 permiteajustar automaacuteticamente un modelo ARIMA identificando y corrigiendo las posibles observacionesanoacutemalas El resto de modificaciones que permite introducir el paraacutemetro de especificacioacuten de la funcioacutenx13 se recogen en la Figura 31 Por ejemplo si estuvieacutesemos interesados en modelizar nuestros datosa traveacutes de un modelo ARIMA de liacuteneas aeacutereas observariacuteamos en la Figura 31 que tendriacuteamos queescoger la especificacioacuten RSA0 Si ahora quisieacuteramos antildeadirle a dicho modelo deteccioacuten de atiacutepicostendriacuteamos que cambiar el paraacutemetro de especificacioacuten a RSA1 y si ademaacutes tambieacuten nos interesamodelar los efectos de calendario sobre dicho modelo introduciriacuteamos la especificacioacuten RSA2 El restode especificaciones ya trabajan sobre el ajuste de un modelo ARIMA de un modo automaacutetico la maacutessencilla es la que utilizamos nosotros en este trabajo RSA3 la cual ajusta un modelo ARIMA deforma automaacutetica incluyendo la deteccioacuten de atiacutepicos Las especificaciones RSA4 y RSA5 incorporanrespecto a RSA3 modelizar los efectos de calendario La diferencia entre ellas se encuentra en queRSA4 incluye en el modelo los efectos de calendario a traveacutes de dos variables que representan losdiacuteas laborables y los fines de semana y RSA5 incluye dichos efectos a traveacutes de siete variables cadadiacutea de la semana y ambas incluyen el efecto de la Pascua en el calendario Por uacuteltimo se encuentrala especificacioacuten RSAfull que incluye el ajuste automaacutetico de un modelo ARIMA y de los efectos decalendario e incorpora la deteccioacuten de atiacutepicos Todas estas especificaciones son las que se detallan enla Figura 31 para profundizar maacutes en ellas se puede consultar el manual de la libreriacutea RJDemetra (laTente Michalek Palate y Baeyens 2020)

Figura 31 Paraacutemetro de especificaciones a introducir al modelo X-13ARIMA-SEATS

322 TRAMO-SEATS

El mecanismo de deteccioacuten de atiacutepicos que utiliza el programa TRAMO-SEATS aborda el problemacon la intencioacuten de resolver los problemas b y c introducidos en el inicio del Capiacutetulo 3 dado queentiende que estos no se han resuelto de un modo satisfactorio en Chen y Liu (1993) En Goacutemez yTaguas (1995) explican que aunque este meacutetodo funciona de forma bastante satisfactoria su solucioacutenpresenta una serie de deficiencias

1 Se estima varias veces por maacutexima verosimilitud exacta lo que es costoso

2 No utiliza residuos exactos

3 El algoritmo es excesivamente complicado

4 Las regresiones muacuteltiples no se hacen filtrando los datos y las columnas de la matriz por un filtroexacto como el filtro de Kalman sino que se utiliza un filtro condicional

32 MEacuteTODOS DE DETECCIOacuteN DE VALORES ATIacutePICOS 19

Por tanto se presenta un mecanismo que pretende subsanar estas deficiencias a la par que corregirlos problemas b y c mencionados en Chen y Liu (1993) Ademaacutes si se utiliza de forma secuencial juntocon el procedimiento de especificacioacuten automaacutetica del programa supone un procedimiento alternativoal de Tsay (1986)

Al igual que X-13ARIMA-SEATS TRAMO-SEATS estaacute implementado en la libreriacutea RJDemetra

de R en la funcioacuten tramoseats Dicha funcioacuten tambieacuten requiere de un paraacutemetro de especificacioacutenspec en el que se concreta el modelo que queremos introducir La utilidad y mecanismo sobre el quetrabaja este paraacutemetro es ideacutentico al explicado en la Seccioacuten 321 para el meacutetodo X-13ARIMA-SEATSpor lo que utilizaremos la especificacioacuten RSA3 Esta especificacioacuten incluye el ajuste automaacutetico de unmodelo ARIMA corrigiendo las posibles observaciones atiacutepicas

El resto de posibles especificaciones que se pueden incluir en el modelo se recogen en la Figura32 El significado de esta figura es equivalente al de la Figura 31 dado que ambos modelos TRAMO-SEATS y X-13ARIMA-SEATS estaacuten implementados en la misma libreria RJDemetra y compartenel mismo paraacutemetro de especificacioacuten en la funcioacuten que estima sus modelos en R

Figura 32 Paraacutemetro de especificaciones a introducir al modelo TRAMO-SEATS

323 GESD

Introducido por Rosner (1983) como una mejora al por entonces conocido ESD (Rosner 1975) porsus siglas en ingleacutes Extreme Studentized Deviate A pesar de que ESD contaba con buenas propiedadesante una amplia alternativa de atiacutepicos presentaba una serie de defectos que le conduciacutean a etiquetarmaacutes candidatos a atiacutepicos que el nuacutemero apropiado Esto provocoacute que se quedase obsoleto en favor desu actualizacioacuten GESD General Extreme Studentized Deviate

Los pasos que sigue son los siguientes

1 Decidir un maacuteximo nuacutemero de posibles candidatos a atiacutepicos r La recomendacioacuten es de consi-derar el 20 del tamantildeo muestral

2 Comenzar las iteraciones i = 1

3 Calcular Ri = maxt|ximinusx|s siendo xi una observacioacuten sospechosa de ser anoacutemala x la media

muestral y s la desviacioacuten estaacutendar de la muestra respectivamente

4 Eliminar la observacioacuten que maximice xi minus x

5 Calcular el siguiente valor criacutetico λi =(nminusi)tpnminusi+1radic

(nminus1minus1+t2pnminusiminus1)(nminusi+1)

donde tpnminusi+1 es una distribucioacuten t con n minus i minus 1 grados de libertad y p = 1 minus α2(nminusi+1 siendo

α la probabilidad de cometer errores de tipo I

20 CAPIacuteTULO 3 DETECCIOacuteN DE VALORES ATIacutePICOS

6 Pasar a la siguiente iteracioacuten repetir los pasos 2 a 5 hasta i = r quedando r definido en el paso1

7 El nuacutemero de atiacutepicos detectados se determina al encontrar el mayor i tal que Ri gt λi dondeRi se define en el paso 2 y λi en el paso 5

GESD es principalmente el test de Grubbs (Grubbs 1950) aplicado de forma secuencial sin embargoexisten unas pequentildeas diferencias que premian su comportamiento GESD realiza ajustes del valorcriacutetico en base al nuacutemero de atiacutepicos a ser estudiado algo que el test de Grubbs no hace Ademaacutessi existe efecto de enmascaramiento aplicar el test de Grubbs de forma secuencial produciriacutea unadetencioacuten demasiado temprana del algoritmo de deteccioacuten lo que impediriacutea localizar algunos atiacutepicos

Los estudios de simulacioacuten realizados para estudiar el comportamiento de GESD indican que elmeacutetodo es muy preciso cuando contamos con tamantildeos muestrales n gt 25 por lo que en nuestrotrabajo no tendremos problema Sin embargo debido a que es un meacutetodo iterativo seraacute maacutes costosocomputacionalmente a medida que se incrementen los tamantildeos muestrales y es algo a tener en cuentacomo posible freno al crecimiento futuro del mecanismo de deteccioacuten

En R podemos encontrar la funcioacuten gesd dentro del paquete Anomalize (Dancho y Vaughan 2019)

324 Isolation Forest

Isolation Forest o iForest es el meacutetodo presentado por Liu Ting y Zhou (2009) donde se tratael tema de deteccioacuten de atiacutepicos desde un punto de vista diferente Ese punto de vista se basa en dospropiedades relacionadas con la idea de queacute es un valor atiacutepico son la minoriacutea de un conjunto y tienenunos atributos muy diferentes a los de las observaciones normales Es decir las anomaliacuteas son pocas ydiferentes lo que las hace maacutes propensas a encontrarse aisladas del resto

Por esta razoacuten los autores presentan un meacutetodo basado en construir un aacuterbol que aiacutesle cada ob-servacioacuten de tal modo que los valores atiacutepicos se encontraraacuten en ramas maacutes proacuteximas a la raiacutez y losvalores normales se encontraraacuten en zonas maacutes profundas del aacuterbol Es por ello que iForest (Liu et al2009) se distingue del resto de mecanismos basados en modelos distancias o densidades

Figura 33 Idea sobre la que se sustenta el mecanismo de Isolation Forest

32 MEacuteTODOS DE DETECCIOacuteN DE VALORES ATIacutePICOS 21

En la Figura 33 se puede observar la idea sobre la que se rige este mecanismo Un punto normalxi requiere maacutes particiones para ser aislado Y el opuesto tambieacuten es cierto donde un punto anoacutemalox0 requiere menos particiones para ser aislado Por lo que se trata de calcular la ldquolongitud del caminordquoa ser aislado dado que los valores atiacutepicos tendraacuten caminos maacutes cortos que los de los valores normales

Para definir como se calcula la ldquolongitud del caminordquo es necesario definir primero el aacuterbol deaislamiento Isolation Tree El aacuterbol de aislamiento seriacutea toda la estructura de ramas que trocean elconjunto de datos La longitud del camino h(x) path length de un punto x se mediriacutea por tanto comoel nuacutemero de ramas a atravesar desde la raiacutez del aacuterbol al punto

Es necesario definir una puntuacioacuten de cuaacuten anoacutemala es una observacioacuten score para ello se intro-duce c(n) como la media de h(x) siendo E el operador esperanza dado el tamantildeo de la muestra nDe tal modo que

Cuando E(h(x))rarr c(n) scorerarr 05

Cuando E(h(x))rarr 0 scorerarr 1

Cuando E(h(x))rarr nminus 1 scorerarr 0

Haciendo uso de la puntuacioacuten anoacutemala que recibe cada punto score tenemos que

Si score es cercano a 1 la observacioacuten es atiacutepica

Si la observacioacuten presenta valores de score inferiores a 05 pueden ser calificadas como observa-ciones normales

Si todas las observaciones devuelven un valor score asymp 05 entonces la muestra entera carece deatiacutepicos

En el artiacuteculo fijan como atiacutepicos potenciales observaciones con score ge 06 en este trabajo somosmaacutes estrictos y fijamos el umbral en score ge 075 Esta decisioacuten se toma tras probar diferentes umbralesy observar el comportamiento del meacutetodo en el estudio de simulacioacuten y en los datos reales Otrosumbrales que se barajaron y descartaron por los resultados mostrados fueron score ge 07 por serdemasiado laxo y score ge 08 por ser demasiado estricto

En R existen dos libreriacuteas que implantan dicho meacutetodo una es la implantada por la empresa H20 lacual ha desarrollado el algoritmo HDoutliers utilizado en este trabajo Y la otra es la libreriacutea solitude(Srikanth 2017) la cual hemos usado para el desarrollo de este trabajo

325 HDoutliers

HDoutliers (Wilkinson 2017) es un algoritmo que se puede aplicar en multitud de escenarios posi-bles desde el maacutes sencillo que seriacutea el caso univariante hasta maacutes complejos como el multidimensionalo el espacial La idea sobre la que se desarrolla es la de buscar espacios entre los valores ordenadosmaacutes que en la de buscar valores extremos De los meacutetodos que se centran en la idea de buscar valoresextremos como por ejemplo el test de Grubbs y por tanto GESD el autor hace una criacutetica y es queestos utilizan medidas como la media muestral o la desviacioacuten tiacutepica las cuales no son robustas frentea valores atiacutepicos

22 CAPIacuteTULO 3 DETECCIOacuteN DE VALORES ATIacutePICOS

El concepto anterior se puede explicar de un modo muy sencillo a traveacutes de un ejemplo que se recogeen Wilkinson (2017) En los resultados a un examen al que se presentaron 100 alumnos obtenemos unapuntuacioacuten media de 50 y una desviacioacuten estaacutendar de 5 Si entre todas las notas un alumno obtuvo un100 y la siguiente mejor nota es un 65 se podriacutea sospechar que ese alumno es un genio o un tramposoPor otra parte si la nota perfecta se encuentra en el punto maacutes alto de una serie de notas que difieren5 puntos entre ellas ese alumno ya no seriacutea tan sospechoso Los test claacutesicos de valores atiacutepicos no soncapaces de diferir entre ambas situaciones

Figura 34 El algoritmo de HDoutliers aplicado sobre el ejemplo anterior (Wilkinson 2017)

En la Figura 34 se representa este ejemplo En el caso de la izquierda estariacuteamos en la situacioacutenen la que no se sospecha que se hayan producido trampas por parte de ninguacuten alumno y el meacutetodoHDoutliers no detectariacutea ninguacuten candidato a atiacutepico A la derecha tendriacuteamos la situacioacuten en la quesospechariacuteamos de que existe un alumno brillante o tramposo y el meacutetodo detectariacutea una situacioacutenatiacutepica como se sentildeala con el punto rojo

La solucioacuten de buscar espacios permite identificar valores inusuales tanto en el medio de las dis-tribuciones como en los extremos Para ello HDoutliers calcula la distancia al vecino maacutes cercanoDespueacutes ajusta una distribucioacuten exponencial a la cola superior de las distancias calculadas y calcula elvalor 1minusα siendo α la probabilidad de cometer un error tipo I superior de la funcioacuten de distribucioacutenacumulada Por lo que cada observacioacuten que se encuentre significativamente alejada del resto basadaen este punto de corte se etiquetaraacute como atiacutepica

El autor menciona que este meacutetodo difiere de aquellos que se basan en hacer un ranking de candi-datos a atiacutepicos como podriacutea ser Local Outlier Factor (Breunig Kriegel Ng y Sander 2000) o quelos etiquetan bajo un liacutemite arbitrario como seriacutea el caso de Isolation Forest (Liu et al 2009) dadoque pueden conducir a resultados inconsistentes Para ello lo que hace es asignar una probabilidad ala creencia de que estamos ante un atiacutepico

En R podemos encontrar este meacutetodo en la libreriacutea HDoutliers (Fraley y Wilkinson 2020)

33 RESUMEN MEacuteTODOS DE DETECCIOacuteN DE VALORES ATIacutePICOS 23

33 Resumen meacutetodos de deteccioacuten de valores atiacutepicos

Meacutetodo Ventajas Contras

X-13ARIMA-SEATS(2017)

Califica el tipo de atiacutepicoRaacutepida velocidad de ejecucioacuten

Basado en modelos ARIMA

TRAMO-SEATS(1997) Califica el tipo de atiacutepicoRaacutepida velocidad de ejecucioacutenIdea similar a X-13ARIMA-SEATS pero profundizando maacutesen el desarrollo del mecanismo dedeteccioacuten de atiacutepicos

Basado en modelos ARIMA

GESD(1983) Elimina parte de la incertidum-bre de que se produzca un efectode enmascaramiento

Utiliza medidas como la media ola desviacioacuten tiacutepica medidas quese pueden ver distorsionadas porvalores atiacutepicosEs un proceso iterativo lo queimplica mayor coste computacio-nal a medida que se incrementeel tamantildeo de datos

Isolation Forest(2009) Escalable a conjuntos de gran di-mensioacutenDisentildeo sencillo

El usuario tiene que determinarel umbral de atiacutepico lo cual pue-de ser un inconveniente a veces

HDoutliers(2017) Identifica valores inusuales tantoen el medio de las distribucionescomo en los extremosEscalable a conjuntos de gran di-mensioacutenAlta velocidad de ejecucioacuten

Tendencia a calificar un excesode observaciones como atiacutepicassin serlo

Cuadro 31 Resumen de los meacutetodos de deteccioacuten de atiacutepicos

24 CAPIacuteTULO 3 DETECCIOacuteN DE VALORES ATIacutePICOS

34 Meacutetodos de deteccioacuten de valores atiacutepicos en series tempo-

rales

Dado que se han introducido diversos meacutetodos con diferentes enfoques respecto a la resolucioacuten delproblema de deteccioacuten de atiacutepicos en series de tiempo hemos decidido incluir este apartado al finaldel contenido principalmente teoacuterico del trabajo para asiacute centrar los meacutetodos que se utilizaraacuten en lossiguientes capiacutetulos Este apartado recoge todos los meacutetodos los ya existentes y nuevas propuestasrealizadas por nosotros que se utilizaraacuten en este trabajo

Los meacutetodos existentes son los pertenecientes a las libreriacuteas RJDemetra (la Tente et al 2020) yAnomalize (Dancho y Vaughan 2019) La libreriacutea RJDemetra es la que nos dota de las funcionesnecesarias para utilizar los modelos X-13ARIMA-SEATS y TRAMO-SEATS Mientras que la libreriacuteaAnomalize se ha convertido en uno de los paquetes de referencia en R para el anaacutelisis de valores atiacutepicosen series de tiempo A traveacutes de ella podemos utilizar el meacutetodo tratado en Hochenbaum et al (2017)basado en una combinacioacuten de Twitter+GESD y tambieacuten la otra opcioacuten que proponen a traveacutes decombinar STL+GESD

A partir de la idea desarrollada por autores como Hochenbaum et al (2017) o libreriacuteas comoAnomalize Dancho y Vaughan (2019) proponemos nuevos meacutetodos de deteccioacuten de atiacutepicos paraseries temporales El fundamento bajo el que se sostiene esta propuesta es muy sencillo Estos meca-nismos se fundamentan en aplicarle a la serie de tiempo un proceso de descomposicioacuten para extraer laestacionalidad y la tendencia para posteriormente aplicarle un meacutetodo de deteccioacuten de valores atiacutepicosal residuo Dado que se han propuesto mejoras en ambos campos tanto en los meacutetodos de descompo-sicioacuten de series temporales como en el de deteccioacuten de valores atiacutepicos creemos que su combinacioacutenpodriacutea suponer una mejora a las ya establecidas Teniendo en cuenta que se ha introducido un meacutetodode descomposicioacuten de series temporales STR (Dokumentov y Hyndman 2015) y dos meacutetodos de de-teccioacuten de valores atiacutepicos Isolation Forest (Liu et al 2009) y HDoutliers (Wilkinson 2017) lo que seharaacute seraacute obtener todas las combinaciones posibles a traveacutes de mezclar los procesos de descomposicioacutencon los meacutetodos de deteccioacuten dando lugar a las siguientes combinaciones

STL +iForest

STL +HDoutliers

STL (Robusto) +iForest

STL (Robusto) +HDoutliers

Twitter +iForest

Twitter +HDoutliers

STR + GESD

STR + iForest

STR + HDoutliers

34 MEacuteTODOS DE DETECCIOacuteN DE VALORES ATIacutePICOS EN SERIES TEMPORALES 25

STR (Robusto) + GESD

STR (Robusto) + iForest

STR (Robusto) + HDoutliers

Estos son los nuevos meacutetodos propuestos en el trabajo de los cuales estudiaremos su comporta-miento en el proacuteximo capiacutetulo a traveacutes de un estudio de simulacioacuten junto a los meacutetodos ya existentesX-13ARIMA-SEATS TRAMO-SEATS STL+GESD y Twitter+GESD

Existen otros meacutetodos populares en la deteccioacuten de atiacutepicos para el software R los cuales no se hanincluido en este trabajo debido a que planteaban peores resultados que los finalmente introducidospero que creemos que merecen una mencioacuten debido a que pueden ser de intereacutes para alguien quepretenda profundizar en este campo

El primero de ellos seriacutea el meacutetodo de deteccioacuten de atiacutepicos IQR incluido en la libreriacutea AnomalizeDancho y Vaughan (2019) el cual se ha descartado debido a que sus combinaciones con STL y Twittersuponiacutean una menor precisioacuten que las combinaciones con GESD (Datacamp 2018) Los autores lo hanincluido en dicha libreriacutea debido a que su coste computacional es mucho menor que el de GESD porlo que se puede plantear situaciones en las que sea uacutetil

El segundo seriacutea la funcioacuten tsoutliers del paquete forecast (Hyndman 2020) la cual hemosdescartado por presentar un mecanismo muy similar al que presentariacutea la combinacioacuten STL+IQR

Por uacuteltimo tambieacuten se ha descartado la funcioacuten tso del paquete tsoutliers (de Lacalle 2019)El motivo se debe a que su autor enfoca el proceso de deteccioacuten basaacutendose en las mismas ideas que lasdesarrolladas en los modelos X-13ARIMA-SEATS y TRAMO-SEATS pero comenta que este meacutetodono estaacute capacitado para trabajar con grandes y heterogeacuteneos conjuntos de series temporales comoX-13ARIMA-SEATS o TRAMO-SEATS sino maacutes bien para pequentildeas aplicaciones de un modo semi-automaacutetico (de Lacalle 2015)

26 CAPIacuteTULO 3 DETECCIOacuteN DE VALORES ATIacutePICOS

Capiacutetulo 4

Estudio de simulacioacuten

En este capiacutetulo se realiza un estudio de simulacioacuten con el objetivo de comparar la eficiencia delos diferentes meacutetodos expuestos en el apartado anterior En primer lugar se presenta un resumendel procedimiento seguido para realizar las simulaciones en los diferentes escenarios y el motivo deproponer cada escenario A continuacioacuten se introduce el Iacutendice de Youden medida que nos permitiraacutediscernir queacute meacutetodos presentan mejor comportamiento en el estudio Finalmente se presentan losresultados del estudio y las conclusiones extraiacutedas del mismo

41 Escenarios

El procedimiento para obtener las series simuladas ha sido el siguiente

1 Simular una serie de tiempo sin atiacutepicos

2 A la observacioacuten correspondiente al instante t sumarle el valor w el cual indicaraacute el tamantildeo delatiacutepico

3 Si se quiere introducir maacutes de un atiacutepico repetir los pasos 1 y 2

Se van a proponer ocho escenarios a continuacioacuten pasamos a justificar la eleccioacuten de cada uno deellos Los escenarios 1 2 y 3 son los planteados en Chen y Liu (1993) artiacuteculo utilizado para analizar laeficiencia de los mecanismos de deteccioacuten que inspiran los meacutetodos aplicados en X-13ARIMA-SEATS yTRAMO-SEATS El Escenario 4 plantea el modelo de liacuteneas aeacutereas utilizado ampliamente para datoseconoacutemicos como los que se van a tratar posteriormente Por uacuteltimo los escenarios 5 a 8 proponendiversos modelos que han sido generados a partir de seleccionar una serie del IGE aleatoriamente yaplicarle la funcioacuten autoarima del paquete forecast (Hyndman 2020) A continuacioacuten se recogentodos los escenarios planteados en el Cuadro 41 Los escenarios 1 a 3 se simulan a traveacutes de la funcioacuten deR arimasim mientras que los escenarios 4 a 8 a traveacutes de la funcioacuten simulate del paquete forecast

27

28 CAPIacuteTULO 4 ESTUDIO DE SIMULACIOacuteN

Escenario Modelo Motivo

Escenario 1 AR(1) Propuesto en el estudio de simu-lacioacuten de Chen y Liu (1993)

Escenario 2 MA(1) Propuesto en el estudio de simu-lacioacuten de Chen y Liu (1993)

Escenario 3 ARIMA(011) Propuesto en el estudio de simu-lacioacuten de Chen y Liu (1993)

Escenario 4 ARIMA(011)x(011)12 Modelos de liacuteneas aeacutereas muyutilizado en lo referente a datoseconoacutemicos

Escenario 5 ARIMA(101)x(012)12 Modelo extraiacutedo de aplicar lafuncioacuten autoarima a una seriedel IGE escogida aleatoriamente

Escenario 6 ARIMA(111)x(101)12 Modelo extraiacutedo de aplicar lafuncioacuten autoarima a una seriedel IGE escogida aleatoriamente

Escenario 7 ARIMA(112)x(011)12 Modelo extraiacutedo de aplicar lafuncioacuten autoarima a una seriedel IGE escogida aleatoriamente

Escenario 8 ARIMA(011)x(100)12 Modelo extraiacutedo de aplicar lafuncioacuten autoarima a una seriedel IGE escogida aleatoriamente

Cuadro 41 Resumen de los escenarios propuestos para el estudio de simulacioacuten

42 IacuteNDICE DE YOUDEN 29

En cada escenario se estudian cuatro casos

Caso 1 Serie con 100 observaciones y un atiacutepico en t = 40 el tamantildeo del atiacutepico es w = 35

Caso 2 Serie con 100 observaciones y un atiacutepico en t = 40 el tamantildeo del atiacutepico es w = 45

Caso 3 Serie con 100 observaciones y un atiacutepico en t = 2 el tamantildeo del atiacutepico es w = 4

Caso 4 Serie con 300 observaciones y dos atiacutepicos en t1 = 40 y t2 = 180 el tamantildeo de los atiacutepicoses w1 = 4 y w2 = 5

En el Escenario 4 hubo que modificar los valores del tamantildeo del atiacutepico introducido en cada casodebido a que no se obteniacutean resultados significativos para ninguacuten meacutetodo Por lo que finalmente solopara el Escenario 4 los valores introducidos fueron de w = 55 para el Caso 1 w = 65 para el Caso2 w = 6 para el Caso 1 w1 = 6 y w2 = 7 para el Caso 4

Los Casos 1 y 2 buscan estudiar la sensibilidad del meacutetodo de deteccioacuten dado que en lo uacutenico quese diferencian es en el tamantildeo del atiacutepico El Caso 3 plantea una situacioacuten complicada al encontrarseel atiacutepico al principio de la serie es maacutes difiacutecil detectar ese valor por dos motivos que el meacutetodo notenga todaviacutea la informacioacuten suficiente o que el meacutetodo vea afectada su estimacioacuten por este valor tantemprano El Caso 4 busca estudiar el comportamiento cuando se presenta maacutes de un atiacutepico

42 Iacutendice de Youden

Para comparar los resultados de los diferentes meacutetodos en las simulaciones vamos a utilizar lo queen otros campos como la investigacioacuten meacutedica se denomina test de diagnoacutestico En este tipo de testse compara la realidad con la prediccioacuten del mecanismo para analizar su funcionamiento Estos testde diagnoacutestico se presentan en lo que se denominan matrices de confusioacuten como la presentada en elCuadro 44 La idea de la matriz de confusioacuten es la de comparar las predicciones realizadas con larealidad de tal modo que se pueda observar cuando la prediccioacuten y la realidad coinciden y cuando no

Realidad

Negativo(0) Positivo (1)

PrediccioacutenNegativo(0) Verdadero Negativo (VN) Falso Negativo (FN)

Positivo(1) Falso Positivo (FP) Verdadero Positivo (VP)

Cuadro 42 Matriz de confusioacuten

En nuestro trabajo Negativo (0) representariacutea una observacioacuten normal y Positivo (1) una obser-vacioacuten atiacutepica La diagonal de la matriz estaacute representada por aquellas observaciones en las que larealidad y la prediccioacuten coinciden Los Falsos Negativos (FN) son aquellas observaciones en que el

30 CAPIacuteTULO 4 ESTUDIO DE SIMULACIOacuteN

mecanismo determinoacute que la observacioacuten era normal pero en realidad era atiacutepica Por otra parte losFalsos Positivos (FP) suceden cuando el mecanismo dictamina que la observacioacuten es atiacutepica pero larealidad es que es una observacioacuten normal

Los Falsos Positivos son tambieacuten conocidos como Error Tipo I la probabilidad de aceptar la hipoacute-tesis nula siendo esta falsa Y los Falsos Negativos son conocidos como Error Tipo II la probabilidadde no rechazar la hipoacutetesis nula siendo esta falsa

El iacutendice de Youden (Youden 1950) nacioacute con motivo de poder comparar los resultados de doso maacutes mecanismos de deteccioacuten y asiacute tener la capacidad de discernir cual de ellos tiene una mejorcapacidad discriminatoria Es decir el propoacutesito final del iacutendice es el de resumir la matriz de confusioacutenen un valor que consiga representar el comportamiento del mecanismo de deteccioacuten de tal modo quedos mecanismos se puedan comparar directamente

Este iacutendice considera con la misma importancia tanto los falsos positivos como los falsos negativosUtilizando otro campo de ejemplo la medicina un falso negativo supondriacutea no tratar la enfermedadde un paciente dado que establecemos que estaacute sano cuando la realidad es que estaacute enfermo Por otraparte un falso positivo supondriacutea un coste como podriacutea ser el monetario financiando el tratamiento oel emocional de un paciente que la realidad es que estaacute sano

Trasladando ese ejemplo a nuestro trabajo un falso negativo supondriacutea no calificar como atiacutepicauna observacioacuten que lo es Esto provocariacutea que estariacuteamos asumiendo como normal un comportamientoen el aacutembito socio-econoacutemico gallego que no lo fue estariacuteamos incurriendo en errores en posterioresanaacutelisis o estariacuteamos obviando sucesos relevantes

Los falsos positivos tambieacuten suponen un coste aquiacute cada observacioacuten que el meacutetodo detecte comoatiacutepica supondraacute la intervencioacuten de un analista para tratar de entender queacute ha sucedido Si finalmenteel analista concluye que la observacioacuten no es atiacutepica se habraacute desperdiciado una serie de horas y equipoque podriacutean haber sido invertidos para otro fin De ambos escenarios surgen dos medidas

Sensibilidad V PV P+FN refleja la proporcioacuten de verdaderos positivos sobre el total de positivos

Especifidad V NV N+FP refleja la proporcioacuten de verdaderos negativos sobre el total de negativos

El iacutendice de Youden se construye a partir de ambas medidas del siguiente modo

J = Sensibilidad + Especifidadminus 1 =V P

V P + FN+

V N

V N + FPminus 1

El rango en el que se utiliza este iacutendice es de 0 a 1 donde 1 representariacutea que el mecanismo escapaz de diferenciar perfectamente las observaciones atiacutepicas de las normales y 0 todo lo contrario

Sin embargo teoacutericamente este rango puede variar de minus1 a 1 (Shan G 2015) los valores menoresque cero no se suelen contemplar dado que no tienen una interpretacioacuten significativa En nuestrotrabajo sucede esta situacioacuten en la que se presentan mecanismos con valores negativos y si bien deforma general esto no tiene explicacioacuten en otros campos en este estudio si

Explicaacutendolo a traveacutes de lo que podriacutea ser un posible resultado de un mecanismo de deteccioacuten

42 IacuteNDICE DE YOUDEN 31

Realidad

Negativo(0) Positivo(1)

PrediccioacutenNegativo(0) 96 1

Positivo(1) 3 0

Cuadro 43 Ejemplo de posible resultado de un mecanismo de deteccioacuten en el que el iacutendice de Youdenseriacutea negativo

En el ejemplo del Cuadro 42 se analiza una serie de tiempo con 100 observaciones entre las cualesse encuentra un valor atiacutepico El mecanismo de deteccioacuten habriacutea detectado 3 posibles atiacutepicos peroninguno de ellos es el atiacutepico real Si calculamos el iacutendice de Youden obtenemos

J =0

0 + 1+

96

96 + 3minus 1 = minus003

El resultado es negativo debido a que el mecanismo de deteccioacuten nos situacutea en una posicioacuten peorque no clasificar nada como atiacutepico Por lo que si 1 refleja que el mecanismo es capaz de diferenciarperfectamente las dos clases y 0 que el mecanismo no nos ayuda en absoluto a diferenciar entre ellasun valor menor que 0 en nuestro trabajo supondriacutea que el mecanismo seriacutea peor que no clasificar nadadado que nos infunde un mayor error sobre la realidad

Un resultado de cero implicariacutea que el mecanismo no es uacutetil ya que no es capaz de diferenciar entrelo que es atiacutepico y lo que no En el Cuadro 43 se recoge un posible resultado que conduciriacutea a estasituacioacuten Este ejemplo recoge una situacioacuten en la que en una serie de tiempo de 100 observaciones seencuentran 5 valores atiacutepicos sin embargo el meacutetodo no es capaz de detectar ninguna de ellas

Realidad

Negativo(0) Positivo(1)

PrediccioacutenNegativo(0) 95 5

Positivo(1) 0 0

Cuadro 44 Ejemplo de posible resultado de un mecanismo de deteccioacuten en el que el iacutendice de Youdenseriacutea cero

J =0

0 + 5+

95

95 + 0minus 1 = 0

Finalmente el resultado perfecto implicariacutea que el mecanismo de deteccioacuten es capaz de diferenciarde forma precisa aquello que es atiacutepico de lo que no lo es En el Cuadro 44 se recoge un ejemplo de

32 CAPIacuteTULO 4 ESTUDIO DE SIMULACIOacuteN

esta situacioacuten En este ejemplo se plantea una serie de tiempo que cuenta con 100 observaciones delas cuales 5 son atiacutepicas igual que en el ejemplo anterior sin embargo el meacutetodo ahora es capaz dedetectar cada una de ellas sin incurrir en Falsos Positivos ni Falsos Negativos

Realidad

Negativo(0) Positivo(1)

PrediccioacutenNegativo(0) 95 0

Positivo(1) 0 5

Cuadro 45 Ejemplo de posible resultado de un mecanismo de deteccioacuten en el que el iacutendice de Youdenseriacutea uno

J =5

0 + 5+

95

95 + 0minus 1 = 1

Podemos observar como los valores fuera de la diagonal de la matriz aquellos que representan losFalsos Negativos y Falsos Positivos son cero En la diagonal de la matriz se encuentran los resultadosque muestran que el mecanismo ha conseguido identificar de forma perfecta aquellas observacionesque son atiacutepicas Esta seriacutea la situacioacuten ideal la cual representariacutea que el mecanismo de deteccioacuten deatiacutepicos funciona de forma idoacutenea

43 Resultados

A continuacioacuten se presentan los resultados para los ocho escenarios introducidos recogidos en elCuadro 41 Al introducir una gran cantidad de meacutetodos escenarios y casos el anaacutelisis de los resultadosse presenta confuso por lo que se decidioacute introducir un coacutedigo de color para resaltar los tres mejores ytres peores resultados en cada caso Los mejores resultados se asocian al color verde siendo el verde maacutesintenso el mejor resultado y decayendo gradualmente la intensidad del color seguacuten empeora Por otraparte los peores resultados estaacuten asociados al color rojo siendo el rojo maacutes intenso el peor resultadoy decayendo la intensidad seguacuten el resultado mejora

Se pensoacute en introducir un gradiente de color por cada caso de modo que fuese variando de mejora peor Finalmente se descartoacute debido a que su contribucioacuten a la comprensioacuten de los resultados eramenor que la idea finalmente escogida de resaltar los tres mejores y los tres peores resultados

Los resultados obtenidos para el iacutendice de Youden se muestran a continuacioacuten A mayores en elanexo se han incluido tablas referentes a los resultados que han presentado los distintos meacutetodos enbase a otras dos medidas que tambieacuten han resultado de utilidad a la hora de escoger los mecanismosadecuados La primera de esas medidas es la sensibilidad la cual hemos definido en este apartado yla otra es el exceso la cual se define como la media de detecciones incorrectas por simulacioacuten y cuyosresultados estaacuten incluidos en el anexo correspondiente

43 RESULTADOS 33

Caso 1 Caso 2 Caso 3 Caso 4

X-13ARIMA-SEATS 0495 0853 0699 0490

TRAMO-SEATS 0655 0926 0803 0494

STL+HDoutliers 0561 0830 0562 0727

STL+GESD 0265 0589 0236 0531

STL+iForest 0632 0882 0632 0788

STL(ROB)+HDoutliers 0550 0790 0666 0707

STL(ROB)+GESD 0623 0862 0732 0752

STL(ROB)+iForest 0634 0873 0741 0748

Twitter+HDoutliers 0462 0725 0588 0616

Twitter+GESD 0303 0587 0426 0433

Twitter+iForest 0524 0797 0647 0657

STR+Hdoutliers 0603 0833 0595 0667

STR+GESD 0344 0649 0292 0448

STR+iForest 0670 0882 0675 0719

STR(ROB)+Hdoutliers 0534 0803 0630 0654

STR(ROB)+GESD 0379 0683 0456 0557

STR(ROB)+iForest 0619 0859 0695 0711

Cuadro 46 Resultados Escenario 1Iacutendice de Youden AR(1)

En el Cuadro 46 se recogen los resultados al Escenario 1 escenario en el que se simula un AR(1)igual al realizado por Chen y Liu (1993) Los resultados muestran que en los casos 1 2 y 3 TRAMO-SEATS ejerce un papel superior al resto buen comportamiento que desaparece en el Caso 4 casoen el que se introducen dos atiacutepicos Si analizamos conjuntamente los resultados de los cuatro casospodriacuteamos decir que los meacutetodos que reflejan un mejor comportamiento global en el escenario seriacuteanSTR+iForest y STL(Rob)+iForest

34 CAPIacuteTULO 4 ESTUDIO DE SIMULACIOacuteN

Caso 1 Caso 2 Caso 3 Caso 4

X-13ARIMA-SEATS 0504 0828 0645 0494

TRAMO-SEATS 0667 0913 0741 0494

STL+HDoutliers 0465 0721 0473 0680

STL+GESD 0217 0457 0147 0428

STL+iForest 0502 0781 0521 0713

STL(ROB)+HDoutliers 0457 0723 0576 0642

STL(ROB)+GESD 0516 0761 0651 0667

STL(ROB)+iForest 0519 0798 0660 0713

Twitter+HDoutliers 0457 0690 0587 0640

Twitter+GESD 0346 0627 0480 0486

Twitter+iForest 0506 0774 0658 0689

STR+HDoutliers 0580 0814 0566 0658

STR+GESD 0297 0601 0247 0449

STR+iForest 0626 0866 0647 0719

STR(ROB)+HDoutliers 0514 0780 0603 0644

STR(ROB)+GESD 0335 0627 0405 0520

STR(ROB)+iForest 0578 0836 0687 0709

Cuadro 47 Resultados Escenario 2 Iacutendice de Youden MA(1)

En el Cuadro 47 se recogen los resultados al Escenario 2 escenario en el que se simula un MA(1)igual al realizado por Chen y Liu (1993) Los resultados que se observan son similares a los extraiacutedos delEscenario 1 TRAMO-SEATS es claramente superior en los casos 1 2 y 3 pero su buen comportamientodesaparece ante el Caso 4 Por otra parte STR+iForest presenta un comportamiento maacutes homogeacuteneoencontraacutendose en tres de los cuatro casos entre los tres mejores resultados Lo mismo sucede con suversioacuten robusta En esta ocasioacuten la combinacioacuten STL+iForest solamente se encuentra entre las mejoresen el Caso 4

43 RESULTADOS 35

Caso 1 Caso 2 Caso 3 Caso 4

X-13ARIMA-SEATS 0921 0970 0926 0500

TRAMO-SEATS 0921 0971 0921 0500

STL+HDoutliers 0306 0502 0234 0435

STL+GESD 0088 0229 0050 0152

STL+iForest 0338 0575 0279 0451

STL(ROB)+HDoutliers 0252 0426 0287 0328

STL(ROB)+GESD 0287 0504 0369 0316

STL(ROB)+iForest 0291 0495 0329 0358

Twitter+HDoutliers 0061 0109 0124 0064

Twitter+GESD 0015 0027 0056 0025

Twitter+iForest 0077 0127 0167 0068

STR+HDoutliers 0400 0556 0342 0436

STR+GESD 0202 0365 0108 0230

STR+iForest 0441 0614 0385 0492

STR(ROB)+HDoutliers 0237 0391 0248 0268

STR(ROB)+GESD 0199 0381 0215 0254

STR(ROB)+iForest 0277 0451 0279 0289

Cuadro 48 Resultados Escenario 3 Iacutendice de Youden ARIMA(011)

En el Cuadro 48 se recogen los resultados al Escenario 3 escenario en el que se simula un ARI-MA(011) igual al realizado por Chen y Liu (1993) En este escenario existe una hegemoniacutea de X-13ARIMA-SEATS y TRAMO-SEATS los cuales presentan resultados superiores a los de cualquierotro meacutetodo La combinacioacuten STR+iForest es el tercer meacutetodo que a pesar de la diferencia con losotros dos presenta mejores resultados

36 CAPIacuteTULO 4 ESTUDIO DE SIMULACIOacuteN

Caso 1 Caso 2 Caso 3 Caso 4

X-13ARIMA-SEATS 0402 0592 0067 0480

TRAMO-SEATS 0540 0705 0071 0481

STL+HDoutliers -0003 -0004 0008 0000

STL+GESD -0002 -0001 0002 -0001

STL+iForest -0004 -0004 0008 0001

STL(ROB)+HDoutliers -0005 -0005 0025 0000

STL(ROB)+GESD -0039 -0026 0052 0002

STL(ROB)+iForest 0004 -0002 0026 0000

Twitter+HDoutliers 0000 -0002 -0001 0007

Twitter+GESD -0025 -0019 -0016 0003

Twitter+iForest 0000 -0001 0004 0016

STR+HDoutliers 0359 0417 -0004 0083

STR+GESD 0409 0445 -0006 0124

STR+iForest 0411 0472 -0005 0097

STR(ROB)+HDoutliers 0014 0006 0002 0039

STR(ROB)+GESD 0019 0017 0008 0075

STR(ROB)+iForest 0014 0005 0002 0021

Cuadro 49 Resultados Escenario 4 Iacutendice de Youden ARIMA(011)x(011)12

En el Cuadro 49 se recogen los resultados al Escenario 4 escenario en el que se simula el modelo deliacuteneas aeacutereas (G Box y Jenkins 1976) Este modelo es famoso por su uso en series socio-econoacutemicasPor ello cabriacutea esperar un buen comportamiento de los modelos disentildeados para este fin X-13ARIMA-SEATS y TRAMO-SEATS El resto de combinaciones presentan resultados poco consistentes

43 RESULTADOS 37

Caso 1 Caso 2 Caso 3 Caso 4

X-13ARIMA-SEATS 0265 0628 0176 0409

TRAMO-SEATS 0398 0747 0248 0432

STL+HDoutliers 0238 0469 0281 0125

STL+GESD 0091 0258 0158 0024

STL+iForest 0263 0531 0305 0134

STL(ROB)+HDoutliers 0265 0475 0343 0097

STL(ROB)+GESD 0375 0662 0452 0114

STL(ROB)+iForest 0304 0545 0388 0128

Twitter+HDoutliers 0243 0429 0352 0103

Twitter+GESD 0168 0376 0309 0057

Twitter+iForest 0266 0479 0381 0126

STR+HDoutliers 0656 0885 0231 0755

STR+GESD 0424 0769 0064 0567

STR+iForest 0720 0936 0277 0798

STR(ROB)+HDoutliers 0189 0326 0212 0523

STR(ROB)+GESD 0174 0317 0192 0665

STR(ROB)+iForest 0229 0364 0232 0588

Cuadro 410 Resultados Escenario 5 Iacutendice de Youden ARIMA(101)x(012)12

En el Cuadro 410 se recogen los resultados al Escenario 5 escenario en el que se simula un modeloARIMA (101)x(012)12 a partir de aplicarle la funcioacuten autoarima a una serie del IGE escogidaaleatoriamente En este escenario predomina la descomposicioacuten STR ya que son las combinacionesjunto a los tres meacutetodos de deteccioacuten de atiacutepicos GESD iForest y HDoutliers los meacutetodos quepresentan mejores resultados En concreto la combinacioacuten STR+iForest supone la combinacioacuten maacutesinteresante para este escenario

38 CAPIacuteTULO 4 ESTUDIO DE SIMULACIOacuteN

Caso 1 Caso 2 Caso 3 Caso 4

X-13ARIMA-SEATS 0331 0659 0354 0425

TRAMO-SEATS 0457 0764 0477 0438

STL+HDoutliers 0513 0790 0494 0624

STL+GESD 0229 0558 0188 0328

STL+iForest 0560 0833 0567 0648

STL(ROB)+HDoutliers 0507 0776 0592 0595

STL(ROB)+GESD 0528 0815 0663 0560

STL(ROB)+iForest 0559 0838 0661 0645

Twitter+HDoutliers 0239 0416 0355 0208

Twitter+GESD 0101 0229 0185 0100

Twitter+iForest 0279 0452 0383 0227

STR+HDoutliers 0520 0779 0436 0636

STR+GESD 0278 0584 0151 0385

STR+iForest 0596 0822 0494 0682

STR(ROB)+HDoutliers 0399 0666 0490 0545

STR(ROB)+GESD 0274 0524 0349 0404

STR(ROB)+iForest 0457 0731 0568 0579

Cuadro 411 Resultados Escenario 6 Iacutendice de Youden ARIMA(111)x(101)12

En el Cuadro 411 se recogen los resultados al Escenario 6 escenario en el que se simula un modeloARIMA (111)x(101)12 a partir de aplicarle la funcioacuten autoarima a una serie del IGE escogidaaleatoriamente En este escenario los meacutetodos que muestran unos mejores resultados son STR+iForesty STL+iForest Tambieacuten muestra un buen comportamiento el meacutetodo STL(Rob)+GESD basado enla combinacioacuten de la versioacuten robusta de la descomposicioacuten STL y el meacutetodo de deteccioacuten de atiacutepicosGESD

43 RESULTADOS 39

Caso 1 Caso 2 Caso 3 Caso 4

X-13ARIMA-SEATS 0332 0673 0347 0422

TRAMO-SEATS 0426 0765 0425 0453

STL+HDoutliers 0451 0693 0414 0503

STL+GESD 0180 0438 0142 0219

STL+iForest 0509 0759 0458 0527

STL(ROB)+HDoutliers 0416 0655 0468 0489

STL(ROB)+GESD 0452 0702 0549 0457

STL(ROB)+iForest 0484 0717 0541 0525

Twitter+HDoutliers 0009 0018 0037 0037

Twitter+GESD -0024 -0014 0011 0010

Twitter+iForest 0007 0016 0050 0050

STR+HDoutliers 0469 0719 0369 0582

STR+GESD 0228 0495 0122 0329

STR+iForest 0511 0774 0438 0635

STR(ROB)+HDoutliers 0282 0495 0347 0330

STR(ROB)+GESD 0224 0432 0301 0285

STR(ROB)+iForest 0343 0557 0407 0385

Cuadro 412 Resultados Escenario 7 Iacutendice de Youden ARIMA(112)x(011)12

En el Cuadro 412 se recogen los resultados al Escenario 7 escenario en el que se simula un modeloARIMA (112)x(011)12 a partir de aplicarle la funcioacuten autoarima a una serie del IGE escogidaaleatoriamente En este escenario los meacutetodos que muestran unos mejores resultados vuelven a serSTL+iForest STR+iForest y cercano a ellos STL(Rob)+iForest El resto de resultados no muestranninguacuten meacutetodo estable para los cuatro casos

40 CAPIacuteTULO 4 ESTUDIO DE SIMULACIOacuteN

Caso 1 Caso 2 Caso 3 Caso 4

X-13ARIMA-SEATS 0298 0636 0334 0434

TRAMO-SEATS 0419 0712 0427 0481

STL+HDoutliers 0425 0697 0389 0620

STL+GESD 0176 0415 0108 0351

STL+iForest 0480 0734 0423 0662

STL(ROB)+HDoutliers 0429 0675 0483 0607

STL(ROB)+GESD 0449 0718 0543 0584

STL(ROB)+iForest 0486 0749 0559 0675

Twitter+HDoutliers 0271 0463 0378 0350

Twitter+GESD 0127 0286 0189 0147

Twitter+iForest 0300 0504 0424 0356

STR+HDoutliers 0448 0692 0459 0564

STR+GESD 0203 0438 0167 0274

STR+iForest 0492 0769 0502 0600

STR(ROB)+Hdoutliers 0416 0680 0503 0548

STR(ROB)+GESD 0260 0523 0329 0366

STR(ROB)+iForest 0460 0751 0573 0587

Cuadro 413 Resultados Escenario 8 Iacutendice de Youden ARIMA(011)x(100)12

En el Cuadro 413 se recogen los resultados al Escenario 8 escenario en el que se simula un mode-lo ARIMA(011)x(100)12 a partir de aplicarle la funcioacuten autoarima a una serie del IGE escogidaaleatoriamente Los resultados maacutes consistentes para los cuatro casos estaacuten formados por las combina-ciones de STR+iForest la misma combinacioacuten pero con la versioacuten robusta de la descomposicioacuten STRSTR(Rob)+iForest y la combinacioacuten STL+iForest y tambieacuten su versioacuten robusta STL (Rob)+iForest

44 CONCLUSIONES 41

44 Conclusiones

Los resultados de las simulaciones muestran dos realidades Por un lado nos encontramos con losresultados asociados a los escenarios 1 2 3 y 4 En estos escenarios prevalece el comportamientode TRAMO-SEATS por encima de todos los meacutetodos sin lugar a duda incluso tambieacuten podriacuteamosincluir a X-13ARIMA-SEATS aquiacute Cabe recordar que ambos parten de las mismas ideas pero esTRAMO-SEATS el que implanta una serie de mejoras a los meacutetodos de deteccioacuten de atiacutepicos en losque se inspiran ambos esto se trata en el Capiacutetulo 3 Por otra parte en los escenarios 5 6 7 y 8 ya noexiste tal hegemoniacutea de TRAMO-SEATS frente al resto de meacutetodos de hecho nos encontramos unosresultados bastante maacutes variados

Entre los meacutetodos de descomposicioacuten (STLTwitter y STR) el que presenta mejores resultados enlas simulaciones es STR En todos los escenarios presenta resultados que lo posicionan entre los tresprimeros Esto nos da una idea de que estamos ante un meacutetodo flexible capaz de entender la estructurasubyacente de series de tiempo muy diversas y adecuar una respuesta realista del mecanismo generadorSus buenos resultados son seguidos muy de cerca por la descomposicioacuten STL Este es un resultado queconcuerda con lo esperado debido a que siendo los dos meacutetodos similares plantean la misma idea perola ejecutan de distinta forma STR fue creado con el objetivo de suponer una mejora a STL

En lo que respecta a los meacutetodos de deteccioacuten GESD HDoutliers y iForest podemos extraerconclusiones acerca del comportamiento de cada uno

GESD es un buen meacutetodo de identificacioacuten de atiacutepicos Obtiene buenos resultados faacutecil deaplicar y es sencillo entender su mecanismo algo muy uacutetil para personas que quieran realizaro transmitir un estudio sin ahondar profundamente en materia Por otra parte sus buenosresultados en la deteccioacuten correcta de atiacutepicos se ven eclipsados por su tendencia a clasificaraltos valores de observaciones como anoacutemalas incorrectamente Si estamos realizando un anaacutelisisindividual esto podriacutea no ser un problema dado que se podriacutea intervenir modificando alguno desus paraacutemetros y conseguir mejores resultados Sin embargo en este trabajo buscamos un meacutetodoque nos sirva como filtro para analizar multitud de series con la menor intervencioacuten posible porlo que descartamos dicho mecanismo

HDoutliers supone una mejora a GESD Muestra mejor comportamiento en todas las combina-ciones con los meacutetodos de descomposicioacuten GESD solo consigue igualar o superar ligeramentesus resultados incurriendo en calificar una gran cantidad de observaciones como atiacutepicas lo queprovoca un incremento en el nuacutemero de observaciones calificadas erroacuteneamente esto se puede veren las tablas de exceso introducidas en el anexo Sin embargo pese a suponer una mejora noes el meacutetodo que presenta mejores resultados

Isolation Forest o iForest es el meacutetodo de deteccioacuten maacutes consistente a lo largo de los escenariosy para cada meacutetodo de descomposicioacuten Consigue un equilibrio entre buenos valores de deteccioacutencorrecta y bajas tasas de atiacutepicos sentildealados incorrectamente justo lo que se busca en un meacutetodode deteccioacuten de atiacutepicos La idea de aacuterbol bajo la que se desarrolla su mecanismo es faacutecil decomprender cada observacioacuten recibe una puntuacioacuten entre 0 y 1 de cuaacuten anoacutemala es esto permiteflexibilizar la decisioacuten del analista con el umbral en el que fija un valor como atiacutepico En Liu et

42 CAPIacuteTULO 4 ESTUDIO DE SIMULACIOacuteN

al (2009) califican como observaciones sospechosas de ser atiacutepicas aquellas cuya puntuacioacuten seamayor a 06 en este trabajo somos maacutes estrictos y fijamos un umbral superior 075 Ademaacutessu disentildeo le permite escalar a conjuntos de gran tamantildeo y dimensioacuten (big data) por lo que nosupone un freno ante situaciones futuras

Parece interesante tambieacuten recordar que los mecanismos que emplean los meacutetodos X-13ARIMA-SEATS y TRAMO-SEATS fueron analizados en estudios que planteaban simulaciones como las quese realizan en los escenarios 1 2 y 3 Ademaacutes tambieacuten cabe esperar un buen comportamiento que seespera de ellos en un modelo tan comuacuten como el de liacuteneas aacutereas (Escenario 4) Sin embargo cuando seaplican fuera de estos escenarios en modelos maacutes complejos solamente TRAMO-SEATS consigue noquedarse atraacutes

La simulacioacuten nos permite descartar la descomposicioacuten Twitter la cual estaacute quizaacutes maacutes enfocadaa datos de alta frecuencia datos que se producen en frecuencias de tiempo mucho maacutes pequentildeascomo minutos en vez de datos mensuales como los planteados en el estudio de simulacioacuten por lo querefleja peores resultados en escenarios de este aacutembito Tambieacuten nos permite descartar el meacutetodo X-13ARIMA-SEATS dado que supone una idea similar pero menos desarrollada en lo que a deteccioacuten deatiacutepicos se refiere a TRAMO-SEATS Finalmente el meacutetodo GESD tambieacuten es descartado debido asus resultados en los que muestra un comportamiento inferior frente a HDoutliers meacutetodo que suponeuna mejora a la idea sobre la que se basa GESD

Por lo que se concluye que los meacutetodos maacutes adecuados para la continuacioacuten del trabajo son elmodelo TRAMO-SEATS las descomposiciones de series temporales STL y STR y los meacutetodos dedeteccioacuten de atiacutepicos HDoutliers y iForest lo que conforman los siguientes mecanismos de deteccioacutende atiacutepicos

TRAMO-SEATS

STL+HDoutliers

STL+iForest

STR+HDoutliers

STR+iForest

Capiacutetulo 5

Aplicacioacuten a datos reales

En este capiacutetulo se aplican los meacutetodos que han mostrado unos mejores resultados en el estudiode simulacioacuten a las bases de datos del IGE comentadas en Capiacutetulo 1 Estos meacutetodos son TRAMO-SEATS STL+HDoutliers STL+iForest STR+HDoutliers y STL+iForest De este modo podemosanalizar el comportamiento de los meacutetodos con datos reales y extraer nuevas conclusiones que nosurgiacutean en el estudio de simulacioacuten Esto se debe a que si bien el estudio de simulacioacuten planteaba unadiversidad de escenarios amplia nunca seraacuten suficientes para recoger la multitud de naturalezas quecaracteriza a las series socio-econoacutemicas

El anaacutelisis de las datos del IGE se haraacute en dos niveles Un primer nivel mostraraacute el comportamientoglobal del conjunto mediante cuatro medidas el total de atiacutepicos detectados por cada meacutetodo en elconjunto el maacuteximo nuacutemero de atiacutepicos que detecta el meacutetodo en una serie del conjunto el nuacutemero deseries que no presentan atiacutepicos y la media de atiacutepicos detectados por cada meacutetodo El segundo nivelmostraraacute un anaacutelisis maacutes especiacutefico donde se analizaraacute el comportamiento de los meacutetodos respecto auna serie escogida del conjunto

Para finalizar el capiacutetulo introducimos una herramienta graacutefica disentildeada con el objetivo de eliminarla mayor incertidumbre posible que acompantildea a un campo como el de la deteccioacuten de valores atiacutepicosy analizamos su comportamiento

51 Anaacutelisis Series IGE

Los conjuntos utilizados para este trabajo han pasado primero por un proceso de filtrado en el quese han eliminado todas las series que presentan menos de 24 observaciones o maacutes de 24 ceros entre susobservaciones De este modo conseguimos quedarnos con series que recogen la informacioacuten suficientepara trabajar con ellas

A continuacioacuten se muestra el total de series perteneciente a cada conjunto

43

44 CAPIacuteTULO 5 APLICACIOacuteN A DATOS REALES

Conjunto 1 Conjunto 2 Conjunto 3 Conjunto 4 Conjunto 5 Conjunto 6 Conjunto 7

Pre-filtrado 108 72 55 42 162 165 55

Post-filtrado 84 60 50 42 90 165 47

Cuadro 51 Nuacutemero de series de tiempo perteneciente a cada conjunto antes y despueacutes del proceso defiltrado

Ademaacutes con el objetivo de capturar la influencia del Covid19 sobre las series de tiempo se procedea dividir el estudio en dos partes La primera analiza las series con datos hasta 2019 si el conjuntopresenta datos de frecuencia mensual esta fecha seraacute diciembre de 2019 por otra parte si el conjuntopresenta datos de frecuencia trimestral esta fecha seraacute el cuarto trimestre de 2019 La segunda analizalas series incluyendo el uacuteltimo dato actualizado el cual variacutea dependiendo del conjunto Los conjuntoscon datos trimestrales incluyen hasta el primer trimestre del 2020 mientras que los conjuntos condatos mensuales incluyen como uacuteltima actualizacioacuten fechas comprendidas entre abril y junio de 2020por lo que dicha fecha se concretaraacute en el momento que se analiza dicho conjunto Respecto a la fechade inicio de las series variacutea dependiendo del conjunto por lo que tambieacuten se especificaraacute en el iniciodel anaacutelisis del mismo

Para medir la influencia del Covid lo que se haraacute seraacute calcular la tasa de variacioacuten del total deatiacutepicos detectados entre ambos escenarios las series hasta 2019 y las series actualizadas al uacuteltimodato existente de 2020 la cual calcularemos como

Tasa de variacioacuten =

(Total atiacutepicos serie completaTotal atiacutepicos serie hasta 2019

minus 1

)lowast 100

Conjunto 1 (httpwwwigeeuigebdtigeapidatos3476)

Series de datos mensuales que contienen la informacioacuten de los viajeros noches y estancia media enestablecimientos hoteleros y de turismo rural en Espantildea Galicia y sus provincias Los datos de esteconjunto comienzan en enero de 1999 y finalizan en mayo de 2020

51 ANAacuteLISIS SERIES IGE 45

TRAMO -

SEATS

STL +

HDoutliers

STL +

iForest

STR +

HDoutliers

STR +

iForest

Atiacutepicos detectados 327 176 111 136 142

Max nuacutemero atip serie 17 11 3 8 4

Series con 0 atiacutepicos 13 20 11 23 3

Media de atiacutepicos detec 389 210 132 162 169

Cuadro 52 Resultados para el Conjunto 1 con datos hasta diciembre de 2019

Los resultados del Cuadro 52 se producen para un total de 18816 observaciones que muestra elconjunto con datos hasta diciembre de 2019 Ahora vamos a estudiar los resultados de forma quecada serie esteacute formada por el uacuteltimo dato actualizado y a realizar una comparacioacuten entre ambosescenarios En esta serie el uacuteltimo dato actualizado es mayo de 2020 lo que conforma un total de19172 observaciones

TRAMO -

SEATS

STL +

HDoutliers

STL +

iForest

STR +

HDoutliers

STR +

iForest

Atiacutepicos detectados 457 243 170 264 204

Max nuacutemero atip serie 17 11 4 15 5

Series con 0 atiacutepicos 1 6 1 10 3

Media de atiacutepicos detec 544 289 202 314 243

Cuadro 53 Resultados para el Conjunto 1 con datos hasta mayo de 2020

46 CAPIacuteTULO 5 APLICACIOacuteN A DATOS REALES

TRAMO -

SEATS

STL +

HDoutliers

STL +

iForest

STR +

HDoutliers

STR +

iForest

Hasta 2019 327 176 111 136 142

Hasta mayo 2020 457 243 170 264 204

Tasa de variacioacuten 3976 3807 5315 9412 4366

Cuadro 54 Total de atiacutepicos detectados por cada meacutetodo hasta diciembre de 2019 y abril 2020 y tasade variacioacuten que produce el efecto del Covid en el Conjunto 1

En el Cuadro 54 podemos ver como el efecto del Covid sobre el conjunto es muy notorio algoque cabriacutea esperar dado que estamos tratando series relacionadas con el Turismo en Galicia uno delos sectores maacutes afectados por la crisis del Covid El Cuadro 53 incorpora datos hasta mayo 2020lo que supone solamente un crecimiento del 189 del total de datos Sin embargo el crecimientoque experimenta el total de atiacutepicos detectado es muy superior en el caso maacutes suave representa uncrecimiento de maacutes del 38 llegando a suponer para alguacuten meacutetodo el 94

A continuacioacuten vamos a analizar un caso concreto de una serie del conjunto Hemos escogido laserie que hace referencia al nuacutemero de viajeros residentes en Espantildea hospedados en establecimientosde turismo rural en Espantildea El motivo de su eleccioacuten es que es la serie que provoca un mayor nuacutemerode atiacutepicos en el Cuadro 52 un total de 17 observaciones atiacutepicas sentildealadas por el meacutetodo TRAMO-SEATS

Figura 51 Serie de tiempo referente al nuacutemero de viajeros residentes en Espantildea hospedados en esta-blecimientos de turismo rural en Espantildea

La Figura 51 recoge la serie de tiempo referente al nuacutemero de viajeros residentes en Espantildea hos-

51 ANAacuteLISIS SERIES IGE 47

pedados en establecimientos de turismo rural en Espantildea La liacutenea vertical roja representa el comienzodel antildeo 2020 Observando dicha figura y centraacutendonos en la serie hasta 2019 nos encontramos con unaserie con mucha volatilidad debido al fuerte caraacutecter estacional que posee un sector como el turismoy con una ligera tendencia creciente que se estanca ligeramente en los antildeos posteriores a la crisis eco-noacutemica de 2011 para despueacutes continuar en aumento Sin embargo no parece que se encuentren valoresatiacutepicos en dicha serie La combinacioacuten STR+HDoutliers tambieacuten sentildeala un elevado nivel de atiacutepicosseis en total que se reduce con STR+iForest a tres posibles atiacutepicos Finalmente STL+HDoutliers ySTL+iForest coinciden en sentildealar un atiacutepico agosto de 2019

Si ahora observamos los resultados para la serie completa podemos comprobar que los resultadoscambian bruscamente con la introduccioacuten de cuatro nuevos datos enero febrero marzo y abril de2020 Ahora el meacutetodo TRAMO-SEATS sentildeala cuatro fechas de las que solo dos coinciden con lassentildealadas anteriormente Las combinaciones STL+HDoutliers y STL+iForest mantienen como atiacutepicoagosto de 2019 y antildeaden febrero marzo y abril 2020 y marzo y abril 2020 respectivamente Y ahorason las combinaciones STR+HDoutliers y STR+iForest las que sentildealan uacutenicamente agosto de 2019

Es interesante observar el comportamiento de los cinco meacutetodos en esta serie TRAMO-SEATS ylas combinaciones basadas en el proceso de descomposicioacuten STR soliacutean ser las que mejores resultadospresentaban sin embargo en este ejemplo son los meacutetodos basados en la descomposicioacuten STL que sibien presentaron buenos resultados en la simulacioacuten tendiacutean a ir por detraacutes de TRAMO-SEATS y losmeacutetodos basados en la descomposicioacuten STR los que presenta un comportamiento maacutes acorde con loque sucede en la serie De hecho son los meacutetodos basados en la descomposicioacuten STL los uacutenicos quesentildealan como atiacutepica la observacioacuten de abril 2020 la cual es la uacutenica que tiene un valor de 0 y esclaramente atiacutepica

La Figura 52 representa los atiacutepicos detectados por el meacutetodo STL+HDoutliers el cual es el meacutetodoque mejor comportamiento muestra para esta serie

Figura 52 Serie de tiempo referente al nuacutemero de viajeros residentes en Espantildea hospedados en esta-blecimientos de turismo rural en Espantildea analizada por el meacutetodo STL+HDoutliers

En la Figura 53 se muestran los resultados para la misma serie por el resto de meacutetodos utilizadosSTL+iForest STR+HDoutliers STR+iForest y TRAMO-SEATS

48 CAPIacuteTULO 5 APLICACIOacuteN A DATOS REALES

Figura 53 Serie de tiempo referente al nuacutemero de viajeros residentes en Espantildea hospedados en esta-blecimientos de turismo rural en Espantildea analizada por STL+iForest STR+HDoutliers STR+iForesty TRAMO-SEATS

Conjunto 2 (httpwwwigeeuigebdtigeapidatos6356)

Series de datos trimestrales acerca de la poblacioacuten de 16 y maacutes antildeos desglosados por sexo gruposde edad y relacioacuten con la actividad econoacutemica en Galicia Los datos de este conjunto comienzan en elprimer trimestre de 1996 y finalizan en el primer trimestre de 2020

TRAMO -

SEATS

STL +

HDoutliers

STL +

iForest

STR +

HDoutliers

STR +

iForest

Atiacutepicos detectados 56 70 61 62 66

Max nuacutemero atip serie 5 6 3 5 3

Series con 0 atiacutepicos 28 29 18 26 14

Media de atiacutepicos detec 093 117 102 103 110

Cuadro 55 Resultados para el Conjunto 2 con datos hasta el cuarto trimestre de 2019

Los resultados del Cuadro 55 se producen para un total de 5760 observaciones que muestra elconjunto con datos hasta el cuarto trimestre de 2019 Ahora vamos a estudiar los resultados de formaque cada serie esteacute formada por el uacuteltimo dato actualizado y a comparar ambos escenarios En estaserie el uacuteltimo dato actualizado es el primer trimestre de 2020 lo que conforma un total de 5820

51 ANAacuteLISIS SERIES IGE 49

observaciones

TRAMO -

SEATS

STL +

HDoutliers

STL +

iForest

STR +

HDoutliers

STR +

iForest

Atiacutepicos detectados 54 107 62 68 66

Max nuacutemero atip serie 5 45 3 4 3

Series con 0 atiacutepicos 28 30 15 20 12

Media de atiacutepicos detec 090 178 103 113 110

Cuadro 56 Resultados para el Conjunto 2 con datos hasta el primer trimestre de 2020

TRAMO -

SEATS

STL +

HDoutliers

STL +

iForest

STR +

HDoutliers

STR +

iForest

Hasta 2019 56 70 61 62 66

Hasta mayo 2020 54 107 62 68 66

Tasa de variacioacuten -357 5286 164 968 000

Cuadro 57 Total de atiacutepicos detectados por cada meacutetodo hasta el cuarto trimestre de 2019 y primertrimestre de 2020 y tasa de variacioacuten que produce el efecto del Covid en el Conjunto 2

En el Cuadro 57 podemos ver como el efecto del Covid sobre el conjunto es mucho menor que enlos datos del Conjunto 1 Esto se debe a la naturaleza trimestral de los datos por lo que situando lainfluencia del Covid en el contexto gallego a finales de marzo de 2020 su impacto es maacutes suave sobrelos datos Seriacutea interesante en el futuro ver que sucede con este conjunto una vez se antildeadan los datosdel segundo trimestre

A continuacioacuten vamos a analizar un caso concreto de una serie del conjunto Hemos escogido laserie que recoge los datos de hombres mayores de 55 antildeos y que forman parte de la poblacioacuten ocupada

En la Figura 54 se muestra la serie de tiempo referente a los hombres mayores de 55 antildeos queforma parte de la poblacioacuten ocupada La recta vertical roja diferencia los dos escenarios que estudiamosla serie hasta el cuarto trimestre de 2019 y la serie hasta el primer trimestre de 2020-

50 CAPIacuteTULO 5 APLICACIOacuteN A DATOS REALES

Figura 54 Serie de tiempo referente hombres mayores de 55 antildeos y que forman parte de la poblacioacutenocupada

El uacutenico dato que las diferencia el primer trimestre de 2020 sigue con lo que cabriacutea esperar Y losmeacutetodos de deteccioacuten de atiacutepicos concuerdan con lo que observamos no existen atiacutepicos ni antes nidespueacutes excepto en un caso Ahora son los meacutetodos basados en el proceso de descomposicioacuten STL losque sentildealan una fecha que parece discrepar con la realidad

En la serie con valores hasta 2019 son ambas combinaciones STL+HDoutliers y STL+iForestlas que sentildealan como posible atiacutepico julio 2013 Si nos trasladamos a la serie completa uacutenicamenteSTL+iForest sigue manteniendo ese posible atiacutepico mientras que STL+HDoutliers lo corrige Esta si-tuacioacuten en las que solo un meacutetodo sentildeala una fecha nos lleva a dudar de que realmente esta observacioacutensea atiacutepica

A continuacioacuten mostramos la serie referente a los hombres mayores de 55 antildeos y que forman partede la poblacioacuten ocupada analizada por el uacutenico meacutetodo que detecta atiacutepicos para la serie completaSTL+iForest

Figura 55 Serie de tiempo referente hombres mayores de 55 antildeos y que forman parte de la poblacioacutenocupada analizada por STL+iForest

51 ANAacuteLISIS SERIES IGE 51

Conjunto 3 (httpwwwigeeuigebdtigeapidatos308)

Series de datos mensuales acerca de contratos registrados seguacuten la modalidad del contrato Losdatos de este conjunto comienzan en enero de 1999 y finalizan en mayo de 2020

TRAMO -

SEATS

STL +

HDoutliers

STL +

iForest

STR +

HDoutliers

STR +

iForest

Atiacutepicos detectados 193 126 98 146 98

Max nuacutemero atip serie 9 14 5 10 4

Series con 0 atiacutepicos 5 9 1 7 2

Media de atiacutepicos detec 386 252 196 292 196

Cuadro 58 Resultados para el Conjunto 3 con datos hasta diciembre 2019

El Cuadro 58 recoge los resultados que se producen para un total de 12600 observaciones quemuestra el Conjunto 3 con datos hasta diciembre de 2019 Ahora vamos a estudiar los resultados deforma que cada serie esteacute conformada por el uacuteltimo dato actualizado y a realizar una comparativaentre ambas En esta serie el uacuteltimo dato actualizado es mayo de 2020 lo que conforma un total de12850 observaciones

TRAMO -

SEATS

STL +

HDoutliers

STL +

iForest

STR +

HDoutliers

STR +

iForest

Atiacutepicos detectados 242 144 107 153 121

Max nuacutemero atip serie 13 8 5 10 4

Series con 0 atiacutepicos 1 6 0 7 1

Media de atiacutepicos detec 484 288 214 306 242

Cuadro 59 Resultados para el Conjunto 3 con datos hasta mayo de 2020

52 CAPIacuteTULO 5 APLICACIOacuteN A DATOS REALES

TRAMO -

SEATS

STL +

HDoutliers

STL +

iForest

STR +

HDoutliers

STR +

iForest

Hasta 2019 193 126 98 146 98

Hasta mayo 2020 242 144 107 153 121

Tasa de variacioacuten 2539 1429 918 479 2350

Cuadro 510 Total de atiacutepicos detectados por cada meacutetodo hasta diciembre de 2019 y mayo de 2020y tasa de variacioacuten que produce el efecto del Covid en el Conjunto 3

En el Cuadro 510 podemos ver como el efecto del Covid sobre el conjunto es similar al que sepresentaba en los datos del Conjunto 1 Este conjunto vuelve a recoger datos de caraacutecter mensual porlo que la influencia de los meses de 2020 vuelven a reflejar un gran peso en los resultados Sin embargolas tasas de variacioacuten no son tan grandes como las que se produciacutean en el Conjunto 1 Esto podriacuteadeberse a que mientras el sector turiacutestico se redujo a cero en el mercado laboral se llevaron a cabopoliacuteticas contra la destruccioacuten masiva de empleo Estos resultados lo que hacen es aflorar que se haproducido un efecto en el conjunto de datos y que podriacutea ser de intereacutes para despueacutes desarrollar unestudio en profundidad

A continuacioacuten vamos a analizar la serie referente a las contrataciones eventuales por circunstanciasde la produccioacuten para la provincia de Ourense diferenciando a traveacutes de una recta roja vertical los dosescenarios analizados los datos hasta diciembre 2019 y los datos hasta mayo de 2020

Figura 56 Serie de tiempo referente a las contrataciones eventuales por circunstancias de la produccioacutenpara la provincia de Ourense

El meacutetodo TRAMO-SEATS sentildeala tres fechas atiacutepicas en ambas ocasiones en la serie hasta 2019

51 ANAacuteLISIS SERIES IGE 53

y hasta mayo de 2020 sin embargo ninguna de ellas es comuacuten Probablemente esto se deba al compor-tamiento que podemos apreciar en la Figura 56 donde se observa la caiacuteda que produce en la serie losmeses de marzo abril y mayo de 2020 La introduccioacuten de estos datos reajusta las prioridades sobrequeacute es un atiacutepico en la serie para TRAMO-SEATS de forma que pasa de identificar octubre 2001abril 2002 y enero 2012 a sentildealar como fechas atiacutepicas octubre 2007 y marzo y abril de 2020

Este suceso tambieacuten se presenta en el resto de meacutetodos STL+HDoutliers pasa de no identificarninguacuten dato en la serie hasta 2019 a sentildealar abril del 2002 y febrero abril y mayo de 2020 Otro meacutetodoque experimenta esta situacioacuten es STR+iForest que pasa de no calificar ninguna observacioacuten atiacutepicaa sentildealar abril y mayo en 2019 y en 2020 STL+iForest sentildeala dos y tres atiacutepicos en cada caso en laserie hasta 2019 sentildeala el mes de julio en 2018 y 2019 mientras que en la serie completa sentildeala losmeses de febrero abril y mayo de 2020 Por uacuteltimo STR+HDoutliers sentildeala como atiacutepico abril del2002 en la serie acortada observacioacuten que ya no es detectada al incluir la serie completa donde sentildealalos meses de abril y mayo para los antildeos 2019 y 2020 igual aquiacute que STR+iForest

Estos resultados conducen hacia un punto comuacuten mientras que en la serie recortada en 2019 noparece haber mucho acuerdo sobre los atiacutepicos o si existen atiacutepicos en la serie completa todos losmeacutetodos se ponen de acuerdo en que las situaciones de abril y mayo de 2020 son anoacutemalas Estosresultados se muestran en la Figura 57

Figura 57 Serie de tiempo referente a las contrataciones eventuales por circunstancias de la produccioacutenpara la provincia de Ourense sentildealizando las anomaliacuteas comunes a los cinco meacutetodos

Conjunto 4 (httpwwwigeeuigebdtigeapidatos9048)

Series de datos mensuales referidas al Iacutendice de produccioacuten industrial general y por destino eco-noacutemico de los bienes en Espantildea y Galicia Los distintos destinos econoacutemico son bienes de consumoduraderos y no duraderos bienes de equipo bienes intermedios y energiacutea Los datos del conjuntocomienzan en enero de 2002 y finalizan en mayo de 2020

54 CAPIacuteTULO 5 APLICACIOacuteN A DATOS REALES

TRAMO -

SEATS

STL +

HDoutliers

STL +

iForest

STR +

HDoutliers

STR +

iForest

Atiacutepicos detectados 288 129 73 212 64

Max nuacutemero atip serie 24 11 3 102 3

Series con 0 atiacutepicos 9 5 3 6 2

Media de atiacutepicos detec 686 307 174 505 152

Cuadro 511 Resultados para el Conjunto 4 con datos hasta diciembre de 2019

El Cuadro 511 recoge los resultados que se producen para un total de 8904 observaciones quemuestra el conjunto con datos hasta diciembre de 2019 Ahora vamos a estudiar los resultados deforma que cada serie esteacute conformada por el uacuteltimo dato actualizado y a analizar los cambios que seproducen entre ambos escenarios En este conjunto el uacuteltimo dato actualizado es mayo de 2020 lo queconforma un total de 9114 observaciones

TRAMO -

SEATS

STL +

HDoutliers

STL +

iForest

STR +

HDoutliers

STR +

iForest

Atiacutepicos detectados 282 92 78 144 79

Max nuacutemero atip serie 24 5 3 50 3

Series con 0 atiacutepicos 4 5 1 2 1

Media de atiacutepicos detec 672 219 186 343 189

Cuadro 512 Resultados para el Conjunto 4 con datos hasta mayo de 2020

51 ANAacuteLISIS SERIES IGE 55

TRAMO -

SEATS

STL +

HDoutliers

STL +

iForest

STR +

HDoutliers

STR +

iForest

Hasta 2019 288 129 73 212 64

Hasta mayo 2020 282 92 78 144 79

Tasa de variacioacuten -208 -2868 685 -3208 2344

Cuadro 513 Total de atiacutepicos detectados por cada meacutetodo hasta diciembre de 2019 y mayo de 2020y tasa de variacioacuten que produce el efecto del Covid en el Conjunto 4

En el Cuadro 513 podemos ver el efecto del Covid sobre el conjunto sin embargo en esta ocasioacuten nopodemos ver una direccioacuten clara Los meacutetodos difieren y mientras unos meacutetodos muestran crecimientosen el nuacutemero de atiacutepicos detectados para el conjunto otros decrecen y muestran ahora menos atiacutepicosSin embargo esto no implica que el efecto del Covid sobre el conjunto sea menor que por ejemplo en elConjunto 3 Las variaciones entre las series las que incluyen datos de 2020 y las que no son notoriaslo cual implica que el efecto existe

A continuacioacuten vamos a analizar la serie referente a la produccioacuten industrial destinada a bienesintermedios de Galicia diferenciando a traveacutes de una recta vertical roja los dos escenarios los datoshasta diciembre de 2019 y la serie hasta mayo 2020

Figura 58 Serie de tiempo referente a la produccioacuten industrial destinada a bienes intermedios deGalicia

El comportamiento que muestran los meacutetodos con esta serie nos ayuda a plasmar una idea quedesarrollaremos maacutes adelante en el siguiente apartado Si observamos los datos para la serie recortada

56 CAPIacuteTULO 5 APLICACIOacuteN A DATOS REALES

en diciembre de 2019 obtenemos que salvo TRAMO-SEATS que no detecta ninguacuten atiacutepico los otroscuatro meacutetodos concuerdan en dos fechas marzo y julio de 2008 Por otra parte en la serie completacinco meacutetodos sentildealan abril 2020 y cuatro sentildealan marzo de 2008 Estos dos atiacutepicos abril de 2020 ymarzo de 2008 los representamos en la Figura 59

Analizando la Figura 59 el atiacutepico sentildealado en marzo de 2008 parece dudoso sin embargo siprofundizamos en los datos observamos que esta fecha rompe una clara tendencia creciente respecto alos meses de marzo de antildeos anteriores

Este suceso en el que varios meacutetodos coinciden en identificar una fecha proveen al analista de unaseguridad a la hora de calificar una observacioacuten como anoacutemala Este concepto de seguridad eliminandola incertidumbre asociada al campo de la deteccioacuten de valores atiacutepicos seraacute desarrollado maacutes adelante

Figura 59 Serie de tiempo referente a la produccioacuten industrial destinada a bienes intermedios deGalicia con los dos atiacutepicos

Conjunto 5 (httpwwwigeeuigebdtigeapidatos4052)

Series de datos trimestrales de nuacutemero de transacciones inmobiliarias por reacutegimen (Libre Protegiday Total de viviendas) y tipo de vivienda (Nuevas segunda mano y total de viviendas) Las medidas enlas que se toman los datos son por nuacutemero de viviendas su valor total (en miles de euros) o su valormedio (en euros) Los datos se presentan a nivel Espantildea Galicia y las provincias gallegas Los datosse recogen entre el primer trimestre de 2004 hasta el primer trimestre de 2020

51 ANAacuteLISIS SERIES IGE 57

TRAMO -

SEATS

STL +

HDoutliers

STL +

iForest

STR +

HDoutliers

STR +

iForest

Atiacutepicos detectados 184 122 105 94 97

Max nuacutemero atip serie 7 8 2 6 2

Series con 0 atiacutepicos 13 41 12 47 11

Media de atiacutepicos detec 204 136 117 104 107

Cuadro 514 Resultados para el Conjunto 5 con datos hasta el cuarto trimestre de 2019

Los resultados que recoge el Cuadro 514 se producen para un total de 5760 observaciones que mues-tra el Conjunto 5 con datos hasta el cuarto trimestre de 2019 Ahora vamos a estudiar los resultadosde forma que cada serie esteacute conformada por el uacuteltimo dato actualizado y a realizar una comparacioacutenentre ambos escenarios En esta serie el uacuteltimo dato actualizado es el primer trimestre de 2020 lo queconforma un total de 5850 observaciones

TRAMO -

SEATS

STL +

HDoutliers

STL +

iForest

STR +

HDoutliers

STR +

iForest

Atiacutepicos detectados 184 106 108 90 93

Max nuacutemero atip serie 9 8 2 5 3

Series con 0 atiacutepicos 12 42 11 43 13

Media de atiacutepicos detec 204 118 120 100 103

Cuadro 515 Resultados para el Conjunto 5 con datos hasta el primer trimestre de 2020

58 CAPIacuteTULO 5 APLICACIOacuteN A DATOS REALES

TRAMO -

SEATS

STL +

HDoutliers

STL +

iForest

STR +

HDoutliers

STR +

iForest

Hasta 2019 184 122 105 94 97

Hasta mayo 2020 184 106 108 90 93

Tasa de variacioacuten 000 -1311 286 -426 -412

Cuadro 516 Total de atiacutepicos detectados por cada meacutetodo hasta cuarto trimestre de 2019 y primertrimestre de 2020 y tasa de variacioacuten que produce el efecto del Covid en el Conjunto 5

En el Cuadro 516 podemos ver que el efecto del Covid sobre las series trimestrales vuelve a sermuy pequentildeo similar a las conclusiones obtenidas para el Conjunto 2 Si comparamos las tablas 514y 515 podemos similitudes en los resultados para las diferentes medidas que se toman Por ejemplo sinos fijamos en la fila que mide el nuacutemero de series que son identificadas con cero atiacutepicos los meacutetodosapenas difieren en sus resultados Lo mismo sucede con la media de atiacutepicos detectados en cada serieEstos resultados sostienen la idea de que el Covid repercutioacute en menor medida en las series trimestralesen el primer trimestre del antildeo y es de intereacutes realizar este mismo estudio una vez se incorporen losdatos del segundo trimestre

A continuacioacuten vamos a analizar la serie referente al nuacutemero de viviendas transmitidas de segundamano en reacutegimen libre para la provincia de Lugo diferenciando los dos escenarios analizados a traveacutesde una recta vertical roja los datos hasta el cuarto trimestre de 2019 y los datos incluyendo el primertrimestre de 2020

Figura 510 Serie de tiempo referente al nuacutemero de viviendas transmitidas de segunda mano en reacutegimenlibre para la provincia de Lugo

51 ANAacuteLISIS SERIES IGE 59

Observando la Figura 510 parece que el dato incluido referente al primer trimestre de 2020 su-pone una caiacuteda una situacioacuten anoacutemala sin embargo si observamos la evolucioacuten histoacuterica de la seriepodemos comprobar que solamente en dos ocasiones se han mostrado valores superiores en este pri-mer trimestre Para ambos escenarios la serie hasta 2019 y la serie completa uacutenicamente un meacutetododetecta atiacutepicos TRAMO-SEATS que sentildeala en ambas ocasiones octubre de 2010 y 2012 El resto demeacutetodos concuerdan en que la serie no presenta en ninguacuten caso ninguna situacioacuten anoacutemala

La Figura 511 muestra las dos fechas que sentildeala como atiacutepicas el meacutetodo TRAMO-SEATS cuartotrimestre de 2010 y 2012 que si bien reflejan un pico en los espacios temporales en los que se producenno parecen ser atiacutepicas respecto a la serie completa

Figura 511 Serie de tiempo referente al nuacutemero de viviendas transmitidas de segunda mano en reacutegimenlibre para la provincia de Lugo

Conjunto 6 (httpwwwigeeuigebdtigeapidatos1243)

Series de datos mensuales referentes a las bajas de demandas de empleo seguacuten geacutenero y duracioacutende la demanda en Galicia y sus provincias Los datos de la serie se recogen desde enero de 2009 hastajunio de 2020

60 CAPIacuteTULO 5 APLICACIOacuteN A DATOS REALES

TRAMO -

SEATS

STL +

HDoutliers

STL +

iForest

STR +

HDoutliers

STR +

iForest

Atiacutepicos detectados 154 271 228 288 228

Max nuacutemero atip serie 7 11 4 7 3

Series con 0 atiacutepicos 85 44 16 40 12

Media de atiacutepicos detec 093 164 138 174 138

Cuadro 517 Resultados para el Conjunto 6 con datos hasta diciembre de 2019

Los resultados del Cuadro 517 se producen para un total de 21780 observaciones que muestra elconjunto con datos hasta diciembre de 2019 Ahora vamos a estudiar los resultados de forma que cadaserie esteacute conformada por el uacuteltimo dato actualizado y a comparar ambas situaciones En esta serie eluacuteltimo dato actualizado es junio de 2020 lo que conforma un total de 22770 observaciones

TRAMO -

SEATS

STL +

HDoutliers

STL +

iForest

STR +

HDoutliers

STR +

iForest

Atiacutepicos detectados 484 502 336 504 334

Max nuacutemero atip serie 9 12 4 11 4

Series con 0 atiacutepicos 1 10 3 15 5

Media de atiacutepicos detec 293 304 204 305 202

Cuadro 518 Resultados para el Conjunto 6 con datos hasta junio de 2020

51 ANAacuteLISIS SERIES IGE 61

TRAMO -

SEATS

STL +

HDoutliers

STL +

iForest

STR +

HDoutliers

STR +

iForest

Hasta 2019 154 271 228 288 228

Hasta mayo 2020 484 502 336 504 334

Tasa de variacioacuten 21429 8524 4737 7500 4649

Cuadro 519 Total de atiacutepicos detectados por cada meacutetodo hasta diciembre de 2019 y junio de 2020 ytasa de variacioacuten que produce el efecto del Covid en el Conjunto 6

En el Cuadro 519 podemos ver el efecto que supone la primera mitad del antildeo 2020 en la aparicioacutende valores atiacutepicos en este conjunto El incremento en el nuacutemero de datos a analizar no llega a serdel 5 pero esa miacutenima cantidad de datos nuevos dispara las fechas anoacutemalas que se suceden en lasseries En el Cuadro 518 se puede observar que apenas existen series sin atiacutepicos independientementedel meacutetodo que seleccionemos algo todaviacutea maacutes sorprendente si recordamos que este es el conjuntoque posee maacutes series un total de 165 series

A continuacioacuten analizamos un caso concreto utilizando la serie referente a las bajas de la demandade empleo en mujeres con una duracioacuten de la demanda entre 12 y 18 meses en Ourense La rectavertical roja indica el inicio del antildeo 2020 sirviendo asiacute para indicar la diferencia entre los dos escenariosanalizados en los Cuadros 517 y 518

Figura 512 Serie de tiempo referente a las bajas de la demanda de empleo en mujeres con una duracioacutende la demanda entre 12 y 18 meses en Ourense

Esta serie es de intereacutes por diversos motivos El primero es que posee claros atiacutepicos en ambos

62 CAPIacuteTULO 5 APLICACIOacuteN A DATOS REALES

escenarios En la serie con duracioacuten hasta 2019 se puede observar un valor cercano al inicio de 2014con claro aspecto de ser atiacutepico La serie con todos los datos muestra el atiacutepico anterior pero tambieacutennuevos valores con claro comportamiento discordante al resto de la serie

Para la serie recortada cinco meacutetodos coinciden en sus resultados julio de 2013 es atiacutepico uacutenica-mente TRAMO-SEATS difiere el cual no sentildeala ninguacuten atiacutepico en la serie Si ahora nos trasladamosa la serie completa TRAMO-SEATS sentildeala marzo de 2020 como atiacutepico mientras que el resto demeacutetodos vuelven a concordar sentildealando julio de 2013 y febrero de 2020 En la Figura 513 se muestrala serie sentildealizando dichos atiacutepicos julio de 2013 y febrero y marzo de 2020

Figura 513 Serie de tiempo referente a las bajas de la demanda de empleo en mujeres con una duracioacutende la demanda entre 12 y 18 meses en Ourense con los atiacutepicos identificados

Si observamos los datos de la serie podemos calificar todas estas fechas como atiacutepicas julio 2013febrero 2020 y marzo 2020 Sin embargo ninguacuten meacutetodo ha calificado los meses de abril mayo yjunio de 2020 siendo claramente atiacutepicos Estamos frente a una situacioacuten completamente inusual unasituacioacuten que se produce en multitud de series del IGE y es la secuencia de varias observacionesconsecutivas muy atiacutepicas que ejercen un gran peso en la serie

Este gran peso provoca que los meacutetodos no consigan analizar correctamente este escenario Losmodelos de series temporales como TRAMO-SEATS interpretan que se estaacute produciendo un cambiode nivel permanente en la serie mencionado en el Capiacutetulo 3 como Level Shift (LS) y modelizan laserie como tal Los procesos de descomposicioacuten de series temporales utilizados STL y STR entiendenlo que estaacute sucediendo como un cambio en la tendencia es decir en su proceso de extraccioacuten de laestacionalidad y la tendencia estiman una tendencia decreciente en la serie Y por uacuteltimo los meacutetodosde deteccioacuten de valores atiacutepicos HDoutliers y iForest sufren un grave problema de enmascaramientoLa idea del mecanismo de iForest reside en buscar valores aislados mientras que la de HDoutliers sefundamenta en buscar espacios entre los valores ordenados estas dos ideas son consistentes con la ideade la buacutesqueda de atiacutepicos sin embargo ven disminuida su eficiencia ante una situacioacuten tan atiacutepica quepermanece durante varias observaciones consecutivas llevando a provocar que observaciones atiacutepicaspuedan pasar desapercibidas para el mecanismo

51 ANAacuteLISIS SERIES IGE 63

Conjunto 7 (httpwwwigeeuigebdtigeapidatos4885)

Series de datos mensuales referentes a las afiliaciones a la seguridad social el uacuteltimo diacutea de mes enGalicia y sus provincias por regiacutemenes Los datos comienzan en enero de 1990 y finalizan en mayo de2020

TRAMO -

SEATS

STL +

HDoutliers

STL +

iForest

STR +

HDoutliers

STR +

iForest

Atiacutepicos detectados 288 96 118 136 121

Max nuacutemero atip serie 24 8 5 10 5

Series con 0 atiacutepicos 4 10 0 4 0

Media de atiacutepicos detec 613 204 251 289 257

Cuadro 520 Resultados para el Conjunto 7 con datos hasta diciembre de 2019

El Cuadro 520 muestra los resultado que se producen para un total de 16920 observaciones quemuestra el conjunto con datos hasta diciembre de 2019 Ahora vamos a estudiar los resultados de formaque cada serie esteacute conformada por el uacuteltimo dato actualizado y comparar ambas situaciones En estaserie el uacuteltimo dato actualizado es junio de 2020 lo que conforma un total de 17155 observaciones

TRAMO -

SEATS

STL +

HDoutliers

STL +

iForest

STR +

HDoutliers

STR +

iForest

Atiacutepicos detectados 333 179 128 118 136

Max nuacutemero atip serie 24 14 5 11 6

Series con 0 atiacutepicos 0 6 0 3 0

Media de atiacutepicos detec 709 380 272 251 289

Cuadro 521 Resultados para el Conjunto 7 con datos hasta mayo de 2020

64 CAPIacuteTULO 5 APLICACIOacuteN A DATOS REALES

TRAMO -

SEATS

STL +

HDoutliers

STL +

iForest

STR +

HDoutliers

STR +

iForest

Hasta 2019 288 96 118 136 121

Hasta mayo 2020 333 179 128 118 136

Tasa de variacioacuten 1563 8646 847 -1324 1240

Cuadro 522 Total de atiacutepicos detectados por cada meacutetodo hasta diciembre de 2019 y mayo de 2020y tasa de variacioacuten que produce el efecto del Covid en el Conjunto 7

En el Cuadro 522 podemos ver que el efecto que supone la primera mitad del antildeo 2020 en laaparicioacuten de valores atiacutepicos en este conjunto La variacioacuten que supone en el nuacutemero de valores detec-tados como anoacutemalos es considerable todaviacutea maacutes si lo comparamos con la variacioacuten de nuevos datosintroducidos en el anaacutelisis los cuales han aumentado solamente un 138 De este modo podemosafirmar que la presencia del Covid ha provocado un gran impacto en el incremento del nuacutemero deobservaciones atiacutepicas de los conjuntos que presentan datos de frecuencia mensual

A continuacioacuten analizamos un caso concreto utilizando la serie referente a las afiliaciones a laseguridad social en reacutegimen mar para la provincia de Lugo La Figura 514 muestra la representacioacutengraacutefica de dicha serie indicando mediante una recta vertical roja el inicio del 2020

Figura 514 Serie de tiempo referente a las afiliaciones a la seguridad social en reacutegimen mar para laprovincia de Lugo

El motivo de seleccionar esta serie reside en una idea que se va desarrollando a lo largo de todoeste apartado y que da lugar a la herramienta que se introduce en el siguiente Las series socio-econoacutemicas son complejas dado que se ven afectadas por multitud de factores externos que condicionansu desarrollo Este caraacutecter uacutenico de cada serie maacutes los resultados obtenidos a lo largo del trabajo

51 ANAacuteLISIS SERIES IGE 65

nos conduce a la conclusioacuten de que no existe un meacutetodo de deteccioacuten de atiacutepicos con una capacidadde clasificacioacuten superior al resto

Los resultados para esta serie son diversos Por ejemplo la combinacioacuten STR+HDoutliers muestrahasta ocho atiacutepicos para la serie delimitada en el antildeo 2019 sin embargo al introducir la serie completaesta cifra se reduce solamente a dos Sucede lo contrario con la combinacioacuten STL+HDoutliers quesi bien en la serie recortada califica dos observaciones en la completa sentildeala un total de siete Porsu parte TRAMO-SEATS identifica un total de siete atiacutepicos Sin embargo todos los meacutetodos dedeteccioacuten sentildealan dos fechas como atiacutepicas en los dos casos agosto de 2006 y junio de 2008 como serepresenta en la Figura 515 Esto dota al estudio de confianza si todos los mecanismos sospechan dedos fechas deberaacute haber un motivo de peso algo ha sucedido en la serie para que todos concuerdenEsta idea dio lugar al desarrollo de la herramienta que se introduce en el siguiente apartado

Figura 515 Serie de tiempo referente a las afiliaciones a la seguridad social en reacutegimen mar parala provincia de Lugo identificando los atiacutepicos sentildealados de forma comuacuten por los cinco meacutetodos dedeteccioacuten

Por uacuteltimo el Cuadro 523 recoge el total de atiacutepicos detectados por cada meacutetodo en los dosescenarios con los que se ha trabajado en este capiacutetulo El primer escenario incluye datos hasta lauacuteltima fecha de 2019 si las series son mensuales este dato es el correspondiente a diciembre de 2019si son series trimestrales el uacuteltimo dato seraacute el cuarto trimestre de 2019 En el Cuadro 523 se recogede modo general para todos los conjuntos bajo el teacutermino ldquodatos hasta 2019rdquo El segundo escenariorecoge los datos hasta su uacuteltima actualizacioacuten aquiacute existe un mayor abanico de fechas como vimos alo largo de todo este capiacutetulo Los conjuntos con datos de frecuencia trimestral presentan su uacuteltimodato en el primer trimestre de 2020 por su parte los conjuntos de datos mensuales variacutean su uacuteltimaactualizacioacuten entre los meses de abril mayo o junio de 2020 En el Cuadro 523 se recoge de modogeneral para todos ellos bajo el teacutermino ldquodatos hasta 2020rdquo

66 CAPIacuteTULO 5 APLICACIOacuteN A DATOS REALES

TRAMO -SEATS

STL +HDoutliers

STL +iForest

STR +HDoutliers

STR +iForest

Tiempo de ejecucioacuten (2019) 1332 24 1782 7234 8805Tiempo de ejecucioacuten (2020) 1503 21 2042 8043 10764Atiacutepicos detectados (2019) 1490 990 794 1074 816Atiacutepicos detectados (2020) 2036 1373 989 1341 1033

Tasa de variacioacuten 3664 3869 2456 2486 2659

Cuadro 523 Tiempo de ejecucioacuten (en segundos) y total de atiacutepicos detectados por cada meacutetodo hastael uacuteltimo dato de 2019 y hasta uacuteltima actualizacioacuten de 2020 y tasa de variacioacuten que produce el efectodel Covid en los siete conjuntos de datos

El Cuadro 523 nos permite concluir que el efecto global del Covid ha supuesto un incremento enel nuacutemero de observaciones atiacutepicas puesto que todos los meacutetodos experimentan una tasa de variacioacutenpositiva sobre sus cifras de valores atiacutepicos detectados Las cifras de tasas de variacioacuten que se muestranen el Cuadro 523 sorprenden todaviacutea maacutes si analizamos el incremento en el nuacutemero de observacionesanalizadas El escenario que analiza el conjunto de datos hasta 2019 presentan un total de 90540observaciones mientras que el escenario que incluye hasta el uacuteltimo dato actualizado recoge un totalde 92731 Es decir el nuacutemero total de datos analizados se ha incrementado en poco maacutes del 2 sinembargo la tasa de variacioacuten maacutes pequentildea muestra un incremento del maacutes del 24 del nuacutemero deatiacutepicos que se presentan en el conjunto de datos

Otra medida que incluye el Cuadro 523 es el tiempo que tarda en analizar los siete conjuntosde datos cada meacutetodo recogida bajo el nombre de ldquotiempo de ejecucioacutenrdquo A traveacutes de ella podemosobservar que la diferencia entre el tiempo de ejecucioacuten es pequentildea pero existe por lo que muestra quela presencia de atiacutepicos dificulta la modelizacioacuten de la series temporales Tambieacuten podemos comprobarcomo todos los meacutetodos presentan buenas cifras en este medida los que peores resultados muestranson los meacutetodos que utilizan la descomposicioacuten STR la cual ya mencionamos su posible problemade lentitud en el Capiacutetulo 2 Por uacuteltimo es sorprendente la combinacioacuten de STL+HDoutliers que escapaz de analizar las 538 en un tiempo inferior a los tres segundos en ambos casos

52 Anaacutelisis Graacutefico

El campo de la deteccioacuten de valores atiacutepicos estaacute caracterizado por una constante incertidumbrePartiendo del inicio del trabajo ni siquiera existe una definicioacuten exacta de queacute es un valor atiacutepicosino maacutes bien se trazan definiciones en base a ideas de lo que se espera que sea un valor atiacutepico enun conjunto de datos Es por ello que dependiendo de los escenarios y las complejidades asociadas auna serie unos meacutetodos resulten maacutes efectivos que otros Este es el motivo por el que surgioacute la ideade crear una herramienta de anaacutelisis graacutefico para el estudio de series de tiempo

El objetivo de esta herramienta es la de dotar al analista de un mecanismo sencillo de implantarque le permita trazar una idea de los posibles atiacutepicos con los que podriacutea contar la serie Para ello seha creado una funcioacuten en R que solo necesita introducir la serie de tiempo para devolver el graacutefico

52 ANAacuteLISIS GRAacuteFICO 67

Ademaacutes dado que esta herramienta estaacute disentildeada especiacuteficamente para trabajar con series de tiemposu representacioacuten dariacutea lugar a lo que podriacutea denominarse un mapa de calor para zonas atiacutepicas estose muestra maacutes adelante mediante ejemplos

Esta herramienta estaacute compuesta por los meacutetodos que han mostrado mejores resultados en el estudiode simulacioacuten Cada meacutetodo ocupa una fila mostrando a lo largo de ella sus atiacutepicos sentildealados y cadacolumna es una fecha detectada por un meacutetodo De tal modo que si una fecha es detectada por todoslos meacutetodos mostraraacute una columna verde y seraacute sospecha clara de que esa fecha es atiacutepica Por otraparte si una fecha es detectada por solo un meacutetodo mostraraacute solo de color verde la celda asociada aese meacutetodo y no seraacute sentildeal tan evidente de situacioacuten atiacutepica

Para la composicioacuten del graacutefico se utilizan los meacutetodos del apartado anterior y a mayores seintroducen las versiones robustas de los meacutetodos de descomposicioacuten de series temporales STL y STREl motivo de su uso en este apartado se debe a que si bien no mostraron los mejores resultados enel estudio de simulacioacuten ahora pueden resultar de utilidad Los meacutetodos robustos pueden generaranomaliacuteas espurias cuando no existen atiacutepicos debido a que resaltan el tamantildeo del residuo de unaobservacioacuten provocando su identificacioacuten como atiacutepico sin esta serlo Sin embargo cuando se producenanomaliacuteas que ejercen un gran peso en la serie como lo sucedido durante el Covid este tipo deestimaciones son de gran intereacutes esta situacioacuten tambieacuten se justificaraacute mediante un ejemplo praacutectico

El primer ejemplo lo extraemos a traveacutes de la serie referente a la estancia media de viajeros de todaslas procedencias en establecimientos hoteleros en Galicia perteneciente al Conjunto 1 En la Figura516 mostramos la representacioacuten de la misma ahora ya mostramos hasta el uacuteltimo dato actualizadoen este caso mayo de 2020

Figura 516 Estancia media de viajeros de todas las procedencias en establecimientos hoteleros enGalicia

Esta serie parece contar con dos atiacutepicos los relacionados con las dos uacuteltimas observaciones de laserie sin embargo vamos a analizar los resultados del graacutefico comparativo

68 CAPIacuteTULO 5 APLICACIOacuteN A DATOS REALES

Figura 517 Resultados para la serie estancia media de viajeros de todas las procedencias en estable-cimientos hoteleros en Galicia del Conjunto 1

La Figura 517 muestra el graacutefico que hemos desarrollado el cual vamos a desgranar ahora paraentender su utilidad Si hubieacutesemos escogido el meacutetodo TRAMO-SEATS hubieacutesemos sentildealado tresobservaciones atiacutepicas una de ellas seriacutea enero de 2003 Sin embargo analizando los datos podemoscomprobar que este dato parece normal y estariacuteamos identificaacutendolo erroacuteneamente como anoacutemalo Dehecho solo TRAMO-SEATS sentildeala esta fecha Lo mismo sucede con otras fechas como octubre delantildeo 2000 sentildealada por solo dos meacutetodos Por otra parte todos los meacutetodos sentildealan los meses deabril y mayo de 2020 las dos uacuteltimas observaciones de la serie que en la Figura 516 mostraban uncomportamiento totalmente discordante al resto del conjunto de datos Es decir el graacutefico permitetrazar una idea concisa al analista de queacute es anoacutemalo en la serie y que pueden ser falsos positivos

Observando el graacutefico podemos tambieacuten extraer una conclusioacuten raacutepida de la posible presenciade valores atiacutepicos en la serie Se muestran dos comportamientos muy marcados El primero estariacuteadeterminado por la serie hasta el antildeo 2020 en el cual la aparicioacuten de atiacutepicos es dispersa pococoncluyente el analista puede dudar de que estas observaciones sean realmente anoacutemalas El segundoson los datos de 2020 dos columnas enteras de color verde una imagen que comunica que en eseintervalo de tiempo estaacute sucediendo algo realmente anoacutemalo

Vamos a utilizar el graacutefico con otra serie para analizar otra de las caracteriacutesticas que muestran elintereacutes de analizar una serie de tiempo a traveacutes de este graacutefico En la Figura 518 se muestra la serie detiempo perteneciente al Conjunto 3 que recoge la evolucioacuten de los contratos iniciales en Galicia Dichaserie cuenta con tres atiacutepicos claros marzo abril y mayo de 2020

52 ANAacuteLISIS GRAacuteFICO 69

Figura 518 Contratos iniciales registrados en Galicia

Haciendo uso del graacutefico comparativo Figura 519 volvemos a obtener un escenario en el queresulta de intereacutes esta herramienta En este caso el meacutetodo compuesto por STR+HDoutliers muestraun comportamiento erraacutetico que le conduce a identificar una gran cantidad de atiacutepicos de modoincorrecto Lo mismo sucede con TRAMO-SEATS que es el uacutenico que sentildeala enero de 2001 comoatiacutepico sin existir motivo en los datos para esta calificacioacuten

Por otra parte este escenario nos permite observar la utilidad de incorporar las versiones robustasSi bien se equivocan en alguacuten caso por ejemplo el meacutetodo STR+HDoutliers(Rob) sentildealando junio de2002 nos permiten calificar marzo de 2020 como atiacutepico algo que los meacutetodos que utilizan las versionesno robustas de los meacutetodos de descomposicioacuten de series temporales STR y STR no logran Todasellas se ponen de acuerdo junto a TRAMO-SEATS para la sentildealizacioacuten de este mes

Ademaacutes dado que estamos trabajando con series temporales los resultados de la graacutefica se muestranen orden cronoloacutegico en vez de por cuaacuten anoacutemala es la observacioacuten como se hace en TRAMO-SEATSo en iForest Esto nos permite entender la graacutefica como un mapa de calor Al analizar la serie siexiste un intervalo de tiempo en el que se han producido situaciones anoacutemalas como por ejemplo eneste caso los meses relacionados al Covid se veraacute reflejado en el graacutefico por una serie de columnascon muchas celdas verdes lo que daraacute a entender de manera raacutepida al analista que en ese intervalode tiempo se han producido situaciones excepcionales De este modo tambieacuten conseguimos corregirel problema de enmascaramiento que pueden sufrir los meacutetodos cuando se suceden varias situacionesatiacutepicas consecutivas

70 CAPIacuteTULO 5 APLICACIOacuteN A DATOS REALES

Figura 519 Resultados para la serie Contratos iniciales registrados en Galicia del Conjunto 3

Capiacutetulo 6

Conclusiones

El IGE cuenta con una ampliacutea base de datos que se utiliza para el estudio del contexto socio-econoacutemico en Galicia Estos datos tienen una base temporal es decir son datos referidos a un intervalode tiempo en la mayoriacutea de los casos esta periodicidad es anual trimestral o mensual La manipulacioacutende los datos puede conllevar a que se introduzcan errores humanos o de medicioacuten que provoquen quese incluyan cifras incorrectas a las bases de datos Estos errores pueden distorsionar las conclusionesde un estudio o conducir haciacutea resultados alejados de la verdadera realidad Es por ello que resultanecesario el incorporar una herramienta de deteccioacuten de valores atiacutepicos al anaacutelisis de las bases dedatos del IGE

Para ello se planteoacute una revisioacuten bibliograacutefica de los principales meacutetodos de deteccioacuten de atiacutepicosen series temporales Esta revisioacuten nos permitioacute conocer la existencia de un amplio abanico de meacuteto-dos disponibles con los cuales empezamos a trabajar para analizar su comportamiento Es aquiacute dondedecidimos descartar una serie de meacutetodos mencionados al final del Apartado 34 debido a que sufuncionamiento y sus resultados correspondiacutean a versiones inferiores de otros meacutetodos que finalmenteadoptamos Este primer estudio nos proporcionoacute los meacutetodos de deteccioacuten de atiacutepicos en series tem-porales que supondriacutean el punto de partida del trabajo X-13ARIMA-SEATS TRAMO-SEATS y lalibreriacutea de R Anomalize

La libreriacutea Anomalize tambieacuten nos sirvioacute de ayuda en el desarrollo de nuestros propios meacutetodos dedeteccioacuten de atiacutepicos para series temporales La idea sobre la que se fundamenta esta libreriacutea es la deaplicar un proceso de descomposicioacuten de series de tiempo a una serie para extraer las componentes dela estacionalidad la tendencia y un residuo para despueacutes aplicar un meacutetodo de deteccioacuten de atiacutepicossobre el residuo Dado que se han producido mejoras a los meacutetodos de descomposicioacuten y deteccioacutenque se utilizan en la libreriacutea Anomalize consideramos que una nueva combinacioacuten podriacutea reflejar unamejora en los resultados

Para comparar todos los meacutetodos de deteccioacuten de atiacutepicos en series temporales los que sirven depunto de partida del trabajo y los desarrollados por nosotros decidimos llevar a cabo un ambiciosoestudio de simulacioacuten El estudio de simulacioacuten recoge diferentes escenarios con la finalidad de repre-sentar la heterogeneidad propia de las series de tiempo referentes a variables sociales y econoacutemicas Losresultados del estudio de simulacioacuten confirman nuestra idea acerca de que una nueva combinacioacuten pue-de suponer una mejora en los resultados debido a que varias de nuestras combinaciones reflejan mejores

71

72 CAPIacuteTULO 6 CONCLUSIONES

resultados que las propuestas en la libreriacutea Anomalize Tambieacuten nos permite observar que nuestraspropuestas compiten en los resultados con un modelo tan desarrollado como TRAMO-SEATS Final-mente nos permiten descartar otros meacutetodos que siendo uacutetiles en otros campos no parecen resultaridoacuteneos para el nuestro

Tras el estudio de simulacioacuten comenzamos a utilizar los meacutetodos que habiacutean mostrado mejoresresultados con los datos proporcionados por el IGE Fue en este momento cuando nos encontramos conuna situacioacuten no contemplada en ninguacuten momento en ninguacuten escenario del estudio de simulacioacuten yen general en ninguacuten momento de lo que podriacutea ser la historia reciente como fue la crisis del Covid19Esta crisis provoca un efecto enorme en los datos del contexto gallego como se recoge a lo largo delCapiacutetulo 5 y supone un nuevo escenario en lo que a deteccioacuten de valores atiacutepicos en series temporalesse refiere

Este nuevo escenario se caracteriza por reflejar durante varios periacuteodos de tiempo consecutivosobservaciones enormemente anoacutemalas y los modelos ven empeorado su comportamiento TRAMO-SEATS y los modelos de descomposicioacuten de series de tiempo STL y STR entienden que lo que seestaacute produciendo es una tendencia decreciente de la serie Por su parte los meacutetodos de deteccioacuten deatiacutepicos HDoutliers y iForest sufren un fenoacutemeno de enmascaramiento en el que son incapaces desentildealizar todos los atiacutepicos Fue aquiacute donde decidimos crear una nueva herramienta para el anaacutelisis

El objetivo con el que creamos esta herramienta de anaacutelisis graacutefico fue el de reducir la incertidumbreque supone el campo de la deteccioacuten de atiacutepicos de un modo sencillo y directo para el analista que lautilice Ademaacutes su disentildeo estaacute pensado para el trabajo con series temporales de modo que si se sucedeun periacuteodo convulso como el actual la graacutefica podraacute ser analizada como un mapa de calor un mapade calor que transmite visualmente la idea de en queacute intervalo de tiempo la serie estaacute experimentandocomportamientos atiacutepicos

Apeacutendice A

Tablas

A1 Tablas de sensibilidad

73

74 APEacuteNDICE A TABLAS

Caso 1 Caso 2 Caso 3 Caso 4

X-13ARIMA-SEATS 0496 0854 0700 0826

TRAMO-SEATS 0657 0928 0805 0851

STL+HDoutliers 0569 0838 0570 0732

STL+GESD 0266 0590 0236 0532

STL+iForest 0636 0885 0636 0790

STL(ROB)+HDoutliers 0562 0803 0678 0712

STL(ROB)+GESD 0637 0876 0746 0754

STL(ROB)+iForest 0640 0878 0747 0786

Twitter+HDoutliers 0471 0735 0597 0620

Twitter+GESD 0306 0590 0429 0434

Twitter+iForest 0529 0801 0652 0660

STR+HDoutliers 0611 0841 0603 0672

STR+GESD 0345 0650 0292 0448

STR+iForest 0674 0885 0679 0721

STR(ROB)+HDoutliers 0542 0812 0638 0658

STR(ROB)+GESD 0381 0685 0458 0558

STR(ROB)+iForest 0623 0862 0699 0714

Cuadro A1 Resultados Escenario 1Sensibilidad AR(1)

A1 TABLAS DE SENSIBILIDAD 75

Caso 1 Caso 2 Caso 3 Caso 4

X-13ARIMA-SEATS 0505 0829 0646 0875

TRAMO-SEATS 0668 0914 0743 0888

STL+HDoutliers 0472 0729 0481 0684

STL+GESD 0217 0457 0148 0428

STL+iForest 0506 0784 0525 0716

STL(ROB)+HDoutliers 0469 0735 0588 0648

STL(ROB)+GESD 0529 0775 0665 0668

STL(ROB)+iForest 0526 0803 0666 0716

Twitter+HDoutliers 0465 0698 0596 0646

Twitter+GESD 0349 0630 0483 0486

Twitter+iForest 0512 0778 0663 0692

STR+HDoutliers 0588 0823 0573 0664

STR+GESD 0298 0602 0247 0449

STR+iForest 0630 0869 0651 0721

STR(ROB)+HDoutliers 0521 0788 0611 0649

STR(ROB)+GESD 0336 0628 0406 0520

STR(ROB)+iForest 0582 0839 0691 0711

Cuadro A2 Resultados Escenario 2 Sensibilidad MA(1)

76 APEacuteNDICE A TABLAS

Caso 1 Caso 2 Caso 3 Caso 4

X-13ARIMA-SEATS 0922 0971 0927 0983

TRAMO-SEATS 0923 0972 0923 0982

STL+HDoutliers 0312 0508 0241 0440

STL+GESD 0089 0230 0051 0152

STL+iForest 0343 0578 0284 0454

STL(ROB)+HDoutliers 0261 0435 0297 0333

STL(ROB)+GESD 0311 0527 0393 0322

STL(ROB)+iForest 0298 0501 0336 0362

Twitter+HDoutliers 0064 0112 0127 0066

Twitter+GESD 0028 0040 0069 0032

Twitter+iForest 0079 0129 0169 0070

STR+HDoutliers 0407 0563 0348 0440

STR+GESD 0204 0367 0109 0230

STR+iForest 0445 0617 0389 0495

STR(ROB)+HDoutliers 0243 0397 0254 0272

STR(ROB)+GESD 0209 0391 0225 0259

STR(ROB)+iForest 0282 0455 0284 0293

Cuadro A3 Resultados Escenario 3 Sensibilidad ARIMA(011)

A1 TABLAS DE SENSIBILIDAD 77

Caso 1 Caso 2 Caso 3 Caso 4

X-13ARIMA-SEATS 0403 0593 0068 0816

TRAMO-SEATS 0542 0707 0072 0814

STL+HDoutliers 0005 0004 0016 0004

STL+GESD 0000 0001 0004 0000

STL+iForest 0003 0003 0015 0005

STL(ROB)+HDoutliers 0007 0007 0037 0004

STL(ROB)+GESD 0009 0021 0099 0029

STL(ROB)+iForest 0006 0008 0036 0005

Twitter+HDoutliers 0001 0000 0001 0008

Twitter+GESD 0006 0009 0012 0023

Twitter+iForest 0001 0000 0005 0018

STR+HDoutliers 0370 0428 0006 0088

STR+GESD 0424 0462 0000 0138

STR+iForest 0418 0479 0004 0103

STR(ROB)+HDoutliers 0028 0019 0011 0076

STR(ROB)+GESD 0064 0063 0051 0140

STR(ROB)+iForest 0022 0014 0010 0027

Cuadro A4 Resultados Escenario 4 Sensibilidad ARIMA(011)x(011)12

78 APEacuteNDICE A TABLAS

Caso 1 Caso 2 Caso 3 Caso 4

X-13ARIMA-SEATS 0266 0629 0177 0574

TRAMO-SEATS 0400 0750 0251 0618

STL+HDoutliers 0247 0477 0291 0130

STL+GESD 0093 0260 0160 0024

STL+iForest 0270 0536 0312 0138

STL(ROB)+HDoutliers 0278 0489 0358 0102

STL(ROB)+GESD 0400 0688 0478 0132

STL(ROB)+iForest 0314 0553 0398 0133

Twitter+HDoutliers 0254 0439 0363 0108

Twitter+GESD 0176 0385 0317 0064

Twitter+iForest 0274 0486 0388 0131

STR+HDoutliers 0664 0895 0240 0760

STR+GESD 0425 0770 0065 0567

STR+iForest 0724 0939 0283 0800

STR(ROB)+HDoutliers 0197 0334 0220 0529

STR(ROB)+GESD 0190 0333 0207 0692

STR(ROB)+iForest 0235 0369 0238 0591

Cuadro A5 Resultados Escenario 5 Sensibilidad ARIMA(101)x(012)12

A1 TABLAS DE SENSIBILIDAD 79

Caso 1 Caso 2 Caso 3 Caso 4

X-13ARIMA-SEATS 0333 0662 0355 0618

TRAMO-SEATS 0460 0767 0480 0656

STL+HDoutliers 0521 0798 0502 0629

STL+GESD 0230 0559 0188 0328

STL+iForest 0565 0836 0572 0651

STL(ROB)+HDoutliers 0519 0788 0605 0601

STL(ROB)+GESD 0541 0828 0676 0561

STL(ROB)+iForest 0566 0843 0668 0648

Twitter+HDoutliers 0246 0423 0362 0212

Twitter+GESD 0104 0232 0187 0102

Twitter+iForest 0284 0456 0398 0230

STR+HDoutliers 0527 0788 0444 0641

STR+GESD 0279 0585 0152 0386

STR+iForest 0600 0825 0499 0685

STR(ROB)+HDoutliers 0407 0674 0497 0550

STR(ROB)+GESD 0277 0527 0352 0404

STR(ROB)+iForest 0462 0735 0573 0582

Cuadro A6 Resultados Escenario 6 Sensibilidad ARIMA(111)x(101)12

80 APEacuteNDICE A TABLAS

Caso 1 Caso 2 Caso 3 Caso 4

X-13ARIMA-SEATS 0299 0638 0335 0632

TRAMO-SEATS 0424 0717 0432 0801

STL+HDoutliers 0432 0705 0397 0626

STL+GESD 0177 0416 0109 0351

STL+iForest 0514 0762 0463 0530

STL(ROB)+HDoutliers 0441 0686 0494 0613

STL(ROB)+GESD 0461 0731 0556 0584

STL(ROB)+iForest 0491 0723 0548 0528

Twitter+HDoutliers 0280 0471 0387 0354

Twitter+GESD 0129 0288 0191 0147

Twitter+iForest 0008 0017 0051 0050

STR+HDoutliers 0456 0700 0467 0568

STR+GESD 0203 0439 0167 0274

STR+iForest 0515 0778 0443 0638

STR(ROB)+HDoutliers 0424 0687 0510 0554

STR(ROB)+GESD 0262 0524 0330 0366

STR(ROB)+iForest 0349 0562 0413 0388

Cuadro A7 Resultados Escenario 7 Sensibilidad ARIMA(112)x(011)12

A1 TABLAS DE SENSIBILIDAD 81

Caso 1 Caso 2 Caso 3 Caso 4

X-13ARIMA-SEATS 0299 0638 0335 0632

TRAMO-SEATS 0424 0717 0432 0801

STL+HDoutliers 0432 0705 0397 0626

STL+GESD 0177 0416 0109 0351

STL+iForest 0485 0738 0428 0665

STL(ROB)+HDoutliers 0441 0686 0494 0613

STL(ROB)+GESD 0461 0731 0556 0584

STL(ROB)+iForest 0494 0755 0566 0678

Twitter+HDoutliers 0280 0471 0387 0354

Twitter+GESD 0129 0288 0191 0147

Twitter+iForest 0306 0509 0430 0359

STR+HDoutliers 0456 0700 0467 0568

STR+GESD 0203 0439 0167 0274

STR+iForest 0497 0772 0507 0602

STR(ROB)+HDoutliers 0424 0687 0510 0554

STR(ROB)+GESD 0262 0524 0330 0366

STR(ROB)+iForest 0465 0755 0577 0590

Cuadro A8 Resultados Escenario 8 Sensibilidad ARIMA(011)x(100)12

82 APEacuteNDICE A TABLAS

A2 Tablas de exceso

Caso 1 Caso 2 Caso 3 Caso 4

X-13ARIMA-SEATS 0078 0077 0066 0042

TRAMO-SEATS 0211 0208 0222 0056

STL+HDoutliers 0788 0829 0805 1534

STL+GESD 0056 0055 0045 0031

STL+iForest 0406 0300 0404 0659

STL(ROB)+HDoutliers 1162 1242 1212 1714

STL(ROB)+GESD 1411 1417 1416 0461

STL(ROB)+iForest 0637 0468 0575 0859

Twitter+HDoutliers 0930 0955 0905 1487

Twitter+GESD 0257 0273 0254 0069

Twitter+iForest 0538 0412 0490 0776

STR+HDoutliers 0759 0810 0759 1464

STR+GESD 0053 0062 0046 0024

STR+iForest 0403 0301 0381 0725

STR(ROB)+HDoutliers 0749 0842 0758 1460

STR(ROB)+GESD 0199 0196 0192 0099

STR(ROB)+iForest 0427 0315 0413 0749

Cuadro A9 Resultados Escenario 1 Exceso AR(1)

A2 TABLAS DE EXCESO 83

Caso 1 Caso 2 Caso 3 Caso 4

X-13ARIMA-SEATS 0054 0058 0066 0058

TRAMO-SEATS 0144 0138 0175 0061

STL+HDoutliers 0695 0772 0759 1472

STL+GESD 0034 0038 0050 0016

STL+iForest 0443 0318 0425 0706

STL(ROB)+HDoutliers 1168 1221 1180 1703

STL(ROB)+GESD 1309 1349 1415 0418

STL(ROB)+iForest 0682 0528 0621 0877

Twitter+HDoutliers 0836 0832 0911 1577

Twitter+GESD 0313 0329 0334 0061

Twitter+iForest 0552 0417 0483 0755

STR+HDoutliers 0798 0885 0694 1541

STR+GESD 0054 0064 0044 0018

STR+iForest 0407 0302 0396 0724

STR(ROB)+HDoutliers 0725 0776 0745 1516

STR(ROB)+GESD 0134 0143 0142 0076

STR(ROB)+iForest 0435 0312 0372 0727

Cuadro A10 Resultados Escenario 2 Exceso MA(1)

84 APEacuteNDICE A TABLAS

Caso 1 Caso 2 Caso 3 Caso 4

X-13ARIMA-SEATS 0106 0060 0101 0070

TRAMO-SEATS 0179 0123 0175 0085

STL+HDoutliers 0638 0635 0686 1376

STL+GESD 0052 0054 0067 0020

STL+iForest 0448 0346 0468 0867

STL(ROB)+HDoutliers 0932 0905 1010 1604

STL(ROB)+GESD 2339 2311 2338 1863

STL(ROB)+iForest 0705 0573 0695 1281

Twitter+HDoutliers 0311 0285 0311 0743

Twitter+GESD 1302 1282 1331 1946

Twitter+iForest 0167 0153 0175 0645

STR+HDoutliers 0672 0703 0623 1364

STR+GESD 0180 0183 0119 0050

STR+iForest 0372 0297 0393 0899

STR(ROB)+HDoutliers 0598 0568 0588 1225

STR(ROB)+GESD 1030 1008 0999 1341

STR(ROB)+iForest 0463 0383 0464 1108

Cuadro A11 Resultados Escenario 3 Exceso ARIMA(011)

A2 TABLAS DE EXCESO 85

Caso 1 Caso 2 Caso 3 Caso 4

X-13ARIMA-SEATS 0132 0120 0062 0274

TRAMO-SEATS 0198 0180 0075 0274

STL+HDoutliers 0832 0823 0837 1337

STL+GESD 0231 0225 0226 0165

STL+iForest 0727 0710 0718 1237

STL(ROB)+HDoutliers 1197 1152 1186 1230

STL(ROB)+GESD 4756 4699 4689 7954

STL(ROB)+iForest 0992 0993 0983 1514

Twitter+HDoutliers 0144 0162 0182 0376

Twitter+GESD 3050 2761 2813 6058

Twitter+iForest 0123 0128 0121 0508

STR+HDoutliers 1108 1135 1027 1454

STR+GESD 1469 1679 0582 4430

STR+iForest 0732 0674 0882 1653

STR(ROB)+HDoutliers 1382 1266 0876 10915

STR(ROB)+GESD 4452 4583 4289 19321

STR(ROB)+iForest 0831 0845 0828 1858

Cuadro A12 Resultados Escenario 4 Exceso ARIMA(011)x(011)12

86 APEacuteNDICE A TABLAS

Caso 1 Caso 2 Caso 3 Caso 4

X-13ARIMA-SEATS 0109 0123 0111 0069

TRAMO-SEATS 0239 0301 0312 0139

STL+HDoutliers 0869 0762 0986 1367

STL+GESD 0170 0170 0198 0244

STL+iForest 0667 0475 0712 1291

STL(ROB)+HDoutliers 1328 1357 1499 1287

STL(ROB)+GESD 2517 2530 2919 5438

STL(ROB)+iForest 0992 0813 0978 1444

Twitter+HDoutliers 1041 0966 1065 1383

Twitter+GESD 0796 0854 0830 2221

Twitter+iForest 0808 0655 0735 1412

STR+HDoutliers 0799 0979 0846 1551

STR+GESD 0101 0087 0083 0029

STR+iForest 0383 0286 0619 0669

STR(ROB)+HDoutliers 0764 0759 0755 1692

STR(ROB)+GESD 1600 1591 1490 8145

STR(ROB)+iForest 0603 0492 0593 0894

Cuadro A13 Resultados Escenario 5 Exceso ARIMA(101)x(012)12

A2 TABLAS DE EXCESO 87

Caso 1 Caso 2 Caso 3 Caso 4

X-13ARIMA-SEATS 0179 0167 0141 0096

TRAMO-SEATS 0307 0299 0297 0127

STL+HDoutliers 0792 0783 0775 1598

STL+GESD 0052 0050 0049 0030

STL+iForest 0452 0306 0459 0748

STL(ROB)+HDoutliers 1193 1207 1269 1697

STL(ROB)+GESD 1290 1324 1270 0437

STL(ROB)+iForest 0708 0531 0670 0952

Twitter+HDoutliers 0690 0698 0676 1157

Twitter+GESD 0266 0257 0225 0523

Twitter+iForest 0538 0416 0459 1063

STR+HDoutliers 0740 0853 0796 1429

STR+GESD 0065 0077 0063 0036

STR+iForest 0432 0311 0493 0750

STR(ROB)+HDoutliers 0749 0799 0717 1477

STR(ROB)+GESD 0317 0291 0254 0167

STR(ROB)+iForest 0502 0373 0463 0839

Cuadro A14 Resultados Escenario 6 Exceso ARIMA(111)x(101)12

88 APEacuteNDICE A TABLAS

Caso 1 Caso 2 Caso 3 Caso 4

X-13ARIMA-SEATS 0147 0138 0115 0081

TRAMO-SEATS 0278 0285 0287 0261

STL+HDoutliers 0788 0815 0776 1392

STL+GESD 0045 0047 0042 0031

STL+iForest 0471 0337 0478 0842

STL(ROB)+HDoutliers 1122 1183 1194 1785

STL(ROB)+GESD 1364 1387 1340 0670

STL(ROB)+iForest 0720 0559 0711 1100

Twitter+HDoutliers 0125 0109 0084 0092

Twitter+GESD 3247 3207 3185 7613

Twitter+iForest 0087 0066 0073 0294

STR+HDoutliers 0854 0807 0773 1430

STR+GESD 0069 0069 0050 0036

STR+iForest 0438 0357 0484 0793

STR(ROB)+HDoutliers 0765 0755 0725 1370

STR(ROB)+GESD 0434 0489 0510 0536

STR(ROB)+iForest 0581 0471 0547 1064

Cuadro A15 Resultados Escenario 7 Exceso ARIMA(112)x(011)12

A2 TABLAS DE EXCESO 89

Caso 1 Caso 2 Caso 3 Caso 4

X-13ARIMA-SEATS 0090 0095 0104 0056

TRAMO-SEATS 0487 0475 0494 0446

STL+HDoutliers 0734 0814 0749 1507

STL+GESD 0068 0059 0052 0025

STL+iForest 0496 0352 0479 0747

STL(ROB)+HDoutliers 1157 1098 1083 1660

STL(ROB)+GESD 1232 1281 1260 0294

STL(ROB)+iForest 0764 0566 0687 0918

Twitter+HDoutliers 0859 0822 0860 1415

Twitter+GESD 0214 0209 0217 0114

Twitter+iForest 0606 0526 0550 1031

STR+HDoutliers 0797 0792 0778 1469

STR+GESD 0048 0059 0042 0017

STR+iForest 0461 0336 0464 0782

STR(ROB)+HDoutliers 0786 0726 0699 1494

STR(ROB)+GESD 0159 0146 0145 0072

STR(ROB)+iForest 0520 0359 0433 0830

Cuadro A16 Resultados Escenario 8 Exceso ARIMA(011)x(100)12

90 APEacuteNDICE A TABLAS

Bibliografiacutea

Abraham B y Box G E P (1979) Bayesian analysis of some outlier problems in time seriesBiometrika 66 (2) 229ndash236

Barnett V y Lewis T (1996) Outliers in statistical data 3rd edition (John Wiley amp Sons Chi-chester) 584 pp [UK pound]5500 ISBN 0-471-93094-6 International Journal of Forecasting 12 (1) 175-176

Bell W (1983) A computer program for detecting outliers in time series Proceedings of the AmericanStatistical Association Business and Economic Statistics Section 634-639

Box G y Jenkins G (1976) Time series analysis forecasting and control En (Vol 134) doi1023072344246

Box G E P y Tiao G C (1975) Intervention analysis with applications to economic and environ-mental problems Journal of the American Statistical Association 70 (349) 70ndash79

Breunig M Kriegel H-P Ng R y Sander J (2000) Lof Identifying density-based local outliersEn (Vol 29 p 93-104) doi 101145342009335388

Chang I Tiao G y Chen C (1988) Estimation of time series parameters in the presence of outliersTechnometrics 30 193-204 doi 10108000401706198810488367

Chang I y Tiao G C (1983) Estimation of time series parameters in the presence of outliersTechnical Report 8 University of Chicago Statistics Research Center 30

Chauvenet W (1963) A manual of spherical and practical astronomy volume 2 474-566Chen C y Liu L-M (1993) Joint estimation of model parameters and outlier effects in time series

Journal of the American Statistical Association 88 (421) 284ndash297Cleveland R B Cleveland W S McRae J E y Terpenning I (1990) STL A seasonal-trend

decomposition procedure based on Loess Journal of Official Statistics 6 Dancho M y Vaughan D (2019) Anomalize Tidy anomaly detection [Manual de software informaacute-

tico]Datacamp (2018) Detect anomalies with anomalize in r httpswwwdatacampcomcommunity

tutorialsdetect-anomalies-anomalize-r (Visitado 2020-06-16)de Lacalle J L (2015) Detection of outliers in time series with r httpsjalobecomtsoutliers

(Visitado 2020-03-16)de Lacalle J L (2019) Detection of outliers in time series [Manual de software informaacutetico] https

cranr-projectorgwebpackagestsoutlierstsoutlierspdfDokumentov A y Hyndman R J (2015) STR A seasonal-trend decomposition procedure based

on Regression

91

92 BIBLIOGRAFIacuteA

Dokumentov A y Hyndman R J (2018) str Str decomposition [Manual de software informaacutetico](httpscranr-projectorgwebpackagesstRindexhtml)

Fraley C y Wilkinson L (2020) Hdoutliers Leland wilkinsonrsquos algorithm for detecting multidimen-sionaloutliers [Manual de software informaacutetico]

Goacutemez V y Maravall A (1997) Programs tramo and seats instructions for the user Mimeo Bancode Espantildea

Goacutemez V y Taguas D (1995) Deteccioacuten y correccioacuten automaacutetica de outliers con tramo Unaaplicacioacuten al ipc de bienes industriales no energeacuteticos

Grubbs F (1950) Sample criteria for testing outlying observations The Annals of MathematicalStatistics 21 doi 101214aoms1177729885

Hawkins D (1980) Identification of outliers London [ua] Chapman and HallHochenbaum J Vallis O y Kejariwal A (2017) Automatic anomaly detection in the cloud via

statistical learningHoerl A y Kennard R (1970) Ridge regression Biased estimation for nonorthogonal problems

Technometrics 8 27-51Hyndman R (2020) Forecasting functions for time series and linear models [Manual de software

informaacutetico] httpscranr-projectorgwebpackagesforecastforecastpdfla Tente A Q Michalek A Palate J y Baeyens R (2020) Rjdemetra Interface to rsquojdemetra+rsquo

seasonal adjustment software [Manual de software informaacutetico]Liu F T Ting K y Zhou Z-H (2009) Isolation forest En (p 413 - 422) doi 101109

ICDM200817Mahdavinejad M S Rezvan M Barekatain M Adibi P Barnaghi P y Sheth A P (2018)

Machine learning for internet of things data analysis a survey Digital Communications andNetworks 4 (3) 161 - 175 doi httpsdoiorg101016jdcan201710002

Moore D y McCabe G (1999) Introduction to the practice of statistics WH FreemanOtto M y Bell W (1990) Two issues in time series outlier detection using indicator variables

Proceedings of the American Statistical Association Business and Economic Statistics Section182-187

Peirce B (1852) Criterion for rejection of doubtful observations The Astronomical Journal 2 161-163 doi 101086100259

Pentildea D (2010) Anaacutelisis de series temporales Alianza EditorialRosner B (1975) On the detection of many outliers Technometrics 17 221-227 doi 101080

00401706197510489305Rosner B (1983) Percentagepoints for a generalized esd many-outier procedure Technometrics 25

165-172 doi 10108000401706198310487848Rousseeuw P y Hubert M (2011) Robust statistics for outlier detection Wiley Interdisc Rew

Data Mining and Knowledge Discovery 1 73-79 doi 101002widm2Shan G (2015) Improved confidence intervals for the youden index

doi 01371journalpone0127272Shiskin J Young A y Musgrave J (1967) The x-11 variant of the census method ii seasonal

adjustment program

BIBLIOGRAFIacuteA 93

Srikanth K S (2017) solitude An implementation of isolation forest [Manual de software informaacutetico](R package version 021 mdash For new features see the rsquoSolitudersquo file (in the package source))

Thompson W (1935) On a criterion for the rejection of observations and the distribution of theratio of deviation to sample standard deviation The Annals of Mathematical Statistics 6 doi101214aoms1177732567

Tibshirani R (1996) Regression shrinkage and selection via the lasso Journal of the Royal StatisticalSociety Series B (Methodological) 58 267-288 doi 101111j2517-61611996tb02080x

Time Series Research Staff (2017) X-13ARIMA-SEATS Reference Manual Center for StatisticalResearch and Methodology

Tsay R S (1986) Time series model specification in the presence of outliers Journal of the AmericanStatistical Association 81 (393) 132ndash141

Tsay R S y Tiao G C (1984) Consistent estimates of autoregressive parameters and extendedsample autocorrelation function for stationary and nonstationary arma models Journal of theAmerican Statistical Association 79 (385) 84ndash96

Tukey J W (1977) Exploratory data analysis Addison-WesleyTwitter Inc (2015) Anomalydetection r package GitHub (httpsgithubcomtwitter

AnomalyDetection)Wilkinson L (2017) Visualizing big data outliers through distributed aggregation IEEE Transactions

on Visualization and Computer Graphics PP 1-1 doi 101109TVCG20172744685Woodward W A Gray H L y Elliott A C (2017) Applied time series analysis with r second

edition Journal of Time Series Analysis 39 618 doi 101111jtsa12273Youden W (1950) Youden wjindex for rating diagnostic tests cancer 3(1) 32-35 Cancer 3 32-5

doi 1010021097-0142(1950)3130CO2-3

  • Resumen
  • Introduccioacuten
  • Modelizacioacuten de series temporales
    • Conceptos baacutesicos
    • Meacutetodos de modelizacioacuten de series temporales
      • X-13ARIMA-SEATS
      • TRAMO-SEATS
      • STL
      • STR
      • Twitter
        • Resumen meacutetodos de modelizacioacuten de series temporales
          • Deteccioacuten de valores atiacutepicos
            • Conceptos baacutesicos
            • Meacutetodos de deteccioacuten de valores atiacutepicos
              • X-13ARIMA-SEATS
              • TRAMO-SEATS
              • GESD
              • Isolation Forest
              • HDoutliers
                • Resumen meacutetodos de deteccioacuten de valores atiacutepicos
                • Meacutetodos de deteccioacuten de valores atiacutepicos en series temporales
                  • Estudio de simulacioacuten
                    • Escenarios
                    • Iacutendice de Youden
                    • Resultados
                    • Conclusiones
                      • Aplicacioacuten a datos reales
                        • Anaacutelisis Series IGE
                        • Anaacutelisis Graacutefico
                          • Conclusiones
                          • Tablas
                            • Tablas de sensibilidad
                            • Tablas de exceso
                              • Bibliografiacutea
Page 2: Trabajo Fin de Máster - USC

ii

iii

Propuesta de Trabajo Fin de Maacutester

Tiacutetulo en galego Deteccioacuten de outliers en grandes bases de datos

Tiacutetulo en espantildeol Deteccioacuten de outliers en grandes bases de datos

English title Outlier detection in big data

Modalidad Modalidad B

Autora Sergio Da Vila Davila Universidad de Santiago de Compostela

Directora Mariacutea Joseacute Lombardiacutea Cortintildea Universidade da Coruntildea

Tutora Esther Loacutepez Vizcaiacuteno Instituto Galego de Estadiacutestica

Breve resumen del trabajo

La presencia de valores atiacutepicos en un conjunto de datos puede condicionar gravemente lasconclusiones que se extraigan de ellos Por ello se realiza una comparativa de diferentesmeacutetodos de deteccioacuten de valores atiacutepicos en series temporales a traveacutes de un estudio desimulacioacuten Este estudio nos permite observar cuales son los mejores meacutetodos y analizartanto la presencia de atiacutepicos como el efecto del Covid19 sobre los conjuntos de datos delIGE

Recomendaciones

Otras observaciones

iv

v

Dontildea Mariacutea Joseacute Lombardiacutea Cortintildea profesora titular de Universidad del Departamento de Matemaacute-ticas da Universidade da Coruntildea y dontildea Esther Loacutepez Vizcaiacuteno responsable del Servicio de Difusioacutene Informacioacuten del Instituto Galego de Estadiacutestica informan que el Trabajo Fin de Maacutester titulado

Deteccioacuten de outliers en grandes bases de datos

fue realizado bajo su direccioacuten por don Sergio Da Vila Davila para el Maacutester en Teacutecnicas EstadiacutesticasEstimando que el trabajo estaacute terminado dan su conformidad para su presentacioacuten y defensa ante untribunal

En Santiago de Compostela a 14 de julio de 2020

La directora

Dontildea Mariacutea Joseacute Lombardiacutea Cortintildea

La tutora

Dontildea Esther Loacutepez Vizcaiacuteno

El autor

Don Sergio Da Vila Davila

vi

Iacutendice general

Resumen ix

1 Introduccioacuten 1

2 Modelizacioacuten de series temporales 5

21 Conceptos baacutesicos 5

22 Meacutetodos de modelizacioacuten de series temporales 8

221 X-13ARIMA-SEATS 8

222 TRAMO-SEATS 8

223 STL 10

224 STR 11

225 Twitter 11

23 Resumen meacutetodos de modelizacioacuten de series temporales 13

3 Deteccioacuten de valores atiacutepicos 15

31 Conceptos baacutesicos 15

32 Meacutetodos de deteccioacuten de valores atiacutepicos 17

321 X-13ARIMA-SEATS 17

322 TRAMO-SEATS 18

323 GESD 19

324 Isolation Forest 20

325 HDoutliers 21

33 Resumen meacutetodos de deteccioacuten de valores atiacutepicos 23

34 Meacutetodos de deteccioacuten de valores atiacutepicos en series temporales 24

4 Estudio de simulacioacuten 27

41 Escenarios 27

42 Iacutendice de Youden 29

43 Resultados 32

44 Conclusiones 41

vii

viii IacuteNDICE GENERAL

5 Aplicacioacuten a datos reales 4351 Anaacutelisis Series IGE 4352 Anaacutelisis Graacutefico 66

6 Conclusiones 71

A Tablas 73A1 Tablas de sensibilidad 73A2 Tablas de exceso 82

Bibliografiacutea 91

Resumen

Resumen en espantildeol

El objetivo de este trabajo es el de realizar un anaacutelisis acerca de la presencia de valores atiacutepicos enlos diferentes conjuntos de datos del Instituto Gallego de Estadiacutestica Para ello realizamos una revisioacutenbibliograacutefica que nos permite conocer los meacutetodos actuales y el recorrido que se produjo hasta llegar alos mismos A traveacutes de esta revisioacuten comprendemos la idea que se esconde detraacutes de la deteccioacuten devalores atiacutepicos en series temporales y somos capaces de proponer nuestros propios meacutetodos

Para comparar el comportamiento de los diferentes meacutetodos realizamos un estudio de simulacioacutenel cual nos sirve para contrastar el buen comportamiento de nuestras propuestas y para descartar otrosmeacutetodos

Finalmente aplicamos los meacutetodos que han reflejado un comportamiento maacutes consistente en elestudio de simulacioacuten y analizamos el efecto del Covid19 en el incremento de valores atiacutepicos en losconjuntos de datos Ademaacutes con el objetivo de reducir la incertidumbre asociada al campo de ladeteccioacuten de valores atiacutepicos introducimos una nueva herramienta graacutefica

English abstract

The aim of this project is to carry out an analysis about the presence of outliers in the differentdata sets of the Galician Institute of Statistics We carried out a bibliographic review that allows us toknow the current methods and the route that took place until we reached them Through this reviewwe understand the idea behind the detection of outliers in time series and we are able to propose ourown methods

To compare the behavior of the different methods we carried out a simulation study which helpsus compare the good behavior of our proposals and to rule out other methods

Finally we applied the methods that have reflected a more consistent behavior in the simulationstudy and analyzed the effect of Covid19 on the increase of outliers in the data sets Furthermore withthe aim of reducing the uncertainty associated with the field of outlier detection we introduced a newgraphical tool

ix

x RESUMEN

Capiacutetulo 1

Introduccioacuten

El Instituto Galego de Estadiacutestica (IGE) es un organismo autoacutenomo de la Xunta de Galicia creadoen el antildeo 1988 cuyo objetivo es el de promover el desarrollo del sistema estadiacutestico de la comunidadautoacutenoma mediante servicios de recopilacioacuten y difusioacuten de la documentacioacuten estadiacutestica disponibledesenvolver bases de datos de intereacutes puacuteblico analizar las necesidades y la evolucioacuten de la demandade estadiacutesticas y asegurar su difusioacuten El IGE se erige por tanto como una de las principales fuentesde informacioacuten de datos de caraacutecter socioeconoacutemico de Galicia y de sus divisiones territoriales

Al igual que el resto de organismos del mismo aacutembito el IGE estaacute experimentando un incrementocontinuo tanto en la generacioacuten como en el almacenamiento de datos Es por esto que se hace devital importancia el incorporar una herramienta que nos permita identificar de un modo automaacuteticoposibles candidatos a valores atiacutepicos dentro de nuestros conjuntos de datos

Un dato atiacutepico o outlier en ingleacutes es una observacioacuten anoacutemala en comparacioacuten con el restode datos contenidos en un determinado conjunto de datos Puede deberse a diversos motivos desdeerrores humanos errores relacionados con la medicioacuten grabacioacuten e introduccioacuten de los datos hastacausas como que el dato procede de una poblacioacuten diferente de la que se pretende estudiar

Existen multitud de definiciones que nos permiten dibujarnos una idea de a queacute nos referimoscuando hablamos de valores atiacutepicos

ldquoUn dato atiacutepico es una observacioacuten que se desviacutea tanto del resto de observaciones como paracrear la sospecha de que fue creada por un mecanismo generador diferenterdquo - Hawkins (1980)

ldquoUn dato atiacutepico es una observacioacuten (o conjunto de observaciones) que son inconsistentes con elresto de datosrdquo - Barnett y Lewis (1996)

ldquoUn outlier es una observacioacuten que se encuentra fuera del patroacuten general de una distribucioacutenrdquo-Moore y McCabe (1999)

ldquoLos datos atiacutepicos pueden ser dependiendo de la circunstancia errores no deseados que puedenafectar negativamente al resultado o valiosas pepitas de informacioacuten inesperadardquo- Rousseeuw yHubert (2011)

Eliminar un dato de una muestra por haberlo considerado atiacutepico puede llevar a perder informacioacutenrelevante debido a una singularidad del mecanismo generador y a su vez incluir un dato atiacutepico en una

1

2 CAPIacuteTULO 1 INTRODUCCIOacuteN

muestra puede confundir los resultados Ambos casos alteran los anaacutelisis posteriores y pueden dirigira conclusiones incorrectas si se llegara a tomar la decisioacuten equivocada Por lo tanto la importanciareside en identificar de manera adecuada queacute datos son atiacutepicos y cuaacuteles no

Esta identificacioacuten seraacute de gran utilidad dado que permitiraacute tanto realizar mejores anaacutelisis comopoder interpretar sucesos relevantes en el contexto socio-econoacutemico gallego

El problema de la deteccioacuten de atiacutepicos es un tema ampliamente tratado en la literatura por loque nuestro trabajo consistiraacute en realizar un estudio comparativo de los meacutetodos maacutes comunes en laactualidad y plantear posibles mejoras

Uno de los criterios a los que le prestaremos mayor atencioacuten en este estudio seraacute a la sensibilidaddel meacutetodo dado que si este es muy sensible e identifica muchos candidatos como atiacutepicos no serviraacute degran ayuda Por otra parte si apenas sentildeala ninguacuten caso seraacute similar a no aplicar ninguna herramientade deteccioacuten

Para estudiar este comportamiento realizaremos un estudio de simulacioacuten en el que a traveacutes devalores atiacutepicos previamente identificados podremos analizar el comportamiento de cada meacutetodoAdemaacutes dado que trabajamos con un gran volumen de datos una caracteriacutestica que se les exigiraacute alos meacutetodos seraacute una raacutepida velocidad de ejecucioacuten

La deteccioacuten de datos atiacutepicos tiene aplicaciones en muchos aacutembitos deteccioacuten de operacionesfraudulentas en tarjetas de creacutedito solicitudes para preacutestamos de clientes potencialmente morososdeteccioacuten de intrusiones en redes de comunicacioacuten monitorizacioacuten de paraacutemetros de fabricacioacuten paradeteccioacuten de producciones defectuosas anomaliacuteas en monitorizaciones meacutedicas anaacutelisis electoraleslimpieza de datos prediccioacuten del tiempo o hasta en astronomiacutea donde un punto anoacutemalo puedeimplicar el descubrimiento de una nueva estrella

En este trabajo nos centraremos en datos reales provenientes de la paacutegina web del IGE recogidosen siete conjuntos

Conjunto 1 Viajeros noches y estancia media en establecimientos hoteleros y de turismo ruralen Espantildea Galicia y sus provincias Datos mensuales Los datos proceden del Instituto Nacio-nal de Estadiacutestica (INE) de la Encuesta de ocupacioacuten hotelera y la Encuesta de ocupacioacuten enalojamientos de turismo rural (httpwwwigeeuigebdtigeapidatos3476)

Conjunto 2 Poblacioacuten de 16 y maacutes antildeos por sexo grupos de edad y relacioacuten con la actividadeconoacutemica en Galicia Datos trimestrales Los datos proceden de la Encuesta de Poblacioacuten Activa(EPA) elaborada conjuntamente entre el INE y el IGE (httpwwwigeeuigebdtigeapidatos6356)

Conjunto 3 Contratos registrados seguacuten su modalidad Datos mensuales Esta informacioacuten proce-de de la Estadiacutestica de contratos registrados elaborada por el Servicio Puacuteblico de Empleo Estatal(SEPE) (httpwwwigeeuigebdtigeapidatos308)

Conjunto 4 Iacutendice de produccioacuten industrial general y por destino econoacutemico de los bienes en Ga-licia (Base 2015) Datos mensuales La informacioacuten procede del Iacutendice de Produccioacuten Industrialoperacioacuten estadiacutestica ejecutada por el INE (httpwwwigeeuigebdtigeapidatos9048)

Conjunto 5 Transacciones inmobiliarias por reacutegimen y tipo de vivienda Nuacutemero valor totaly valor medio Datos trimestrales La fuente de esta informacioacuten es el Ministerio de Fomento y

3

hace referencia a la compraventa de viviendas elevadas a escritura puacuteblica ante notario (httpwwwigeeuigebdtigeapidatos4052)

Conjunto 6 Bajas de demandas de empleo seguacuten geacutenero y duracioacuten de la demanda en Galiciay sus provincias Datos mensuales La fuente de esta informacioacuten es el SEPE y hace referenciaa las bajas que los servicios de empleo puacuteblico tuvieron debido a una colocacioacuten no hacer larenovacioacuten de la demanda en el periodo establecido o por otras causas (httpwwwigeeuigebdtigeapidatos1243)

Conjunto 7 Afiliaciones a la Seguridad Social uacuteltimo diacutea del mes en Galicia y sus provinciasDatos mensuales La informacioacuten procede del Ministerio de Seguridad Social y Migraciones yhace referencia a las personas trabajadoras que estaacuten en alta en la Seguridad Social (httpwwwigeeuigebdtigeapidatos4885)

Los motivos por los que se han escogido estos conjuntos obedece a diversas razones En primerlugar el maacutes importante incluir series en las que existe el conocimiento de que se presentan atiacutepicosA partir de ahiacute se ha conformado un conjunto de series que permitiesen recoger la mayor amalgamade naturalezas posibles que se presentan en las series que trata el IGE mercado laboral turismoconstruccioacuten o industria Seriacutean aacutembitos que se recogen a lo largo de la seleccioacuten de datos realizadaAdemaacutes se han incorporado series con distinta frecuencia de obtencioacuten tanto series mensuales comotrimestrales

En este trabajo se recoge una comparativa de meacutetodos los cuales se pueden englobar bajo dosvisiones de coacutemo abordar la identificacioacuten de anomaliacuteas en series de tiempo Por un lado existen losmeacutetodos cuyo mecanismo se fundamenta en modelos de series temporales que realizan un procesoiterativo para estimar el modelo integrando la posible influencia de observaciones atiacutepicas Por el otrouna visioacuten maacutes reciente se plantea a traveacutes de realizar un proceso de deteccioacuten en dos partes en laprimera se le aplica a la serie de tiempo un meacutetodo de descomposicioacuten para despueacutes aplicar un meacutetodode deteccioacuten de atiacutepicos sobre el residuo

Dado que ambos enfoques comparten un nexo comuacuten como es la modelizacioacuten de la serie de tiempoy la localizacioacuten de atiacutepicos las podemos tratar conjuntamente en dos capiacutetulos el Capiacutetulo 2 y elCapiacutetulo 3

En el Capiacutetulo 2 se estudian las propiedades de modelizacioacuten de cada meacutetodo La importancia deun buen meacutetodo de modelizacioacuten de series temporales reside en que cuanto mejor se consiga extraer elmecanismo generador de la serie de tiempo maacutes resaltaraacuten las observaciones atiacutepicas En el Capiacutetulo 3se describen los meacutetodos de deteccioacuten de atiacutepicos Estos dos capiacutetulos conforman la parte teoacuterica deltrabajo

Para estudiar el comportamiento de los diferentes meacutetodos se plantea un profundo estudio desimulacioacuten en el Capiacutetulo 4 en el que se utiliza el Iacutendice de Youden como herramienta discriminatoriaacerca de queacute meacutetodos ofrecen mejores resultados En el Capiacutetulo 5 se tratan los datos proporcionadospor el IGE a traveacutes de los meacutetodos que han presentado un mejor comportamiento en el estudio desimulacioacuten Para finalizar el Capiacutetulo 6 expone las conclusiones que hemos extraiacutedo a lo largo de larealizacioacuten de este trabajo

4 CAPIacuteTULO 1 INTRODUCCIOacuteN

Capiacutetulo 2

Modelizacioacuten de series temporales

21 Conceptos baacutesicos

En este apartado definiremos los elementos principales que rodean a las series de tiempo Para ellopodemos echar mano de infinidad de manuales dado que las mismas son objeto de estudio en multitudde campos desde las ciencias sociales y econoacutemicas hasta ramas que requieren de un bagaje muchomaacutes matemaacutetico En este trabajo haremos uso de Pentildea (2010) y Woodward Gray y Elliott (2017)

En la estadiacutestica baacutesica estamos acostumbrados a trabajar con una muestra donde las observacio-nes X1 X2 Xn son variables aleatorias independientes e ideacutenticamente distribuidas Sin embargocuando las muestras se extraen en base a instantes de tiempo es muy probable que las observacionesesteacuten correlacionadas entre si Este tipo de muestras con dependencia temporal se denominan series detiempo Es decir una serie de tiempo es una secuencia de observaciones ordenadas cronoloacutegicamente

Este tipo de datos se utilizan en muacuteltiples disciplinas algunos ejemplos podriacutean incluir desde elaacutembito econoacutemico como la evolucioacuten del Producto Interior Bruto (PIB) o del precio del petroacuteleo hastaaacutembitos como la meteorologiacutea midiendo la temperatura de una localidad durante un periacuteodo de tiempoo el aacutembito sanitario siguiendo la evolucioacuten de una enfermedad en un paciente

Uno de los principales inconvenientes a la hora de trabajar con series temporales son los datos atiacute-picos Estos datos atiacutepicos pueden tener dos naturalezas errores no deseados o pepitas de informacioacuten(Rousseeuw y Hubert 2011) Estas pepitas de informacioacuten pueden servirnos por ejemplo para locali-zar sucesos importantes como huelgas medidas de poliacutetica econoacutemica o desastres naturales (Goacutemez yTaguas 1995) Al igual que en el resto de campos de la estadiacutestica que en nuestro conjunto de datos seencuentren valores atiacutepicos puede llevarnos a incurrir en errores de especificacioacuten Como se mencionaen Chang Tiao y Chen (1988) es importante ser capaz de identificar estos sucesos para comprendermejor la estructura subyacente de la serie

Uno de los modelos maacutes comuacutenmente usado y utilizado como punto de partida en el anaacutelisisde series temporales es el modelo ARIMA Los modelos ARIMA ajustan los valores de la serie enbase a las observaciones previas y errores aleatorios con una estructura que le permite incluir tantocomponentes ciacuteclicos como estacionales Siendo Xtt una serie de tiempo un modelo ARIMA seriacuteaaquel que admite una representacioacuten

5

6 CAPIacuteTULO 2 MODELIZACIOacuteN DE SERIES TEMPORALES

φ(B)(1minusB)dXt = c+ θ(B)at

donde Xt es la observacioacuten t de la serie de tiempo B el operador retardo definido por BXt = Xtminus1φ(B) = (1minusφ1(B)minusφ2B

2minusminusφpBp) φ(B) = (1minusθ1Bminusθ2B2minusminusθqBq) cφ1 φ2 φpθ1 θ2 θp

son constantes d es el nuacutemero de diferencias necesarias para eliminar la tendencia de la serie at esruido blanco y p y q los oacuterdenes de los procesos autorregresivos (AR) y de medias moviles (MA)

Con esta representacioacuten del modelo ARIMA se puede deducir raacutepidamente que estos no son maacutes quela mezcla de los dos primeros modelos de series temporales formulados los modelos AR y los modelosMA Ademaacutes si el proceso que genera la serie de tiempo presenta la posibilidad de estar formado porcomponentes de largo periacuteodo temporal se debe hacer uso de los ARIMA estacional muacuteltiplicativoARIMA(pdq)x(PDQ) cuya representacioacuten seriacutea

φ(B)Φ(Bs)(1minusB)d(1minusBs)DXt = c+ θ(B)Θ(Bs)at

En esta nueva formulacioacuten D es el nuacutemero de diferenciaciones estacionales aplicadas para eliminarla componente estacional Φi y Θj las constantes respectivas a la parte estacional para i = 1 2 P yj = 1 2 Q con P igual al orden del proceso AR estacional y Q al orden del proceso MA estacional

Sin embargo la presencia de atiacutepicos puede llevar a un incorrecto ajuste de los paraacutemetros delmodelo debido a que se pueden ver sesgados por el efecto del atiacutepico La mala estimacioacuten de losparaacutemetros nos conduce a diversos errores dado que podemos no diseccionar bien la estructura dela serie como para entender su comportamiento Ademaacutes en el caso de que el atiacutepico se produzcaen la uacuteltima parte de la serie afectariacutea a las estimaciones futuras incurriendo en un error mayor deprediccioacuten

Por ello surgieron meacutetodos como X-13ARIMA-SEATS o TRAMO-SEATS que parten de los mo-delos ARIMA e introducen mejoras como la deteccioacuten y correccioacuten de atiacutepicos Estos meacutetodos fueronampliamente utilizados durante mucho tiempo para la modelizacioacuten de series temporales Sin embargoel desarrollo de la tecnologiacutea provocoacute la creacioacuten del Internet de las Cosas (Mahdavinejad et al 2018)un entorno en el que casi la totalidad de los objetos y personas estaacute conectado a internet dejandohuella de su comportamiento Las caracteriacutesticas de esta red provocaron un incremento enorme en lacreacioacuten y obtencioacuten de datos unas caracteriacutesticas para las cuales no estaban preparados estos meacutetodosdisentildeados para escalar a conjuntos de tamantildeo pequentildeo o mediano

Es aquiacute donde surge un nuevo enfoque para la deteccioacuten de valores atiacutepicos en series de tiempobasado en aplicar un proceso de descomposicioacuten y analizar los residuos Los procesos de descomposicioacutentienen por objetivo diseccionar una serie en tres componentes tendencia estacionalidad y residuo demodo que se pueda establecer un patroacuten de como se comporta En este trabajo el objetivo no es buscarel modelo maacutes preciso sino aquel que consiga trazar mejor la estructura subyacente de la serie de formaque resalte los posibles valores atiacutepicos en su componente residual y es por ello que estos modelosresultan de tanto intereacutes El primer meacutetodo basado en esta idea que recibioacute cierta repercusioacuten fue elpresentado por el equipo de Twitter (Hochenbaum Vallis y Kejariwal 2017) el cual fue maacutes tardeampliado en el paquete Anomalize de R (Dancho y Vaughan 2019)

Esta forma de proceder en dos partes descomposicioacuten maacutes deteccioacuten se debe a la idea de quevisualizar o localizar atiacutepicos en una serie es complicado debido a causas como la estacionalidad o

21 CONCEPTOS BAacuteSICOS 7

tendencia de la serie Aplicarle a la serie un proceso de descomposicioacuten permite extraer estas compo-nentes y resaltar las posibles anomaliacuteas A continuacioacuten en la Figura 21 mostramos un ejemplo deeste procedimiento utilizando uno de los meacutetodos que se emplearaacuten posteriormente en el trabajo STL

Figura 21 A la izquierda la serie referente al Nuacutemero Total de Afiliaciones a la Seguridad Social eluacuteltimo diacutea de mes en Pontevedra perteneciente al Conjunto 7 A la derecha los residuos obtenidos trasaplicarle la descomposicioacuten STL

Como se puede apreciar en la Figura 21 observar alguacuten comportamiento extrantildeo en la serie detiempo es complicado debido a las fluctuaciones que va sufriendo a lo largo de los antildeos Sin embargouna vez aplicado el proceso de descomposicioacuten y eliminado los efectos de estacionalidad y tendenciapodemos ver el efecto de la crisis del Covid-19 apareciendo en los uacuteltimos datos de la serie Esta crisisprovoca que los datos reales de esos meses disten mucho de los esperados lo que se traduce en fuertesincrementos en el tamantildeo del residuo

Lo interesante de estos meacutetodos es que los procesos de descomposicioacuten de series de tiempo soncapaces de analizar multitud de series de caracteriacutesticas muy diferentes y filtrarlas de tal modo que elproblema acabe residiendo en lo que aparentemente es un sencillo problema de deteccioacuten de valoresatiacutepicos en el caso univariante Mientras que los meacutetodos como X-13ARIMA-SEATS o TRAMO-SEATS se encuentran limitados en su disentildeo a trabajar solamente con series con frecuencias mensualeso trimestrales

Sin embargo Wilkinson (2017) resalta que el problema de la deteccioacuten de valores atiacutepicos en elcaso univariante es engantildeosamente sencillo lo cual puede llevarnos a cometer errores en la deteccioacutende atiacutepicos pese a haber realizado una buena descomposicioacuten de la serie Por ello en este trabajo seplantea un capiacutetulo dedicado a analizar las propiedades de diferentes meacutetodos de deteccioacuten

Por tanto en el trabajo coexisten dos mecanismos de deteccioacuten de atiacutepicos en series temporalesPor un lado los meacutetodos de ajuste de series temporales que incorporan la deteccioacuten y correccioacuten deatiacutepicos al modelo de modo automaacutetico Y por el otro aquellos meacutetodos de deteccioacuten de atiacutepicos cuyaidea se centra en aplicar un proceso de descomposicioacuten maacutes anaacutelisis del residuo

En la Seccioacuten 22 se describen los procesos de modelizacioacuten de series temporales utilizados y en elCapiacutetulo 3 se describen los procesos de deteccioacuten de atiacutepicos

8 CAPIacuteTULO 2 MODELIZACIOacuteN DE SERIES TEMPORALES

22 Meacutetodos de modelizacioacuten de series temporales

221 X-13ARIMA-SEATS

El meacutetodo X-13ARIMA-SEATS es la versioacuten actualizada y mejorada del modelo X-11 desarrolladopor Shiskin Young y Musgrave (1967) X-13ARIMA-SEATS fue creado por el Censo de los EstadosUnidos (US Census Bureau) y forma parte de una familia de modelos de ajuste para series temporalesque se han ido desarrollando y estaacuten disentildeados para trabajar con series econoacutemicas estacionales Unaexplicacioacuten completa del meacutetodo y de coacutemo ha de implantarse se puede encontrar en Time SeriesResearch Staff (2017)

Este modelo se basa en la estimacioacuten de lo que sus autores denominan modelos regARIMA Estosson modelos de regresioacuten con errores ARIMA En concreto la media de la serie estaacute descrita por unacombinacioacuten lineal de regresores y la matriz de covarianzas es la de un proceso ARIMA Se incluyenregresores para modelar efectos de calendario como festivos vacaciones o diacutea de la semana Ademaacutestambieacuten se incluyen otro tipo de regresores para modelar el efecto de las anomaliacuteas que se puedanpresentar El modo en que se aborda este campo lo trataremos en profundidad en el Capiacutetulo 3 conel resto de meacutetodos de deteccioacuten

El proceso de ajuste comienza por un pre-ajuste de la serie a traveacutes de eliminar el efecto determiniacutes-tico mediante un modelo de regresioacuten con errores ARIMA En el siguiente paso la serie pre-ajustada sedescompone en tendencia (t) estacionalidad (s) y residuo (i) Esta descomposicioacuten puede ser aditiva(y = t+s+i) multiplicativa (y = tlowastslowasti) log-aditiva (log(y) = log(t)+log(s)+log(i)) o pseudo-aditiva(y = t lowast (s+ iminus 1)) Este paso en el que se aplica el proceso de descomposicioacuten se basa en el uso delalgoritmo X11 que descompone la serie a traveacutes de filtros lineales La serie final ajustada debe estarlibre de estacionalidad y efectos de calendario

X-13ARIMA-SEATS estaacute implementado en la libreriacutea RJDemetra de R en la funcioacuten x13 y lasespecificaciones necesarias para llevar a cabo la deteccioacuten de atiacutepicos se tratan en el Capiacutetulo 3 juntocon la explicacioacuten del proceso de deteccioacuten

222 TRAMO-SEATS

El meacutetodo TRAMO-SEATS (Goacutemez y Maravall 1997) fue disentildeado por el Banco de Espantildea parael anaacutelisis de series de tiempo Esta herramienta estaacute formada por dos mecanismos La parte TRAMO(Time Series Regression with Arima noise Missing Observations and Outliers) y la parte SEATS(Signal Extraction in ARIMA Time Series)

Como se introduce en Goacutemez y Taguas (1995) el programa TRAMO puede ser utilizado inde-pendientemente de SEATS sin embargo SEATS ha sido disentildeado para trabajar conjuntamente conTRAMO Su finalidad es la de realizar un anaacutelisis detallado de series temporales ya que cuenta conmecanismos para realizar tareas de estimacioacuten prediccioacuten interpolacioacuten de modelos de regresioacuten convalores ausentes con errores ARIMA y correccioacuten de valores atiacutepicos El programa incluye variables deregresioacuten para modelizar los diacuteas de calendario que pueden influir en el comportamiento de la serie co-mo puede ser la Pascua y variables de intervencioacuten que permiten corregir el efecto de las observacionesatiacutepicas La idea en la que se basa el modelo es muy similar a la del modelo X-13ARIMA-SEATS

TRAMO elimina de la serie los efectos especiales identifica y elimina automaacuteticamente los efectos

22 MEacuteTODOS DE MODELIZACIOacuteN DE SERIES TEMPORALES 9

de varios tipos de atiacutepicos e interpola las observaciones ausentes Tambieacuten cuenta con un moacuteduloque permite la identificacioacuten automaacutetica de modelos herramienta que imitaron los desarrolladores deX-13ARIMA-SEATS y que en su momento le permitioacute relevar de tareas monoacutetonas a los analistasEste procedimiento de identificacioacuten automaacutetica estaacute basado en estimar primero las raiacuteces unitarias yutilizar despueacutes el Criterio de Informacioacuten Bayesiano (BIC ) para especificar un modelo ARMA a laserie diferenciada

Figura 22 Esquema de funcionamiento de TRAMO-SEATS (Goacutemez y Maravall 1997)

La Figura 22 (Goacutemez y Maravall 1997) muestra como se integran ambas partes TRAMO ySEATS para formar en conjunto el mecanismo completo de modelizacioacuten

SEATS fue disentildeado originalmente para desestacionalizar series temporales El programa descom-pone una serie que sigue un modelo ARIMA en varios componentes tendencia componente estacionalciclo y componente irregular La descomposicioacuten puede ser aditiva o multiplicativa La descomposicioacutenparte de la hipoacutetesis de ortogonalidad de los componentes que a su vez siguen modelos ARIMA Paraidentificar los componentes se requiere que excepto el irregular esteacuten limpios de ruido blanco De estemodo se maximiza la varianza de este uacuteltimo y al contrario la tendencia el componente estacional yel ciclo son lo maacutes estables posibles

El modelo tratado por SEATS es el de una serie integrada lineal con innovaciones gaussianas Estahipoacutetesis puede no ser cierta en muacuteltiples ocasiones pero siempre es necesario extraer un modelo espor ello que SEATS fue disentildeada para ser utilizada de forma conjunta con TRAMO

TRAMO-SEATS estaacute implementado en la libreriacutea RJDemetra de R en la funcioacuten tramoseats y las

10 CAPIacuteTULO 2 MODELIZACIOacuteN DE SERIES TEMPORALES

especificaciones necesarias para llevar a cabo la deteccioacuten de atiacutepicos se tratan en el capiacutetulo 3 juntocon la explicacioacuten del proceso de deteccioacuten

223 STL

STL es un proceso de filtrado para descomponer series de tiempo en tendencia estacionalidad yresiduo cuyo nombre se debe a sus siglas en ingleacutes Seasonal-Trend decomposition based on Loessintroducido por Cleveland Cleveland McRae y Terpenning (1990) El propoacutesito de este meacutetodo fue elde desarrollar un meacutetodo de descomposicioacuten de series de tiempo que cumpliese los siguientes requisitos

1 Disentildeo sencillo y uso inmediato

2 Flexibilidad a la hora de especificar las variaciones en la tendencia y estacionalidad

3 Poder descomponer series de tiempo con valores faltantes

4 Tendencia y estacionalidad robusta de modo que no se vea distorsionada por datos anoacutemalos

5 Raacutepida computacioacuten y faacutecil implementacioacuten incluso para series temporales largas

El procedimiento de STL consiste en una secuencia de operaciones de suavizado realizadas todasellas salvo una por el mismo suavizador loess El mecanismo consiste en dos bucles uno interno yotro externo

Cada vuelta del bucle interno consiste en un suavizado estacional que actualiza dicha componenteseguido de un suavizado de la tendencia que actualiza la componente asociada con la tendencia Porotra parte cada vuelta del bucle externo consiste en aplicarle una serie de pesos robustos al bucleinterno Estos pesos se utilizan en la siguiente vuelta del bucle interno para reducir la influencia de losdatos anoacutemalos

La aplicacioacuten de la estimacioacuten robusta seraacute necesaria cuando exista un conocimiento previo de quelos datos tienen un comportamiento no gaussiano que conduce a una variacioacuten transitoria extrema delo contrario se pueden omitir las iteraciones del bucle externo y STL consistiriacutea solamente en el bucleinterno

A diferencia de otros meacutetodos como TRAMO-SEATS o X-13ARIMA-SEATS STL puede tratarcualquier tipo de estacionalidad en vez de estar atado a estacionalidades mensuales o trimestrales Sucomponente estacional es capaz de cambiar a lo largo del tiempo y dicho cambio puede ser controladopor el usuario Lo mismo sucede con el suavizado de la componente relacionada con la tendencia Unode sus inconvenientes es que no opera si en la serie se encuentran valores faltantes

En R encontramos este meacutetodo bajo la funcioacuten stl a la cual solo habraacute que especificarle unparaacutemetro Dicho paraacutemetro es el relacionado con el suavizado de la componente estacional e indicaal mecanismo el nuacutemero de observaciones consecutivas a utilizar para estimar los valores de dichacomponente Se podriacutea introducir un valor numeacuterico si tenemos alguacuten indicio sobre el posible desarrollode la componente estacional sin embargo dado que vamos a aplicarlo a un gran nuacutemero de series elanaacutelisis individual seriacutea costoso La solucioacuten utilizada en este trabajo pasa por fijar este paraacutemetrocomo perioacutedico lo cual asume que la evolucioacuten de la componente estacional es ideacutentica a lo largo delos antildeos que se desarrolla la serie

22 MEacuteTODOS DE MODELIZACIOacuteN DE SERIES TEMPORALES 11

224 STR

STR es un meacutetodo de descomposicioacuten de series de tiempo presentado por Dokumentov y Hyndman(2015) Sus siglas se deben a su nombre en ingleacutes Seasonal-Trend decomposition procedure based onRegression similar a la idea de STL salvo que ahora en vez de basarse en loess lo hace en regresioacutenEn concreto seguacuten los autores STR es similar a la regresioacuten Ridge (Hoerl y Kennard 1970) y suversioacuten robusta Robust STR (Dokumentov y Hyndman 2015) se podriacutea relacionar con una regresioacutenLASSO (Tibshirani 1996)

La idea de su desarrollo se originoacute debido a que los autores consideran que a pesar de existir variosalgoritmos de descomposicioacuten de series de tiempo existen muchas caracteriacutesticas en ellas que dichosalgoritmos son incapaces de tratar Las principales deficiencias que encuentran son

Incapacidad para proporcionar un modelo estadiacutestico significativo y simple

Incapacidad (o dificultad) para calcular intervalos de confianza

Incapacidad para tener en cuenta regresores

Incapacidad para tener en cuenta estacionalidad fraccionada

Incapacidad para tener en cuenta muacuteltiples estacionalidades

Incapacidad para tener en cuenta estacionalidades complejas y regresores que afecten a los datosde un modo estacional

El objetivo con el que se desarrolloacute STR fue el de corregir estas deficiencias a la par que presentar unmeacutetodo claro geneacuterico simple y robusto si fuera necesario Para solucionar estas deficiencias enfocan ladescomposicioacuten como un problema a resolver a traveacutes de una regresioacuten cuantil o de miacutenimos cuadradosordinarios

De acuerdo a sus desarrolladores STR constituye el meacutetodo de descomposicioacuten de series de tiempomaacutes geneacuterico disponible en el momento de su publicacioacuten Sin embargo matizan una gran desventajaque presenta el meacutetodo y es su ineficiencia o la ralentizacioacuten que sufre el mecanismo a la hora de tratarcasos en los que se utilizan varios componentes o predictores estacionales

Uno de sus desarrolladores Rob J Hyndman es conocido por sus aportaciones en el campo delas series de tiempo y su posterior implantacioacuten en paquetes para el software R como el famosopaquete forecast En este caso tambieacuten ha colaborado en la implantacioacuten de STR con el paquete stR(Dokumentov y Hyndman 2018)

225 Twitter

En Hochenbaum et al (2017) se aborda el problema de deteccioacuten de valores atiacutepicos en series detiempo introduciendo la idea de descomposicioacuten maacutes deteccioacuten como hemos comentado en la introduc-cioacuten de esta seccioacuten El equipo de Twitter plantea en su artiacuteculo utilizar en un primer momento STLcomo meacutetodo de descomposicioacuten para obtener los residuos sin embargo a la hora de trabajar con estemeacutetodo encuentran una serie de inconvenientes Estos inconvenientes estariacutean provocados por ciertasanomaliacuteas espurias producidas en el residuo

12 CAPIacuteTULO 2 MODELIZACIOacuteN DE SERIES TEMPORALES

Para corregir esta situacioacuten optan por utilizar la mediana de la serie de tiempo para representar latendencia ldquoestablerdquo que despueacutes seraacute utilizada para calcular el residuo

De este modo afirman que reemplazando la tendencia con la mediana se eliminan las anomaliacuteasespurias o ilegiacutetimas del residuo Los mismos desarrolladores publicaron un paquete en la plataformaGitHub (Twitter Inc 2015) que nos permitiacutea hacer uso de este mecanismo sin embargo su manteni-miento cesoacute a finales de 2015 y el paquete fue eliminado de la plataforma CRAN en marzo de 2019 Elpaquete Anomalize (Dancho y Vaughan 2019) recoge este mecanismo y seraacute el paquete que utilizaremosen este trabajo para utilizar esta modificacioacuten del meacutetodo STL bajo la funcioacuten decompose_twitter

23 RESUMEN MEacuteTODOS DE MODELIZACIOacuteN DE SERIES TEMPORALES 13

23 Resumen meacutetodos de modelizacioacuten de series temporales

Meacutetodo Ventajas Contras

X-13ARIMA-SEATS(2017)

Capaz de tratar con valores fal-tantesIntegra diversos tipos de descom-posicioacutenRaacutepida velocidad de ejecucioacuten

Disentildeado para trabajar solo conseries mensuales o trimestrales

TRAMO-SEATS(1997) Capaz de tratar con valores fal-tantesIntegra diversos tipos de descom-posicioacutenRaacutepida velocidad de ejecucioacuten

Disentildeado para trabajar solo conseries mensuales o trimestrales

STL(1990) Puede tratar series de cualquierfrecuenciaRaacutepidoCuenta con versioacuten robusta

No admite valores faltantesCarece de flexibilidad cuando elperiacuteodo estacional es largo y seobserva mucho ruido en la serieAuacuten con su versioacuten robusta pue-de verse afectado por la influen-cia de los atiacutepicos

STR(2015) Puede tratar series de cualquierfrecuenciaCuenta con versioacuten robustaAdmite valores faltantesSensible a cambios de estaciona-lidad

No puede seguir cambios bruscosen la tendenciaExtremadamente lento en com-paracioacuten al resto de meacutetodos

Twitter(2017) Puede tratar series de cualquierfrecuenciaElimina anomaliacuteas espuacutereas en lacomponente residualRaacutepido

No admite valores faltantesNo cuenta con versioacuten robusta

Cuadro 21 Resumen de los meacutetodos de modelizacioacuten de series temporales

14 CAPIacuteTULO 2 MODELIZACIOacuteN DE SERIES TEMPORALES

Capiacutetulo 3

Deteccioacuten de valores atiacutepicos

31 Conceptos baacutesicos

El problema que supone en la estadiacutestica la presencia de valores atiacutepicos aparecioacute muy pronto EnHawkins (1980) mencionan que este problema pudo haber surgido ya en los siglos XVIII y XIX enencuestas estadiacutesticas que se realizaban Las primeras decisiones de queacute hacer con ellos se basaron encriterios puramente subjetivos en los que era el propio analista el que decidiacutea descartar una observacioacutensi pareciacutea anoacutemala respecto al resto de los datos

Posteriormente se comenzaron a plantear posibles soluciones para tratar el problema bajo uncriterio La primera de ellas fue la presentada por Peirce (1852) basada en lo que se podriacutea entendercomo un test de razoacuten de verosimilitud donde todos los valores que superasen el umbral determinadopor cσ seriacutean rechazados siendo c una constante a calcular y σ la desviacioacuten tiacutepica de la muestraVarios autores realizaron criacuteticas a este meacutetodo y propusieron su correccioacuten a este criterio una de ellasfue la de Chauvenet (1963) Esta pasaba por calificar a una observacioacuten como atiacutepico si su valor sesituaba fuera del intervalo definido por 1(4n) puntos de la distribucioacuten Normal siendo n el tamantildeode la muestra

En ese momento surgen diversas propuestas no muy relevantes que trataron de abordar dichoproblema hasta que surgioacute la llevada a cabo por Thompson (1935) Su estudio condujo a descubrir ladistribucioacuten nula de un residuo estudentizado

xi minus xs

donde xi es la observacioacuten sospechosa de ser atiacutepica x la media muestral y s la desviacioacuten tiacutepica de lamuestra A partir de esto pudo deducir un procedimiento de deteccioacuten de atiacutepicos que rechazariacutea unaproporcioacuten fija de todos los datos buenos y devolveriacutea una tabla con los valores criacuteticos adecuados

Esta idea supuso el desarrollo del test de Grubbs (1950) el cual utilizando la misma notacioacutenanterior basaba su regla en los momentos muestrales de una normal

G =max1leilen|xi minus x|

s

Grubbs (1950) asocioacute G con una distribucioacuten t con el objetivo de encontrar un maacuteximo y un miacutenimo

15

16 CAPIacuteTULO 3 DETECCIOacuteN DE VALORES ATIacutePICOS

para localizar atiacutepicos Esta idea fue posteriormente ampliada dando lugar al meacutetodo GESD (Rosner1983) el cual se detalla en la siguiente seccioacuten

Posteriormente se presentoacute una de las herramientas maacutes comuacutenmente utilizadas para la identifi-cacioacuten de atiacutepicos el boxplot introducido en Tukey (1977) Sin embargo el objetivo inicial no fue ladeteccioacuten de atiacutepicos sino como un meacutetodo para trazar una idea del intervalo en el que se encuentranla gran parte de nuestros datos Ademaacutes la forma en la que se construye provoca dos grandes incon-venientes No se puede aplicar a distribuciones sesgadas y dado que no incluye el tamantildeo muestral ensu formulacioacuten tenderaacute a etiquetar falsos atiacutepicos cuanto maacutes grande sea la muestra

A la par que se iban presentando estas ideas para la buacutesqueda de valores atiacutepicos en un conjuntode datos se fueron presentando mecanismos enfocados a las series de tiempo

Uno de los primeros aportes al tratamiento de datos atiacutepicos en series de tiempo fue propuestopor G E P Box y Tiao (1975) Sin embargo este meacutetodo solamente permitiacutea modelar el efecto de laobservacioacuten atiacutepica si se conociacutea de antemano el momento de la intervencioacuten por lo que no se podriacuteaconsiderar una herramienta de deteccioacuten sino maacutes bien una herramienta de intervencioacuten

Posteriormente se propusieron diversos meacutetodos para abordar el problema de la estimacioacuten demodelos ARIMA en series bajo esta circunstancia El primero de ellos fue el de Abraham y Box(1979) que se basaba en proponer un enfoque bayesiano para resolver el problema partiendo de ideassimilares a las que se habiacutean propuesto en otros contextos por autores como Tukey (1977) Otro meacutetodoque buscaba resolver tambieacuten el mismo problema fue el propuesto por Chang y Tiao (1983) cuya idease centraba en aplicar un proceso iterativo

Fue en este artiacuteculo (Chang y Tiao 1983) donde se propuso por primera vez un meacutetodo de deteccioacutene identificacioacuten de atiacutepicos Tsay (1986) propuso su versioacuten que se basaba en combinar el procesoiterativo presentado en Chang y Tiao (1983) con la funcioacuten de autocorrelacioacuten muestral extendidadesarrollada en Tsay y Tiao (1984) la cual permite eliminar la necesidad de determinar el orden dediferenciacioacuten para producir una serie estacionaria que modelar

En Chen y Liu (1993) se reconocen los numerosos aportes hechos en los anteriores artiacuteculos citadospero matiza que algunos problemas seguiacutean estando vigentes

a La presencia de atiacutepicos puede resultar en un modelo inapropiado

b Incluso si el modelo es el apropiado los atiacutepicos pueden seguir produciendo sesgo en el paraacutemetroestimado y por tanto afectar a la deteccioacuten del atiacutepico

c Algunos atiacutepicos no van a ser identificados debido a un problema de enmascaramiento

Su objetivo era presentar un meacutetodo que fuese capaz de resolver los problemas b y c de modo quese pudiese generalizar para aplicar a los cuatro tipos de atiacutepicos en series temporales que se habiacutean idointroduciendo Los cuatro tipos son

IO (atiacutepico innovativo) existe un atiacutepico innovativo en el momento t cuando la innovacioacuten en esepunto esteacute directamente provocada por una cantidad desconocida debido a un suceso imprevisto

AO (atiacutepico aditivo) diremos que se produce un atiacutepico aditivo si en el momento t la serie segenera de manera diferente al resto

32 MEacuteTODOS DE DETECCIOacuteN DE VALORES ATIacutePICOS 17

LS (cambio de nivel) existe un cambio de nivel si en el momento t la serie experimenta unincremento de todos sus valores A diferencia del resto tiene un efecto permanente sobre la serieuna vez aparece

TC (cambio temporal) similar al cambio de nivel solo que el efecto no es permanente y decreceexponencialmente con el tiempo

X-13ARIMA-SEATS y TRAMO-SEATS basan su proceso de deteccioacuten de atiacutepicos en meacutetodosinspirados en el artiacuteculo de Chen y Liu (1993) cuya idea se fundamenta en integrar un mecanismoiterativo disentildeado para trabajar con series de tiempo que localiza e integra los atiacutepicos al modelo Porotra parte en la siguiente seccioacuten introducimos los meacutetodos de deteccioacuten de atiacutepicos que acompantildeana los procesos de descomposicioacuten de series de tiempo estos son GESD Isolation Forest y HDoutliersEstos meacutetodos son desarrollos de los mecanismos e ideas tratados al comienzo de esta seccioacuten como elmeacutetodo Grubbs (Grubbs 1950)

32 Meacutetodos de deteccioacuten de valores atiacutepicos

321 X-13ARIMA-SEATS

El anaacutelisis de diagnoacutestico del modelo regARIMA se realiza a traveacutes del anaacutelisis de los residuos delmodelo estimado Para el apartado de anaacutelisis de valores atiacutepicos X-13ARIMA-SEATS se fundamentaen Chang y Tiao (1983) con extensiones y modificaciones tratadas en Bell (1983) y Otto y Bell (1990)donde los valores atiacutepicos pueden ser de tres de los cuatro tipos antes mencionados AO LS y TC

El enfoque que plantea este mecanismo de deteccioacuten es similar a la regresioacuten paso a paso procedi-miento de regresioacuten en el que se construye el modelo a traveacutes de ir antildeadiendo o eliminando variablespredictoras en base a criterios de informacioacuten

En este caso las variables candidatas para la regresioacuten son las AO LS y TC para todos los puntosen los que la deteccioacuten de atiacutepicos se realiza Es decir se calcula el t-estadiacutestico para ver la significa-tividad de cada tipo de atiacutepico en cada instante temporal se busca significatividad entre todos estost-estadiacutesticos y se antildeade la correspondiente variable de regresioacuten (AO LS o TC) al modelo con el finde corregir los efectos que producen estas observaciones atiacutepicas De este modo se identifica e introduceel efecto de un momento atiacutepico en el modelo Mientras se produce el proceso de deteccioacuten de atiacutepicosse utiliza un estimador robusto de la desviacioacuten residual estaacutendar 148lowastla mediana del valor absolutode la desviacioacuten residual

X-13ARIMA-SEATS antildeade dos variaciones a este meacutetodo El meacutetodo addone en el que cada vezque se antildeade al modelo un atiacutepico se lleva a cabo una re-estimacioacuten del modelo y el meacutetodo addallque re-estima el modelo solo cuando un nuacutemero de variables atiacutepicas han sido antildeadidas al modelo

Este meacutetodo estaacute implantado en R a traveacutes de la funcioacuten x13 del paquete RJDemetra Dicha funcioacutenrequiere de un paraacutemetro de especificacioacuten spec en que se concreta el modelo que queremos introducirEste paraacutemetro es el que nos ofrece diversas posibilidades de modelizacioacuten de la serie como se recogeen la Figura 31 entre ellas los efectos de calendario o los atiacutepicos que presente la serie Dado quebuscamos sucesos atiacutepicos en su sentido maacutes amplio vamos a omitir incluir los efectos de calendarioy solamente introducir la deteccioacuten automaacutetica de atiacutepicos Esto provoca que en nuestro trabajo la

18 CAPIacuteTULO 3 DETECCIOacuteN DE VALORES ATIacutePICOS

especificacioacuten que nos interesa y con la que hemos trabajado sea RSA3 La opcioacuten RSA3 permiteajustar automaacuteticamente un modelo ARIMA identificando y corrigiendo las posibles observacionesanoacutemalas El resto de modificaciones que permite introducir el paraacutemetro de especificacioacuten de la funcioacutenx13 se recogen en la Figura 31 Por ejemplo si estuvieacutesemos interesados en modelizar nuestros datosa traveacutes de un modelo ARIMA de liacuteneas aeacutereas observariacuteamos en la Figura 31 que tendriacuteamos queescoger la especificacioacuten RSA0 Si ahora quisieacuteramos antildeadirle a dicho modelo deteccioacuten de atiacutepicostendriacuteamos que cambiar el paraacutemetro de especificacioacuten a RSA1 y si ademaacutes tambieacuten nos interesamodelar los efectos de calendario sobre dicho modelo introduciriacuteamos la especificacioacuten RSA2 El restode especificaciones ya trabajan sobre el ajuste de un modelo ARIMA de un modo automaacutetico la maacutessencilla es la que utilizamos nosotros en este trabajo RSA3 la cual ajusta un modelo ARIMA deforma automaacutetica incluyendo la deteccioacuten de atiacutepicos Las especificaciones RSA4 y RSA5 incorporanrespecto a RSA3 modelizar los efectos de calendario La diferencia entre ellas se encuentra en queRSA4 incluye en el modelo los efectos de calendario a traveacutes de dos variables que representan losdiacuteas laborables y los fines de semana y RSA5 incluye dichos efectos a traveacutes de siete variables cadadiacutea de la semana y ambas incluyen el efecto de la Pascua en el calendario Por uacuteltimo se encuentrala especificacioacuten RSAfull que incluye el ajuste automaacutetico de un modelo ARIMA y de los efectos decalendario e incorpora la deteccioacuten de atiacutepicos Todas estas especificaciones son las que se detallan enla Figura 31 para profundizar maacutes en ellas se puede consultar el manual de la libreriacutea RJDemetra (laTente Michalek Palate y Baeyens 2020)

Figura 31 Paraacutemetro de especificaciones a introducir al modelo X-13ARIMA-SEATS

322 TRAMO-SEATS

El mecanismo de deteccioacuten de atiacutepicos que utiliza el programa TRAMO-SEATS aborda el problemacon la intencioacuten de resolver los problemas b y c introducidos en el inicio del Capiacutetulo 3 dado queentiende que estos no se han resuelto de un modo satisfactorio en Chen y Liu (1993) En Goacutemez yTaguas (1995) explican que aunque este meacutetodo funciona de forma bastante satisfactoria su solucioacutenpresenta una serie de deficiencias

1 Se estima varias veces por maacutexima verosimilitud exacta lo que es costoso

2 No utiliza residuos exactos

3 El algoritmo es excesivamente complicado

4 Las regresiones muacuteltiples no se hacen filtrando los datos y las columnas de la matriz por un filtroexacto como el filtro de Kalman sino que se utiliza un filtro condicional

32 MEacuteTODOS DE DETECCIOacuteN DE VALORES ATIacutePICOS 19

Por tanto se presenta un mecanismo que pretende subsanar estas deficiencias a la par que corregirlos problemas b y c mencionados en Chen y Liu (1993) Ademaacutes si se utiliza de forma secuencial juntocon el procedimiento de especificacioacuten automaacutetica del programa supone un procedimiento alternativoal de Tsay (1986)

Al igual que X-13ARIMA-SEATS TRAMO-SEATS estaacute implementado en la libreriacutea RJDemetra

de R en la funcioacuten tramoseats Dicha funcioacuten tambieacuten requiere de un paraacutemetro de especificacioacutenspec en el que se concreta el modelo que queremos introducir La utilidad y mecanismo sobre el quetrabaja este paraacutemetro es ideacutentico al explicado en la Seccioacuten 321 para el meacutetodo X-13ARIMA-SEATSpor lo que utilizaremos la especificacioacuten RSA3 Esta especificacioacuten incluye el ajuste automaacutetico de unmodelo ARIMA corrigiendo las posibles observaciones atiacutepicas

El resto de posibles especificaciones que se pueden incluir en el modelo se recogen en la Figura32 El significado de esta figura es equivalente al de la Figura 31 dado que ambos modelos TRAMO-SEATS y X-13ARIMA-SEATS estaacuten implementados en la misma libreria RJDemetra y compartenel mismo paraacutemetro de especificacioacuten en la funcioacuten que estima sus modelos en R

Figura 32 Paraacutemetro de especificaciones a introducir al modelo TRAMO-SEATS

323 GESD

Introducido por Rosner (1983) como una mejora al por entonces conocido ESD (Rosner 1975) porsus siglas en ingleacutes Extreme Studentized Deviate A pesar de que ESD contaba con buenas propiedadesante una amplia alternativa de atiacutepicos presentaba una serie de defectos que le conduciacutean a etiquetarmaacutes candidatos a atiacutepicos que el nuacutemero apropiado Esto provocoacute que se quedase obsoleto en favor desu actualizacioacuten GESD General Extreme Studentized Deviate

Los pasos que sigue son los siguientes

1 Decidir un maacuteximo nuacutemero de posibles candidatos a atiacutepicos r La recomendacioacuten es de consi-derar el 20 del tamantildeo muestral

2 Comenzar las iteraciones i = 1

3 Calcular Ri = maxt|ximinusx|s siendo xi una observacioacuten sospechosa de ser anoacutemala x la media

muestral y s la desviacioacuten estaacutendar de la muestra respectivamente

4 Eliminar la observacioacuten que maximice xi minus x

5 Calcular el siguiente valor criacutetico λi =(nminusi)tpnminusi+1radic

(nminus1minus1+t2pnminusiminus1)(nminusi+1)

donde tpnminusi+1 es una distribucioacuten t con n minus i minus 1 grados de libertad y p = 1 minus α2(nminusi+1 siendo

α la probabilidad de cometer errores de tipo I

20 CAPIacuteTULO 3 DETECCIOacuteN DE VALORES ATIacutePICOS

6 Pasar a la siguiente iteracioacuten repetir los pasos 2 a 5 hasta i = r quedando r definido en el paso1

7 El nuacutemero de atiacutepicos detectados se determina al encontrar el mayor i tal que Ri gt λi dondeRi se define en el paso 2 y λi en el paso 5

GESD es principalmente el test de Grubbs (Grubbs 1950) aplicado de forma secuencial sin embargoexisten unas pequentildeas diferencias que premian su comportamiento GESD realiza ajustes del valorcriacutetico en base al nuacutemero de atiacutepicos a ser estudiado algo que el test de Grubbs no hace Ademaacutessi existe efecto de enmascaramiento aplicar el test de Grubbs de forma secuencial produciriacutea unadetencioacuten demasiado temprana del algoritmo de deteccioacuten lo que impediriacutea localizar algunos atiacutepicos

Los estudios de simulacioacuten realizados para estudiar el comportamiento de GESD indican que elmeacutetodo es muy preciso cuando contamos con tamantildeos muestrales n gt 25 por lo que en nuestrotrabajo no tendremos problema Sin embargo debido a que es un meacutetodo iterativo seraacute maacutes costosocomputacionalmente a medida que se incrementen los tamantildeos muestrales y es algo a tener en cuentacomo posible freno al crecimiento futuro del mecanismo de deteccioacuten

En R podemos encontrar la funcioacuten gesd dentro del paquete Anomalize (Dancho y Vaughan 2019)

324 Isolation Forest

Isolation Forest o iForest es el meacutetodo presentado por Liu Ting y Zhou (2009) donde se tratael tema de deteccioacuten de atiacutepicos desde un punto de vista diferente Ese punto de vista se basa en dospropiedades relacionadas con la idea de queacute es un valor atiacutepico son la minoriacutea de un conjunto y tienenunos atributos muy diferentes a los de las observaciones normales Es decir las anomaliacuteas son pocas ydiferentes lo que las hace maacutes propensas a encontrarse aisladas del resto

Por esta razoacuten los autores presentan un meacutetodo basado en construir un aacuterbol que aiacutesle cada ob-servacioacuten de tal modo que los valores atiacutepicos se encontraraacuten en ramas maacutes proacuteximas a la raiacutez y losvalores normales se encontraraacuten en zonas maacutes profundas del aacuterbol Es por ello que iForest (Liu et al2009) se distingue del resto de mecanismos basados en modelos distancias o densidades

Figura 33 Idea sobre la que se sustenta el mecanismo de Isolation Forest

32 MEacuteTODOS DE DETECCIOacuteN DE VALORES ATIacutePICOS 21

En la Figura 33 se puede observar la idea sobre la que se rige este mecanismo Un punto normalxi requiere maacutes particiones para ser aislado Y el opuesto tambieacuten es cierto donde un punto anoacutemalox0 requiere menos particiones para ser aislado Por lo que se trata de calcular la ldquolongitud del caminordquoa ser aislado dado que los valores atiacutepicos tendraacuten caminos maacutes cortos que los de los valores normales

Para definir como se calcula la ldquolongitud del caminordquo es necesario definir primero el aacuterbol deaislamiento Isolation Tree El aacuterbol de aislamiento seriacutea toda la estructura de ramas que trocean elconjunto de datos La longitud del camino h(x) path length de un punto x se mediriacutea por tanto comoel nuacutemero de ramas a atravesar desde la raiacutez del aacuterbol al punto

Es necesario definir una puntuacioacuten de cuaacuten anoacutemala es una observacioacuten score para ello se intro-duce c(n) como la media de h(x) siendo E el operador esperanza dado el tamantildeo de la muestra nDe tal modo que

Cuando E(h(x))rarr c(n) scorerarr 05

Cuando E(h(x))rarr 0 scorerarr 1

Cuando E(h(x))rarr nminus 1 scorerarr 0

Haciendo uso de la puntuacioacuten anoacutemala que recibe cada punto score tenemos que

Si score es cercano a 1 la observacioacuten es atiacutepica

Si la observacioacuten presenta valores de score inferiores a 05 pueden ser calificadas como observa-ciones normales

Si todas las observaciones devuelven un valor score asymp 05 entonces la muestra entera carece deatiacutepicos

En el artiacuteculo fijan como atiacutepicos potenciales observaciones con score ge 06 en este trabajo somosmaacutes estrictos y fijamos el umbral en score ge 075 Esta decisioacuten se toma tras probar diferentes umbralesy observar el comportamiento del meacutetodo en el estudio de simulacioacuten y en los datos reales Otrosumbrales que se barajaron y descartaron por los resultados mostrados fueron score ge 07 por serdemasiado laxo y score ge 08 por ser demasiado estricto

En R existen dos libreriacuteas que implantan dicho meacutetodo una es la implantada por la empresa H20 lacual ha desarrollado el algoritmo HDoutliers utilizado en este trabajo Y la otra es la libreriacutea solitude(Srikanth 2017) la cual hemos usado para el desarrollo de este trabajo

325 HDoutliers

HDoutliers (Wilkinson 2017) es un algoritmo que se puede aplicar en multitud de escenarios posi-bles desde el maacutes sencillo que seriacutea el caso univariante hasta maacutes complejos como el multidimensionalo el espacial La idea sobre la que se desarrolla es la de buscar espacios entre los valores ordenadosmaacutes que en la de buscar valores extremos De los meacutetodos que se centran en la idea de buscar valoresextremos como por ejemplo el test de Grubbs y por tanto GESD el autor hace una criacutetica y es queestos utilizan medidas como la media muestral o la desviacioacuten tiacutepica las cuales no son robustas frentea valores atiacutepicos

22 CAPIacuteTULO 3 DETECCIOacuteN DE VALORES ATIacutePICOS

El concepto anterior se puede explicar de un modo muy sencillo a traveacutes de un ejemplo que se recogeen Wilkinson (2017) En los resultados a un examen al que se presentaron 100 alumnos obtenemos unapuntuacioacuten media de 50 y una desviacioacuten estaacutendar de 5 Si entre todas las notas un alumno obtuvo un100 y la siguiente mejor nota es un 65 se podriacutea sospechar que ese alumno es un genio o un tramposoPor otra parte si la nota perfecta se encuentra en el punto maacutes alto de una serie de notas que difieren5 puntos entre ellas ese alumno ya no seriacutea tan sospechoso Los test claacutesicos de valores atiacutepicos no soncapaces de diferir entre ambas situaciones

Figura 34 El algoritmo de HDoutliers aplicado sobre el ejemplo anterior (Wilkinson 2017)

En la Figura 34 se representa este ejemplo En el caso de la izquierda estariacuteamos en la situacioacutenen la que no se sospecha que se hayan producido trampas por parte de ninguacuten alumno y el meacutetodoHDoutliers no detectariacutea ninguacuten candidato a atiacutepico A la derecha tendriacuteamos la situacioacuten en la quesospechariacuteamos de que existe un alumno brillante o tramposo y el meacutetodo detectariacutea una situacioacutenatiacutepica como se sentildeala con el punto rojo

La solucioacuten de buscar espacios permite identificar valores inusuales tanto en el medio de las dis-tribuciones como en los extremos Para ello HDoutliers calcula la distancia al vecino maacutes cercanoDespueacutes ajusta una distribucioacuten exponencial a la cola superior de las distancias calculadas y calcula elvalor 1minusα siendo α la probabilidad de cometer un error tipo I superior de la funcioacuten de distribucioacutenacumulada Por lo que cada observacioacuten que se encuentre significativamente alejada del resto basadaen este punto de corte se etiquetaraacute como atiacutepica

El autor menciona que este meacutetodo difiere de aquellos que se basan en hacer un ranking de candi-datos a atiacutepicos como podriacutea ser Local Outlier Factor (Breunig Kriegel Ng y Sander 2000) o quelos etiquetan bajo un liacutemite arbitrario como seriacutea el caso de Isolation Forest (Liu et al 2009) dadoque pueden conducir a resultados inconsistentes Para ello lo que hace es asignar una probabilidad ala creencia de que estamos ante un atiacutepico

En R podemos encontrar este meacutetodo en la libreriacutea HDoutliers (Fraley y Wilkinson 2020)

33 RESUMEN MEacuteTODOS DE DETECCIOacuteN DE VALORES ATIacutePICOS 23

33 Resumen meacutetodos de deteccioacuten de valores atiacutepicos

Meacutetodo Ventajas Contras

X-13ARIMA-SEATS(2017)

Califica el tipo de atiacutepicoRaacutepida velocidad de ejecucioacuten

Basado en modelos ARIMA

TRAMO-SEATS(1997) Califica el tipo de atiacutepicoRaacutepida velocidad de ejecucioacutenIdea similar a X-13ARIMA-SEATS pero profundizando maacutesen el desarrollo del mecanismo dedeteccioacuten de atiacutepicos

Basado en modelos ARIMA

GESD(1983) Elimina parte de la incertidum-bre de que se produzca un efectode enmascaramiento

Utiliza medidas como la media ola desviacioacuten tiacutepica medidas quese pueden ver distorsionadas porvalores atiacutepicosEs un proceso iterativo lo queimplica mayor coste computacio-nal a medida que se incrementeel tamantildeo de datos

Isolation Forest(2009) Escalable a conjuntos de gran di-mensioacutenDisentildeo sencillo

El usuario tiene que determinarel umbral de atiacutepico lo cual pue-de ser un inconveniente a veces

HDoutliers(2017) Identifica valores inusuales tantoen el medio de las distribucionescomo en los extremosEscalable a conjuntos de gran di-mensioacutenAlta velocidad de ejecucioacuten

Tendencia a calificar un excesode observaciones como atiacutepicassin serlo

Cuadro 31 Resumen de los meacutetodos de deteccioacuten de atiacutepicos

24 CAPIacuteTULO 3 DETECCIOacuteN DE VALORES ATIacutePICOS

34 Meacutetodos de deteccioacuten de valores atiacutepicos en series tempo-

rales

Dado que se han introducido diversos meacutetodos con diferentes enfoques respecto a la resolucioacuten delproblema de deteccioacuten de atiacutepicos en series de tiempo hemos decidido incluir este apartado al finaldel contenido principalmente teoacuterico del trabajo para asiacute centrar los meacutetodos que se utilizaraacuten en lossiguientes capiacutetulos Este apartado recoge todos los meacutetodos los ya existentes y nuevas propuestasrealizadas por nosotros que se utilizaraacuten en este trabajo

Los meacutetodos existentes son los pertenecientes a las libreriacuteas RJDemetra (la Tente et al 2020) yAnomalize (Dancho y Vaughan 2019) La libreriacutea RJDemetra es la que nos dota de las funcionesnecesarias para utilizar los modelos X-13ARIMA-SEATS y TRAMO-SEATS Mientras que la libreriacuteaAnomalize se ha convertido en uno de los paquetes de referencia en R para el anaacutelisis de valores atiacutepicosen series de tiempo A traveacutes de ella podemos utilizar el meacutetodo tratado en Hochenbaum et al (2017)basado en una combinacioacuten de Twitter+GESD y tambieacuten la otra opcioacuten que proponen a traveacutes decombinar STL+GESD

A partir de la idea desarrollada por autores como Hochenbaum et al (2017) o libreriacuteas comoAnomalize Dancho y Vaughan (2019) proponemos nuevos meacutetodos de deteccioacuten de atiacutepicos paraseries temporales El fundamento bajo el que se sostiene esta propuesta es muy sencillo Estos meca-nismos se fundamentan en aplicarle a la serie de tiempo un proceso de descomposicioacuten para extraer laestacionalidad y la tendencia para posteriormente aplicarle un meacutetodo de deteccioacuten de valores atiacutepicosal residuo Dado que se han propuesto mejoras en ambos campos tanto en los meacutetodos de descompo-sicioacuten de series temporales como en el de deteccioacuten de valores atiacutepicos creemos que su combinacioacutenpodriacutea suponer una mejora a las ya establecidas Teniendo en cuenta que se ha introducido un meacutetodode descomposicioacuten de series temporales STR (Dokumentov y Hyndman 2015) y dos meacutetodos de de-teccioacuten de valores atiacutepicos Isolation Forest (Liu et al 2009) y HDoutliers (Wilkinson 2017) lo que seharaacute seraacute obtener todas las combinaciones posibles a traveacutes de mezclar los procesos de descomposicioacutencon los meacutetodos de deteccioacuten dando lugar a las siguientes combinaciones

STL +iForest

STL +HDoutliers

STL (Robusto) +iForest

STL (Robusto) +HDoutliers

Twitter +iForest

Twitter +HDoutliers

STR + GESD

STR + iForest

STR + HDoutliers

34 MEacuteTODOS DE DETECCIOacuteN DE VALORES ATIacutePICOS EN SERIES TEMPORALES 25

STR (Robusto) + GESD

STR (Robusto) + iForest

STR (Robusto) + HDoutliers

Estos son los nuevos meacutetodos propuestos en el trabajo de los cuales estudiaremos su comporta-miento en el proacuteximo capiacutetulo a traveacutes de un estudio de simulacioacuten junto a los meacutetodos ya existentesX-13ARIMA-SEATS TRAMO-SEATS STL+GESD y Twitter+GESD

Existen otros meacutetodos populares en la deteccioacuten de atiacutepicos para el software R los cuales no se hanincluido en este trabajo debido a que planteaban peores resultados que los finalmente introducidospero que creemos que merecen una mencioacuten debido a que pueden ser de intereacutes para alguien quepretenda profundizar en este campo

El primero de ellos seriacutea el meacutetodo de deteccioacuten de atiacutepicos IQR incluido en la libreriacutea AnomalizeDancho y Vaughan (2019) el cual se ha descartado debido a que sus combinaciones con STL y Twittersuponiacutean una menor precisioacuten que las combinaciones con GESD (Datacamp 2018) Los autores lo hanincluido en dicha libreriacutea debido a que su coste computacional es mucho menor que el de GESD porlo que se puede plantear situaciones en las que sea uacutetil

El segundo seriacutea la funcioacuten tsoutliers del paquete forecast (Hyndman 2020) la cual hemosdescartado por presentar un mecanismo muy similar al que presentariacutea la combinacioacuten STL+IQR

Por uacuteltimo tambieacuten se ha descartado la funcioacuten tso del paquete tsoutliers (de Lacalle 2019)El motivo se debe a que su autor enfoca el proceso de deteccioacuten basaacutendose en las mismas ideas que lasdesarrolladas en los modelos X-13ARIMA-SEATS y TRAMO-SEATS pero comenta que este meacutetodono estaacute capacitado para trabajar con grandes y heterogeacuteneos conjuntos de series temporales comoX-13ARIMA-SEATS o TRAMO-SEATS sino maacutes bien para pequentildeas aplicaciones de un modo semi-automaacutetico (de Lacalle 2015)

26 CAPIacuteTULO 3 DETECCIOacuteN DE VALORES ATIacutePICOS

Capiacutetulo 4

Estudio de simulacioacuten

En este capiacutetulo se realiza un estudio de simulacioacuten con el objetivo de comparar la eficiencia delos diferentes meacutetodos expuestos en el apartado anterior En primer lugar se presenta un resumendel procedimiento seguido para realizar las simulaciones en los diferentes escenarios y el motivo deproponer cada escenario A continuacioacuten se introduce el Iacutendice de Youden medida que nos permitiraacutediscernir queacute meacutetodos presentan mejor comportamiento en el estudio Finalmente se presentan losresultados del estudio y las conclusiones extraiacutedas del mismo

41 Escenarios

El procedimiento para obtener las series simuladas ha sido el siguiente

1 Simular una serie de tiempo sin atiacutepicos

2 A la observacioacuten correspondiente al instante t sumarle el valor w el cual indicaraacute el tamantildeo delatiacutepico

3 Si se quiere introducir maacutes de un atiacutepico repetir los pasos 1 y 2

Se van a proponer ocho escenarios a continuacioacuten pasamos a justificar la eleccioacuten de cada uno deellos Los escenarios 1 2 y 3 son los planteados en Chen y Liu (1993) artiacuteculo utilizado para analizar laeficiencia de los mecanismos de deteccioacuten que inspiran los meacutetodos aplicados en X-13ARIMA-SEATS yTRAMO-SEATS El Escenario 4 plantea el modelo de liacuteneas aeacutereas utilizado ampliamente para datoseconoacutemicos como los que se van a tratar posteriormente Por uacuteltimo los escenarios 5 a 8 proponendiversos modelos que han sido generados a partir de seleccionar una serie del IGE aleatoriamente yaplicarle la funcioacuten autoarima del paquete forecast (Hyndman 2020) A continuacioacuten se recogentodos los escenarios planteados en el Cuadro 41 Los escenarios 1 a 3 se simulan a traveacutes de la funcioacuten deR arimasim mientras que los escenarios 4 a 8 a traveacutes de la funcioacuten simulate del paquete forecast

27

28 CAPIacuteTULO 4 ESTUDIO DE SIMULACIOacuteN

Escenario Modelo Motivo

Escenario 1 AR(1) Propuesto en el estudio de simu-lacioacuten de Chen y Liu (1993)

Escenario 2 MA(1) Propuesto en el estudio de simu-lacioacuten de Chen y Liu (1993)

Escenario 3 ARIMA(011) Propuesto en el estudio de simu-lacioacuten de Chen y Liu (1993)

Escenario 4 ARIMA(011)x(011)12 Modelos de liacuteneas aeacutereas muyutilizado en lo referente a datoseconoacutemicos

Escenario 5 ARIMA(101)x(012)12 Modelo extraiacutedo de aplicar lafuncioacuten autoarima a una seriedel IGE escogida aleatoriamente

Escenario 6 ARIMA(111)x(101)12 Modelo extraiacutedo de aplicar lafuncioacuten autoarima a una seriedel IGE escogida aleatoriamente

Escenario 7 ARIMA(112)x(011)12 Modelo extraiacutedo de aplicar lafuncioacuten autoarima a una seriedel IGE escogida aleatoriamente

Escenario 8 ARIMA(011)x(100)12 Modelo extraiacutedo de aplicar lafuncioacuten autoarima a una seriedel IGE escogida aleatoriamente

Cuadro 41 Resumen de los escenarios propuestos para el estudio de simulacioacuten

42 IacuteNDICE DE YOUDEN 29

En cada escenario se estudian cuatro casos

Caso 1 Serie con 100 observaciones y un atiacutepico en t = 40 el tamantildeo del atiacutepico es w = 35

Caso 2 Serie con 100 observaciones y un atiacutepico en t = 40 el tamantildeo del atiacutepico es w = 45

Caso 3 Serie con 100 observaciones y un atiacutepico en t = 2 el tamantildeo del atiacutepico es w = 4

Caso 4 Serie con 300 observaciones y dos atiacutepicos en t1 = 40 y t2 = 180 el tamantildeo de los atiacutepicoses w1 = 4 y w2 = 5

En el Escenario 4 hubo que modificar los valores del tamantildeo del atiacutepico introducido en cada casodebido a que no se obteniacutean resultados significativos para ninguacuten meacutetodo Por lo que finalmente solopara el Escenario 4 los valores introducidos fueron de w = 55 para el Caso 1 w = 65 para el Caso2 w = 6 para el Caso 1 w1 = 6 y w2 = 7 para el Caso 4

Los Casos 1 y 2 buscan estudiar la sensibilidad del meacutetodo de deteccioacuten dado que en lo uacutenico quese diferencian es en el tamantildeo del atiacutepico El Caso 3 plantea una situacioacuten complicada al encontrarseel atiacutepico al principio de la serie es maacutes difiacutecil detectar ese valor por dos motivos que el meacutetodo notenga todaviacutea la informacioacuten suficiente o que el meacutetodo vea afectada su estimacioacuten por este valor tantemprano El Caso 4 busca estudiar el comportamiento cuando se presenta maacutes de un atiacutepico

42 Iacutendice de Youden

Para comparar los resultados de los diferentes meacutetodos en las simulaciones vamos a utilizar lo queen otros campos como la investigacioacuten meacutedica se denomina test de diagnoacutestico En este tipo de testse compara la realidad con la prediccioacuten del mecanismo para analizar su funcionamiento Estos testde diagnoacutestico se presentan en lo que se denominan matrices de confusioacuten como la presentada en elCuadro 44 La idea de la matriz de confusioacuten es la de comparar las predicciones realizadas con larealidad de tal modo que se pueda observar cuando la prediccioacuten y la realidad coinciden y cuando no

Realidad

Negativo(0) Positivo (1)

PrediccioacutenNegativo(0) Verdadero Negativo (VN) Falso Negativo (FN)

Positivo(1) Falso Positivo (FP) Verdadero Positivo (VP)

Cuadro 42 Matriz de confusioacuten

En nuestro trabajo Negativo (0) representariacutea una observacioacuten normal y Positivo (1) una obser-vacioacuten atiacutepica La diagonal de la matriz estaacute representada por aquellas observaciones en las que larealidad y la prediccioacuten coinciden Los Falsos Negativos (FN) son aquellas observaciones en que el

30 CAPIacuteTULO 4 ESTUDIO DE SIMULACIOacuteN

mecanismo determinoacute que la observacioacuten era normal pero en realidad era atiacutepica Por otra parte losFalsos Positivos (FP) suceden cuando el mecanismo dictamina que la observacioacuten es atiacutepica pero larealidad es que es una observacioacuten normal

Los Falsos Positivos son tambieacuten conocidos como Error Tipo I la probabilidad de aceptar la hipoacute-tesis nula siendo esta falsa Y los Falsos Negativos son conocidos como Error Tipo II la probabilidadde no rechazar la hipoacutetesis nula siendo esta falsa

El iacutendice de Youden (Youden 1950) nacioacute con motivo de poder comparar los resultados de doso maacutes mecanismos de deteccioacuten y asiacute tener la capacidad de discernir cual de ellos tiene una mejorcapacidad discriminatoria Es decir el propoacutesito final del iacutendice es el de resumir la matriz de confusioacutenen un valor que consiga representar el comportamiento del mecanismo de deteccioacuten de tal modo quedos mecanismos se puedan comparar directamente

Este iacutendice considera con la misma importancia tanto los falsos positivos como los falsos negativosUtilizando otro campo de ejemplo la medicina un falso negativo supondriacutea no tratar la enfermedadde un paciente dado que establecemos que estaacute sano cuando la realidad es que estaacute enfermo Por otraparte un falso positivo supondriacutea un coste como podriacutea ser el monetario financiando el tratamiento oel emocional de un paciente que la realidad es que estaacute sano

Trasladando ese ejemplo a nuestro trabajo un falso negativo supondriacutea no calificar como atiacutepicauna observacioacuten que lo es Esto provocariacutea que estariacuteamos asumiendo como normal un comportamientoen el aacutembito socio-econoacutemico gallego que no lo fue estariacuteamos incurriendo en errores en posterioresanaacutelisis o estariacuteamos obviando sucesos relevantes

Los falsos positivos tambieacuten suponen un coste aquiacute cada observacioacuten que el meacutetodo detecte comoatiacutepica supondraacute la intervencioacuten de un analista para tratar de entender queacute ha sucedido Si finalmenteel analista concluye que la observacioacuten no es atiacutepica se habraacute desperdiciado una serie de horas y equipoque podriacutean haber sido invertidos para otro fin De ambos escenarios surgen dos medidas

Sensibilidad V PV P+FN refleja la proporcioacuten de verdaderos positivos sobre el total de positivos

Especifidad V NV N+FP refleja la proporcioacuten de verdaderos negativos sobre el total de negativos

El iacutendice de Youden se construye a partir de ambas medidas del siguiente modo

J = Sensibilidad + Especifidadminus 1 =V P

V P + FN+

V N

V N + FPminus 1

El rango en el que se utiliza este iacutendice es de 0 a 1 donde 1 representariacutea que el mecanismo escapaz de diferenciar perfectamente las observaciones atiacutepicas de las normales y 0 todo lo contrario

Sin embargo teoacutericamente este rango puede variar de minus1 a 1 (Shan G 2015) los valores menoresque cero no se suelen contemplar dado que no tienen una interpretacioacuten significativa En nuestrotrabajo sucede esta situacioacuten en la que se presentan mecanismos con valores negativos y si bien deforma general esto no tiene explicacioacuten en otros campos en este estudio si

Explicaacutendolo a traveacutes de lo que podriacutea ser un posible resultado de un mecanismo de deteccioacuten

42 IacuteNDICE DE YOUDEN 31

Realidad

Negativo(0) Positivo(1)

PrediccioacutenNegativo(0) 96 1

Positivo(1) 3 0

Cuadro 43 Ejemplo de posible resultado de un mecanismo de deteccioacuten en el que el iacutendice de Youdenseriacutea negativo

En el ejemplo del Cuadro 42 se analiza una serie de tiempo con 100 observaciones entre las cualesse encuentra un valor atiacutepico El mecanismo de deteccioacuten habriacutea detectado 3 posibles atiacutepicos peroninguno de ellos es el atiacutepico real Si calculamos el iacutendice de Youden obtenemos

J =0

0 + 1+

96

96 + 3minus 1 = minus003

El resultado es negativo debido a que el mecanismo de deteccioacuten nos situacutea en una posicioacuten peorque no clasificar nada como atiacutepico Por lo que si 1 refleja que el mecanismo es capaz de diferenciarperfectamente las dos clases y 0 que el mecanismo no nos ayuda en absoluto a diferenciar entre ellasun valor menor que 0 en nuestro trabajo supondriacutea que el mecanismo seriacutea peor que no clasificar nadadado que nos infunde un mayor error sobre la realidad

Un resultado de cero implicariacutea que el mecanismo no es uacutetil ya que no es capaz de diferenciar entrelo que es atiacutepico y lo que no En el Cuadro 43 se recoge un posible resultado que conduciriacutea a estasituacioacuten Este ejemplo recoge una situacioacuten en la que en una serie de tiempo de 100 observaciones seencuentran 5 valores atiacutepicos sin embargo el meacutetodo no es capaz de detectar ninguna de ellas

Realidad

Negativo(0) Positivo(1)

PrediccioacutenNegativo(0) 95 5

Positivo(1) 0 0

Cuadro 44 Ejemplo de posible resultado de un mecanismo de deteccioacuten en el que el iacutendice de Youdenseriacutea cero

J =0

0 + 5+

95

95 + 0minus 1 = 0

Finalmente el resultado perfecto implicariacutea que el mecanismo de deteccioacuten es capaz de diferenciarde forma precisa aquello que es atiacutepico de lo que no lo es En el Cuadro 44 se recoge un ejemplo de

32 CAPIacuteTULO 4 ESTUDIO DE SIMULACIOacuteN

esta situacioacuten En este ejemplo se plantea una serie de tiempo que cuenta con 100 observaciones delas cuales 5 son atiacutepicas igual que en el ejemplo anterior sin embargo el meacutetodo ahora es capaz dedetectar cada una de ellas sin incurrir en Falsos Positivos ni Falsos Negativos

Realidad

Negativo(0) Positivo(1)

PrediccioacutenNegativo(0) 95 0

Positivo(1) 0 5

Cuadro 45 Ejemplo de posible resultado de un mecanismo de deteccioacuten en el que el iacutendice de Youdenseriacutea uno

J =5

0 + 5+

95

95 + 0minus 1 = 1

Podemos observar como los valores fuera de la diagonal de la matriz aquellos que representan losFalsos Negativos y Falsos Positivos son cero En la diagonal de la matriz se encuentran los resultadosque muestran que el mecanismo ha conseguido identificar de forma perfecta aquellas observacionesque son atiacutepicas Esta seriacutea la situacioacuten ideal la cual representariacutea que el mecanismo de deteccioacuten deatiacutepicos funciona de forma idoacutenea

43 Resultados

A continuacioacuten se presentan los resultados para los ocho escenarios introducidos recogidos en elCuadro 41 Al introducir una gran cantidad de meacutetodos escenarios y casos el anaacutelisis de los resultadosse presenta confuso por lo que se decidioacute introducir un coacutedigo de color para resaltar los tres mejores ytres peores resultados en cada caso Los mejores resultados se asocian al color verde siendo el verde maacutesintenso el mejor resultado y decayendo gradualmente la intensidad del color seguacuten empeora Por otraparte los peores resultados estaacuten asociados al color rojo siendo el rojo maacutes intenso el peor resultadoy decayendo la intensidad seguacuten el resultado mejora

Se pensoacute en introducir un gradiente de color por cada caso de modo que fuese variando de mejora peor Finalmente se descartoacute debido a que su contribucioacuten a la comprensioacuten de los resultados eramenor que la idea finalmente escogida de resaltar los tres mejores y los tres peores resultados

Los resultados obtenidos para el iacutendice de Youden se muestran a continuacioacuten A mayores en elanexo se han incluido tablas referentes a los resultados que han presentado los distintos meacutetodos enbase a otras dos medidas que tambieacuten han resultado de utilidad a la hora de escoger los mecanismosadecuados La primera de esas medidas es la sensibilidad la cual hemos definido en este apartado yla otra es el exceso la cual se define como la media de detecciones incorrectas por simulacioacuten y cuyosresultados estaacuten incluidos en el anexo correspondiente

43 RESULTADOS 33

Caso 1 Caso 2 Caso 3 Caso 4

X-13ARIMA-SEATS 0495 0853 0699 0490

TRAMO-SEATS 0655 0926 0803 0494

STL+HDoutliers 0561 0830 0562 0727

STL+GESD 0265 0589 0236 0531

STL+iForest 0632 0882 0632 0788

STL(ROB)+HDoutliers 0550 0790 0666 0707

STL(ROB)+GESD 0623 0862 0732 0752

STL(ROB)+iForest 0634 0873 0741 0748

Twitter+HDoutliers 0462 0725 0588 0616

Twitter+GESD 0303 0587 0426 0433

Twitter+iForest 0524 0797 0647 0657

STR+Hdoutliers 0603 0833 0595 0667

STR+GESD 0344 0649 0292 0448

STR+iForest 0670 0882 0675 0719

STR(ROB)+Hdoutliers 0534 0803 0630 0654

STR(ROB)+GESD 0379 0683 0456 0557

STR(ROB)+iForest 0619 0859 0695 0711

Cuadro 46 Resultados Escenario 1Iacutendice de Youden AR(1)

En el Cuadro 46 se recogen los resultados al Escenario 1 escenario en el que se simula un AR(1)igual al realizado por Chen y Liu (1993) Los resultados muestran que en los casos 1 2 y 3 TRAMO-SEATS ejerce un papel superior al resto buen comportamiento que desaparece en el Caso 4 casoen el que se introducen dos atiacutepicos Si analizamos conjuntamente los resultados de los cuatro casospodriacuteamos decir que los meacutetodos que reflejan un mejor comportamiento global en el escenario seriacuteanSTR+iForest y STL(Rob)+iForest

34 CAPIacuteTULO 4 ESTUDIO DE SIMULACIOacuteN

Caso 1 Caso 2 Caso 3 Caso 4

X-13ARIMA-SEATS 0504 0828 0645 0494

TRAMO-SEATS 0667 0913 0741 0494

STL+HDoutliers 0465 0721 0473 0680

STL+GESD 0217 0457 0147 0428

STL+iForest 0502 0781 0521 0713

STL(ROB)+HDoutliers 0457 0723 0576 0642

STL(ROB)+GESD 0516 0761 0651 0667

STL(ROB)+iForest 0519 0798 0660 0713

Twitter+HDoutliers 0457 0690 0587 0640

Twitter+GESD 0346 0627 0480 0486

Twitter+iForest 0506 0774 0658 0689

STR+HDoutliers 0580 0814 0566 0658

STR+GESD 0297 0601 0247 0449

STR+iForest 0626 0866 0647 0719

STR(ROB)+HDoutliers 0514 0780 0603 0644

STR(ROB)+GESD 0335 0627 0405 0520

STR(ROB)+iForest 0578 0836 0687 0709

Cuadro 47 Resultados Escenario 2 Iacutendice de Youden MA(1)

En el Cuadro 47 se recogen los resultados al Escenario 2 escenario en el que se simula un MA(1)igual al realizado por Chen y Liu (1993) Los resultados que se observan son similares a los extraiacutedos delEscenario 1 TRAMO-SEATS es claramente superior en los casos 1 2 y 3 pero su buen comportamientodesaparece ante el Caso 4 Por otra parte STR+iForest presenta un comportamiento maacutes homogeacuteneoencontraacutendose en tres de los cuatro casos entre los tres mejores resultados Lo mismo sucede con suversioacuten robusta En esta ocasioacuten la combinacioacuten STL+iForest solamente se encuentra entre las mejoresen el Caso 4

43 RESULTADOS 35

Caso 1 Caso 2 Caso 3 Caso 4

X-13ARIMA-SEATS 0921 0970 0926 0500

TRAMO-SEATS 0921 0971 0921 0500

STL+HDoutliers 0306 0502 0234 0435

STL+GESD 0088 0229 0050 0152

STL+iForest 0338 0575 0279 0451

STL(ROB)+HDoutliers 0252 0426 0287 0328

STL(ROB)+GESD 0287 0504 0369 0316

STL(ROB)+iForest 0291 0495 0329 0358

Twitter+HDoutliers 0061 0109 0124 0064

Twitter+GESD 0015 0027 0056 0025

Twitter+iForest 0077 0127 0167 0068

STR+HDoutliers 0400 0556 0342 0436

STR+GESD 0202 0365 0108 0230

STR+iForest 0441 0614 0385 0492

STR(ROB)+HDoutliers 0237 0391 0248 0268

STR(ROB)+GESD 0199 0381 0215 0254

STR(ROB)+iForest 0277 0451 0279 0289

Cuadro 48 Resultados Escenario 3 Iacutendice de Youden ARIMA(011)

En el Cuadro 48 se recogen los resultados al Escenario 3 escenario en el que se simula un ARI-MA(011) igual al realizado por Chen y Liu (1993) En este escenario existe una hegemoniacutea de X-13ARIMA-SEATS y TRAMO-SEATS los cuales presentan resultados superiores a los de cualquierotro meacutetodo La combinacioacuten STR+iForest es el tercer meacutetodo que a pesar de la diferencia con losotros dos presenta mejores resultados

36 CAPIacuteTULO 4 ESTUDIO DE SIMULACIOacuteN

Caso 1 Caso 2 Caso 3 Caso 4

X-13ARIMA-SEATS 0402 0592 0067 0480

TRAMO-SEATS 0540 0705 0071 0481

STL+HDoutliers -0003 -0004 0008 0000

STL+GESD -0002 -0001 0002 -0001

STL+iForest -0004 -0004 0008 0001

STL(ROB)+HDoutliers -0005 -0005 0025 0000

STL(ROB)+GESD -0039 -0026 0052 0002

STL(ROB)+iForest 0004 -0002 0026 0000

Twitter+HDoutliers 0000 -0002 -0001 0007

Twitter+GESD -0025 -0019 -0016 0003

Twitter+iForest 0000 -0001 0004 0016

STR+HDoutliers 0359 0417 -0004 0083

STR+GESD 0409 0445 -0006 0124

STR+iForest 0411 0472 -0005 0097

STR(ROB)+HDoutliers 0014 0006 0002 0039

STR(ROB)+GESD 0019 0017 0008 0075

STR(ROB)+iForest 0014 0005 0002 0021

Cuadro 49 Resultados Escenario 4 Iacutendice de Youden ARIMA(011)x(011)12

En el Cuadro 49 se recogen los resultados al Escenario 4 escenario en el que se simula el modelo deliacuteneas aeacutereas (G Box y Jenkins 1976) Este modelo es famoso por su uso en series socio-econoacutemicasPor ello cabriacutea esperar un buen comportamiento de los modelos disentildeados para este fin X-13ARIMA-SEATS y TRAMO-SEATS El resto de combinaciones presentan resultados poco consistentes

43 RESULTADOS 37

Caso 1 Caso 2 Caso 3 Caso 4

X-13ARIMA-SEATS 0265 0628 0176 0409

TRAMO-SEATS 0398 0747 0248 0432

STL+HDoutliers 0238 0469 0281 0125

STL+GESD 0091 0258 0158 0024

STL+iForest 0263 0531 0305 0134

STL(ROB)+HDoutliers 0265 0475 0343 0097

STL(ROB)+GESD 0375 0662 0452 0114

STL(ROB)+iForest 0304 0545 0388 0128

Twitter+HDoutliers 0243 0429 0352 0103

Twitter+GESD 0168 0376 0309 0057

Twitter+iForest 0266 0479 0381 0126

STR+HDoutliers 0656 0885 0231 0755

STR+GESD 0424 0769 0064 0567

STR+iForest 0720 0936 0277 0798

STR(ROB)+HDoutliers 0189 0326 0212 0523

STR(ROB)+GESD 0174 0317 0192 0665

STR(ROB)+iForest 0229 0364 0232 0588

Cuadro 410 Resultados Escenario 5 Iacutendice de Youden ARIMA(101)x(012)12

En el Cuadro 410 se recogen los resultados al Escenario 5 escenario en el que se simula un modeloARIMA (101)x(012)12 a partir de aplicarle la funcioacuten autoarima a una serie del IGE escogidaaleatoriamente En este escenario predomina la descomposicioacuten STR ya que son las combinacionesjunto a los tres meacutetodos de deteccioacuten de atiacutepicos GESD iForest y HDoutliers los meacutetodos quepresentan mejores resultados En concreto la combinacioacuten STR+iForest supone la combinacioacuten maacutesinteresante para este escenario

38 CAPIacuteTULO 4 ESTUDIO DE SIMULACIOacuteN

Caso 1 Caso 2 Caso 3 Caso 4

X-13ARIMA-SEATS 0331 0659 0354 0425

TRAMO-SEATS 0457 0764 0477 0438

STL+HDoutliers 0513 0790 0494 0624

STL+GESD 0229 0558 0188 0328

STL+iForest 0560 0833 0567 0648

STL(ROB)+HDoutliers 0507 0776 0592 0595

STL(ROB)+GESD 0528 0815 0663 0560

STL(ROB)+iForest 0559 0838 0661 0645

Twitter+HDoutliers 0239 0416 0355 0208

Twitter+GESD 0101 0229 0185 0100

Twitter+iForest 0279 0452 0383 0227

STR+HDoutliers 0520 0779 0436 0636

STR+GESD 0278 0584 0151 0385

STR+iForest 0596 0822 0494 0682

STR(ROB)+HDoutliers 0399 0666 0490 0545

STR(ROB)+GESD 0274 0524 0349 0404

STR(ROB)+iForest 0457 0731 0568 0579

Cuadro 411 Resultados Escenario 6 Iacutendice de Youden ARIMA(111)x(101)12

En el Cuadro 411 se recogen los resultados al Escenario 6 escenario en el que se simula un modeloARIMA (111)x(101)12 a partir de aplicarle la funcioacuten autoarima a una serie del IGE escogidaaleatoriamente En este escenario los meacutetodos que muestran unos mejores resultados son STR+iForesty STL+iForest Tambieacuten muestra un buen comportamiento el meacutetodo STL(Rob)+GESD basado enla combinacioacuten de la versioacuten robusta de la descomposicioacuten STL y el meacutetodo de deteccioacuten de atiacutepicosGESD

43 RESULTADOS 39

Caso 1 Caso 2 Caso 3 Caso 4

X-13ARIMA-SEATS 0332 0673 0347 0422

TRAMO-SEATS 0426 0765 0425 0453

STL+HDoutliers 0451 0693 0414 0503

STL+GESD 0180 0438 0142 0219

STL+iForest 0509 0759 0458 0527

STL(ROB)+HDoutliers 0416 0655 0468 0489

STL(ROB)+GESD 0452 0702 0549 0457

STL(ROB)+iForest 0484 0717 0541 0525

Twitter+HDoutliers 0009 0018 0037 0037

Twitter+GESD -0024 -0014 0011 0010

Twitter+iForest 0007 0016 0050 0050

STR+HDoutliers 0469 0719 0369 0582

STR+GESD 0228 0495 0122 0329

STR+iForest 0511 0774 0438 0635

STR(ROB)+HDoutliers 0282 0495 0347 0330

STR(ROB)+GESD 0224 0432 0301 0285

STR(ROB)+iForest 0343 0557 0407 0385

Cuadro 412 Resultados Escenario 7 Iacutendice de Youden ARIMA(112)x(011)12

En el Cuadro 412 se recogen los resultados al Escenario 7 escenario en el que se simula un modeloARIMA (112)x(011)12 a partir de aplicarle la funcioacuten autoarima a una serie del IGE escogidaaleatoriamente En este escenario los meacutetodos que muestran unos mejores resultados vuelven a serSTL+iForest STR+iForest y cercano a ellos STL(Rob)+iForest El resto de resultados no muestranninguacuten meacutetodo estable para los cuatro casos

40 CAPIacuteTULO 4 ESTUDIO DE SIMULACIOacuteN

Caso 1 Caso 2 Caso 3 Caso 4

X-13ARIMA-SEATS 0298 0636 0334 0434

TRAMO-SEATS 0419 0712 0427 0481

STL+HDoutliers 0425 0697 0389 0620

STL+GESD 0176 0415 0108 0351

STL+iForest 0480 0734 0423 0662

STL(ROB)+HDoutliers 0429 0675 0483 0607

STL(ROB)+GESD 0449 0718 0543 0584

STL(ROB)+iForest 0486 0749 0559 0675

Twitter+HDoutliers 0271 0463 0378 0350

Twitter+GESD 0127 0286 0189 0147

Twitter+iForest 0300 0504 0424 0356

STR+HDoutliers 0448 0692 0459 0564

STR+GESD 0203 0438 0167 0274

STR+iForest 0492 0769 0502 0600

STR(ROB)+Hdoutliers 0416 0680 0503 0548

STR(ROB)+GESD 0260 0523 0329 0366

STR(ROB)+iForest 0460 0751 0573 0587

Cuadro 413 Resultados Escenario 8 Iacutendice de Youden ARIMA(011)x(100)12

En el Cuadro 413 se recogen los resultados al Escenario 8 escenario en el que se simula un mode-lo ARIMA(011)x(100)12 a partir de aplicarle la funcioacuten autoarima a una serie del IGE escogidaaleatoriamente Los resultados maacutes consistentes para los cuatro casos estaacuten formados por las combina-ciones de STR+iForest la misma combinacioacuten pero con la versioacuten robusta de la descomposicioacuten STRSTR(Rob)+iForest y la combinacioacuten STL+iForest y tambieacuten su versioacuten robusta STL (Rob)+iForest

44 CONCLUSIONES 41

44 Conclusiones

Los resultados de las simulaciones muestran dos realidades Por un lado nos encontramos con losresultados asociados a los escenarios 1 2 3 y 4 En estos escenarios prevalece el comportamientode TRAMO-SEATS por encima de todos los meacutetodos sin lugar a duda incluso tambieacuten podriacuteamosincluir a X-13ARIMA-SEATS aquiacute Cabe recordar que ambos parten de las mismas ideas pero esTRAMO-SEATS el que implanta una serie de mejoras a los meacutetodos de deteccioacuten de atiacutepicos en losque se inspiran ambos esto se trata en el Capiacutetulo 3 Por otra parte en los escenarios 5 6 7 y 8 ya noexiste tal hegemoniacutea de TRAMO-SEATS frente al resto de meacutetodos de hecho nos encontramos unosresultados bastante maacutes variados

Entre los meacutetodos de descomposicioacuten (STLTwitter y STR) el que presenta mejores resultados enlas simulaciones es STR En todos los escenarios presenta resultados que lo posicionan entre los tresprimeros Esto nos da una idea de que estamos ante un meacutetodo flexible capaz de entender la estructurasubyacente de series de tiempo muy diversas y adecuar una respuesta realista del mecanismo generadorSus buenos resultados son seguidos muy de cerca por la descomposicioacuten STL Este es un resultado queconcuerda con lo esperado debido a que siendo los dos meacutetodos similares plantean la misma idea perola ejecutan de distinta forma STR fue creado con el objetivo de suponer una mejora a STL

En lo que respecta a los meacutetodos de deteccioacuten GESD HDoutliers y iForest podemos extraerconclusiones acerca del comportamiento de cada uno

GESD es un buen meacutetodo de identificacioacuten de atiacutepicos Obtiene buenos resultados faacutecil deaplicar y es sencillo entender su mecanismo algo muy uacutetil para personas que quieran realizaro transmitir un estudio sin ahondar profundamente en materia Por otra parte sus buenosresultados en la deteccioacuten correcta de atiacutepicos se ven eclipsados por su tendencia a clasificaraltos valores de observaciones como anoacutemalas incorrectamente Si estamos realizando un anaacutelisisindividual esto podriacutea no ser un problema dado que se podriacutea intervenir modificando alguno desus paraacutemetros y conseguir mejores resultados Sin embargo en este trabajo buscamos un meacutetodoque nos sirva como filtro para analizar multitud de series con la menor intervencioacuten posible porlo que descartamos dicho mecanismo

HDoutliers supone una mejora a GESD Muestra mejor comportamiento en todas las combina-ciones con los meacutetodos de descomposicioacuten GESD solo consigue igualar o superar ligeramentesus resultados incurriendo en calificar una gran cantidad de observaciones como atiacutepicas lo queprovoca un incremento en el nuacutemero de observaciones calificadas erroacuteneamente esto se puede veren las tablas de exceso introducidas en el anexo Sin embargo pese a suponer una mejora noes el meacutetodo que presenta mejores resultados

Isolation Forest o iForest es el meacutetodo de deteccioacuten maacutes consistente a lo largo de los escenariosy para cada meacutetodo de descomposicioacuten Consigue un equilibrio entre buenos valores de deteccioacutencorrecta y bajas tasas de atiacutepicos sentildealados incorrectamente justo lo que se busca en un meacutetodode deteccioacuten de atiacutepicos La idea de aacuterbol bajo la que se desarrolla su mecanismo es faacutecil decomprender cada observacioacuten recibe una puntuacioacuten entre 0 y 1 de cuaacuten anoacutemala es esto permiteflexibilizar la decisioacuten del analista con el umbral en el que fija un valor como atiacutepico En Liu et

42 CAPIacuteTULO 4 ESTUDIO DE SIMULACIOacuteN

al (2009) califican como observaciones sospechosas de ser atiacutepicas aquellas cuya puntuacioacuten seamayor a 06 en este trabajo somos maacutes estrictos y fijamos un umbral superior 075 Ademaacutessu disentildeo le permite escalar a conjuntos de gran tamantildeo y dimensioacuten (big data) por lo que nosupone un freno ante situaciones futuras

Parece interesante tambieacuten recordar que los mecanismos que emplean los meacutetodos X-13ARIMA-SEATS y TRAMO-SEATS fueron analizados en estudios que planteaban simulaciones como las quese realizan en los escenarios 1 2 y 3 Ademaacutes tambieacuten cabe esperar un buen comportamiento que seespera de ellos en un modelo tan comuacuten como el de liacuteneas aacutereas (Escenario 4) Sin embargo cuando seaplican fuera de estos escenarios en modelos maacutes complejos solamente TRAMO-SEATS consigue noquedarse atraacutes

La simulacioacuten nos permite descartar la descomposicioacuten Twitter la cual estaacute quizaacutes maacutes enfocadaa datos de alta frecuencia datos que se producen en frecuencias de tiempo mucho maacutes pequentildeascomo minutos en vez de datos mensuales como los planteados en el estudio de simulacioacuten por lo querefleja peores resultados en escenarios de este aacutembito Tambieacuten nos permite descartar el meacutetodo X-13ARIMA-SEATS dado que supone una idea similar pero menos desarrollada en lo que a deteccioacuten deatiacutepicos se refiere a TRAMO-SEATS Finalmente el meacutetodo GESD tambieacuten es descartado debido asus resultados en los que muestra un comportamiento inferior frente a HDoutliers meacutetodo que suponeuna mejora a la idea sobre la que se basa GESD

Por lo que se concluye que los meacutetodos maacutes adecuados para la continuacioacuten del trabajo son elmodelo TRAMO-SEATS las descomposiciones de series temporales STL y STR y los meacutetodos dedeteccioacuten de atiacutepicos HDoutliers y iForest lo que conforman los siguientes mecanismos de deteccioacutende atiacutepicos

TRAMO-SEATS

STL+HDoutliers

STL+iForest

STR+HDoutliers

STR+iForest

Capiacutetulo 5

Aplicacioacuten a datos reales

En este capiacutetulo se aplican los meacutetodos que han mostrado unos mejores resultados en el estudiode simulacioacuten a las bases de datos del IGE comentadas en Capiacutetulo 1 Estos meacutetodos son TRAMO-SEATS STL+HDoutliers STL+iForest STR+HDoutliers y STL+iForest De este modo podemosanalizar el comportamiento de los meacutetodos con datos reales y extraer nuevas conclusiones que nosurgiacutean en el estudio de simulacioacuten Esto se debe a que si bien el estudio de simulacioacuten planteaba unadiversidad de escenarios amplia nunca seraacuten suficientes para recoger la multitud de naturalezas quecaracteriza a las series socio-econoacutemicas

El anaacutelisis de las datos del IGE se haraacute en dos niveles Un primer nivel mostraraacute el comportamientoglobal del conjunto mediante cuatro medidas el total de atiacutepicos detectados por cada meacutetodo en elconjunto el maacuteximo nuacutemero de atiacutepicos que detecta el meacutetodo en una serie del conjunto el nuacutemero deseries que no presentan atiacutepicos y la media de atiacutepicos detectados por cada meacutetodo El segundo nivelmostraraacute un anaacutelisis maacutes especiacutefico donde se analizaraacute el comportamiento de los meacutetodos respecto auna serie escogida del conjunto

Para finalizar el capiacutetulo introducimos una herramienta graacutefica disentildeada con el objetivo de eliminarla mayor incertidumbre posible que acompantildea a un campo como el de la deteccioacuten de valores atiacutepicosy analizamos su comportamiento

51 Anaacutelisis Series IGE

Los conjuntos utilizados para este trabajo han pasado primero por un proceso de filtrado en el quese han eliminado todas las series que presentan menos de 24 observaciones o maacutes de 24 ceros entre susobservaciones De este modo conseguimos quedarnos con series que recogen la informacioacuten suficientepara trabajar con ellas

A continuacioacuten se muestra el total de series perteneciente a cada conjunto

43

44 CAPIacuteTULO 5 APLICACIOacuteN A DATOS REALES

Conjunto 1 Conjunto 2 Conjunto 3 Conjunto 4 Conjunto 5 Conjunto 6 Conjunto 7

Pre-filtrado 108 72 55 42 162 165 55

Post-filtrado 84 60 50 42 90 165 47

Cuadro 51 Nuacutemero de series de tiempo perteneciente a cada conjunto antes y despueacutes del proceso defiltrado

Ademaacutes con el objetivo de capturar la influencia del Covid19 sobre las series de tiempo se procedea dividir el estudio en dos partes La primera analiza las series con datos hasta 2019 si el conjuntopresenta datos de frecuencia mensual esta fecha seraacute diciembre de 2019 por otra parte si el conjuntopresenta datos de frecuencia trimestral esta fecha seraacute el cuarto trimestre de 2019 La segunda analizalas series incluyendo el uacuteltimo dato actualizado el cual variacutea dependiendo del conjunto Los conjuntoscon datos trimestrales incluyen hasta el primer trimestre del 2020 mientras que los conjuntos condatos mensuales incluyen como uacuteltima actualizacioacuten fechas comprendidas entre abril y junio de 2020por lo que dicha fecha se concretaraacute en el momento que se analiza dicho conjunto Respecto a la fechade inicio de las series variacutea dependiendo del conjunto por lo que tambieacuten se especificaraacute en el iniciodel anaacutelisis del mismo

Para medir la influencia del Covid lo que se haraacute seraacute calcular la tasa de variacioacuten del total deatiacutepicos detectados entre ambos escenarios las series hasta 2019 y las series actualizadas al uacuteltimodato existente de 2020 la cual calcularemos como

Tasa de variacioacuten =

(Total atiacutepicos serie completaTotal atiacutepicos serie hasta 2019

minus 1

)lowast 100

Conjunto 1 (httpwwwigeeuigebdtigeapidatos3476)

Series de datos mensuales que contienen la informacioacuten de los viajeros noches y estancia media enestablecimientos hoteleros y de turismo rural en Espantildea Galicia y sus provincias Los datos de esteconjunto comienzan en enero de 1999 y finalizan en mayo de 2020

51 ANAacuteLISIS SERIES IGE 45

TRAMO -

SEATS

STL +

HDoutliers

STL +

iForest

STR +

HDoutliers

STR +

iForest

Atiacutepicos detectados 327 176 111 136 142

Max nuacutemero atip serie 17 11 3 8 4

Series con 0 atiacutepicos 13 20 11 23 3

Media de atiacutepicos detec 389 210 132 162 169

Cuadro 52 Resultados para el Conjunto 1 con datos hasta diciembre de 2019

Los resultados del Cuadro 52 se producen para un total de 18816 observaciones que muestra elconjunto con datos hasta diciembre de 2019 Ahora vamos a estudiar los resultados de forma quecada serie esteacute formada por el uacuteltimo dato actualizado y a realizar una comparacioacuten entre ambosescenarios En esta serie el uacuteltimo dato actualizado es mayo de 2020 lo que conforma un total de19172 observaciones

TRAMO -

SEATS

STL +

HDoutliers

STL +

iForest

STR +

HDoutliers

STR +

iForest

Atiacutepicos detectados 457 243 170 264 204

Max nuacutemero atip serie 17 11 4 15 5

Series con 0 atiacutepicos 1 6 1 10 3

Media de atiacutepicos detec 544 289 202 314 243

Cuadro 53 Resultados para el Conjunto 1 con datos hasta mayo de 2020

46 CAPIacuteTULO 5 APLICACIOacuteN A DATOS REALES

TRAMO -

SEATS

STL +

HDoutliers

STL +

iForest

STR +

HDoutliers

STR +

iForest

Hasta 2019 327 176 111 136 142

Hasta mayo 2020 457 243 170 264 204

Tasa de variacioacuten 3976 3807 5315 9412 4366

Cuadro 54 Total de atiacutepicos detectados por cada meacutetodo hasta diciembre de 2019 y abril 2020 y tasade variacioacuten que produce el efecto del Covid en el Conjunto 1

En el Cuadro 54 podemos ver como el efecto del Covid sobre el conjunto es muy notorio algoque cabriacutea esperar dado que estamos tratando series relacionadas con el Turismo en Galicia uno delos sectores maacutes afectados por la crisis del Covid El Cuadro 53 incorpora datos hasta mayo 2020lo que supone solamente un crecimiento del 189 del total de datos Sin embargo el crecimientoque experimenta el total de atiacutepicos detectado es muy superior en el caso maacutes suave representa uncrecimiento de maacutes del 38 llegando a suponer para alguacuten meacutetodo el 94

A continuacioacuten vamos a analizar un caso concreto de una serie del conjunto Hemos escogido laserie que hace referencia al nuacutemero de viajeros residentes en Espantildea hospedados en establecimientosde turismo rural en Espantildea El motivo de su eleccioacuten es que es la serie que provoca un mayor nuacutemerode atiacutepicos en el Cuadro 52 un total de 17 observaciones atiacutepicas sentildealadas por el meacutetodo TRAMO-SEATS

Figura 51 Serie de tiempo referente al nuacutemero de viajeros residentes en Espantildea hospedados en esta-blecimientos de turismo rural en Espantildea

La Figura 51 recoge la serie de tiempo referente al nuacutemero de viajeros residentes en Espantildea hos-

51 ANAacuteLISIS SERIES IGE 47

pedados en establecimientos de turismo rural en Espantildea La liacutenea vertical roja representa el comienzodel antildeo 2020 Observando dicha figura y centraacutendonos en la serie hasta 2019 nos encontramos con unaserie con mucha volatilidad debido al fuerte caraacutecter estacional que posee un sector como el turismoy con una ligera tendencia creciente que se estanca ligeramente en los antildeos posteriores a la crisis eco-noacutemica de 2011 para despueacutes continuar en aumento Sin embargo no parece que se encuentren valoresatiacutepicos en dicha serie La combinacioacuten STR+HDoutliers tambieacuten sentildeala un elevado nivel de atiacutepicosseis en total que se reduce con STR+iForest a tres posibles atiacutepicos Finalmente STL+HDoutliers ySTL+iForest coinciden en sentildealar un atiacutepico agosto de 2019

Si ahora observamos los resultados para la serie completa podemos comprobar que los resultadoscambian bruscamente con la introduccioacuten de cuatro nuevos datos enero febrero marzo y abril de2020 Ahora el meacutetodo TRAMO-SEATS sentildeala cuatro fechas de las que solo dos coinciden con lassentildealadas anteriormente Las combinaciones STL+HDoutliers y STL+iForest mantienen como atiacutepicoagosto de 2019 y antildeaden febrero marzo y abril 2020 y marzo y abril 2020 respectivamente Y ahorason las combinaciones STR+HDoutliers y STR+iForest las que sentildealan uacutenicamente agosto de 2019

Es interesante observar el comportamiento de los cinco meacutetodos en esta serie TRAMO-SEATS ylas combinaciones basadas en el proceso de descomposicioacuten STR soliacutean ser las que mejores resultadospresentaban sin embargo en este ejemplo son los meacutetodos basados en la descomposicioacuten STL que sibien presentaron buenos resultados en la simulacioacuten tendiacutean a ir por detraacutes de TRAMO-SEATS y losmeacutetodos basados en la descomposicioacuten STR los que presenta un comportamiento maacutes acorde con loque sucede en la serie De hecho son los meacutetodos basados en la descomposicioacuten STL los uacutenicos quesentildealan como atiacutepica la observacioacuten de abril 2020 la cual es la uacutenica que tiene un valor de 0 y esclaramente atiacutepica

La Figura 52 representa los atiacutepicos detectados por el meacutetodo STL+HDoutliers el cual es el meacutetodoque mejor comportamiento muestra para esta serie

Figura 52 Serie de tiempo referente al nuacutemero de viajeros residentes en Espantildea hospedados en esta-blecimientos de turismo rural en Espantildea analizada por el meacutetodo STL+HDoutliers

En la Figura 53 se muestran los resultados para la misma serie por el resto de meacutetodos utilizadosSTL+iForest STR+HDoutliers STR+iForest y TRAMO-SEATS

48 CAPIacuteTULO 5 APLICACIOacuteN A DATOS REALES

Figura 53 Serie de tiempo referente al nuacutemero de viajeros residentes en Espantildea hospedados en esta-blecimientos de turismo rural en Espantildea analizada por STL+iForest STR+HDoutliers STR+iForesty TRAMO-SEATS

Conjunto 2 (httpwwwigeeuigebdtigeapidatos6356)

Series de datos trimestrales acerca de la poblacioacuten de 16 y maacutes antildeos desglosados por sexo gruposde edad y relacioacuten con la actividad econoacutemica en Galicia Los datos de este conjunto comienzan en elprimer trimestre de 1996 y finalizan en el primer trimestre de 2020

TRAMO -

SEATS

STL +

HDoutliers

STL +

iForest

STR +

HDoutliers

STR +

iForest

Atiacutepicos detectados 56 70 61 62 66

Max nuacutemero atip serie 5 6 3 5 3

Series con 0 atiacutepicos 28 29 18 26 14

Media de atiacutepicos detec 093 117 102 103 110

Cuadro 55 Resultados para el Conjunto 2 con datos hasta el cuarto trimestre de 2019

Los resultados del Cuadro 55 se producen para un total de 5760 observaciones que muestra elconjunto con datos hasta el cuarto trimestre de 2019 Ahora vamos a estudiar los resultados de formaque cada serie esteacute formada por el uacuteltimo dato actualizado y a comparar ambos escenarios En estaserie el uacuteltimo dato actualizado es el primer trimestre de 2020 lo que conforma un total de 5820

51 ANAacuteLISIS SERIES IGE 49

observaciones

TRAMO -

SEATS

STL +

HDoutliers

STL +

iForest

STR +

HDoutliers

STR +

iForest

Atiacutepicos detectados 54 107 62 68 66

Max nuacutemero atip serie 5 45 3 4 3

Series con 0 atiacutepicos 28 30 15 20 12

Media de atiacutepicos detec 090 178 103 113 110

Cuadro 56 Resultados para el Conjunto 2 con datos hasta el primer trimestre de 2020

TRAMO -

SEATS

STL +

HDoutliers

STL +

iForest

STR +

HDoutliers

STR +

iForest

Hasta 2019 56 70 61 62 66

Hasta mayo 2020 54 107 62 68 66

Tasa de variacioacuten -357 5286 164 968 000

Cuadro 57 Total de atiacutepicos detectados por cada meacutetodo hasta el cuarto trimestre de 2019 y primertrimestre de 2020 y tasa de variacioacuten que produce el efecto del Covid en el Conjunto 2

En el Cuadro 57 podemos ver como el efecto del Covid sobre el conjunto es mucho menor que enlos datos del Conjunto 1 Esto se debe a la naturaleza trimestral de los datos por lo que situando lainfluencia del Covid en el contexto gallego a finales de marzo de 2020 su impacto es maacutes suave sobrelos datos Seriacutea interesante en el futuro ver que sucede con este conjunto una vez se antildeadan los datosdel segundo trimestre

A continuacioacuten vamos a analizar un caso concreto de una serie del conjunto Hemos escogido laserie que recoge los datos de hombres mayores de 55 antildeos y que forman parte de la poblacioacuten ocupada

En la Figura 54 se muestra la serie de tiempo referente a los hombres mayores de 55 antildeos queforma parte de la poblacioacuten ocupada La recta vertical roja diferencia los dos escenarios que estudiamosla serie hasta el cuarto trimestre de 2019 y la serie hasta el primer trimestre de 2020-

50 CAPIacuteTULO 5 APLICACIOacuteN A DATOS REALES

Figura 54 Serie de tiempo referente hombres mayores de 55 antildeos y que forman parte de la poblacioacutenocupada

El uacutenico dato que las diferencia el primer trimestre de 2020 sigue con lo que cabriacutea esperar Y losmeacutetodos de deteccioacuten de atiacutepicos concuerdan con lo que observamos no existen atiacutepicos ni antes nidespueacutes excepto en un caso Ahora son los meacutetodos basados en el proceso de descomposicioacuten STL losque sentildealan una fecha que parece discrepar con la realidad

En la serie con valores hasta 2019 son ambas combinaciones STL+HDoutliers y STL+iForestlas que sentildealan como posible atiacutepico julio 2013 Si nos trasladamos a la serie completa uacutenicamenteSTL+iForest sigue manteniendo ese posible atiacutepico mientras que STL+HDoutliers lo corrige Esta si-tuacioacuten en las que solo un meacutetodo sentildeala una fecha nos lleva a dudar de que realmente esta observacioacutensea atiacutepica

A continuacioacuten mostramos la serie referente a los hombres mayores de 55 antildeos y que forman partede la poblacioacuten ocupada analizada por el uacutenico meacutetodo que detecta atiacutepicos para la serie completaSTL+iForest

Figura 55 Serie de tiempo referente hombres mayores de 55 antildeos y que forman parte de la poblacioacutenocupada analizada por STL+iForest

51 ANAacuteLISIS SERIES IGE 51

Conjunto 3 (httpwwwigeeuigebdtigeapidatos308)

Series de datos mensuales acerca de contratos registrados seguacuten la modalidad del contrato Losdatos de este conjunto comienzan en enero de 1999 y finalizan en mayo de 2020

TRAMO -

SEATS

STL +

HDoutliers

STL +

iForest

STR +

HDoutliers

STR +

iForest

Atiacutepicos detectados 193 126 98 146 98

Max nuacutemero atip serie 9 14 5 10 4

Series con 0 atiacutepicos 5 9 1 7 2

Media de atiacutepicos detec 386 252 196 292 196

Cuadro 58 Resultados para el Conjunto 3 con datos hasta diciembre 2019

El Cuadro 58 recoge los resultados que se producen para un total de 12600 observaciones quemuestra el Conjunto 3 con datos hasta diciembre de 2019 Ahora vamos a estudiar los resultados deforma que cada serie esteacute conformada por el uacuteltimo dato actualizado y a realizar una comparativaentre ambas En esta serie el uacuteltimo dato actualizado es mayo de 2020 lo que conforma un total de12850 observaciones

TRAMO -

SEATS

STL +

HDoutliers

STL +

iForest

STR +

HDoutliers

STR +

iForest

Atiacutepicos detectados 242 144 107 153 121

Max nuacutemero atip serie 13 8 5 10 4

Series con 0 atiacutepicos 1 6 0 7 1

Media de atiacutepicos detec 484 288 214 306 242

Cuadro 59 Resultados para el Conjunto 3 con datos hasta mayo de 2020

52 CAPIacuteTULO 5 APLICACIOacuteN A DATOS REALES

TRAMO -

SEATS

STL +

HDoutliers

STL +

iForest

STR +

HDoutliers

STR +

iForest

Hasta 2019 193 126 98 146 98

Hasta mayo 2020 242 144 107 153 121

Tasa de variacioacuten 2539 1429 918 479 2350

Cuadro 510 Total de atiacutepicos detectados por cada meacutetodo hasta diciembre de 2019 y mayo de 2020y tasa de variacioacuten que produce el efecto del Covid en el Conjunto 3

En el Cuadro 510 podemos ver como el efecto del Covid sobre el conjunto es similar al que sepresentaba en los datos del Conjunto 1 Este conjunto vuelve a recoger datos de caraacutecter mensual porlo que la influencia de los meses de 2020 vuelven a reflejar un gran peso en los resultados Sin embargolas tasas de variacioacuten no son tan grandes como las que se produciacutean en el Conjunto 1 Esto podriacuteadeberse a que mientras el sector turiacutestico se redujo a cero en el mercado laboral se llevaron a cabopoliacuteticas contra la destruccioacuten masiva de empleo Estos resultados lo que hacen es aflorar que se haproducido un efecto en el conjunto de datos y que podriacutea ser de intereacutes para despueacutes desarrollar unestudio en profundidad

A continuacioacuten vamos a analizar la serie referente a las contrataciones eventuales por circunstanciasde la produccioacuten para la provincia de Ourense diferenciando a traveacutes de una recta roja vertical los dosescenarios analizados los datos hasta diciembre 2019 y los datos hasta mayo de 2020

Figura 56 Serie de tiempo referente a las contrataciones eventuales por circunstancias de la produccioacutenpara la provincia de Ourense

El meacutetodo TRAMO-SEATS sentildeala tres fechas atiacutepicas en ambas ocasiones en la serie hasta 2019

51 ANAacuteLISIS SERIES IGE 53

y hasta mayo de 2020 sin embargo ninguna de ellas es comuacuten Probablemente esto se deba al compor-tamiento que podemos apreciar en la Figura 56 donde se observa la caiacuteda que produce en la serie losmeses de marzo abril y mayo de 2020 La introduccioacuten de estos datos reajusta las prioridades sobrequeacute es un atiacutepico en la serie para TRAMO-SEATS de forma que pasa de identificar octubre 2001abril 2002 y enero 2012 a sentildealar como fechas atiacutepicas octubre 2007 y marzo y abril de 2020

Este suceso tambieacuten se presenta en el resto de meacutetodos STL+HDoutliers pasa de no identificarninguacuten dato en la serie hasta 2019 a sentildealar abril del 2002 y febrero abril y mayo de 2020 Otro meacutetodoque experimenta esta situacioacuten es STR+iForest que pasa de no calificar ninguna observacioacuten atiacutepicaa sentildealar abril y mayo en 2019 y en 2020 STL+iForest sentildeala dos y tres atiacutepicos en cada caso en laserie hasta 2019 sentildeala el mes de julio en 2018 y 2019 mientras que en la serie completa sentildeala losmeses de febrero abril y mayo de 2020 Por uacuteltimo STR+HDoutliers sentildeala como atiacutepico abril del2002 en la serie acortada observacioacuten que ya no es detectada al incluir la serie completa donde sentildealalos meses de abril y mayo para los antildeos 2019 y 2020 igual aquiacute que STR+iForest

Estos resultados conducen hacia un punto comuacuten mientras que en la serie recortada en 2019 noparece haber mucho acuerdo sobre los atiacutepicos o si existen atiacutepicos en la serie completa todos losmeacutetodos se ponen de acuerdo en que las situaciones de abril y mayo de 2020 son anoacutemalas Estosresultados se muestran en la Figura 57

Figura 57 Serie de tiempo referente a las contrataciones eventuales por circunstancias de la produccioacutenpara la provincia de Ourense sentildealizando las anomaliacuteas comunes a los cinco meacutetodos

Conjunto 4 (httpwwwigeeuigebdtigeapidatos9048)

Series de datos mensuales referidas al Iacutendice de produccioacuten industrial general y por destino eco-noacutemico de los bienes en Espantildea y Galicia Los distintos destinos econoacutemico son bienes de consumoduraderos y no duraderos bienes de equipo bienes intermedios y energiacutea Los datos del conjuntocomienzan en enero de 2002 y finalizan en mayo de 2020

54 CAPIacuteTULO 5 APLICACIOacuteN A DATOS REALES

TRAMO -

SEATS

STL +

HDoutliers

STL +

iForest

STR +

HDoutliers

STR +

iForest

Atiacutepicos detectados 288 129 73 212 64

Max nuacutemero atip serie 24 11 3 102 3

Series con 0 atiacutepicos 9 5 3 6 2

Media de atiacutepicos detec 686 307 174 505 152

Cuadro 511 Resultados para el Conjunto 4 con datos hasta diciembre de 2019

El Cuadro 511 recoge los resultados que se producen para un total de 8904 observaciones quemuestra el conjunto con datos hasta diciembre de 2019 Ahora vamos a estudiar los resultados deforma que cada serie esteacute conformada por el uacuteltimo dato actualizado y a analizar los cambios que seproducen entre ambos escenarios En este conjunto el uacuteltimo dato actualizado es mayo de 2020 lo queconforma un total de 9114 observaciones

TRAMO -

SEATS

STL +

HDoutliers

STL +

iForest

STR +

HDoutliers

STR +

iForest

Atiacutepicos detectados 282 92 78 144 79

Max nuacutemero atip serie 24 5 3 50 3

Series con 0 atiacutepicos 4 5 1 2 1

Media de atiacutepicos detec 672 219 186 343 189

Cuadro 512 Resultados para el Conjunto 4 con datos hasta mayo de 2020

51 ANAacuteLISIS SERIES IGE 55

TRAMO -

SEATS

STL +

HDoutliers

STL +

iForest

STR +

HDoutliers

STR +

iForest

Hasta 2019 288 129 73 212 64

Hasta mayo 2020 282 92 78 144 79

Tasa de variacioacuten -208 -2868 685 -3208 2344

Cuadro 513 Total de atiacutepicos detectados por cada meacutetodo hasta diciembre de 2019 y mayo de 2020y tasa de variacioacuten que produce el efecto del Covid en el Conjunto 4

En el Cuadro 513 podemos ver el efecto del Covid sobre el conjunto sin embargo en esta ocasioacuten nopodemos ver una direccioacuten clara Los meacutetodos difieren y mientras unos meacutetodos muestran crecimientosen el nuacutemero de atiacutepicos detectados para el conjunto otros decrecen y muestran ahora menos atiacutepicosSin embargo esto no implica que el efecto del Covid sobre el conjunto sea menor que por ejemplo en elConjunto 3 Las variaciones entre las series las que incluyen datos de 2020 y las que no son notoriaslo cual implica que el efecto existe

A continuacioacuten vamos a analizar la serie referente a la produccioacuten industrial destinada a bienesintermedios de Galicia diferenciando a traveacutes de una recta vertical roja los dos escenarios los datoshasta diciembre de 2019 y la serie hasta mayo 2020

Figura 58 Serie de tiempo referente a la produccioacuten industrial destinada a bienes intermedios deGalicia

El comportamiento que muestran los meacutetodos con esta serie nos ayuda a plasmar una idea quedesarrollaremos maacutes adelante en el siguiente apartado Si observamos los datos para la serie recortada

56 CAPIacuteTULO 5 APLICACIOacuteN A DATOS REALES

en diciembre de 2019 obtenemos que salvo TRAMO-SEATS que no detecta ninguacuten atiacutepico los otroscuatro meacutetodos concuerdan en dos fechas marzo y julio de 2008 Por otra parte en la serie completacinco meacutetodos sentildealan abril 2020 y cuatro sentildealan marzo de 2008 Estos dos atiacutepicos abril de 2020 ymarzo de 2008 los representamos en la Figura 59

Analizando la Figura 59 el atiacutepico sentildealado en marzo de 2008 parece dudoso sin embargo siprofundizamos en los datos observamos que esta fecha rompe una clara tendencia creciente respecto alos meses de marzo de antildeos anteriores

Este suceso en el que varios meacutetodos coinciden en identificar una fecha proveen al analista de unaseguridad a la hora de calificar una observacioacuten como anoacutemala Este concepto de seguridad eliminandola incertidumbre asociada al campo de la deteccioacuten de valores atiacutepicos seraacute desarrollado maacutes adelante

Figura 59 Serie de tiempo referente a la produccioacuten industrial destinada a bienes intermedios deGalicia con los dos atiacutepicos

Conjunto 5 (httpwwwigeeuigebdtigeapidatos4052)

Series de datos trimestrales de nuacutemero de transacciones inmobiliarias por reacutegimen (Libre Protegiday Total de viviendas) y tipo de vivienda (Nuevas segunda mano y total de viviendas) Las medidas enlas que se toman los datos son por nuacutemero de viviendas su valor total (en miles de euros) o su valormedio (en euros) Los datos se presentan a nivel Espantildea Galicia y las provincias gallegas Los datosse recogen entre el primer trimestre de 2004 hasta el primer trimestre de 2020

51 ANAacuteLISIS SERIES IGE 57

TRAMO -

SEATS

STL +

HDoutliers

STL +

iForest

STR +

HDoutliers

STR +

iForest

Atiacutepicos detectados 184 122 105 94 97

Max nuacutemero atip serie 7 8 2 6 2

Series con 0 atiacutepicos 13 41 12 47 11

Media de atiacutepicos detec 204 136 117 104 107

Cuadro 514 Resultados para el Conjunto 5 con datos hasta el cuarto trimestre de 2019

Los resultados que recoge el Cuadro 514 se producen para un total de 5760 observaciones que mues-tra el Conjunto 5 con datos hasta el cuarto trimestre de 2019 Ahora vamos a estudiar los resultadosde forma que cada serie esteacute conformada por el uacuteltimo dato actualizado y a realizar una comparacioacutenentre ambos escenarios En esta serie el uacuteltimo dato actualizado es el primer trimestre de 2020 lo queconforma un total de 5850 observaciones

TRAMO -

SEATS

STL +

HDoutliers

STL +

iForest

STR +

HDoutliers

STR +

iForest

Atiacutepicos detectados 184 106 108 90 93

Max nuacutemero atip serie 9 8 2 5 3

Series con 0 atiacutepicos 12 42 11 43 13

Media de atiacutepicos detec 204 118 120 100 103

Cuadro 515 Resultados para el Conjunto 5 con datos hasta el primer trimestre de 2020

58 CAPIacuteTULO 5 APLICACIOacuteN A DATOS REALES

TRAMO -

SEATS

STL +

HDoutliers

STL +

iForest

STR +

HDoutliers

STR +

iForest

Hasta 2019 184 122 105 94 97

Hasta mayo 2020 184 106 108 90 93

Tasa de variacioacuten 000 -1311 286 -426 -412

Cuadro 516 Total de atiacutepicos detectados por cada meacutetodo hasta cuarto trimestre de 2019 y primertrimestre de 2020 y tasa de variacioacuten que produce el efecto del Covid en el Conjunto 5

En el Cuadro 516 podemos ver que el efecto del Covid sobre las series trimestrales vuelve a sermuy pequentildeo similar a las conclusiones obtenidas para el Conjunto 2 Si comparamos las tablas 514y 515 podemos similitudes en los resultados para las diferentes medidas que se toman Por ejemplo sinos fijamos en la fila que mide el nuacutemero de series que son identificadas con cero atiacutepicos los meacutetodosapenas difieren en sus resultados Lo mismo sucede con la media de atiacutepicos detectados en cada serieEstos resultados sostienen la idea de que el Covid repercutioacute en menor medida en las series trimestralesen el primer trimestre del antildeo y es de intereacutes realizar este mismo estudio una vez se incorporen losdatos del segundo trimestre

A continuacioacuten vamos a analizar la serie referente al nuacutemero de viviendas transmitidas de segundamano en reacutegimen libre para la provincia de Lugo diferenciando los dos escenarios analizados a traveacutesde una recta vertical roja los datos hasta el cuarto trimestre de 2019 y los datos incluyendo el primertrimestre de 2020

Figura 510 Serie de tiempo referente al nuacutemero de viviendas transmitidas de segunda mano en reacutegimenlibre para la provincia de Lugo

51 ANAacuteLISIS SERIES IGE 59

Observando la Figura 510 parece que el dato incluido referente al primer trimestre de 2020 su-pone una caiacuteda una situacioacuten anoacutemala sin embargo si observamos la evolucioacuten histoacuterica de la seriepodemos comprobar que solamente en dos ocasiones se han mostrado valores superiores en este pri-mer trimestre Para ambos escenarios la serie hasta 2019 y la serie completa uacutenicamente un meacutetododetecta atiacutepicos TRAMO-SEATS que sentildeala en ambas ocasiones octubre de 2010 y 2012 El resto demeacutetodos concuerdan en que la serie no presenta en ninguacuten caso ninguna situacioacuten anoacutemala

La Figura 511 muestra las dos fechas que sentildeala como atiacutepicas el meacutetodo TRAMO-SEATS cuartotrimestre de 2010 y 2012 que si bien reflejan un pico en los espacios temporales en los que se producenno parecen ser atiacutepicas respecto a la serie completa

Figura 511 Serie de tiempo referente al nuacutemero de viviendas transmitidas de segunda mano en reacutegimenlibre para la provincia de Lugo

Conjunto 6 (httpwwwigeeuigebdtigeapidatos1243)

Series de datos mensuales referentes a las bajas de demandas de empleo seguacuten geacutenero y duracioacutende la demanda en Galicia y sus provincias Los datos de la serie se recogen desde enero de 2009 hastajunio de 2020

60 CAPIacuteTULO 5 APLICACIOacuteN A DATOS REALES

TRAMO -

SEATS

STL +

HDoutliers

STL +

iForest

STR +

HDoutliers

STR +

iForest

Atiacutepicos detectados 154 271 228 288 228

Max nuacutemero atip serie 7 11 4 7 3

Series con 0 atiacutepicos 85 44 16 40 12

Media de atiacutepicos detec 093 164 138 174 138

Cuadro 517 Resultados para el Conjunto 6 con datos hasta diciembre de 2019

Los resultados del Cuadro 517 se producen para un total de 21780 observaciones que muestra elconjunto con datos hasta diciembre de 2019 Ahora vamos a estudiar los resultados de forma que cadaserie esteacute conformada por el uacuteltimo dato actualizado y a comparar ambas situaciones En esta serie eluacuteltimo dato actualizado es junio de 2020 lo que conforma un total de 22770 observaciones

TRAMO -

SEATS

STL +

HDoutliers

STL +

iForest

STR +

HDoutliers

STR +

iForest

Atiacutepicos detectados 484 502 336 504 334

Max nuacutemero atip serie 9 12 4 11 4

Series con 0 atiacutepicos 1 10 3 15 5

Media de atiacutepicos detec 293 304 204 305 202

Cuadro 518 Resultados para el Conjunto 6 con datos hasta junio de 2020

51 ANAacuteLISIS SERIES IGE 61

TRAMO -

SEATS

STL +

HDoutliers

STL +

iForest

STR +

HDoutliers

STR +

iForest

Hasta 2019 154 271 228 288 228

Hasta mayo 2020 484 502 336 504 334

Tasa de variacioacuten 21429 8524 4737 7500 4649

Cuadro 519 Total de atiacutepicos detectados por cada meacutetodo hasta diciembre de 2019 y junio de 2020 ytasa de variacioacuten que produce el efecto del Covid en el Conjunto 6

En el Cuadro 519 podemos ver el efecto que supone la primera mitad del antildeo 2020 en la aparicioacutende valores atiacutepicos en este conjunto El incremento en el nuacutemero de datos a analizar no llega a serdel 5 pero esa miacutenima cantidad de datos nuevos dispara las fechas anoacutemalas que se suceden en lasseries En el Cuadro 518 se puede observar que apenas existen series sin atiacutepicos independientementedel meacutetodo que seleccionemos algo todaviacutea maacutes sorprendente si recordamos que este es el conjuntoque posee maacutes series un total de 165 series

A continuacioacuten analizamos un caso concreto utilizando la serie referente a las bajas de la demandade empleo en mujeres con una duracioacuten de la demanda entre 12 y 18 meses en Ourense La rectavertical roja indica el inicio del antildeo 2020 sirviendo asiacute para indicar la diferencia entre los dos escenariosanalizados en los Cuadros 517 y 518

Figura 512 Serie de tiempo referente a las bajas de la demanda de empleo en mujeres con una duracioacutende la demanda entre 12 y 18 meses en Ourense

Esta serie es de intereacutes por diversos motivos El primero es que posee claros atiacutepicos en ambos

62 CAPIacuteTULO 5 APLICACIOacuteN A DATOS REALES

escenarios En la serie con duracioacuten hasta 2019 se puede observar un valor cercano al inicio de 2014con claro aspecto de ser atiacutepico La serie con todos los datos muestra el atiacutepico anterior pero tambieacutennuevos valores con claro comportamiento discordante al resto de la serie

Para la serie recortada cinco meacutetodos coinciden en sus resultados julio de 2013 es atiacutepico uacutenica-mente TRAMO-SEATS difiere el cual no sentildeala ninguacuten atiacutepico en la serie Si ahora nos trasladamosa la serie completa TRAMO-SEATS sentildeala marzo de 2020 como atiacutepico mientras que el resto demeacutetodos vuelven a concordar sentildealando julio de 2013 y febrero de 2020 En la Figura 513 se muestrala serie sentildealizando dichos atiacutepicos julio de 2013 y febrero y marzo de 2020

Figura 513 Serie de tiempo referente a las bajas de la demanda de empleo en mujeres con una duracioacutende la demanda entre 12 y 18 meses en Ourense con los atiacutepicos identificados

Si observamos los datos de la serie podemos calificar todas estas fechas como atiacutepicas julio 2013febrero 2020 y marzo 2020 Sin embargo ninguacuten meacutetodo ha calificado los meses de abril mayo yjunio de 2020 siendo claramente atiacutepicos Estamos frente a una situacioacuten completamente inusual unasituacioacuten que se produce en multitud de series del IGE y es la secuencia de varias observacionesconsecutivas muy atiacutepicas que ejercen un gran peso en la serie

Este gran peso provoca que los meacutetodos no consigan analizar correctamente este escenario Losmodelos de series temporales como TRAMO-SEATS interpretan que se estaacute produciendo un cambiode nivel permanente en la serie mencionado en el Capiacutetulo 3 como Level Shift (LS) y modelizan laserie como tal Los procesos de descomposicioacuten de series temporales utilizados STL y STR entiendenlo que estaacute sucediendo como un cambio en la tendencia es decir en su proceso de extraccioacuten de laestacionalidad y la tendencia estiman una tendencia decreciente en la serie Y por uacuteltimo los meacutetodosde deteccioacuten de valores atiacutepicos HDoutliers y iForest sufren un grave problema de enmascaramientoLa idea del mecanismo de iForest reside en buscar valores aislados mientras que la de HDoutliers sefundamenta en buscar espacios entre los valores ordenados estas dos ideas son consistentes con la ideade la buacutesqueda de atiacutepicos sin embargo ven disminuida su eficiencia ante una situacioacuten tan atiacutepica quepermanece durante varias observaciones consecutivas llevando a provocar que observaciones atiacutepicaspuedan pasar desapercibidas para el mecanismo

51 ANAacuteLISIS SERIES IGE 63

Conjunto 7 (httpwwwigeeuigebdtigeapidatos4885)

Series de datos mensuales referentes a las afiliaciones a la seguridad social el uacuteltimo diacutea de mes enGalicia y sus provincias por regiacutemenes Los datos comienzan en enero de 1990 y finalizan en mayo de2020

TRAMO -

SEATS

STL +

HDoutliers

STL +

iForest

STR +

HDoutliers

STR +

iForest

Atiacutepicos detectados 288 96 118 136 121

Max nuacutemero atip serie 24 8 5 10 5

Series con 0 atiacutepicos 4 10 0 4 0

Media de atiacutepicos detec 613 204 251 289 257

Cuadro 520 Resultados para el Conjunto 7 con datos hasta diciembre de 2019

El Cuadro 520 muestra los resultado que se producen para un total de 16920 observaciones quemuestra el conjunto con datos hasta diciembre de 2019 Ahora vamos a estudiar los resultados de formaque cada serie esteacute conformada por el uacuteltimo dato actualizado y comparar ambas situaciones En estaserie el uacuteltimo dato actualizado es junio de 2020 lo que conforma un total de 17155 observaciones

TRAMO -

SEATS

STL +

HDoutliers

STL +

iForest

STR +

HDoutliers

STR +

iForest

Atiacutepicos detectados 333 179 128 118 136

Max nuacutemero atip serie 24 14 5 11 6

Series con 0 atiacutepicos 0 6 0 3 0

Media de atiacutepicos detec 709 380 272 251 289

Cuadro 521 Resultados para el Conjunto 7 con datos hasta mayo de 2020

64 CAPIacuteTULO 5 APLICACIOacuteN A DATOS REALES

TRAMO -

SEATS

STL +

HDoutliers

STL +

iForest

STR +

HDoutliers

STR +

iForest

Hasta 2019 288 96 118 136 121

Hasta mayo 2020 333 179 128 118 136

Tasa de variacioacuten 1563 8646 847 -1324 1240

Cuadro 522 Total de atiacutepicos detectados por cada meacutetodo hasta diciembre de 2019 y mayo de 2020y tasa de variacioacuten que produce el efecto del Covid en el Conjunto 7

En el Cuadro 522 podemos ver que el efecto que supone la primera mitad del antildeo 2020 en laaparicioacuten de valores atiacutepicos en este conjunto La variacioacuten que supone en el nuacutemero de valores detec-tados como anoacutemalos es considerable todaviacutea maacutes si lo comparamos con la variacioacuten de nuevos datosintroducidos en el anaacutelisis los cuales han aumentado solamente un 138 De este modo podemosafirmar que la presencia del Covid ha provocado un gran impacto en el incremento del nuacutemero deobservaciones atiacutepicas de los conjuntos que presentan datos de frecuencia mensual

A continuacioacuten analizamos un caso concreto utilizando la serie referente a las afiliaciones a laseguridad social en reacutegimen mar para la provincia de Lugo La Figura 514 muestra la representacioacutengraacutefica de dicha serie indicando mediante una recta vertical roja el inicio del 2020

Figura 514 Serie de tiempo referente a las afiliaciones a la seguridad social en reacutegimen mar para laprovincia de Lugo

El motivo de seleccionar esta serie reside en una idea que se va desarrollando a lo largo de todoeste apartado y que da lugar a la herramienta que se introduce en el siguiente Las series socio-econoacutemicas son complejas dado que se ven afectadas por multitud de factores externos que condicionansu desarrollo Este caraacutecter uacutenico de cada serie maacutes los resultados obtenidos a lo largo del trabajo

51 ANAacuteLISIS SERIES IGE 65

nos conduce a la conclusioacuten de que no existe un meacutetodo de deteccioacuten de atiacutepicos con una capacidadde clasificacioacuten superior al resto

Los resultados para esta serie son diversos Por ejemplo la combinacioacuten STR+HDoutliers muestrahasta ocho atiacutepicos para la serie delimitada en el antildeo 2019 sin embargo al introducir la serie completaesta cifra se reduce solamente a dos Sucede lo contrario con la combinacioacuten STL+HDoutliers quesi bien en la serie recortada califica dos observaciones en la completa sentildeala un total de siete Porsu parte TRAMO-SEATS identifica un total de siete atiacutepicos Sin embargo todos los meacutetodos dedeteccioacuten sentildealan dos fechas como atiacutepicas en los dos casos agosto de 2006 y junio de 2008 como serepresenta en la Figura 515 Esto dota al estudio de confianza si todos los mecanismos sospechan dedos fechas deberaacute haber un motivo de peso algo ha sucedido en la serie para que todos concuerdenEsta idea dio lugar al desarrollo de la herramienta que se introduce en el siguiente apartado

Figura 515 Serie de tiempo referente a las afiliaciones a la seguridad social en reacutegimen mar parala provincia de Lugo identificando los atiacutepicos sentildealados de forma comuacuten por los cinco meacutetodos dedeteccioacuten

Por uacuteltimo el Cuadro 523 recoge el total de atiacutepicos detectados por cada meacutetodo en los dosescenarios con los que se ha trabajado en este capiacutetulo El primer escenario incluye datos hasta lauacuteltima fecha de 2019 si las series son mensuales este dato es el correspondiente a diciembre de 2019si son series trimestrales el uacuteltimo dato seraacute el cuarto trimestre de 2019 En el Cuadro 523 se recogede modo general para todos los conjuntos bajo el teacutermino ldquodatos hasta 2019rdquo El segundo escenariorecoge los datos hasta su uacuteltima actualizacioacuten aquiacute existe un mayor abanico de fechas como vimos alo largo de todo este capiacutetulo Los conjuntos con datos de frecuencia trimestral presentan su uacuteltimodato en el primer trimestre de 2020 por su parte los conjuntos de datos mensuales variacutean su uacuteltimaactualizacioacuten entre los meses de abril mayo o junio de 2020 En el Cuadro 523 se recoge de modogeneral para todos ellos bajo el teacutermino ldquodatos hasta 2020rdquo

66 CAPIacuteTULO 5 APLICACIOacuteN A DATOS REALES

TRAMO -SEATS

STL +HDoutliers

STL +iForest

STR +HDoutliers

STR +iForest

Tiempo de ejecucioacuten (2019) 1332 24 1782 7234 8805Tiempo de ejecucioacuten (2020) 1503 21 2042 8043 10764Atiacutepicos detectados (2019) 1490 990 794 1074 816Atiacutepicos detectados (2020) 2036 1373 989 1341 1033

Tasa de variacioacuten 3664 3869 2456 2486 2659

Cuadro 523 Tiempo de ejecucioacuten (en segundos) y total de atiacutepicos detectados por cada meacutetodo hastael uacuteltimo dato de 2019 y hasta uacuteltima actualizacioacuten de 2020 y tasa de variacioacuten que produce el efectodel Covid en los siete conjuntos de datos

El Cuadro 523 nos permite concluir que el efecto global del Covid ha supuesto un incremento enel nuacutemero de observaciones atiacutepicas puesto que todos los meacutetodos experimentan una tasa de variacioacutenpositiva sobre sus cifras de valores atiacutepicos detectados Las cifras de tasas de variacioacuten que se muestranen el Cuadro 523 sorprenden todaviacutea maacutes si analizamos el incremento en el nuacutemero de observacionesanalizadas El escenario que analiza el conjunto de datos hasta 2019 presentan un total de 90540observaciones mientras que el escenario que incluye hasta el uacuteltimo dato actualizado recoge un totalde 92731 Es decir el nuacutemero total de datos analizados se ha incrementado en poco maacutes del 2 sinembargo la tasa de variacioacuten maacutes pequentildea muestra un incremento del maacutes del 24 del nuacutemero deatiacutepicos que se presentan en el conjunto de datos

Otra medida que incluye el Cuadro 523 es el tiempo que tarda en analizar los siete conjuntosde datos cada meacutetodo recogida bajo el nombre de ldquotiempo de ejecucioacutenrdquo A traveacutes de ella podemosobservar que la diferencia entre el tiempo de ejecucioacuten es pequentildea pero existe por lo que muestra quela presencia de atiacutepicos dificulta la modelizacioacuten de la series temporales Tambieacuten podemos comprobarcomo todos los meacutetodos presentan buenas cifras en este medida los que peores resultados muestranson los meacutetodos que utilizan la descomposicioacuten STR la cual ya mencionamos su posible problemade lentitud en el Capiacutetulo 2 Por uacuteltimo es sorprendente la combinacioacuten de STL+HDoutliers que escapaz de analizar las 538 en un tiempo inferior a los tres segundos en ambos casos

52 Anaacutelisis Graacutefico

El campo de la deteccioacuten de valores atiacutepicos estaacute caracterizado por una constante incertidumbrePartiendo del inicio del trabajo ni siquiera existe una definicioacuten exacta de queacute es un valor atiacutepicosino maacutes bien se trazan definiciones en base a ideas de lo que se espera que sea un valor atiacutepico enun conjunto de datos Es por ello que dependiendo de los escenarios y las complejidades asociadas auna serie unos meacutetodos resulten maacutes efectivos que otros Este es el motivo por el que surgioacute la ideade crear una herramienta de anaacutelisis graacutefico para el estudio de series de tiempo

El objetivo de esta herramienta es la de dotar al analista de un mecanismo sencillo de implantarque le permita trazar una idea de los posibles atiacutepicos con los que podriacutea contar la serie Para ello seha creado una funcioacuten en R que solo necesita introducir la serie de tiempo para devolver el graacutefico

52 ANAacuteLISIS GRAacuteFICO 67

Ademaacutes dado que esta herramienta estaacute disentildeada especiacuteficamente para trabajar con series de tiemposu representacioacuten dariacutea lugar a lo que podriacutea denominarse un mapa de calor para zonas atiacutepicas estose muestra maacutes adelante mediante ejemplos

Esta herramienta estaacute compuesta por los meacutetodos que han mostrado mejores resultados en el estudiode simulacioacuten Cada meacutetodo ocupa una fila mostrando a lo largo de ella sus atiacutepicos sentildealados y cadacolumna es una fecha detectada por un meacutetodo De tal modo que si una fecha es detectada por todoslos meacutetodos mostraraacute una columna verde y seraacute sospecha clara de que esa fecha es atiacutepica Por otraparte si una fecha es detectada por solo un meacutetodo mostraraacute solo de color verde la celda asociada aese meacutetodo y no seraacute sentildeal tan evidente de situacioacuten atiacutepica

Para la composicioacuten del graacutefico se utilizan los meacutetodos del apartado anterior y a mayores seintroducen las versiones robustas de los meacutetodos de descomposicioacuten de series temporales STL y STREl motivo de su uso en este apartado se debe a que si bien no mostraron los mejores resultados enel estudio de simulacioacuten ahora pueden resultar de utilidad Los meacutetodos robustos pueden generaranomaliacuteas espurias cuando no existen atiacutepicos debido a que resaltan el tamantildeo del residuo de unaobservacioacuten provocando su identificacioacuten como atiacutepico sin esta serlo Sin embargo cuando se producenanomaliacuteas que ejercen un gran peso en la serie como lo sucedido durante el Covid este tipo deestimaciones son de gran intereacutes esta situacioacuten tambieacuten se justificaraacute mediante un ejemplo praacutectico

El primer ejemplo lo extraemos a traveacutes de la serie referente a la estancia media de viajeros de todaslas procedencias en establecimientos hoteleros en Galicia perteneciente al Conjunto 1 En la Figura516 mostramos la representacioacuten de la misma ahora ya mostramos hasta el uacuteltimo dato actualizadoen este caso mayo de 2020

Figura 516 Estancia media de viajeros de todas las procedencias en establecimientos hoteleros enGalicia

Esta serie parece contar con dos atiacutepicos los relacionados con las dos uacuteltimas observaciones de laserie sin embargo vamos a analizar los resultados del graacutefico comparativo

68 CAPIacuteTULO 5 APLICACIOacuteN A DATOS REALES

Figura 517 Resultados para la serie estancia media de viajeros de todas las procedencias en estable-cimientos hoteleros en Galicia del Conjunto 1

La Figura 517 muestra el graacutefico que hemos desarrollado el cual vamos a desgranar ahora paraentender su utilidad Si hubieacutesemos escogido el meacutetodo TRAMO-SEATS hubieacutesemos sentildealado tresobservaciones atiacutepicas una de ellas seriacutea enero de 2003 Sin embargo analizando los datos podemoscomprobar que este dato parece normal y estariacuteamos identificaacutendolo erroacuteneamente como anoacutemalo Dehecho solo TRAMO-SEATS sentildeala esta fecha Lo mismo sucede con otras fechas como octubre delantildeo 2000 sentildealada por solo dos meacutetodos Por otra parte todos los meacutetodos sentildealan los meses deabril y mayo de 2020 las dos uacuteltimas observaciones de la serie que en la Figura 516 mostraban uncomportamiento totalmente discordante al resto del conjunto de datos Es decir el graacutefico permitetrazar una idea concisa al analista de queacute es anoacutemalo en la serie y que pueden ser falsos positivos

Observando el graacutefico podemos tambieacuten extraer una conclusioacuten raacutepida de la posible presenciade valores atiacutepicos en la serie Se muestran dos comportamientos muy marcados El primero estariacuteadeterminado por la serie hasta el antildeo 2020 en el cual la aparicioacuten de atiacutepicos es dispersa pococoncluyente el analista puede dudar de que estas observaciones sean realmente anoacutemalas El segundoson los datos de 2020 dos columnas enteras de color verde una imagen que comunica que en eseintervalo de tiempo estaacute sucediendo algo realmente anoacutemalo

Vamos a utilizar el graacutefico con otra serie para analizar otra de las caracteriacutesticas que muestran elintereacutes de analizar una serie de tiempo a traveacutes de este graacutefico En la Figura 518 se muestra la serie detiempo perteneciente al Conjunto 3 que recoge la evolucioacuten de los contratos iniciales en Galicia Dichaserie cuenta con tres atiacutepicos claros marzo abril y mayo de 2020

52 ANAacuteLISIS GRAacuteFICO 69

Figura 518 Contratos iniciales registrados en Galicia

Haciendo uso del graacutefico comparativo Figura 519 volvemos a obtener un escenario en el queresulta de intereacutes esta herramienta En este caso el meacutetodo compuesto por STR+HDoutliers muestraun comportamiento erraacutetico que le conduce a identificar una gran cantidad de atiacutepicos de modoincorrecto Lo mismo sucede con TRAMO-SEATS que es el uacutenico que sentildeala enero de 2001 comoatiacutepico sin existir motivo en los datos para esta calificacioacuten

Por otra parte este escenario nos permite observar la utilidad de incorporar las versiones robustasSi bien se equivocan en alguacuten caso por ejemplo el meacutetodo STR+HDoutliers(Rob) sentildealando junio de2002 nos permiten calificar marzo de 2020 como atiacutepico algo que los meacutetodos que utilizan las versionesno robustas de los meacutetodos de descomposicioacuten de series temporales STR y STR no logran Todasellas se ponen de acuerdo junto a TRAMO-SEATS para la sentildealizacioacuten de este mes

Ademaacutes dado que estamos trabajando con series temporales los resultados de la graacutefica se muestranen orden cronoloacutegico en vez de por cuaacuten anoacutemala es la observacioacuten como se hace en TRAMO-SEATSo en iForest Esto nos permite entender la graacutefica como un mapa de calor Al analizar la serie siexiste un intervalo de tiempo en el que se han producido situaciones anoacutemalas como por ejemplo eneste caso los meses relacionados al Covid se veraacute reflejado en el graacutefico por una serie de columnascon muchas celdas verdes lo que daraacute a entender de manera raacutepida al analista que en ese intervalode tiempo se han producido situaciones excepcionales De este modo tambieacuten conseguimos corregirel problema de enmascaramiento que pueden sufrir los meacutetodos cuando se suceden varias situacionesatiacutepicas consecutivas

70 CAPIacuteTULO 5 APLICACIOacuteN A DATOS REALES

Figura 519 Resultados para la serie Contratos iniciales registrados en Galicia del Conjunto 3

Capiacutetulo 6

Conclusiones

El IGE cuenta con una ampliacutea base de datos que se utiliza para el estudio del contexto socio-econoacutemico en Galicia Estos datos tienen una base temporal es decir son datos referidos a un intervalode tiempo en la mayoriacutea de los casos esta periodicidad es anual trimestral o mensual La manipulacioacutende los datos puede conllevar a que se introduzcan errores humanos o de medicioacuten que provoquen quese incluyan cifras incorrectas a las bases de datos Estos errores pueden distorsionar las conclusionesde un estudio o conducir haciacutea resultados alejados de la verdadera realidad Es por ello que resultanecesario el incorporar una herramienta de deteccioacuten de valores atiacutepicos al anaacutelisis de las bases dedatos del IGE

Para ello se planteoacute una revisioacuten bibliograacutefica de los principales meacutetodos de deteccioacuten de atiacutepicosen series temporales Esta revisioacuten nos permitioacute conocer la existencia de un amplio abanico de meacuteto-dos disponibles con los cuales empezamos a trabajar para analizar su comportamiento Es aquiacute dondedecidimos descartar una serie de meacutetodos mencionados al final del Apartado 34 debido a que sufuncionamiento y sus resultados correspondiacutean a versiones inferiores de otros meacutetodos que finalmenteadoptamos Este primer estudio nos proporcionoacute los meacutetodos de deteccioacuten de atiacutepicos en series tem-porales que supondriacutean el punto de partida del trabajo X-13ARIMA-SEATS TRAMO-SEATS y lalibreriacutea de R Anomalize

La libreriacutea Anomalize tambieacuten nos sirvioacute de ayuda en el desarrollo de nuestros propios meacutetodos dedeteccioacuten de atiacutepicos para series temporales La idea sobre la que se fundamenta esta libreriacutea es la deaplicar un proceso de descomposicioacuten de series de tiempo a una serie para extraer las componentes dela estacionalidad la tendencia y un residuo para despueacutes aplicar un meacutetodo de deteccioacuten de atiacutepicossobre el residuo Dado que se han producido mejoras a los meacutetodos de descomposicioacuten y deteccioacutenque se utilizan en la libreriacutea Anomalize consideramos que una nueva combinacioacuten podriacutea reflejar unamejora en los resultados

Para comparar todos los meacutetodos de deteccioacuten de atiacutepicos en series temporales los que sirven depunto de partida del trabajo y los desarrollados por nosotros decidimos llevar a cabo un ambiciosoestudio de simulacioacuten El estudio de simulacioacuten recoge diferentes escenarios con la finalidad de repre-sentar la heterogeneidad propia de las series de tiempo referentes a variables sociales y econoacutemicas Losresultados del estudio de simulacioacuten confirman nuestra idea acerca de que una nueva combinacioacuten pue-de suponer una mejora en los resultados debido a que varias de nuestras combinaciones reflejan mejores

71

72 CAPIacuteTULO 6 CONCLUSIONES

resultados que las propuestas en la libreriacutea Anomalize Tambieacuten nos permite observar que nuestraspropuestas compiten en los resultados con un modelo tan desarrollado como TRAMO-SEATS Final-mente nos permiten descartar otros meacutetodos que siendo uacutetiles en otros campos no parecen resultaridoacuteneos para el nuestro

Tras el estudio de simulacioacuten comenzamos a utilizar los meacutetodos que habiacutean mostrado mejoresresultados con los datos proporcionados por el IGE Fue en este momento cuando nos encontramos conuna situacioacuten no contemplada en ninguacuten momento en ninguacuten escenario del estudio de simulacioacuten yen general en ninguacuten momento de lo que podriacutea ser la historia reciente como fue la crisis del Covid19Esta crisis provoca un efecto enorme en los datos del contexto gallego como se recoge a lo largo delCapiacutetulo 5 y supone un nuevo escenario en lo que a deteccioacuten de valores atiacutepicos en series temporalesse refiere

Este nuevo escenario se caracteriza por reflejar durante varios periacuteodos de tiempo consecutivosobservaciones enormemente anoacutemalas y los modelos ven empeorado su comportamiento TRAMO-SEATS y los modelos de descomposicioacuten de series de tiempo STL y STR entienden que lo que seestaacute produciendo es una tendencia decreciente de la serie Por su parte los meacutetodos de deteccioacuten deatiacutepicos HDoutliers y iForest sufren un fenoacutemeno de enmascaramiento en el que son incapaces desentildealizar todos los atiacutepicos Fue aquiacute donde decidimos crear una nueva herramienta para el anaacutelisis

El objetivo con el que creamos esta herramienta de anaacutelisis graacutefico fue el de reducir la incertidumbreque supone el campo de la deteccioacuten de atiacutepicos de un modo sencillo y directo para el analista que lautilice Ademaacutes su disentildeo estaacute pensado para el trabajo con series temporales de modo que si se sucedeun periacuteodo convulso como el actual la graacutefica podraacute ser analizada como un mapa de calor un mapade calor que transmite visualmente la idea de en queacute intervalo de tiempo la serie estaacute experimentandocomportamientos atiacutepicos

Apeacutendice A

Tablas

A1 Tablas de sensibilidad

73

74 APEacuteNDICE A TABLAS

Caso 1 Caso 2 Caso 3 Caso 4

X-13ARIMA-SEATS 0496 0854 0700 0826

TRAMO-SEATS 0657 0928 0805 0851

STL+HDoutliers 0569 0838 0570 0732

STL+GESD 0266 0590 0236 0532

STL+iForest 0636 0885 0636 0790

STL(ROB)+HDoutliers 0562 0803 0678 0712

STL(ROB)+GESD 0637 0876 0746 0754

STL(ROB)+iForest 0640 0878 0747 0786

Twitter+HDoutliers 0471 0735 0597 0620

Twitter+GESD 0306 0590 0429 0434

Twitter+iForest 0529 0801 0652 0660

STR+HDoutliers 0611 0841 0603 0672

STR+GESD 0345 0650 0292 0448

STR+iForest 0674 0885 0679 0721

STR(ROB)+HDoutliers 0542 0812 0638 0658

STR(ROB)+GESD 0381 0685 0458 0558

STR(ROB)+iForest 0623 0862 0699 0714

Cuadro A1 Resultados Escenario 1Sensibilidad AR(1)

A1 TABLAS DE SENSIBILIDAD 75

Caso 1 Caso 2 Caso 3 Caso 4

X-13ARIMA-SEATS 0505 0829 0646 0875

TRAMO-SEATS 0668 0914 0743 0888

STL+HDoutliers 0472 0729 0481 0684

STL+GESD 0217 0457 0148 0428

STL+iForest 0506 0784 0525 0716

STL(ROB)+HDoutliers 0469 0735 0588 0648

STL(ROB)+GESD 0529 0775 0665 0668

STL(ROB)+iForest 0526 0803 0666 0716

Twitter+HDoutliers 0465 0698 0596 0646

Twitter+GESD 0349 0630 0483 0486

Twitter+iForest 0512 0778 0663 0692

STR+HDoutliers 0588 0823 0573 0664

STR+GESD 0298 0602 0247 0449

STR+iForest 0630 0869 0651 0721

STR(ROB)+HDoutliers 0521 0788 0611 0649

STR(ROB)+GESD 0336 0628 0406 0520

STR(ROB)+iForest 0582 0839 0691 0711

Cuadro A2 Resultados Escenario 2 Sensibilidad MA(1)

76 APEacuteNDICE A TABLAS

Caso 1 Caso 2 Caso 3 Caso 4

X-13ARIMA-SEATS 0922 0971 0927 0983

TRAMO-SEATS 0923 0972 0923 0982

STL+HDoutliers 0312 0508 0241 0440

STL+GESD 0089 0230 0051 0152

STL+iForest 0343 0578 0284 0454

STL(ROB)+HDoutliers 0261 0435 0297 0333

STL(ROB)+GESD 0311 0527 0393 0322

STL(ROB)+iForest 0298 0501 0336 0362

Twitter+HDoutliers 0064 0112 0127 0066

Twitter+GESD 0028 0040 0069 0032

Twitter+iForest 0079 0129 0169 0070

STR+HDoutliers 0407 0563 0348 0440

STR+GESD 0204 0367 0109 0230

STR+iForest 0445 0617 0389 0495

STR(ROB)+HDoutliers 0243 0397 0254 0272

STR(ROB)+GESD 0209 0391 0225 0259

STR(ROB)+iForest 0282 0455 0284 0293

Cuadro A3 Resultados Escenario 3 Sensibilidad ARIMA(011)

A1 TABLAS DE SENSIBILIDAD 77

Caso 1 Caso 2 Caso 3 Caso 4

X-13ARIMA-SEATS 0403 0593 0068 0816

TRAMO-SEATS 0542 0707 0072 0814

STL+HDoutliers 0005 0004 0016 0004

STL+GESD 0000 0001 0004 0000

STL+iForest 0003 0003 0015 0005

STL(ROB)+HDoutliers 0007 0007 0037 0004

STL(ROB)+GESD 0009 0021 0099 0029

STL(ROB)+iForest 0006 0008 0036 0005

Twitter+HDoutliers 0001 0000 0001 0008

Twitter+GESD 0006 0009 0012 0023

Twitter+iForest 0001 0000 0005 0018

STR+HDoutliers 0370 0428 0006 0088

STR+GESD 0424 0462 0000 0138

STR+iForest 0418 0479 0004 0103

STR(ROB)+HDoutliers 0028 0019 0011 0076

STR(ROB)+GESD 0064 0063 0051 0140

STR(ROB)+iForest 0022 0014 0010 0027

Cuadro A4 Resultados Escenario 4 Sensibilidad ARIMA(011)x(011)12

78 APEacuteNDICE A TABLAS

Caso 1 Caso 2 Caso 3 Caso 4

X-13ARIMA-SEATS 0266 0629 0177 0574

TRAMO-SEATS 0400 0750 0251 0618

STL+HDoutliers 0247 0477 0291 0130

STL+GESD 0093 0260 0160 0024

STL+iForest 0270 0536 0312 0138

STL(ROB)+HDoutliers 0278 0489 0358 0102

STL(ROB)+GESD 0400 0688 0478 0132

STL(ROB)+iForest 0314 0553 0398 0133

Twitter+HDoutliers 0254 0439 0363 0108

Twitter+GESD 0176 0385 0317 0064

Twitter+iForest 0274 0486 0388 0131

STR+HDoutliers 0664 0895 0240 0760

STR+GESD 0425 0770 0065 0567

STR+iForest 0724 0939 0283 0800

STR(ROB)+HDoutliers 0197 0334 0220 0529

STR(ROB)+GESD 0190 0333 0207 0692

STR(ROB)+iForest 0235 0369 0238 0591

Cuadro A5 Resultados Escenario 5 Sensibilidad ARIMA(101)x(012)12

A1 TABLAS DE SENSIBILIDAD 79

Caso 1 Caso 2 Caso 3 Caso 4

X-13ARIMA-SEATS 0333 0662 0355 0618

TRAMO-SEATS 0460 0767 0480 0656

STL+HDoutliers 0521 0798 0502 0629

STL+GESD 0230 0559 0188 0328

STL+iForest 0565 0836 0572 0651

STL(ROB)+HDoutliers 0519 0788 0605 0601

STL(ROB)+GESD 0541 0828 0676 0561

STL(ROB)+iForest 0566 0843 0668 0648

Twitter+HDoutliers 0246 0423 0362 0212

Twitter+GESD 0104 0232 0187 0102

Twitter+iForest 0284 0456 0398 0230

STR+HDoutliers 0527 0788 0444 0641

STR+GESD 0279 0585 0152 0386

STR+iForest 0600 0825 0499 0685

STR(ROB)+HDoutliers 0407 0674 0497 0550

STR(ROB)+GESD 0277 0527 0352 0404

STR(ROB)+iForest 0462 0735 0573 0582

Cuadro A6 Resultados Escenario 6 Sensibilidad ARIMA(111)x(101)12

80 APEacuteNDICE A TABLAS

Caso 1 Caso 2 Caso 3 Caso 4

X-13ARIMA-SEATS 0299 0638 0335 0632

TRAMO-SEATS 0424 0717 0432 0801

STL+HDoutliers 0432 0705 0397 0626

STL+GESD 0177 0416 0109 0351

STL+iForest 0514 0762 0463 0530

STL(ROB)+HDoutliers 0441 0686 0494 0613

STL(ROB)+GESD 0461 0731 0556 0584

STL(ROB)+iForest 0491 0723 0548 0528

Twitter+HDoutliers 0280 0471 0387 0354

Twitter+GESD 0129 0288 0191 0147

Twitter+iForest 0008 0017 0051 0050

STR+HDoutliers 0456 0700 0467 0568

STR+GESD 0203 0439 0167 0274

STR+iForest 0515 0778 0443 0638

STR(ROB)+HDoutliers 0424 0687 0510 0554

STR(ROB)+GESD 0262 0524 0330 0366

STR(ROB)+iForest 0349 0562 0413 0388

Cuadro A7 Resultados Escenario 7 Sensibilidad ARIMA(112)x(011)12

A1 TABLAS DE SENSIBILIDAD 81

Caso 1 Caso 2 Caso 3 Caso 4

X-13ARIMA-SEATS 0299 0638 0335 0632

TRAMO-SEATS 0424 0717 0432 0801

STL+HDoutliers 0432 0705 0397 0626

STL+GESD 0177 0416 0109 0351

STL+iForest 0485 0738 0428 0665

STL(ROB)+HDoutliers 0441 0686 0494 0613

STL(ROB)+GESD 0461 0731 0556 0584

STL(ROB)+iForest 0494 0755 0566 0678

Twitter+HDoutliers 0280 0471 0387 0354

Twitter+GESD 0129 0288 0191 0147

Twitter+iForest 0306 0509 0430 0359

STR+HDoutliers 0456 0700 0467 0568

STR+GESD 0203 0439 0167 0274

STR+iForest 0497 0772 0507 0602

STR(ROB)+HDoutliers 0424 0687 0510 0554

STR(ROB)+GESD 0262 0524 0330 0366

STR(ROB)+iForest 0465 0755 0577 0590

Cuadro A8 Resultados Escenario 8 Sensibilidad ARIMA(011)x(100)12

82 APEacuteNDICE A TABLAS

A2 Tablas de exceso

Caso 1 Caso 2 Caso 3 Caso 4

X-13ARIMA-SEATS 0078 0077 0066 0042

TRAMO-SEATS 0211 0208 0222 0056

STL+HDoutliers 0788 0829 0805 1534

STL+GESD 0056 0055 0045 0031

STL+iForest 0406 0300 0404 0659

STL(ROB)+HDoutliers 1162 1242 1212 1714

STL(ROB)+GESD 1411 1417 1416 0461

STL(ROB)+iForest 0637 0468 0575 0859

Twitter+HDoutliers 0930 0955 0905 1487

Twitter+GESD 0257 0273 0254 0069

Twitter+iForest 0538 0412 0490 0776

STR+HDoutliers 0759 0810 0759 1464

STR+GESD 0053 0062 0046 0024

STR+iForest 0403 0301 0381 0725

STR(ROB)+HDoutliers 0749 0842 0758 1460

STR(ROB)+GESD 0199 0196 0192 0099

STR(ROB)+iForest 0427 0315 0413 0749

Cuadro A9 Resultados Escenario 1 Exceso AR(1)

A2 TABLAS DE EXCESO 83

Caso 1 Caso 2 Caso 3 Caso 4

X-13ARIMA-SEATS 0054 0058 0066 0058

TRAMO-SEATS 0144 0138 0175 0061

STL+HDoutliers 0695 0772 0759 1472

STL+GESD 0034 0038 0050 0016

STL+iForest 0443 0318 0425 0706

STL(ROB)+HDoutliers 1168 1221 1180 1703

STL(ROB)+GESD 1309 1349 1415 0418

STL(ROB)+iForest 0682 0528 0621 0877

Twitter+HDoutliers 0836 0832 0911 1577

Twitter+GESD 0313 0329 0334 0061

Twitter+iForest 0552 0417 0483 0755

STR+HDoutliers 0798 0885 0694 1541

STR+GESD 0054 0064 0044 0018

STR+iForest 0407 0302 0396 0724

STR(ROB)+HDoutliers 0725 0776 0745 1516

STR(ROB)+GESD 0134 0143 0142 0076

STR(ROB)+iForest 0435 0312 0372 0727

Cuadro A10 Resultados Escenario 2 Exceso MA(1)

84 APEacuteNDICE A TABLAS

Caso 1 Caso 2 Caso 3 Caso 4

X-13ARIMA-SEATS 0106 0060 0101 0070

TRAMO-SEATS 0179 0123 0175 0085

STL+HDoutliers 0638 0635 0686 1376

STL+GESD 0052 0054 0067 0020

STL+iForest 0448 0346 0468 0867

STL(ROB)+HDoutliers 0932 0905 1010 1604

STL(ROB)+GESD 2339 2311 2338 1863

STL(ROB)+iForest 0705 0573 0695 1281

Twitter+HDoutliers 0311 0285 0311 0743

Twitter+GESD 1302 1282 1331 1946

Twitter+iForest 0167 0153 0175 0645

STR+HDoutliers 0672 0703 0623 1364

STR+GESD 0180 0183 0119 0050

STR+iForest 0372 0297 0393 0899

STR(ROB)+HDoutliers 0598 0568 0588 1225

STR(ROB)+GESD 1030 1008 0999 1341

STR(ROB)+iForest 0463 0383 0464 1108

Cuadro A11 Resultados Escenario 3 Exceso ARIMA(011)

A2 TABLAS DE EXCESO 85

Caso 1 Caso 2 Caso 3 Caso 4

X-13ARIMA-SEATS 0132 0120 0062 0274

TRAMO-SEATS 0198 0180 0075 0274

STL+HDoutliers 0832 0823 0837 1337

STL+GESD 0231 0225 0226 0165

STL+iForest 0727 0710 0718 1237

STL(ROB)+HDoutliers 1197 1152 1186 1230

STL(ROB)+GESD 4756 4699 4689 7954

STL(ROB)+iForest 0992 0993 0983 1514

Twitter+HDoutliers 0144 0162 0182 0376

Twitter+GESD 3050 2761 2813 6058

Twitter+iForest 0123 0128 0121 0508

STR+HDoutliers 1108 1135 1027 1454

STR+GESD 1469 1679 0582 4430

STR+iForest 0732 0674 0882 1653

STR(ROB)+HDoutliers 1382 1266 0876 10915

STR(ROB)+GESD 4452 4583 4289 19321

STR(ROB)+iForest 0831 0845 0828 1858

Cuadro A12 Resultados Escenario 4 Exceso ARIMA(011)x(011)12

86 APEacuteNDICE A TABLAS

Caso 1 Caso 2 Caso 3 Caso 4

X-13ARIMA-SEATS 0109 0123 0111 0069

TRAMO-SEATS 0239 0301 0312 0139

STL+HDoutliers 0869 0762 0986 1367

STL+GESD 0170 0170 0198 0244

STL+iForest 0667 0475 0712 1291

STL(ROB)+HDoutliers 1328 1357 1499 1287

STL(ROB)+GESD 2517 2530 2919 5438

STL(ROB)+iForest 0992 0813 0978 1444

Twitter+HDoutliers 1041 0966 1065 1383

Twitter+GESD 0796 0854 0830 2221

Twitter+iForest 0808 0655 0735 1412

STR+HDoutliers 0799 0979 0846 1551

STR+GESD 0101 0087 0083 0029

STR+iForest 0383 0286 0619 0669

STR(ROB)+HDoutliers 0764 0759 0755 1692

STR(ROB)+GESD 1600 1591 1490 8145

STR(ROB)+iForest 0603 0492 0593 0894

Cuadro A13 Resultados Escenario 5 Exceso ARIMA(101)x(012)12

A2 TABLAS DE EXCESO 87

Caso 1 Caso 2 Caso 3 Caso 4

X-13ARIMA-SEATS 0179 0167 0141 0096

TRAMO-SEATS 0307 0299 0297 0127

STL+HDoutliers 0792 0783 0775 1598

STL+GESD 0052 0050 0049 0030

STL+iForest 0452 0306 0459 0748

STL(ROB)+HDoutliers 1193 1207 1269 1697

STL(ROB)+GESD 1290 1324 1270 0437

STL(ROB)+iForest 0708 0531 0670 0952

Twitter+HDoutliers 0690 0698 0676 1157

Twitter+GESD 0266 0257 0225 0523

Twitter+iForest 0538 0416 0459 1063

STR+HDoutliers 0740 0853 0796 1429

STR+GESD 0065 0077 0063 0036

STR+iForest 0432 0311 0493 0750

STR(ROB)+HDoutliers 0749 0799 0717 1477

STR(ROB)+GESD 0317 0291 0254 0167

STR(ROB)+iForest 0502 0373 0463 0839

Cuadro A14 Resultados Escenario 6 Exceso ARIMA(111)x(101)12

88 APEacuteNDICE A TABLAS

Caso 1 Caso 2 Caso 3 Caso 4

X-13ARIMA-SEATS 0147 0138 0115 0081

TRAMO-SEATS 0278 0285 0287 0261

STL+HDoutliers 0788 0815 0776 1392

STL+GESD 0045 0047 0042 0031

STL+iForest 0471 0337 0478 0842

STL(ROB)+HDoutliers 1122 1183 1194 1785

STL(ROB)+GESD 1364 1387 1340 0670

STL(ROB)+iForest 0720 0559 0711 1100

Twitter+HDoutliers 0125 0109 0084 0092

Twitter+GESD 3247 3207 3185 7613

Twitter+iForest 0087 0066 0073 0294

STR+HDoutliers 0854 0807 0773 1430

STR+GESD 0069 0069 0050 0036

STR+iForest 0438 0357 0484 0793

STR(ROB)+HDoutliers 0765 0755 0725 1370

STR(ROB)+GESD 0434 0489 0510 0536

STR(ROB)+iForest 0581 0471 0547 1064

Cuadro A15 Resultados Escenario 7 Exceso ARIMA(112)x(011)12

A2 TABLAS DE EXCESO 89

Caso 1 Caso 2 Caso 3 Caso 4

X-13ARIMA-SEATS 0090 0095 0104 0056

TRAMO-SEATS 0487 0475 0494 0446

STL+HDoutliers 0734 0814 0749 1507

STL+GESD 0068 0059 0052 0025

STL+iForest 0496 0352 0479 0747

STL(ROB)+HDoutliers 1157 1098 1083 1660

STL(ROB)+GESD 1232 1281 1260 0294

STL(ROB)+iForest 0764 0566 0687 0918

Twitter+HDoutliers 0859 0822 0860 1415

Twitter+GESD 0214 0209 0217 0114

Twitter+iForest 0606 0526 0550 1031

STR+HDoutliers 0797 0792 0778 1469

STR+GESD 0048 0059 0042 0017

STR+iForest 0461 0336 0464 0782

STR(ROB)+HDoutliers 0786 0726 0699 1494

STR(ROB)+GESD 0159 0146 0145 0072

STR(ROB)+iForest 0520 0359 0433 0830

Cuadro A16 Resultados Escenario 8 Exceso ARIMA(011)x(100)12

90 APEacuteNDICE A TABLAS

Bibliografiacutea

Abraham B y Box G E P (1979) Bayesian analysis of some outlier problems in time seriesBiometrika 66 (2) 229ndash236

Barnett V y Lewis T (1996) Outliers in statistical data 3rd edition (John Wiley amp Sons Chi-chester) 584 pp [UK pound]5500 ISBN 0-471-93094-6 International Journal of Forecasting 12 (1) 175-176

Bell W (1983) A computer program for detecting outliers in time series Proceedings of the AmericanStatistical Association Business and Economic Statistics Section 634-639

Box G y Jenkins G (1976) Time series analysis forecasting and control En (Vol 134) doi1023072344246

Box G E P y Tiao G C (1975) Intervention analysis with applications to economic and environ-mental problems Journal of the American Statistical Association 70 (349) 70ndash79

Breunig M Kriegel H-P Ng R y Sander J (2000) Lof Identifying density-based local outliersEn (Vol 29 p 93-104) doi 101145342009335388

Chang I Tiao G y Chen C (1988) Estimation of time series parameters in the presence of outliersTechnometrics 30 193-204 doi 10108000401706198810488367

Chang I y Tiao G C (1983) Estimation of time series parameters in the presence of outliersTechnical Report 8 University of Chicago Statistics Research Center 30

Chauvenet W (1963) A manual of spherical and practical astronomy volume 2 474-566Chen C y Liu L-M (1993) Joint estimation of model parameters and outlier effects in time series

Journal of the American Statistical Association 88 (421) 284ndash297Cleveland R B Cleveland W S McRae J E y Terpenning I (1990) STL A seasonal-trend

decomposition procedure based on Loess Journal of Official Statistics 6 Dancho M y Vaughan D (2019) Anomalize Tidy anomaly detection [Manual de software informaacute-

tico]Datacamp (2018) Detect anomalies with anomalize in r httpswwwdatacampcomcommunity

tutorialsdetect-anomalies-anomalize-r (Visitado 2020-06-16)de Lacalle J L (2015) Detection of outliers in time series with r httpsjalobecomtsoutliers

(Visitado 2020-03-16)de Lacalle J L (2019) Detection of outliers in time series [Manual de software informaacutetico] https

cranr-projectorgwebpackagestsoutlierstsoutlierspdfDokumentov A y Hyndman R J (2015) STR A seasonal-trend decomposition procedure based

on Regression

91

92 BIBLIOGRAFIacuteA

Dokumentov A y Hyndman R J (2018) str Str decomposition [Manual de software informaacutetico](httpscranr-projectorgwebpackagesstRindexhtml)

Fraley C y Wilkinson L (2020) Hdoutliers Leland wilkinsonrsquos algorithm for detecting multidimen-sionaloutliers [Manual de software informaacutetico]

Goacutemez V y Maravall A (1997) Programs tramo and seats instructions for the user Mimeo Bancode Espantildea

Goacutemez V y Taguas D (1995) Deteccioacuten y correccioacuten automaacutetica de outliers con tramo Unaaplicacioacuten al ipc de bienes industriales no energeacuteticos

Grubbs F (1950) Sample criteria for testing outlying observations The Annals of MathematicalStatistics 21 doi 101214aoms1177729885

Hawkins D (1980) Identification of outliers London [ua] Chapman and HallHochenbaum J Vallis O y Kejariwal A (2017) Automatic anomaly detection in the cloud via

statistical learningHoerl A y Kennard R (1970) Ridge regression Biased estimation for nonorthogonal problems

Technometrics 8 27-51Hyndman R (2020) Forecasting functions for time series and linear models [Manual de software

informaacutetico] httpscranr-projectorgwebpackagesforecastforecastpdfla Tente A Q Michalek A Palate J y Baeyens R (2020) Rjdemetra Interface to rsquojdemetra+rsquo

seasonal adjustment software [Manual de software informaacutetico]Liu F T Ting K y Zhou Z-H (2009) Isolation forest En (p 413 - 422) doi 101109

ICDM200817Mahdavinejad M S Rezvan M Barekatain M Adibi P Barnaghi P y Sheth A P (2018)

Machine learning for internet of things data analysis a survey Digital Communications andNetworks 4 (3) 161 - 175 doi httpsdoiorg101016jdcan201710002

Moore D y McCabe G (1999) Introduction to the practice of statistics WH FreemanOtto M y Bell W (1990) Two issues in time series outlier detection using indicator variables

Proceedings of the American Statistical Association Business and Economic Statistics Section182-187

Peirce B (1852) Criterion for rejection of doubtful observations The Astronomical Journal 2 161-163 doi 101086100259

Pentildea D (2010) Anaacutelisis de series temporales Alianza EditorialRosner B (1975) On the detection of many outliers Technometrics 17 221-227 doi 101080

00401706197510489305Rosner B (1983) Percentagepoints for a generalized esd many-outier procedure Technometrics 25

165-172 doi 10108000401706198310487848Rousseeuw P y Hubert M (2011) Robust statistics for outlier detection Wiley Interdisc Rew

Data Mining and Knowledge Discovery 1 73-79 doi 101002widm2Shan G (2015) Improved confidence intervals for the youden index

doi 01371journalpone0127272Shiskin J Young A y Musgrave J (1967) The x-11 variant of the census method ii seasonal

adjustment program

BIBLIOGRAFIacuteA 93

Srikanth K S (2017) solitude An implementation of isolation forest [Manual de software informaacutetico](R package version 021 mdash For new features see the rsquoSolitudersquo file (in the package source))

Thompson W (1935) On a criterion for the rejection of observations and the distribution of theratio of deviation to sample standard deviation The Annals of Mathematical Statistics 6 doi101214aoms1177732567

Tibshirani R (1996) Regression shrinkage and selection via the lasso Journal of the Royal StatisticalSociety Series B (Methodological) 58 267-288 doi 101111j2517-61611996tb02080x

Time Series Research Staff (2017) X-13ARIMA-SEATS Reference Manual Center for StatisticalResearch and Methodology

Tsay R S (1986) Time series model specification in the presence of outliers Journal of the AmericanStatistical Association 81 (393) 132ndash141

Tsay R S y Tiao G C (1984) Consistent estimates of autoregressive parameters and extendedsample autocorrelation function for stationary and nonstationary arma models Journal of theAmerican Statistical Association 79 (385) 84ndash96

Tukey J W (1977) Exploratory data analysis Addison-WesleyTwitter Inc (2015) Anomalydetection r package GitHub (httpsgithubcomtwitter

AnomalyDetection)Wilkinson L (2017) Visualizing big data outliers through distributed aggregation IEEE Transactions

on Visualization and Computer Graphics PP 1-1 doi 101109TVCG20172744685Woodward W A Gray H L y Elliott A C (2017) Applied time series analysis with r second

edition Journal of Time Series Analysis 39 618 doi 101111jtsa12273Youden W (1950) Youden wjindex for rating diagnostic tests cancer 3(1) 32-35 Cancer 3 32-5

doi 1010021097-0142(1950)3130CO2-3

  • Resumen
  • Introduccioacuten
  • Modelizacioacuten de series temporales
    • Conceptos baacutesicos
    • Meacutetodos de modelizacioacuten de series temporales
      • X-13ARIMA-SEATS
      • TRAMO-SEATS
      • STL
      • STR
      • Twitter
        • Resumen meacutetodos de modelizacioacuten de series temporales
          • Deteccioacuten de valores atiacutepicos
            • Conceptos baacutesicos
            • Meacutetodos de deteccioacuten de valores atiacutepicos
              • X-13ARIMA-SEATS
              • TRAMO-SEATS
              • GESD
              • Isolation Forest
              • HDoutliers
                • Resumen meacutetodos de deteccioacuten de valores atiacutepicos
                • Meacutetodos de deteccioacuten de valores atiacutepicos en series temporales
                  • Estudio de simulacioacuten
                    • Escenarios
                    • Iacutendice de Youden
                    • Resultados
                    • Conclusiones
                      • Aplicacioacuten a datos reales
                        • Anaacutelisis Series IGE
                        • Anaacutelisis Graacutefico
                          • Conclusiones
                          • Tablas
                            • Tablas de sensibilidad
                            • Tablas de exceso
                              • Bibliografiacutea
Page 3: Trabajo Fin de Máster - USC

iii

Propuesta de Trabajo Fin de Maacutester

Tiacutetulo en galego Deteccioacuten de outliers en grandes bases de datos

Tiacutetulo en espantildeol Deteccioacuten de outliers en grandes bases de datos

English title Outlier detection in big data

Modalidad Modalidad B

Autora Sergio Da Vila Davila Universidad de Santiago de Compostela

Directora Mariacutea Joseacute Lombardiacutea Cortintildea Universidade da Coruntildea

Tutora Esther Loacutepez Vizcaiacuteno Instituto Galego de Estadiacutestica

Breve resumen del trabajo

La presencia de valores atiacutepicos en un conjunto de datos puede condicionar gravemente lasconclusiones que se extraigan de ellos Por ello se realiza una comparativa de diferentesmeacutetodos de deteccioacuten de valores atiacutepicos en series temporales a traveacutes de un estudio desimulacioacuten Este estudio nos permite observar cuales son los mejores meacutetodos y analizartanto la presencia de atiacutepicos como el efecto del Covid19 sobre los conjuntos de datos delIGE

Recomendaciones

Otras observaciones

iv

v

Dontildea Mariacutea Joseacute Lombardiacutea Cortintildea profesora titular de Universidad del Departamento de Matemaacute-ticas da Universidade da Coruntildea y dontildea Esther Loacutepez Vizcaiacuteno responsable del Servicio de Difusioacutene Informacioacuten del Instituto Galego de Estadiacutestica informan que el Trabajo Fin de Maacutester titulado

Deteccioacuten de outliers en grandes bases de datos

fue realizado bajo su direccioacuten por don Sergio Da Vila Davila para el Maacutester en Teacutecnicas EstadiacutesticasEstimando que el trabajo estaacute terminado dan su conformidad para su presentacioacuten y defensa ante untribunal

En Santiago de Compostela a 14 de julio de 2020

La directora

Dontildea Mariacutea Joseacute Lombardiacutea Cortintildea

La tutora

Dontildea Esther Loacutepez Vizcaiacuteno

El autor

Don Sergio Da Vila Davila

vi

Iacutendice general

Resumen ix

1 Introduccioacuten 1

2 Modelizacioacuten de series temporales 5

21 Conceptos baacutesicos 5

22 Meacutetodos de modelizacioacuten de series temporales 8

221 X-13ARIMA-SEATS 8

222 TRAMO-SEATS 8

223 STL 10

224 STR 11

225 Twitter 11

23 Resumen meacutetodos de modelizacioacuten de series temporales 13

3 Deteccioacuten de valores atiacutepicos 15

31 Conceptos baacutesicos 15

32 Meacutetodos de deteccioacuten de valores atiacutepicos 17

321 X-13ARIMA-SEATS 17

322 TRAMO-SEATS 18

323 GESD 19

324 Isolation Forest 20

325 HDoutliers 21

33 Resumen meacutetodos de deteccioacuten de valores atiacutepicos 23

34 Meacutetodos de deteccioacuten de valores atiacutepicos en series temporales 24

4 Estudio de simulacioacuten 27

41 Escenarios 27

42 Iacutendice de Youden 29

43 Resultados 32

44 Conclusiones 41

vii

viii IacuteNDICE GENERAL

5 Aplicacioacuten a datos reales 4351 Anaacutelisis Series IGE 4352 Anaacutelisis Graacutefico 66

6 Conclusiones 71

A Tablas 73A1 Tablas de sensibilidad 73A2 Tablas de exceso 82

Bibliografiacutea 91

Resumen

Resumen en espantildeol

El objetivo de este trabajo es el de realizar un anaacutelisis acerca de la presencia de valores atiacutepicos enlos diferentes conjuntos de datos del Instituto Gallego de Estadiacutestica Para ello realizamos una revisioacutenbibliograacutefica que nos permite conocer los meacutetodos actuales y el recorrido que se produjo hasta llegar alos mismos A traveacutes de esta revisioacuten comprendemos la idea que se esconde detraacutes de la deteccioacuten devalores atiacutepicos en series temporales y somos capaces de proponer nuestros propios meacutetodos

Para comparar el comportamiento de los diferentes meacutetodos realizamos un estudio de simulacioacutenel cual nos sirve para contrastar el buen comportamiento de nuestras propuestas y para descartar otrosmeacutetodos

Finalmente aplicamos los meacutetodos que han reflejado un comportamiento maacutes consistente en elestudio de simulacioacuten y analizamos el efecto del Covid19 en el incremento de valores atiacutepicos en losconjuntos de datos Ademaacutes con el objetivo de reducir la incertidumbre asociada al campo de ladeteccioacuten de valores atiacutepicos introducimos una nueva herramienta graacutefica

English abstract

The aim of this project is to carry out an analysis about the presence of outliers in the differentdata sets of the Galician Institute of Statistics We carried out a bibliographic review that allows us toknow the current methods and the route that took place until we reached them Through this reviewwe understand the idea behind the detection of outliers in time series and we are able to propose ourown methods

To compare the behavior of the different methods we carried out a simulation study which helpsus compare the good behavior of our proposals and to rule out other methods

Finally we applied the methods that have reflected a more consistent behavior in the simulationstudy and analyzed the effect of Covid19 on the increase of outliers in the data sets Furthermore withthe aim of reducing the uncertainty associated with the field of outlier detection we introduced a newgraphical tool

ix

x RESUMEN

Capiacutetulo 1

Introduccioacuten

El Instituto Galego de Estadiacutestica (IGE) es un organismo autoacutenomo de la Xunta de Galicia creadoen el antildeo 1988 cuyo objetivo es el de promover el desarrollo del sistema estadiacutestico de la comunidadautoacutenoma mediante servicios de recopilacioacuten y difusioacuten de la documentacioacuten estadiacutestica disponibledesenvolver bases de datos de intereacutes puacuteblico analizar las necesidades y la evolucioacuten de la demandade estadiacutesticas y asegurar su difusioacuten El IGE se erige por tanto como una de las principales fuentesde informacioacuten de datos de caraacutecter socioeconoacutemico de Galicia y de sus divisiones territoriales

Al igual que el resto de organismos del mismo aacutembito el IGE estaacute experimentando un incrementocontinuo tanto en la generacioacuten como en el almacenamiento de datos Es por esto que se hace devital importancia el incorporar una herramienta que nos permita identificar de un modo automaacuteticoposibles candidatos a valores atiacutepicos dentro de nuestros conjuntos de datos

Un dato atiacutepico o outlier en ingleacutes es una observacioacuten anoacutemala en comparacioacuten con el restode datos contenidos en un determinado conjunto de datos Puede deberse a diversos motivos desdeerrores humanos errores relacionados con la medicioacuten grabacioacuten e introduccioacuten de los datos hastacausas como que el dato procede de una poblacioacuten diferente de la que se pretende estudiar

Existen multitud de definiciones que nos permiten dibujarnos una idea de a queacute nos referimoscuando hablamos de valores atiacutepicos

ldquoUn dato atiacutepico es una observacioacuten que se desviacutea tanto del resto de observaciones como paracrear la sospecha de que fue creada por un mecanismo generador diferenterdquo - Hawkins (1980)

ldquoUn dato atiacutepico es una observacioacuten (o conjunto de observaciones) que son inconsistentes con elresto de datosrdquo - Barnett y Lewis (1996)

ldquoUn outlier es una observacioacuten que se encuentra fuera del patroacuten general de una distribucioacutenrdquo-Moore y McCabe (1999)

ldquoLos datos atiacutepicos pueden ser dependiendo de la circunstancia errores no deseados que puedenafectar negativamente al resultado o valiosas pepitas de informacioacuten inesperadardquo- Rousseeuw yHubert (2011)

Eliminar un dato de una muestra por haberlo considerado atiacutepico puede llevar a perder informacioacutenrelevante debido a una singularidad del mecanismo generador y a su vez incluir un dato atiacutepico en una

1

2 CAPIacuteTULO 1 INTRODUCCIOacuteN

muestra puede confundir los resultados Ambos casos alteran los anaacutelisis posteriores y pueden dirigira conclusiones incorrectas si se llegara a tomar la decisioacuten equivocada Por lo tanto la importanciareside en identificar de manera adecuada queacute datos son atiacutepicos y cuaacuteles no

Esta identificacioacuten seraacute de gran utilidad dado que permitiraacute tanto realizar mejores anaacutelisis comopoder interpretar sucesos relevantes en el contexto socio-econoacutemico gallego

El problema de la deteccioacuten de atiacutepicos es un tema ampliamente tratado en la literatura por loque nuestro trabajo consistiraacute en realizar un estudio comparativo de los meacutetodos maacutes comunes en laactualidad y plantear posibles mejoras

Uno de los criterios a los que le prestaremos mayor atencioacuten en este estudio seraacute a la sensibilidaddel meacutetodo dado que si este es muy sensible e identifica muchos candidatos como atiacutepicos no serviraacute degran ayuda Por otra parte si apenas sentildeala ninguacuten caso seraacute similar a no aplicar ninguna herramientade deteccioacuten

Para estudiar este comportamiento realizaremos un estudio de simulacioacuten en el que a traveacutes devalores atiacutepicos previamente identificados podremos analizar el comportamiento de cada meacutetodoAdemaacutes dado que trabajamos con un gran volumen de datos una caracteriacutestica que se les exigiraacute alos meacutetodos seraacute una raacutepida velocidad de ejecucioacuten

La deteccioacuten de datos atiacutepicos tiene aplicaciones en muchos aacutembitos deteccioacuten de operacionesfraudulentas en tarjetas de creacutedito solicitudes para preacutestamos de clientes potencialmente morososdeteccioacuten de intrusiones en redes de comunicacioacuten monitorizacioacuten de paraacutemetros de fabricacioacuten paradeteccioacuten de producciones defectuosas anomaliacuteas en monitorizaciones meacutedicas anaacutelisis electoraleslimpieza de datos prediccioacuten del tiempo o hasta en astronomiacutea donde un punto anoacutemalo puedeimplicar el descubrimiento de una nueva estrella

En este trabajo nos centraremos en datos reales provenientes de la paacutegina web del IGE recogidosen siete conjuntos

Conjunto 1 Viajeros noches y estancia media en establecimientos hoteleros y de turismo ruralen Espantildea Galicia y sus provincias Datos mensuales Los datos proceden del Instituto Nacio-nal de Estadiacutestica (INE) de la Encuesta de ocupacioacuten hotelera y la Encuesta de ocupacioacuten enalojamientos de turismo rural (httpwwwigeeuigebdtigeapidatos3476)

Conjunto 2 Poblacioacuten de 16 y maacutes antildeos por sexo grupos de edad y relacioacuten con la actividadeconoacutemica en Galicia Datos trimestrales Los datos proceden de la Encuesta de Poblacioacuten Activa(EPA) elaborada conjuntamente entre el INE y el IGE (httpwwwigeeuigebdtigeapidatos6356)

Conjunto 3 Contratos registrados seguacuten su modalidad Datos mensuales Esta informacioacuten proce-de de la Estadiacutestica de contratos registrados elaborada por el Servicio Puacuteblico de Empleo Estatal(SEPE) (httpwwwigeeuigebdtigeapidatos308)

Conjunto 4 Iacutendice de produccioacuten industrial general y por destino econoacutemico de los bienes en Ga-licia (Base 2015) Datos mensuales La informacioacuten procede del Iacutendice de Produccioacuten Industrialoperacioacuten estadiacutestica ejecutada por el INE (httpwwwigeeuigebdtigeapidatos9048)

Conjunto 5 Transacciones inmobiliarias por reacutegimen y tipo de vivienda Nuacutemero valor totaly valor medio Datos trimestrales La fuente de esta informacioacuten es el Ministerio de Fomento y

3

hace referencia a la compraventa de viviendas elevadas a escritura puacuteblica ante notario (httpwwwigeeuigebdtigeapidatos4052)

Conjunto 6 Bajas de demandas de empleo seguacuten geacutenero y duracioacuten de la demanda en Galiciay sus provincias Datos mensuales La fuente de esta informacioacuten es el SEPE y hace referenciaa las bajas que los servicios de empleo puacuteblico tuvieron debido a una colocacioacuten no hacer larenovacioacuten de la demanda en el periodo establecido o por otras causas (httpwwwigeeuigebdtigeapidatos1243)

Conjunto 7 Afiliaciones a la Seguridad Social uacuteltimo diacutea del mes en Galicia y sus provinciasDatos mensuales La informacioacuten procede del Ministerio de Seguridad Social y Migraciones yhace referencia a las personas trabajadoras que estaacuten en alta en la Seguridad Social (httpwwwigeeuigebdtigeapidatos4885)

Los motivos por los que se han escogido estos conjuntos obedece a diversas razones En primerlugar el maacutes importante incluir series en las que existe el conocimiento de que se presentan atiacutepicosA partir de ahiacute se ha conformado un conjunto de series que permitiesen recoger la mayor amalgamade naturalezas posibles que se presentan en las series que trata el IGE mercado laboral turismoconstruccioacuten o industria Seriacutean aacutembitos que se recogen a lo largo de la seleccioacuten de datos realizadaAdemaacutes se han incorporado series con distinta frecuencia de obtencioacuten tanto series mensuales comotrimestrales

En este trabajo se recoge una comparativa de meacutetodos los cuales se pueden englobar bajo dosvisiones de coacutemo abordar la identificacioacuten de anomaliacuteas en series de tiempo Por un lado existen losmeacutetodos cuyo mecanismo se fundamenta en modelos de series temporales que realizan un procesoiterativo para estimar el modelo integrando la posible influencia de observaciones atiacutepicas Por el otrouna visioacuten maacutes reciente se plantea a traveacutes de realizar un proceso de deteccioacuten en dos partes en laprimera se le aplica a la serie de tiempo un meacutetodo de descomposicioacuten para despueacutes aplicar un meacutetodode deteccioacuten de atiacutepicos sobre el residuo

Dado que ambos enfoques comparten un nexo comuacuten como es la modelizacioacuten de la serie de tiempoy la localizacioacuten de atiacutepicos las podemos tratar conjuntamente en dos capiacutetulos el Capiacutetulo 2 y elCapiacutetulo 3

En el Capiacutetulo 2 se estudian las propiedades de modelizacioacuten de cada meacutetodo La importancia deun buen meacutetodo de modelizacioacuten de series temporales reside en que cuanto mejor se consiga extraer elmecanismo generador de la serie de tiempo maacutes resaltaraacuten las observaciones atiacutepicas En el Capiacutetulo 3se describen los meacutetodos de deteccioacuten de atiacutepicos Estos dos capiacutetulos conforman la parte teoacuterica deltrabajo

Para estudiar el comportamiento de los diferentes meacutetodos se plantea un profundo estudio desimulacioacuten en el Capiacutetulo 4 en el que se utiliza el Iacutendice de Youden como herramienta discriminatoriaacerca de queacute meacutetodos ofrecen mejores resultados En el Capiacutetulo 5 se tratan los datos proporcionadospor el IGE a traveacutes de los meacutetodos que han presentado un mejor comportamiento en el estudio desimulacioacuten Para finalizar el Capiacutetulo 6 expone las conclusiones que hemos extraiacutedo a lo largo de larealizacioacuten de este trabajo

4 CAPIacuteTULO 1 INTRODUCCIOacuteN

Capiacutetulo 2

Modelizacioacuten de series temporales

21 Conceptos baacutesicos

En este apartado definiremos los elementos principales que rodean a las series de tiempo Para ellopodemos echar mano de infinidad de manuales dado que las mismas son objeto de estudio en multitudde campos desde las ciencias sociales y econoacutemicas hasta ramas que requieren de un bagaje muchomaacutes matemaacutetico En este trabajo haremos uso de Pentildea (2010) y Woodward Gray y Elliott (2017)

En la estadiacutestica baacutesica estamos acostumbrados a trabajar con una muestra donde las observacio-nes X1 X2 Xn son variables aleatorias independientes e ideacutenticamente distribuidas Sin embargocuando las muestras se extraen en base a instantes de tiempo es muy probable que las observacionesesteacuten correlacionadas entre si Este tipo de muestras con dependencia temporal se denominan series detiempo Es decir una serie de tiempo es una secuencia de observaciones ordenadas cronoloacutegicamente

Este tipo de datos se utilizan en muacuteltiples disciplinas algunos ejemplos podriacutean incluir desde elaacutembito econoacutemico como la evolucioacuten del Producto Interior Bruto (PIB) o del precio del petroacuteleo hastaaacutembitos como la meteorologiacutea midiendo la temperatura de una localidad durante un periacuteodo de tiempoo el aacutembito sanitario siguiendo la evolucioacuten de una enfermedad en un paciente

Uno de los principales inconvenientes a la hora de trabajar con series temporales son los datos atiacute-picos Estos datos atiacutepicos pueden tener dos naturalezas errores no deseados o pepitas de informacioacuten(Rousseeuw y Hubert 2011) Estas pepitas de informacioacuten pueden servirnos por ejemplo para locali-zar sucesos importantes como huelgas medidas de poliacutetica econoacutemica o desastres naturales (Goacutemez yTaguas 1995) Al igual que en el resto de campos de la estadiacutestica que en nuestro conjunto de datos seencuentren valores atiacutepicos puede llevarnos a incurrir en errores de especificacioacuten Como se mencionaen Chang Tiao y Chen (1988) es importante ser capaz de identificar estos sucesos para comprendermejor la estructura subyacente de la serie

Uno de los modelos maacutes comuacutenmente usado y utilizado como punto de partida en el anaacutelisisde series temporales es el modelo ARIMA Los modelos ARIMA ajustan los valores de la serie enbase a las observaciones previas y errores aleatorios con una estructura que le permite incluir tantocomponentes ciacuteclicos como estacionales Siendo Xtt una serie de tiempo un modelo ARIMA seriacuteaaquel que admite una representacioacuten

5

6 CAPIacuteTULO 2 MODELIZACIOacuteN DE SERIES TEMPORALES

φ(B)(1minusB)dXt = c+ θ(B)at

donde Xt es la observacioacuten t de la serie de tiempo B el operador retardo definido por BXt = Xtminus1φ(B) = (1minusφ1(B)minusφ2B

2minusminusφpBp) φ(B) = (1minusθ1Bminusθ2B2minusminusθqBq) cφ1 φ2 φpθ1 θ2 θp

son constantes d es el nuacutemero de diferencias necesarias para eliminar la tendencia de la serie at esruido blanco y p y q los oacuterdenes de los procesos autorregresivos (AR) y de medias moviles (MA)

Con esta representacioacuten del modelo ARIMA se puede deducir raacutepidamente que estos no son maacutes quela mezcla de los dos primeros modelos de series temporales formulados los modelos AR y los modelosMA Ademaacutes si el proceso que genera la serie de tiempo presenta la posibilidad de estar formado porcomponentes de largo periacuteodo temporal se debe hacer uso de los ARIMA estacional muacuteltiplicativoARIMA(pdq)x(PDQ) cuya representacioacuten seriacutea

φ(B)Φ(Bs)(1minusB)d(1minusBs)DXt = c+ θ(B)Θ(Bs)at

En esta nueva formulacioacuten D es el nuacutemero de diferenciaciones estacionales aplicadas para eliminarla componente estacional Φi y Θj las constantes respectivas a la parte estacional para i = 1 2 P yj = 1 2 Q con P igual al orden del proceso AR estacional y Q al orden del proceso MA estacional

Sin embargo la presencia de atiacutepicos puede llevar a un incorrecto ajuste de los paraacutemetros delmodelo debido a que se pueden ver sesgados por el efecto del atiacutepico La mala estimacioacuten de losparaacutemetros nos conduce a diversos errores dado que podemos no diseccionar bien la estructura dela serie como para entender su comportamiento Ademaacutes en el caso de que el atiacutepico se produzcaen la uacuteltima parte de la serie afectariacutea a las estimaciones futuras incurriendo en un error mayor deprediccioacuten

Por ello surgieron meacutetodos como X-13ARIMA-SEATS o TRAMO-SEATS que parten de los mo-delos ARIMA e introducen mejoras como la deteccioacuten y correccioacuten de atiacutepicos Estos meacutetodos fueronampliamente utilizados durante mucho tiempo para la modelizacioacuten de series temporales Sin embargoel desarrollo de la tecnologiacutea provocoacute la creacioacuten del Internet de las Cosas (Mahdavinejad et al 2018)un entorno en el que casi la totalidad de los objetos y personas estaacute conectado a internet dejandohuella de su comportamiento Las caracteriacutesticas de esta red provocaron un incremento enorme en lacreacioacuten y obtencioacuten de datos unas caracteriacutesticas para las cuales no estaban preparados estos meacutetodosdisentildeados para escalar a conjuntos de tamantildeo pequentildeo o mediano

Es aquiacute donde surge un nuevo enfoque para la deteccioacuten de valores atiacutepicos en series de tiempobasado en aplicar un proceso de descomposicioacuten y analizar los residuos Los procesos de descomposicioacutentienen por objetivo diseccionar una serie en tres componentes tendencia estacionalidad y residuo demodo que se pueda establecer un patroacuten de como se comporta En este trabajo el objetivo no es buscarel modelo maacutes preciso sino aquel que consiga trazar mejor la estructura subyacente de la serie de formaque resalte los posibles valores atiacutepicos en su componente residual y es por ello que estos modelosresultan de tanto intereacutes El primer meacutetodo basado en esta idea que recibioacute cierta repercusioacuten fue elpresentado por el equipo de Twitter (Hochenbaum Vallis y Kejariwal 2017) el cual fue maacutes tardeampliado en el paquete Anomalize de R (Dancho y Vaughan 2019)

Esta forma de proceder en dos partes descomposicioacuten maacutes deteccioacuten se debe a la idea de quevisualizar o localizar atiacutepicos en una serie es complicado debido a causas como la estacionalidad o

21 CONCEPTOS BAacuteSICOS 7

tendencia de la serie Aplicarle a la serie un proceso de descomposicioacuten permite extraer estas compo-nentes y resaltar las posibles anomaliacuteas A continuacioacuten en la Figura 21 mostramos un ejemplo deeste procedimiento utilizando uno de los meacutetodos que se emplearaacuten posteriormente en el trabajo STL

Figura 21 A la izquierda la serie referente al Nuacutemero Total de Afiliaciones a la Seguridad Social eluacuteltimo diacutea de mes en Pontevedra perteneciente al Conjunto 7 A la derecha los residuos obtenidos trasaplicarle la descomposicioacuten STL

Como se puede apreciar en la Figura 21 observar alguacuten comportamiento extrantildeo en la serie detiempo es complicado debido a las fluctuaciones que va sufriendo a lo largo de los antildeos Sin embargouna vez aplicado el proceso de descomposicioacuten y eliminado los efectos de estacionalidad y tendenciapodemos ver el efecto de la crisis del Covid-19 apareciendo en los uacuteltimos datos de la serie Esta crisisprovoca que los datos reales de esos meses disten mucho de los esperados lo que se traduce en fuertesincrementos en el tamantildeo del residuo

Lo interesante de estos meacutetodos es que los procesos de descomposicioacuten de series de tiempo soncapaces de analizar multitud de series de caracteriacutesticas muy diferentes y filtrarlas de tal modo que elproblema acabe residiendo en lo que aparentemente es un sencillo problema de deteccioacuten de valoresatiacutepicos en el caso univariante Mientras que los meacutetodos como X-13ARIMA-SEATS o TRAMO-SEATS se encuentran limitados en su disentildeo a trabajar solamente con series con frecuencias mensualeso trimestrales

Sin embargo Wilkinson (2017) resalta que el problema de la deteccioacuten de valores atiacutepicos en elcaso univariante es engantildeosamente sencillo lo cual puede llevarnos a cometer errores en la deteccioacutende atiacutepicos pese a haber realizado una buena descomposicioacuten de la serie Por ello en este trabajo seplantea un capiacutetulo dedicado a analizar las propiedades de diferentes meacutetodos de deteccioacuten

Por tanto en el trabajo coexisten dos mecanismos de deteccioacuten de atiacutepicos en series temporalesPor un lado los meacutetodos de ajuste de series temporales que incorporan la deteccioacuten y correccioacuten deatiacutepicos al modelo de modo automaacutetico Y por el otro aquellos meacutetodos de deteccioacuten de atiacutepicos cuyaidea se centra en aplicar un proceso de descomposicioacuten maacutes anaacutelisis del residuo

En la Seccioacuten 22 se describen los procesos de modelizacioacuten de series temporales utilizados y en elCapiacutetulo 3 se describen los procesos de deteccioacuten de atiacutepicos

8 CAPIacuteTULO 2 MODELIZACIOacuteN DE SERIES TEMPORALES

22 Meacutetodos de modelizacioacuten de series temporales

221 X-13ARIMA-SEATS

El meacutetodo X-13ARIMA-SEATS es la versioacuten actualizada y mejorada del modelo X-11 desarrolladopor Shiskin Young y Musgrave (1967) X-13ARIMA-SEATS fue creado por el Censo de los EstadosUnidos (US Census Bureau) y forma parte de una familia de modelos de ajuste para series temporalesque se han ido desarrollando y estaacuten disentildeados para trabajar con series econoacutemicas estacionales Unaexplicacioacuten completa del meacutetodo y de coacutemo ha de implantarse se puede encontrar en Time SeriesResearch Staff (2017)

Este modelo se basa en la estimacioacuten de lo que sus autores denominan modelos regARIMA Estosson modelos de regresioacuten con errores ARIMA En concreto la media de la serie estaacute descrita por unacombinacioacuten lineal de regresores y la matriz de covarianzas es la de un proceso ARIMA Se incluyenregresores para modelar efectos de calendario como festivos vacaciones o diacutea de la semana Ademaacutestambieacuten se incluyen otro tipo de regresores para modelar el efecto de las anomaliacuteas que se puedanpresentar El modo en que se aborda este campo lo trataremos en profundidad en el Capiacutetulo 3 conel resto de meacutetodos de deteccioacuten

El proceso de ajuste comienza por un pre-ajuste de la serie a traveacutes de eliminar el efecto determiniacutes-tico mediante un modelo de regresioacuten con errores ARIMA En el siguiente paso la serie pre-ajustada sedescompone en tendencia (t) estacionalidad (s) y residuo (i) Esta descomposicioacuten puede ser aditiva(y = t+s+i) multiplicativa (y = tlowastslowasti) log-aditiva (log(y) = log(t)+log(s)+log(i)) o pseudo-aditiva(y = t lowast (s+ iminus 1)) Este paso en el que se aplica el proceso de descomposicioacuten se basa en el uso delalgoritmo X11 que descompone la serie a traveacutes de filtros lineales La serie final ajustada debe estarlibre de estacionalidad y efectos de calendario

X-13ARIMA-SEATS estaacute implementado en la libreriacutea RJDemetra de R en la funcioacuten x13 y lasespecificaciones necesarias para llevar a cabo la deteccioacuten de atiacutepicos se tratan en el Capiacutetulo 3 juntocon la explicacioacuten del proceso de deteccioacuten

222 TRAMO-SEATS

El meacutetodo TRAMO-SEATS (Goacutemez y Maravall 1997) fue disentildeado por el Banco de Espantildea parael anaacutelisis de series de tiempo Esta herramienta estaacute formada por dos mecanismos La parte TRAMO(Time Series Regression with Arima noise Missing Observations and Outliers) y la parte SEATS(Signal Extraction in ARIMA Time Series)

Como se introduce en Goacutemez y Taguas (1995) el programa TRAMO puede ser utilizado inde-pendientemente de SEATS sin embargo SEATS ha sido disentildeado para trabajar conjuntamente conTRAMO Su finalidad es la de realizar un anaacutelisis detallado de series temporales ya que cuenta conmecanismos para realizar tareas de estimacioacuten prediccioacuten interpolacioacuten de modelos de regresioacuten convalores ausentes con errores ARIMA y correccioacuten de valores atiacutepicos El programa incluye variables deregresioacuten para modelizar los diacuteas de calendario que pueden influir en el comportamiento de la serie co-mo puede ser la Pascua y variables de intervencioacuten que permiten corregir el efecto de las observacionesatiacutepicas La idea en la que se basa el modelo es muy similar a la del modelo X-13ARIMA-SEATS

TRAMO elimina de la serie los efectos especiales identifica y elimina automaacuteticamente los efectos

22 MEacuteTODOS DE MODELIZACIOacuteN DE SERIES TEMPORALES 9

de varios tipos de atiacutepicos e interpola las observaciones ausentes Tambieacuten cuenta con un moacuteduloque permite la identificacioacuten automaacutetica de modelos herramienta que imitaron los desarrolladores deX-13ARIMA-SEATS y que en su momento le permitioacute relevar de tareas monoacutetonas a los analistasEste procedimiento de identificacioacuten automaacutetica estaacute basado en estimar primero las raiacuteces unitarias yutilizar despueacutes el Criterio de Informacioacuten Bayesiano (BIC ) para especificar un modelo ARMA a laserie diferenciada

Figura 22 Esquema de funcionamiento de TRAMO-SEATS (Goacutemez y Maravall 1997)

La Figura 22 (Goacutemez y Maravall 1997) muestra como se integran ambas partes TRAMO ySEATS para formar en conjunto el mecanismo completo de modelizacioacuten

SEATS fue disentildeado originalmente para desestacionalizar series temporales El programa descom-pone una serie que sigue un modelo ARIMA en varios componentes tendencia componente estacionalciclo y componente irregular La descomposicioacuten puede ser aditiva o multiplicativa La descomposicioacutenparte de la hipoacutetesis de ortogonalidad de los componentes que a su vez siguen modelos ARIMA Paraidentificar los componentes se requiere que excepto el irregular esteacuten limpios de ruido blanco De estemodo se maximiza la varianza de este uacuteltimo y al contrario la tendencia el componente estacional yel ciclo son lo maacutes estables posibles

El modelo tratado por SEATS es el de una serie integrada lineal con innovaciones gaussianas Estahipoacutetesis puede no ser cierta en muacuteltiples ocasiones pero siempre es necesario extraer un modelo espor ello que SEATS fue disentildeada para ser utilizada de forma conjunta con TRAMO

TRAMO-SEATS estaacute implementado en la libreriacutea RJDemetra de R en la funcioacuten tramoseats y las

10 CAPIacuteTULO 2 MODELIZACIOacuteN DE SERIES TEMPORALES

especificaciones necesarias para llevar a cabo la deteccioacuten de atiacutepicos se tratan en el capiacutetulo 3 juntocon la explicacioacuten del proceso de deteccioacuten

223 STL

STL es un proceso de filtrado para descomponer series de tiempo en tendencia estacionalidad yresiduo cuyo nombre se debe a sus siglas en ingleacutes Seasonal-Trend decomposition based on Loessintroducido por Cleveland Cleveland McRae y Terpenning (1990) El propoacutesito de este meacutetodo fue elde desarrollar un meacutetodo de descomposicioacuten de series de tiempo que cumpliese los siguientes requisitos

1 Disentildeo sencillo y uso inmediato

2 Flexibilidad a la hora de especificar las variaciones en la tendencia y estacionalidad

3 Poder descomponer series de tiempo con valores faltantes

4 Tendencia y estacionalidad robusta de modo que no se vea distorsionada por datos anoacutemalos

5 Raacutepida computacioacuten y faacutecil implementacioacuten incluso para series temporales largas

El procedimiento de STL consiste en una secuencia de operaciones de suavizado realizadas todasellas salvo una por el mismo suavizador loess El mecanismo consiste en dos bucles uno interno yotro externo

Cada vuelta del bucle interno consiste en un suavizado estacional que actualiza dicha componenteseguido de un suavizado de la tendencia que actualiza la componente asociada con la tendencia Porotra parte cada vuelta del bucle externo consiste en aplicarle una serie de pesos robustos al bucleinterno Estos pesos se utilizan en la siguiente vuelta del bucle interno para reducir la influencia de losdatos anoacutemalos

La aplicacioacuten de la estimacioacuten robusta seraacute necesaria cuando exista un conocimiento previo de quelos datos tienen un comportamiento no gaussiano que conduce a una variacioacuten transitoria extrema delo contrario se pueden omitir las iteraciones del bucle externo y STL consistiriacutea solamente en el bucleinterno

A diferencia de otros meacutetodos como TRAMO-SEATS o X-13ARIMA-SEATS STL puede tratarcualquier tipo de estacionalidad en vez de estar atado a estacionalidades mensuales o trimestrales Sucomponente estacional es capaz de cambiar a lo largo del tiempo y dicho cambio puede ser controladopor el usuario Lo mismo sucede con el suavizado de la componente relacionada con la tendencia Unode sus inconvenientes es que no opera si en la serie se encuentran valores faltantes

En R encontramos este meacutetodo bajo la funcioacuten stl a la cual solo habraacute que especificarle unparaacutemetro Dicho paraacutemetro es el relacionado con el suavizado de la componente estacional e indicaal mecanismo el nuacutemero de observaciones consecutivas a utilizar para estimar los valores de dichacomponente Se podriacutea introducir un valor numeacuterico si tenemos alguacuten indicio sobre el posible desarrollode la componente estacional sin embargo dado que vamos a aplicarlo a un gran nuacutemero de series elanaacutelisis individual seriacutea costoso La solucioacuten utilizada en este trabajo pasa por fijar este paraacutemetrocomo perioacutedico lo cual asume que la evolucioacuten de la componente estacional es ideacutentica a lo largo delos antildeos que se desarrolla la serie

22 MEacuteTODOS DE MODELIZACIOacuteN DE SERIES TEMPORALES 11

224 STR

STR es un meacutetodo de descomposicioacuten de series de tiempo presentado por Dokumentov y Hyndman(2015) Sus siglas se deben a su nombre en ingleacutes Seasonal-Trend decomposition procedure based onRegression similar a la idea de STL salvo que ahora en vez de basarse en loess lo hace en regresioacutenEn concreto seguacuten los autores STR es similar a la regresioacuten Ridge (Hoerl y Kennard 1970) y suversioacuten robusta Robust STR (Dokumentov y Hyndman 2015) se podriacutea relacionar con una regresioacutenLASSO (Tibshirani 1996)

La idea de su desarrollo se originoacute debido a que los autores consideran que a pesar de existir variosalgoritmos de descomposicioacuten de series de tiempo existen muchas caracteriacutesticas en ellas que dichosalgoritmos son incapaces de tratar Las principales deficiencias que encuentran son

Incapacidad para proporcionar un modelo estadiacutestico significativo y simple

Incapacidad (o dificultad) para calcular intervalos de confianza

Incapacidad para tener en cuenta regresores

Incapacidad para tener en cuenta estacionalidad fraccionada

Incapacidad para tener en cuenta muacuteltiples estacionalidades

Incapacidad para tener en cuenta estacionalidades complejas y regresores que afecten a los datosde un modo estacional

El objetivo con el que se desarrolloacute STR fue el de corregir estas deficiencias a la par que presentar unmeacutetodo claro geneacuterico simple y robusto si fuera necesario Para solucionar estas deficiencias enfocan ladescomposicioacuten como un problema a resolver a traveacutes de una regresioacuten cuantil o de miacutenimos cuadradosordinarios

De acuerdo a sus desarrolladores STR constituye el meacutetodo de descomposicioacuten de series de tiempomaacutes geneacuterico disponible en el momento de su publicacioacuten Sin embargo matizan una gran desventajaque presenta el meacutetodo y es su ineficiencia o la ralentizacioacuten que sufre el mecanismo a la hora de tratarcasos en los que se utilizan varios componentes o predictores estacionales

Uno de sus desarrolladores Rob J Hyndman es conocido por sus aportaciones en el campo delas series de tiempo y su posterior implantacioacuten en paquetes para el software R como el famosopaquete forecast En este caso tambieacuten ha colaborado en la implantacioacuten de STR con el paquete stR(Dokumentov y Hyndman 2018)

225 Twitter

En Hochenbaum et al (2017) se aborda el problema de deteccioacuten de valores atiacutepicos en series detiempo introduciendo la idea de descomposicioacuten maacutes deteccioacuten como hemos comentado en la introduc-cioacuten de esta seccioacuten El equipo de Twitter plantea en su artiacuteculo utilizar en un primer momento STLcomo meacutetodo de descomposicioacuten para obtener los residuos sin embargo a la hora de trabajar con estemeacutetodo encuentran una serie de inconvenientes Estos inconvenientes estariacutean provocados por ciertasanomaliacuteas espurias producidas en el residuo

12 CAPIacuteTULO 2 MODELIZACIOacuteN DE SERIES TEMPORALES

Para corregir esta situacioacuten optan por utilizar la mediana de la serie de tiempo para representar latendencia ldquoestablerdquo que despueacutes seraacute utilizada para calcular el residuo

De este modo afirman que reemplazando la tendencia con la mediana se eliminan las anomaliacuteasespurias o ilegiacutetimas del residuo Los mismos desarrolladores publicaron un paquete en la plataformaGitHub (Twitter Inc 2015) que nos permitiacutea hacer uso de este mecanismo sin embargo su manteni-miento cesoacute a finales de 2015 y el paquete fue eliminado de la plataforma CRAN en marzo de 2019 Elpaquete Anomalize (Dancho y Vaughan 2019) recoge este mecanismo y seraacute el paquete que utilizaremosen este trabajo para utilizar esta modificacioacuten del meacutetodo STL bajo la funcioacuten decompose_twitter

23 RESUMEN MEacuteTODOS DE MODELIZACIOacuteN DE SERIES TEMPORALES 13

23 Resumen meacutetodos de modelizacioacuten de series temporales

Meacutetodo Ventajas Contras

X-13ARIMA-SEATS(2017)

Capaz de tratar con valores fal-tantesIntegra diversos tipos de descom-posicioacutenRaacutepida velocidad de ejecucioacuten

Disentildeado para trabajar solo conseries mensuales o trimestrales

TRAMO-SEATS(1997) Capaz de tratar con valores fal-tantesIntegra diversos tipos de descom-posicioacutenRaacutepida velocidad de ejecucioacuten

Disentildeado para trabajar solo conseries mensuales o trimestrales

STL(1990) Puede tratar series de cualquierfrecuenciaRaacutepidoCuenta con versioacuten robusta

No admite valores faltantesCarece de flexibilidad cuando elperiacuteodo estacional es largo y seobserva mucho ruido en la serieAuacuten con su versioacuten robusta pue-de verse afectado por la influen-cia de los atiacutepicos

STR(2015) Puede tratar series de cualquierfrecuenciaCuenta con versioacuten robustaAdmite valores faltantesSensible a cambios de estaciona-lidad

No puede seguir cambios bruscosen la tendenciaExtremadamente lento en com-paracioacuten al resto de meacutetodos

Twitter(2017) Puede tratar series de cualquierfrecuenciaElimina anomaliacuteas espuacutereas en lacomponente residualRaacutepido

No admite valores faltantesNo cuenta con versioacuten robusta

Cuadro 21 Resumen de los meacutetodos de modelizacioacuten de series temporales

14 CAPIacuteTULO 2 MODELIZACIOacuteN DE SERIES TEMPORALES

Capiacutetulo 3

Deteccioacuten de valores atiacutepicos

31 Conceptos baacutesicos

El problema que supone en la estadiacutestica la presencia de valores atiacutepicos aparecioacute muy pronto EnHawkins (1980) mencionan que este problema pudo haber surgido ya en los siglos XVIII y XIX enencuestas estadiacutesticas que se realizaban Las primeras decisiones de queacute hacer con ellos se basaron encriterios puramente subjetivos en los que era el propio analista el que decidiacutea descartar una observacioacutensi pareciacutea anoacutemala respecto al resto de los datos

Posteriormente se comenzaron a plantear posibles soluciones para tratar el problema bajo uncriterio La primera de ellas fue la presentada por Peirce (1852) basada en lo que se podriacutea entendercomo un test de razoacuten de verosimilitud donde todos los valores que superasen el umbral determinadopor cσ seriacutean rechazados siendo c una constante a calcular y σ la desviacioacuten tiacutepica de la muestraVarios autores realizaron criacuteticas a este meacutetodo y propusieron su correccioacuten a este criterio una de ellasfue la de Chauvenet (1963) Esta pasaba por calificar a una observacioacuten como atiacutepico si su valor sesituaba fuera del intervalo definido por 1(4n) puntos de la distribucioacuten Normal siendo n el tamantildeode la muestra

En ese momento surgen diversas propuestas no muy relevantes que trataron de abordar dichoproblema hasta que surgioacute la llevada a cabo por Thompson (1935) Su estudio condujo a descubrir ladistribucioacuten nula de un residuo estudentizado

xi minus xs

donde xi es la observacioacuten sospechosa de ser atiacutepica x la media muestral y s la desviacioacuten tiacutepica de lamuestra A partir de esto pudo deducir un procedimiento de deteccioacuten de atiacutepicos que rechazariacutea unaproporcioacuten fija de todos los datos buenos y devolveriacutea una tabla con los valores criacuteticos adecuados

Esta idea supuso el desarrollo del test de Grubbs (1950) el cual utilizando la misma notacioacutenanterior basaba su regla en los momentos muestrales de una normal

G =max1leilen|xi minus x|

s

Grubbs (1950) asocioacute G con una distribucioacuten t con el objetivo de encontrar un maacuteximo y un miacutenimo

15

16 CAPIacuteTULO 3 DETECCIOacuteN DE VALORES ATIacutePICOS

para localizar atiacutepicos Esta idea fue posteriormente ampliada dando lugar al meacutetodo GESD (Rosner1983) el cual se detalla en la siguiente seccioacuten

Posteriormente se presentoacute una de las herramientas maacutes comuacutenmente utilizadas para la identifi-cacioacuten de atiacutepicos el boxplot introducido en Tukey (1977) Sin embargo el objetivo inicial no fue ladeteccioacuten de atiacutepicos sino como un meacutetodo para trazar una idea del intervalo en el que se encuentranla gran parte de nuestros datos Ademaacutes la forma en la que se construye provoca dos grandes incon-venientes No se puede aplicar a distribuciones sesgadas y dado que no incluye el tamantildeo muestral ensu formulacioacuten tenderaacute a etiquetar falsos atiacutepicos cuanto maacutes grande sea la muestra

A la par que se iban presentando estas ideas para la buacutesqueda de valores atiacutepicos en un conjuntode datos se fueron presentando mecanismos enfocados a las series de tiempo

Uno de los primeros aportes al tratamiento de datos atiacutepicos en series de tiempo fue propuestopor G E P Box y Tiao (1975) Sin embargo este meacutetodo solamente permitiacutea modelar el efecto de laobservacioacuten atiacutepica si se conociacutea de antemano el momento de la intervencioacuten por lo que no se podriacuteaconsiderar una herramienta de deteccioacuten sino maacutes bien una herramienta de intervencioacuten

Posteriormente se propusieron diversos meacutetodos para abordar el problema de la estimacioacuten demodelos ARIMA en series bajo esta circunstancia El primero de ellos fue el de Abraham y Box(1979) que se basaba en proponer un enfoque bayesiano para resolver el problema partiendo de ideassimilares a las que se habiacutean propuesto en otros contextos por autores como Tukey (1977) Otro meacutetodoque buscaba resolver tambieacuten el mismo problema fue el propuesto por Chang y Tiao (1983) cuya idease centraba en aplicar un proceso iterativo

Fue en este artiacuteculo (Chang y Tiao 1983) donde se propuso por primera vez un meacutetodo de deteccioacutene identificacioacuten de atiacutepicos Tsay (1986) propuso su versioacuten que se basaba en combinar el procesoiterativo presentado en Chang y Tiao (1983) con la funcioacuten de autocorrelacioacuten muestral extendidadesarrollada en Tsay y Tiao (1984) la cual permite eliminar la necesidad de determinar el orden dediferenciacioacuten para producir una serie estacionaria que modelar

En Chen y Liu (1993) se reconocen los numerosos aportes hechos en los anteriores artiacuteculos citadospero matiza que algunos problemas seguiacutean estando vigentes

a La presencia de atiacutepicos puede resultar en un modelo inapropiado

b Incluso si el modelo es el apropiado los atiacutepicos pueden seguir produciendo sesgo en el paraacutemetroestimado y por tanto afectar a la deteccioacuten del atiacutepico

c Algunos atiacutepicos no van a ser identificados debido a un problema de enmascaramiento

Su objetivo era presentar un meacutetodo que fuese capaz de resolver los problemas b y c de modo quese pudiese generalizar para aplicar a los cuatro tipos de atiacutepicos en series temporales que se habiacutean idointroduciendo Los cuatro tipos son

IO (atiacutepico innovativo) existe un atiacutepico innovativo en el momento t cuando la innovacioacuten en esepunto esteacute directamente provocada por una cantidad desconocida debido a un suceso imprevisto

AO (atiacutepico aditivo) diremos que se produce un atiacutepico aditivo si en el momento t la serie segenera de manera diferente al resto

32 MEacuteTODOS DE DETECCIOacuteN DE VALORES ATIacutePICOS 17

LS (cambio de nivel) existe un cambio de nivel si en el momento t la serie experimenta unincremento de todos sus valores A diferencia del resto tiene un efecto permanente sobre la serieuna vez aparece

TC (cambio temporal) similar al cambio de nivel solo que el efecto no es permanente y decreceexponencialmente con el tiempo

X-13ARIMA-SEATS y TRAMO-SEATS basan su proceso de deteccioacuten de atiacutepicos en meacutetodosinspirados en el artiacuteculo de Chen y Liu (1993) cuya idea se fundamenta en integrar un mecanismoiterativo disentildeado para trabajar con series de tiempo que localiza e integra los atiacutepicos al modelo Porotra parte en la siguiente seccioacuten introducimos los meacutetodos de deteccioacuten de atiacutepicos que acompantildeana los procesos de descomposicioacuten de series de tiempo estos son GESD Isolation Forest y HDoutliersEstos meacutetodos son desarrollos de los mecanismos e ideas tratados al comienzo de esta seccioacuten como elmeacutetodo Grubbs (Grubbs 1950)

32 Meacutetodos de deteccioacuten de valores atiacutepicos

321 X-13ARIMA-SEATS

El anaacutelisis de diagnoacutestico del modelo regARIMA se realiza a traveacutes del anaacutelisis de los residuos delmodelo estimado Para el apartado de anaacutelisis de valores atiacutepicos X-13ARIMA-SEATS se fundamentaen Chang y Tiao (1983) con extensiones y modificaciones tratadas en Bell (1983) y Otto y Bell (1990)donde los valores atiacutepicos pueden ser de tres de los cuatro tipos antes mencionados AO LS y TC

El enfoque que plantea este mecanismo de deteccioacuten es similar a la regresioacuten paso a paso procedi-miento de regresioacuten en el que se construye el modelo a traveacutes de ir antildeadiendo o eliminando variablespredictoras en base a criterios de informacioacuten

En este caso las variables candidatas para la regresioacuten son las AO LS y TC para todos los puntosen los que la deteccioacuten de atiacutepicos se realiza Es decir se calcula el t-estadiacutestico para ver la significa-tividad de cada tipo de atiacutepico en cada instante temporal se busca significatividad entre todos estost-estadiacutesticos y se antildeade la correspondiente variable de regresioacuten (AO LS o TC) al modelo con el finde corregir los efectos que producen estas observaciones atiacutepicas De este modo se identifica e introduceel efecto de un momento atiacutepico en el modelo Mientras se produce el proceso de deteccioacuten de atiacutepicosse utiliza un estimador robusto de la desviacioacuten residual estaacutendar 148lowastla mediana del valor absolutode la desviacioacuten residual

X-13ARIMA-SEATS antildeade dos variaciones a este meacutetodo El meacutetodo addone en el que cada vezque se antildeade al modelo un atiacutepico se lleva a cabo una re-estimacioacuten del modelo y el meacutetodo addallque re-estima el modelo solo cuando un nuacutemero de variables atiacutepicas han sido antildeadidas al modelo

Este meacutetodo estaacute implantado en R a traveacutes de la funcioacuten x13 del paquete RJDemetra Dicha funcioacutenrequiere de un paraacutemetro de especificacioacuten spec en que se concreta el modelo que queremos introducirEste paraacutemetro es el que nos ofrece diversas posibilidades de modelizacioacuten de la serie como se recogeen la Figura 31 entre ellas los efectos de calendario o los atiacutepicos que presente la serie Dado quebuscamos sucesos atiacutepicos en su sentido maacutes amplio vamos a omitir incluir los efectos de calendarioy solamente introducir la deteccioacuten automaacutetica de atiacutepicos Esto provoca que en nuestro trabajo la

18 CAPIacuteTULO 3 DETECCIOacuteN DE VALORES ATIacutePICOS

especificacioacuten que nos interesa y con la que hemos trabajado sea RSA3 La opcioacuten RSA3 permiteajustar automaacuteticamente un modelo ARIMA identificando y corrigiendo las posibles observacionesanoacutemalas El resto de modificaciones que permite introducir el paraacutemetro de especificacioacuten de la funcioacutenx13 se recogen en la Figura 31 Por ejemplo si estuvieacutesemos interesados en modelizar nuestros datosa traveacutes de un modelo ARIMA de liacuteneas aeacutereas observariacuteamos en la Figura 31 que tendriacuteamos queescoger la especificacioacuten RSA0 Si ahora quisieacuteramos antildeadirle a dicho modelo deteccioacuten de atiacutepicostendriacuteamos que cambiar el paraacutemetro de especificacioacuten a RSA1 y si ademaacutes tambieacuten nos interesamodelar los efectos de calendario sobre dicho modelo introduciriacuteamos la especificacioacuten RSA2 El restode especificaciones ya trabajan sobre el ajuste de un modelo ARIMA de un modo automaacutetico la maacutessencilla es la que utilizamos nosotros en este trabajo RSA3 la cual ajusta un modelo ARIMA deforma automaacutetica incluyendo la deteccioacuten de atiacutepicos Las especificaciones RSA4 y RSA5 incorporanrespecto a RSA3 modelizar los efectos de calendario La diferencia entre ellas se encuentra en queRSA4 incluye en el modelo los efectos de calendario a traveacutes de dos variables que representan losdiacuteas laborables y los fines de semana y RSA5 incluye dichos efectos a traveacutes de siete variables cadadiacutea de la semana y ambas incluyen el efecto de la Pascua en el calendario Por uacuteltimo se encuentrala especificacioacuten RSAfull que incluye el ajuste automaacutetico de un modelo ARIMA y de los efectos decalendario e incorpora la deteccioacuten de atiacutepicos Todas estas especificaciones son las que se detallan enla Figura 31 para profundizar maacutes en ellas se puede consultar el manual de la libreriacutea RJDemetra (laTente Michalek Palate y Baeyens 2020)

Figura 31 Paraacutemetro de especificaciones a introducir al modelo X-13ARIMA-SEATS

322 TRAMO-SEATS

El mecanismo de deteccioacuten de atiacutepicos que utiliza el programa TRAMO-SEATS aborda el problemacon la intencioacuten de resolver los problemas b y c introducidos en el inicio del Capiacutetulo 3 dado queentiende que estos no se han resuelto de un modo satisfactorio en Chen y Liu (1993) En Goacutemez yTaguas (1995) explican que aunque este meacutetodo funciona de forma bastante satisfactoria su solucioacutenpresenta una serie de deficiencias

1 Se estima varias veces por maacutexima verosimilitud exacta lo que es costoso

2 No utiliza residuos exactos

3 El algoritmo es excesivamente complicado

4 Las regresiones muacuteltiples no se hacen filtrando los datos y las columnas de la matriz por un filtroexacto como el filtro de Kalman sino que se utiliza un filtro condicional

32 MEacuteTODOS DE DETECCIOacuteN DE VALORES ATIacutePICOS 19

Por tanto se presenta un mecanismo que pretende subsanar estas deficiencias a la par que corregirlos problemas b y c mencionados en Chen y Liu (1993) Ademaacutes si se utiliza de forma secuencial juntocon el procedimiento de especificacioacuten automaacutetica del programa supone un procedimiento alternativoal de Tsay (1986)

Al igual que X-13ARIMA-SEATS TRAMO-SEATS estaacute implementado en la libreriacutea RJDemetra

de R en la funcioacuten tramoseats Dicha funcioacuten tambieacuten requiere de un paraacutemetro de especificacioacutenspec en el que se concreta el modelo que queremos introducir La utilidad y mecanismo sobre el quetrabaja este paraacutemetro es ideacutentico al explicado en la Seccioacuten 321 para el meacutetodo X-13ARIMA-SEATSpor lo que utilizaremos la especificacioacuten RSA3 Esta especificacioacuten incluye el ajuste automaacutetico de unmodelo ARIMA corrigiendo las posibles observaciones atiacutepicas

El resto de posibles especificaciones que se pueden incluir en el modelo se recogen en la Figura32 El significado de esta figura es equivalente al de la Figura 31 dado que ambos modelos TRAMO-SEATS y X-13ARIMA-SEATS estaacuten implementados en la misma libreria RJDemetra y compartenel mismo paraacutemetro de especificacioacuten en la funcioacuten que estima sus modelos en R

Figura 32 Paraacutemetro de especificaciones a introducir al modelo TRAMO-SEATS

323 GESD

Introducido por Rosner (1983) como una mejora al por entonces conocido ESD (Rosner 1975) porsus siglas en ingleacutes Extreme Studentized Deviate A pesar de que ESD contaba con buenas propiedadesante una amplia alternativa de atiacutepicos presentaba una serie de defectos que le conduciacutean a etiquetarmaacutes candidatos a atiacutepicos que el nuacutemero apropiado Esto provocoacute que se quedase obsoleto en favor desu actualizacioacuten GESD General Extreme Studentized Deviate

Los pasos que sigue son los siguientes

1 Decidir un maacuteximo nuacutemero de posibles candidatos a atiacutepicos r La recomendacioacuten es de consi-derar el 20 del tamantildeo muestral

2 Comenzar las iteraciones i = 1

3 Calcular Ri = maxt|ximinusx|s siendo xi una observacioacuten sospechosa de ser anoacutemala x la media

muestral y s la desviacioacuten estaacutendar de la muestra respectivamente

4 Eliminar la observacioacuten que maximice xi minus x

5 Calcular el siguiente valor criacutetico λi =(nminusi)tpnminusi+1radic

(nminus1minus1+t2pnminusiminus1)(nminusi+1)

donde tpnminusi+1 es una distribucioacuten t con n minus i minus 1 grados de libertad y p = 1 minus α2(nminusi+1 siendo

α la probabilidad de cometer errores de tipo I

20 CAPIacuteTULO 3 DETECCIOacuteN DE VALORES ATIacutePICOS

6 Pasar a la siguiente iteracioacuten repetir los pasos 2 a 5 hasta i = r quedando r definido en el paso1

7 El nuacutemero de atiacutepicos detectados se determina al encontrar el mayor i tal que Ri gt λi dondeRi se define en el paso 2 y λi en el paso 5

GESD es principalmente el test de Grubbs (Grubbs 1950) aplicado de forma secuencial sin embargoexisten unas pequentildeas diferencias que premian su comportamiento GESD realiza ajustes del valorcriacutetico en base al nuacutemero de atiacutepicos a ser estudiado algo que el test de Grubbs no hace Ademaacutessi existe efecto de enmascaramiento aplicar el test de Grubbs de forma secuencial produciriacutea unadetencioacuten demasiado temprana del algoritmo de deteccioacuten lo que impediriacutea localizar algunos atiacutepicos

Los estudios de simulacioacuten realizados para estudiar el comportamiento de GESD indican que elmeacutetodo es muy preciso cuando contamos con tamantildeos muestrales n gt 25 por lo que en nuestrotrabajo no tendremos problema Sin embargo debido a que es un meacutetodo iterativo seraacute maacutes costosocomputacionalmente a medida que se incrementen los tamantildeos muestrales y es algo a tener en cuentacomo posible freno al crecimiento futuro del mecanismo de deteccioacuten

En R podemos encontrar la funcioacuten gesd dentro del paquete Anomalize (Dancho y Vaughan 2019)

324 Isolation Forest

Isolation Forest o iForest es el meacutetodo presentado por Liu Ting y Zhou (2009) donde se tratael tema de deteccioacuten de atiacutepicos desde un punto de vista diferente Ese punto de vista se basa en dospropiedades relacionadas con la idea de queacute es un valor atiacutepico son la minoriacutea de un conjunto y tienenunos atributos muy diferentes a los de las observaciones normales Es decir las anomaliacuteas son pocas ydiferentes lo que las hace maacutes propensas a encontrarse aisladas del resto

Por esta razoacuten los autores presentan un meacutetodo basado en construir un aacuterbol que aiacutesle cada ob-servacioacuten de tal modo que los valores atiacutepicos se encontraraacuten en ramas maacutes proacuteximas a la raiacutez y losvalores normales se encontraraacuten en zonas maacutes profundas del aacuterbol Es por ello que iForest (Liu et al2009) se distingue del resto de mecanismos basados en modelos distancias o densidades

Figura 33 Idea sobre la que se sustenta el mecanismo de Isolation Forest

32 MEacuteTODOS DE DETECCIOacuteN DE VALORES ATIacutePICOS 21

En la Figura 33 se puede observar la idea sobre la que se rige este mecanismo Un punto normalxi requiere maacutes particiones para ser aislado Y el opuesto tambieacuten es cierto donde un punto anoacutemalox0 requiere menos particiones para ser aislado Por lo que se trata de calcular la ldquolongitud del caminordquoa ser aislado dado que los valores atiacutepicos tendraacuten caminos maacutes cortos que los de los valores normales

Para definir como se calcula la ldquolongitud del caminordquo es necesario definir primero el aacuterbol deaislamiento Isolation Tree El aacuterbol de aislamiento seriacutea toda la estructura de ramas que trocean elconjunto de datos La longitud del camino h(x) path length de un punto x se mediriacutea por tanto comoel nuacutemero de ramas a atravesar desde la raiacutez del aacuterbol al punto

Es necesario definir una puntuacioacuten de cuaacuten anoacutemala es una observacioacuten score para ello se intro-duce c(n) como la media de h(x) siendo E el operador esperanza dado el tamantildeo de la muestra nDe tal modo que

Cuando E(h(x))rarr c(n) scorerarr 05

Cuando E(h(x))rarr 0 scorerarr 1

Cuando E(h(x))rarr nminus 1 scorerarr 0

Haciendo uso de la puntuacioacuten anoacutemala que recibe cada punto score tenemos que

Si score es cercano a 1 la observacioacuten es atiacutepica

Si la observacioacuten presenta valores de score inferiores a 05 pueden ser calificadas como observa-ciones normales

Si todas las observaciones devuelven un valor score asymp 05 entonces la muestra entera carece deatiacutepicos

En el artiacuteculo fijan como atiacutepicos potenciales observaciones con score ge 06 en este trabajo somosmaacutes estrictos y fijamos el umbral en score ge 075 Esta decisioacuten se toma tras probar diferentes umbralesy observar el comportamiento del meacutetodo en el estudio de simulacioacuten y en los datos reales Otrosumbrales que se barajaron y descartaron por los resultados mostrados fueron score ge 07 por serdemasiado laxo y score ge 08 por ser demasiado estricto

En R existen dos libreriacuteas que implantan dicho meacutetodo una es la implantada por la empresa H20 lacual ha desarrollado el algoritmo HDoutliers utilizado en este trabajo Y la otra es la libreriacutea solitude(Srikanth 2017) la cual hemos usado para el desarrollo de este trabajo

325 HDoutliers

HDoutliers (Wilkinson 2017) es un algoritmo que se puede aplicar en multitud de escenarios posi-bles desde el maacutes sencillo que seriacutea el caso univariante hasta maacutes complejos como el multidimensionalo el espacial La idea sobre la que se desarrolla es la de buscar espacios entre los valores ordenadosmaacutes que en la de buscar valores extremos De los meacutetodos que se centran en la idea de buscar valoresextremos como por ejemplo el test de Grubbs y por tanto GESD el autor hace una criacutetica y es queestos utilizan medidas como la media muestral o la desviacioacuten tiacutepica las cuales no son robustas frentea valores atiacutepicos

22 CAPIacuteTULO 3 DETECCIOacuteN DE VALORES ATIacutePICOS

El concepto anterior se puede explicar de un modo muy sencillo a traveacutes de un ejemplo que se recogeen Wilkinson (2017) En los resultados a un examen al que se presentaron 100 alumnos obtenemos unapuntuacioacuten media de 50 y una desviacioacuten estaacutendar de 5 Si entre todas las notas un alumno obtuvo un100 y la siguiente mejor nota es un 65 se podriacutea sospechar que ese alumno es un genio o un tramposoPor otra parte si la nota perfecta se encuentra en el punto maacutes alto de una serie de notas que difieren5 puntos entre ellas ese alumno ya no seriacutea tan sospechoso Los test claacutesicos de valores atiacutepicos no soncapaces de diferir entre ambas situaciones

Figura 34 El algoritmo de HDoutliers aplicado sobre el ejemplo anterior (Wilkinson 2017)

En la Figura 34 se representa este ejemplo En el caso de la izquierda estariacuteamos en la situacioacutenen la que no se sospecha que se hayan producido trampas por parte de ninguacuten alumno y el meacutetodoHDoutliers no detectariacutea ninguacuten candidato a atiacutepico A la derecha tendriacuteamos la situacioacuten en la quesospechariacuteamos de que existe un alumno brillante o tramposo y el meacutetodo detectariacutea una situacioacutenatiacutepica como se sentildeala con el punto rojo

La solucioacuten de buscar espacios permite identificar valores inusuales tanto en el medio de las dis-tribuciones como en los extremos Para ello HDoutliers calcula la distancia al vecino maacutes cercanoDespueacutes ajusta una distribucioacuten exponencial a la cola superior de las distancias calculadas y calcula elvalor 1minusα siendo α la probabilidad de cometer un error tipo I superior de la funcioacuten de distribucioacutenacumulada Por lo que cada observacioacuten que se encuentre significativamente alejada del resto basadaen este punto de corte se etiquetaraacute como atiacutepica

El autor menciona que este meacutetodo difiere de aquellos que se basan en hacer un ranking de candi-datos a atiacutepicos como podriacutea ser Local Outlier Factor (Breunig Kriegel Ng y Sander 2000) o quelos etiquetan bajo un liacutemite arbitrario como seriacutea el caso de Isolation Forest (Liu et al 2009) dadoque pueden conducir a resultados inconsistentes Para ello lo que hace es asignar una probabilidad ala creencia de que estamos ante un atiacutepico

En R podemos encontrar este meacutetodo en la libreriacutea HDoutliers (Fraley y Wilkinson 2020)

33 RESUMEN MEacuteTODOS DE DETECCIOacuteN DE VALORES ATIacutePICOS 23

33 Resumen meacutetodos de deteccioacuten de valores atiacutepicos

Meacutetodo Ventajas Contras

X-13ARIMA-SEATS(2017)

Califica el tipo de atiacutepicoRaacutepida velocidad de ejecucioacuten

Basado en modelos ARIMA

TRAMO-SEATS(1997) Califica el tipo de atiacutepicoRaacutepida velocidad de ejecucioacutenIdea similar a X-13ARIMA-SEATS pero profundizando maacutesen el desarrollo del mecanismo dedeteccioacuten de atiacutepicos

Basado en modelos ARIMA

GESD(1983) Elimina parte de la incertidum-bre de que se produzca un efectode enmascaramiento

Utiliza medidas como la media ola desviacioacuten tiacutepica medidas quese pueden ver distorsionadas porvalores atiacutepicosEs un proceso iterativo lo queimplica mayor coste computacio-nal a medida que se incrementeel tamantildeo de datos

Isolation Forest(2009) Escalable a conjuntos de gran di-mensioacutenDisentildeo sencillo

El usuario tiene que determinarel umbral de atiacutepico lo cual pue-de ser un inconveniente a veces

HDoutliers(2017) Identifica valores inusuales tantoen el medio de las distribucionescomo en los extremosEscalable a conjuntos de gran di-mensioacutenAlta velocidad de ejecucioacuten

Tendencia a calificar un excesode observaciones como atiacutepicassin serlo

Cuadro 31 Resumen de los meacutetodos de deteccioacuten de atiacutepicos

24 CAPIacuteTULO 3 DETECCIOacuteN DE VALORES ATIacutePICOS

34 Meacutetodos de deteccioacuten de valores atiacutepicos en series tempo-

rales

Dado que se han introducido diversos meacutetodos con diferentes enfoques respecto a la resolucioacuten delproblema de deteccioacuten de atiacutepicos en series de tiempo hemos decidido incluir este apartado al finaldel contenido principalmente teoacuterico del trabajo para asiacute centrar los meacutetodos que se utilizaraacuten en lossiguientes capiacutetulos Este apartado recoge todos los meacutetodos los ya existentes y nuevas propuestasrealizadas por nosotros que se utilizaraacuten en este trabajo

Los meacutetodos existentes son los pertenecientes a las libreriacuteas RJDemetra (la Tente et al 2020) yAnomalize (Dancho y Vaughan 2019) La libreriacutea RJDemetra es la que nos dota de las funcionesnecesarias para utilizar los modelos X-13ARIMA-SEATS y TRAMO-SEATS Mientras que la libreriacuteaAnomalize se ha convertido en uno de los paquetes de referencia en R para el anaacutelisis de valores atiacutepicosen series de tiempo A traveacutes de ella podemos utilizar el meacutetodo tratado en Hochenbaum et al (2017)basado en una combinacioacuten de Twitter+GESD y tambieacuten la otra opcioacuten que proponen a traveacutes decombinar STL+GESD

A partir de la idea desarrollada por autores como Hochenbaum et al (2017) o libreriacuteas comoAnomalize Dancho y Vaughan (2019) proponemos nuevos meacutetodos de deteccioacuten de atiacutepicos paraseries temporales El fundamento bajo el que se sostiene esta propuesta es muy sencillo Estos meca-nismos se fundamentan en aplicarle a la serie de tiempo un proceso de descomposicioacuten para extraer laestacionalidad y la tendencia para posteriormente aplicarle un meacutetodo de deteccioacuten de valores atiacutepicosal residuo Dado que se han propuesto mejoras en ambos campos tanto en los meacutetodos de descompo-sicioacuten de series temporales como en el de deteccioacuten de valores atiacutepicos creemos que su combinacioacutenpodriacutea suponer una mejora a las ya establecidas Teniendo en cuenta que se ha introducido un meacutetodode descomposicioacuten de series temporales STR (Dokumentov y Hyndman 2015) y dos meacutetodos de de-teccioacuten de valores atiacutepicos Isolation Forest (Liu et al 2009) y HDoutliers (Wilkinson 2017) lo que seharaacute seraacute obtener todas las combinaciones posibles a traveacutes de mezclar los procesos de descomposicioacutencon los meacutetodos de deteccioacuten dando lugar a las siguientes combinaciones

STL +iForest

STL +HDoutliers

STL (Robusto) +iForest

STL (Robusto) +HDoutliers

Twitter +iForest

Twitter +HDoutliers

STR + GESD

STR + iForest

STR + HDoutliers

34 MEacuteTODOS DE DETECCIOacuteN DE VALORES ATIacutePICOS EN SERIES TEMPORALES 25

STR (Robusto) + GESD

STR (Robusto) + iForest

STR (Robusto) + HDoutliers

Estos son los nuevos meacutetodos propuestos en el trabajo de los cuales estudiaremos su comporta-miento en el proacuteximo capiacutetulo a traveacutes de un estudio de simulacioacuten junto a los meacutetodos ya existentesX-13ARIMA-SEATS TRAMO-SEATS STL+GESD y Twitter+GESD

Existen otros meacutetodos populares en la deteccioacuten de atiacutepicos para el software R los cuales no se hanincluido en este trabajo debido a que planteaban peores resultados que los finalmente introducidospero que creemos que merecen una mencioacuten debido a que pueden ser de intereacutes para alguien quepretenda profundizar en este campo

El primero de ellos seriacutea el meacutetodo de deteccioacuten de atiacutepicos IQR incluido en la libreriacutea AnomalizeDancho y Vaughan (2019) el cual se ha descartado debido a que sus combinaciones con STL y Twittersuponiacutean una menor precisioacuten que las combinaciones con GESD (Datacamp 2018) Los autores lo hanincluido en dicha libreriacutea debido a que su coste computacional es mucho menor que el de GESD porlo que se puede plantear situaciones en las que sea uacutetil

El segundo seriacutea la funcioacuten tsoutliers del paquete forecast (Hyndman 2020) la cual hemosdescartado por presentar un mecanismo muy similar al que presentariacutea la combinacioacuten STL+IQR

Por uacuteltimo tambieacuten se ha descartado la funcioacuten tso del paquete tsoutliers (de Lacalle 2019)El motivo se debe a que su autor enfoca el proceso de deteccioacuten basaacutendose en las mismas ideas que lasdesarrolladas en los modelos X-13ARIMA-SEATS y TRAMO-SEATS pero comenta que este meacutetodono estaacute capacitado para trabajar con grandes y heterogeacuteneos conjuntos de series temporales comoX-13ARIMA-SEATS o TRAMO-SEATS sino maacutes bien para pequentildeas aplicaciones de un modo semi-automaacutetico (de Lacalle 2015)

26 CAPIacuteTULO 3 DETECCIOacuteN DE VALORES ATIacutePICOS

Capiacutetulo 4

Estudio de simulacioacuten

En este capiacutetulo se realiza un estudio de simulacioacuten con el objetivo de comparar la eficiencia delos diferentes meacutetodos expuestos en el apartado anterior En primer lugar se presenta un resumendel procedimiento seguido para realizar las simulaciones en los diferentes escenarios y el motivo deproponer cada escenario A continuacioacuten se introduce el Iacutendice de Youden medida que nos permitiraacutediscernir queacute meacutetodos presentan mejor comportamiento en el estudio Finalmente se presentan losresultados del estudio y las conclusiones extraiacutedas del mismo

41 Escenarios

El procedimiento para obtener las series simuladas ha sido el siguiente

1 Simular una serie de tiempo sin atiacutepicos

2 A la observacioacuten correspondiente al instante t sumarle el valor w el cual indicaraacute el tamantildeo delatiacutepico

3 Si se quiere introducir maacutes de un atiacutepico repetir los pasos 1 y 2

Se van a proponer ocho escenarios a continuacioacuten pasamos a justificar la eleccioacuten de cada uno deellos Los escenarios 1 2 y 3 son los planteados en Chen y Liu (1993) artiacuteculo utilizado para analizar laeficiencia de los mecanismos de deteccioacuten que inspiran los meacutetodos aplicados en X-13ARIMA-SEATS yTRAMO-SEATS El Escenario 4 plantea el modelo de liacuteneas aeacutereas utilizado ampliamente para datoseconoacutemicos como los que se van a tratar posteriormente Por uacuteltimo los escenarios 5 a 8 proponendiversos modelos que han sido generados a partir de seleccionar una serie del IGE aleatoriamente yaplicarle la funcioacuten autoarima del paquete forecast (Hyndman 2020) A continuacioacuten se recogentodos los escenarios planteados en el Cuadro 41 Los escenarios 1 a 3 se simulan a traveacutes de la funcioacuten deR arimasim mientras que los escenarios 4 a 8 a traveacutes de la funcioacuten simulate del paquete forecast

27

28 CAPIacuteTULO 4 ESTUDIO DE SIMULACIOacuteN

Escenario Modelo Motivo

Escenario 1 AR(1) Propuesto en el estudio de simu-lacioacuten de Chen y Liu (1993)

Escenario 2 MA(1) Propuesto en el estudio de simu-lacioacuten de Chen y Liu (1993)

Escenario 3 ARIMA(011) Propuesto en el estudio de simu-lacioacuten de Chen y Liu (1993)

Escenario 4 ARIMA(011)x(011)12 Modelos de liacuteneas aeacutereas muyutilizado en lo referente a datoseconoacutemicos

Escenario 5 ARIMA(101)x(012)12 Modelo extraiacutedo de aplicar lafuncioacuten autoarima a una seriedel IGE escogida aleatoriamente

Escenario 6 ARIMA(111)x(101)12 Modelo extraiacutedo de aplicar lafuncioacuten autoarima a una seriedel IGE escogida aleatoriamente

Escenario 7 ARIMA(112)x(011)12 Modelo extraiacutedo de aplicar lafuncioacuten autoarima a una seriedel IGE escogida aleatoriamente

Escenario 8 ARIMA(011)x(100)12 Modelo extraiacutedo de aplicar lafuncioacuten autoarima a una seriedel IGE escogida aleatoriamente

Cuadro 41 Resumen de los escenarios propuestos para el estudio de simulacioacuten

42 IacuteNDICE DE YOUDEN 29

En cada escenario se estudian cuatro casos

Caso 1 Serie con 100 observaciones y un atiacutepico en t = 40 el tamantildeo del atiacutepico es w = 35

Caso 2 Serie con 100 observaciones y un atiacutepico en t = 40 el tamantildeo del atiacutepico es w = 45

Caso 3 Serie con 100 observaciones y un atiacutepico en t = 2 el tamantildeo del atiacutepico es w = 4

Caso 4 Serie con 300 observaciones y dos atiacutepicos en t1 = 40 y t2 = 180 el tamantildeo de los atiacutepicoses w1 = 4 y w2 = 5

En el Escenario 4 hubo que modificar los valores del tamantildeo del atiacutepico introducido en cada casodebido a que no se obteniacutean resultados significativos para ninguacuten meacutetodo Por lo que finalmente solopara el Escenario 4 los valores introducidos fueron de w = 55 para el Caso 1 w = 65 para el Caso2 w = 6 para el Caso 1 w1 = 6 y w2 = 7 para el Caso 4

Los Casos 1 y 2 buscan estudiar la sensibilidad del meacutetodo de deteccioacuten dado que en lo uacutenico quese diferencian es en el tamantildeo del atiacutepico El Caso 3 plantea una situacioacuten complicada al encontrarseel atiacutepico al principio de la serie es maacutes difiacutecil detectar ese valor por dos motivos que el meacutetodo notenga todaviacutea la informacioacuten suficiente o que el meacutetodo vea afectada su estimacioacuten por este valor tantemprano El Caso 4 busca estudiar el comportamiento cuando se presenta maacutes de un atiacutepico

42 Iacutendice de Youden

Para comparar los resultados de los diferentes meacutetodos en las simulaciones vamos a utilizar lo queen otros campos como la investigacioacuten meacutedica se denomina test de diagnoacutestico En este tipo de testse compara la realidad con la prediccioacuten del mecanismo para analizar su funcionamiento Estos testde diagnoacutestico se presentan en lo que se denominan matrices de confusioacuten como la presentada en elCuadro 44 La idea de la matriz de confusioacuten es la de comparar las predicciones realizadas con larealidad de tal modo que se pueda observar cuando la prediccioacuten y la realidad coinciden y cuando no

Realidad

Negativo(0) Positivo (1)

PrediccioacutenNegativo(0) Verdadero Negativo (VN) Falso Negativo (FN)

Positivo(1) Falso Positivo (FP) Verdadero Positivo (VP)

Cuadro 42 Matriz de confusioacuten

En nuestro trabajo Negativo (0) representariacutea una observacioacuten normal y Positivo (1) una obser-vacioacuten atiacutepica La diagonal de la matriz estaacute representada por aquellas observaciones en las que larealidad y la prediccioacuten coinciden Los Falsos Negativos (FN) son aquellas observaciones en que el

30 CAPIacuteTULO 4 ESTUDIO DE SIMULACIOacuteN

mecanismo determinoacute que la observacioacuten era normal pero en realidad era atiacutepica Por otra parte losFalsos Positivos (FP) suceden cuando el mecanismo dictamina que la observacioacuten es atiacutepica pero larealidad es que es una observacioacuten normal

Los Falsos Positivos son tambieacuten conocidos como Error Tipo I la probabilidad de aceptar la hipoacute-tesis nula siendo esta falsa Y los Falsos Negativos son conocidos como Error Tipo II la probabilidadde no rechazar la hipoacutetesis nula siendo esta falsa

El iacutendice de Youden (Youden 1950) nacioacute con motivo de poder comparar los resultados de doso maacutes mecanismos de deteccioacuten y asiacute tener la capacidad de discernir cual de ellos tiene una mejorcapacidad discriminatoria Es decir el propoacutesito final del iacutendice es el de resumir la matriz de confusioacutenen un valor que consiga representar el comportamiento del mecanismo de deteccioacuten de tal modo quedos mecanismos se puedan comparar directamente

Este iacutendice considera con la misma importancia tanto los falsos positivos como los falsos negativosUtilizando otro campo de ejemplo la medicina un falso negativo supondriacutea no tratar la enfermedadde un paciente dado que establecemos que estaacute sano cuando la realidad es que estaacute enfermo Por otraparte un falso positivo supondriacutea un coste como podriacutea ser el monetario financiando el tratamiento oel emocional de un paciente que la realidad es que estaacute sano

Trasladando ese ejemplo a nuestro trabajo un falso negativo supondriacutea no calificar como atiacutepicauna observacioacuten que lo es Esto provocariacutea que estariacuteamos asumiendo como normal un comportamientoen el aacutembito socio-econoacutemico gallego que no lo fue estariacuteamos incurriendo en errores en posterioresanaacutelisis o estariacuteamos obviando sucesos relevantes

Los falsos positivos tambieacuten suponen un coste aquiacute cada observacioacuten que el meacutetodo detecte comoatiacutepica supondraacute la intervencioacuten de un analista para tratar de entender queacute ha sucedido Si finalmenteel analista concluye que la observacioacuten no es atiacutepica se habraacute desperdiciado una serie de horas y equipoque podriacutean haber sido invertidos para otro fin De ambos escenarios surgen dos medidas

Sensibilidad V PV P+FN refleja la proporcioacuten de verdaderos positivos sobre el total de positivos

Especifidad V NV N+FP refleja la proporcioacuten de verdaderos negativos sobre el total de negativos

El iacutendice de Youden se construye a partir de ambas medidas del siguiente modo

J = Sensibilidad + Especifidadminus 1 =V P

V P + FN+

V N

V N + FPminus 1

El rango en el que se utiliza este iacutendice es de 0 a 1 donde 1 representariacutea que el mecanismo escapaz de diferenciar perfectamente las observaciones atiacutepicas de las normales y 0 todo lo contrario

Sin embargo teoacutericamente este rango puede variar de minus1 a 1 (Shan G 2015) los valores menoresque cero no se suelen contemplar dado que no tienen una interpretacioacuten significativa En nuestrotrabajo sucede esta situacioacuten en la que se presentan mecanismos con valores negativos y si bien deforma general esto no tiene explicacioacuten en otros campos en este estudio si

Explicaacutendolo a traveacutes de lo que podriacutea ser un posible resultado de un mecanismo de deteccioacuten

42 IacuteNDICE DE YOUDEN 31

Realidad

Negativo(0) Positivo(1)

PrediccioacutenNegativo(0) 96 1

Positivo(1) 3 0

Cuadro 43 Ejemplo de posible resultado de un mecanismo de deteccioacuten en el que el iacutendice de Youdenseriacutea negativo

En el ejemplo del Cuadro 42 se analiza una serie de tiempo con 100 observaciones entre las cualesse encuentra un valor atiacutepico El mecanismo de deteccioacuten habriacutea detectado 3 posibles atiacutepicos peroninguno de ellos es el atiacutepico real Si calculamos el iacutendice de Youden obtenemos

J =0

0 + 1+

96

96 + 3minus 1 = minus003

El resultado es negativo debido a que el mecanismo de deteccioacuten nos situacutea en una posicioacuten peorque no clasificar nada como atiacutepico Por lo que si 1 refleja que el mecanismo es capaz de diferenciarperfectamente las dos clases y 0 que el mecanismo no nos ayuda en absoluto a diferenciar entre ellasun valor menor que 0 en nuestro trabajo supondriacutea que el mecanismo seriacutea peor que no clasificar nadadado que nos infunde un mayor error sobre la realidad

Un resultado de cero implicariacutea que el mecanismo no es uacutetil ya que no es capaz de diferenciar entrelo que es atiacutepico y lo que no En el Cuadro 43 se recoge un posible resultado que conduciriacutea a estasituacioacuten Este ejemplo recoge una situacioacuten en la que en una serie de tiempo de 100 observaciones seencuentran 5 valores atiacutepicos sin embargo el meacutetodo no es capaz de detectar ninguna de ellas

Realidad

Negativo(0) Positivo(1)

PrediccioacutenNegativo(0) 95 5

Positivo(1) 0 0

Cuadro 44 Ejemplo de posible resultado de un mecanismo de deteccioacuten en el que el iacutendice de Youdenseriacutea cero

J =0

0 + 5+

95

95 + 0minus 1 = 0

Finalmente el resultado perfecto implicariacutea que el mecanismo de deteccioacuten es capaz de diferenciarde forma precisa aquello que es atiacutepico de lo que no lo es En el Cuadro 44 se recoge un ejemplo de

32 CAPIacuteTULO 4 ESTUDIO DE SIMULACIOacuteN

esta situacioacuten En este ejemplo se plantea una serie de tiempo que cuenta con 100 observaciones delas cuales 5 son atiacutepicas igual que en el ejemplo anterior sin embargo el meacutetodo ahora es capaz dedetectar cada una de ellas sin incurrir en Falsos Positivos ni Falsos Negativos

Realidad

Negativo(0) Positivo(1)

PrediccioacutenNegativo(0) 95 0

Positivo(1) 0 5

Cuadro 45 Ejemplo de posible resultado de un mecanismo de deteccioacuten en el que el iacutendice de Youdenseriacutea uno

J =5

0 + 5+

95

95 + 0minus 1 = 1

Podemos observar como los valores fuera de la diagonal de la matriz aquellos que representan losFalsos Negativos y Falsos Positivos son cero En la diagonal de la matriz se encuentran los resultadosque muestran que el mecanismo ha conseguido identificar de forma perfecta aquellas observacionesque son atiacutepicas Esta seriacutea la situacioacuten ideal la cual representariacutea que el mecanismo de deteccioacuten deatiacutepicos funciona de forma idoacutenea

43 Resultados

A continuacioacuten se presentan los resultados para los ocho escenarios introducidos recogidos en elCuadro 41 Al introducir una gran cantidad de meacutetodos escenarios y casos el anaacutelisis de los resultadosse presenta confuso por lo que se decidioacute introducir un coacutedigo de color para resaltar los tres mejores ytres peores resultados en cada caso Los mejores resultados se asocian al color verde siendo el verde maacutesintenso el mejor resultado y decayendo gradualmente la intensidad del color seguacuten empeora Por otraparte los peores resultados estaacuten asociados al color rojo siendo el rojo maacutes intenso el peor resultadoy decayendo la intensidad seguacuten el resultado mejora

Se pensoacute en introducir un gradiente de color por cada caso de modo que fuese variando de mejora peor Finalmente se descartoacute debido a que su contribucioacuten a la comprensioacuten de los resultados eramenor que la idea finalmente escogida de resaltar los tres mejores y los tres peores resultados

Los resultados obtenidos para el iacutendice de Youden se muestran a continuacioacuten A mayores en elanexo se han incluido tablas referentes a los resultados que han presentado los distintos meacutetodos enbase a otras dos medidas que tambieacuten han resultado de utilidad a la hora de escoger los mecanismosadecuados La primera de esas medidas es la sensibilidad la cual hemos definido en este apartado yla otra es el exceso la cual se define como la media de detecciones incorrectas por simulacioacuten y cuyosresultados estaacuten incluidos en el anexo correspondiente

43 RESULTADOS 33

Caso 1 Caso 2 Caso 3 Caso 4

X-13ARIMA-SEATS 0495 0853 0699 0490

TRAMO-SEATS 0655 0926 0803 0494

STL+HDoutliers 0561 0830 0562 0727

STL+GESD 0265 0589 0236 0531

STL+iForest 0632 0882 0632 0788

STL(ROB)+HDoutliers 0550 0790 0666 0707

STL(ROB)+GESD 0623 0862 0732 0752

STL(ROB)+iForest 0634 0873 0741 0748

Twitter+HDoutliers 0462 0725 0588 0616

Twitter+GESD 0303 0587 0426 0433

Twitter+iForest 0524 0797 0647 0657

STR+Hdoutliers 0603 0833 0595 0667

STR+GESD 0344 0649 0292 0448

STR+iForest 0670 0882 0675 0719

STR(ROB)+Hdoutliers 0534 0803 0630 0654

STR(ROB)+GESD 0379 0683 0456 0557

STR(ROB)+iForest 0619 0859 0695 0711

Cuadro 46 Resultados Escenario 1Iacutendice de Youden AR(1)

En el Cuadro 46 se recogen los resultados al Escenario 1 escenario en el que se simula un AR(1)igual al realizado por Chen y Liu (1993) Los resultados muestran que en los casos 1 2 y 3 TRAMO-SEATS ejerce un papel superior al resto buen comportamiento que desaparece en el Caso 4 casoen el que se introducen dos atiacutepicos Si analizamos conjuntamente los resultados de los cuatro casospodriacuteamos decir que los meacutetodos que reflejan un mejor comportamiento global en el escenario seriacuteanSTR+iForest y STL(Rob)+iForest

34 CAPIacuteTULO 4 ESTUDIO DE SIMULACIOacuteN

Caso 1 Caso 2 Caso 3 Caso 4

X-13ARIMA-SEATS 0504 0828 0645 0494

TRAMO-SEATS 0667 0913 0741 0494

STL+HDoutliers 0465 0721 0473 0680

STL+GESD 0217 0457 0147 0428

STL+iForest 0502 0781 0521 0713

STL(ROB)+HDoutliers 0457 0723 0576 0642

STL(ROB)+GESD 0516 0761 0651 0667

STL(ROB)+iForest 0519 0798 0660 0713

Twitter+HDoutliers 0457 0690 0587 0640

Twitter+GESD 0346 0627 0480 0486

Twitter+iForest 0506 0774 0658 0689

STR+HDoutliers 0580 0814 0566 0658

STR+GESD 0297 0601 0247 0449

STR+iForest 0626 0866 0647 0719

STR(ROB)+HDoutliers 0514 0780 0603 0644

STR(ROB)+GESD 0335 0627 0405 0520

STR(ROB)+iForest 0578 0836 0687 0709

Cuadro 47 Resultados Escenario 2 Iacutendice de Youden MA(1)

En el Cuadro 47 se recogen los resultados al Escenario 2 escenario en el que se simula un MA(1)igual al realizado por Chen y Liu (1993) Los resultados que se observan son similares a los extraiacutedos delEscenario 1 TRAMO-SEATS es claramente superior en los casos 1 2 y 3 pero su buen comportamientodesaparece ante el Caso 4 Por otra parte STR+iForest presenta un comportamiento maacutes homogeacuteneoencontraacutendose en tres de los cuatro casos entre los tres mejores resultados Lo mismo sucede con suversioacuten robusta En esta ocasioacuten la combinacioacuten STL+iForest solamente se encuentra entre las mejoresen el Caso 4

43 RESULTADOS 35

Caso 1 Caso 2 Caso 3 Caso 4

X-13ARIMA-SEATS 0921 0970 0926 0500

TRAMO-SEATS 0921 0971 0921 0500

STL+HDoutliers 0306 0502 0234 0435

STL+GESD 0088 0229 0050 0152

STL+iForest 0338 0575 0279 0451

STL(ROB)+HDoutliers 0252 0426 0287 0328

STL(ROB)+GESD 0287 0504 0369 0316

STL(ROB)+iForest 0291 0495 0329 0358

Twitter+HDoutliers 0061 0109 0124 0064

Twitter+GESD 0015 0027 0056 0025

Twitter+iForest 0077 0127 0167 0068

STR+HDoutliers 0400 0556 0342 0436

STR+GESD 0202 0365 0108 0230

STR+iForest 0441 0614 0385 0492

STR(ROB)+HDoutliers 0237 0391 0248 0268

STR(ROB)+GESD 0199 0381 0215 0254

STR(ROB)+iForest 0277 0451 0279 0289

Cuadro 48 Resultados Escenario 3 Iacutendice de Youden ARIMA(011)

En el Cuadro 48 se recogen los resultados al Escenario 3 escenario en el que se simula un ARI-MA(011) igual al realizado por Chen y Liu (1993) En este escenario existe una hegemoniacutea de X-13ARIMA-SEATS y TRAMO-SEATS los cuales presentan resultados superiores a los de cualquierotro meacutetodo La combinacioacuten STR+iForest es el tercer meacutetodo que a pesar de la diferencia con losotros dos presenta mejores resultados

36 CAPIacuteTULO 4 ESTUDIO DE SIMULACIOacuteN

Caso 1 Caso 2 Caso 3 Caso 4

X-13ARIMA-SEATS 0402 0592 0067 0480

TRAMO-SEATS 0540 0705 0071 0481

STL+HDoutliers -0003 -0004 0008 0000

STL+GESD -0002 -0001 0002 -0001

STL+iForest -0004 -0004 0008 0001

STL(ROB)+HDoutliers -0005 -0005 0025 0000

STL(ROB)+GESD -0039 -0026 0052 0002

STL(ROB)+iForest 0004 -0002 0026 0000

Twitter+HDoutliers 0000 -0002 -0001 0007

Twitter+GESD -0025 -0019 -0016 0003

Twitter+iForest 0000 -0001 0004 0016

STR+HDoutliers 0359 0417 -0004 0083

STR+GESD 0409 0445 -0006 0124

STR+iForest 0411 0472 -0005 0097

STR(ROB)+HDoutliers 0014 0006 0002 0039

STR(ROB)+GESD 0019 0017 0008 0075

STR(ROB)+iForest 0014 0005 0002 0021

Cuadro 49 Resultados Escenario 4 Iacutendice de Youden ARIMA(011)x(011)12

En el Cuadro 49 se recogen los resultados al Escenario 4 escenario en el que se simula el modelo deliacuteneas aeacutereas (G Box y Jenkins 1976) Este modelo es famoso por su uso en series socio-econoacutemicasPor ello cabriacutea esperar un buen comportamiento de los modelos disentildeados para este fin X-13ARIMA-SEATS y TRAMO-SEATS El resto de combinaciones presentan resultados poco consistentes

43 RESULTADOS 37

Caso 1 Caso 2 Caso 3 Caso 4

X-13ARIMA-SEATS 0265 0628 0176 0409

TRAMO-SEATS 0398 0747 0248 0432

STL+HDoutliers 0238 0469 0281 0125

STL+GESD 0091 0258 0158 0024

STL+iForest 0263 0531 0305 0134

STL(ROB)+HDoutliers 0265 0475 0343 0097

STL(ROB)+GESD 0375 0662 0452 0114

STL(ROB)+iForest 0304 0545 0388 0128

Twitter+HDoutliers 0243 0429 0352 0103

Twitter+GESD 0168 0376 0309 0057

Twitter+iForest 0266 0479 0381 0126

STR+HDoutliers 0656 0885 0231 0755

STR+GESD 0424 0769 0064 0567

STR+iForest 0720 0936 0277 0798

STR(ROB)+HDoutliers 0189 0326 0212 0523

STR(ROB)+GESD 0174 0317 0192 0665

STR(ROB)+iForest 0229 0364 0232 0588

Cuadro 410 Resultados Escenario 5 Iacutendice de Youden ARIMA(101)x(012)12

En el Cuadro 410 se recogen los resultados al Escenario 5 escenario en el que se simula un modeloARIMA (101)x(012)12 a partir de aplicarle la funcioacuten autoarima a una serie del IGE escogidaaleatoriamente En este escenario predomina la descomposicioacuten STR ya que son las combinacionesjunto a los tres meacutetodos de deteccioacuten de atiacutepicos GESD iForest y HDoutliers los meacutetodos quepresentan mejores resultados En concreto la combinacioacuten STR+iForest supone la combinacioacuten maacutesinteresante para este escenario

38 CAPIacuteTULO 4 ESTUDIO DE SIMULACIOacuteN

Caso 1 Caso 2 Caso 3 Caso 4

X-13ARIMA-SEATS 0331 0659 0354 0425

TRAMO-SEATS 0457 0764 0477 0438

STL+HDoutliers 0513 0790 0494 0624

STL+GESD 0229 0558 0188 0328

STL+iForest 0560 0833 0567 0648

STL(ROB)+HDoutliers 0507 0776 0592 0595

STL(ROB)+GESD 0528 0815 0663 0560

STL(ROB)+iForest 0559 0838 0661 0645

Twitter+HDoutliers 0239 0416 0355 0208

Twitter+GESD 0101 0229 0185 0100

Twitter+iForest 0279 0452 0383 0227

STR+HDoutliers 0520 0779 0436 0636

STR+GESD 0278 0584 0151 0385

STR+iForest 0596 0822 0494 0682

STR(ROB)+HDoutliers 0399 0666 0490 0545

STR(ROB)+GESD 0274 0524 0349 0404

STR(ROB)+iForest 0457 0731 0568 0579

Cuadro 411 Resultados Escenario 6 Iacutendice de Youden ARIMA(111)x(101)12

En el Cuadro 411 se recogen los resultados al Escenario 6 escenario en el que se simula un modeloARIMA (111)x(101)12 a partir de aplicarle la funcioacuten autoarima a una serie del IGE escogidaaleatoriamente En este escenario los meacutetodos que muestran unos mejores resultados son STR+iForesty STL+iForest Tambieacuten muestra un buen comportamiento el meacutetodo STL(Rob)+GESD basado enla combinacioacuten de la versioacuten robusta de la descomposicioacuten STL y el meacutetodo de deteccioacuten de atiacutepicosGESD

43 RESULTADOS 39

Caso 1 Caso 2 Caso 3 Caso 4

X-13ARIMA-SEATS 0332 0673 0347 0422

TRAMO-SEATS 0426 0765 0425 0453

STL+HDoutliers 0451 0693 0414 0503

STL+GESD 0180 0438 0142 0219

STL+iForest 0509 0759 0458 0527

STL(ROB)+HDoutliers 0416 0655 0468 0489

STL(ROB)+GESD 0452 0702 0549 0457

STL(ROB)+iForest 0484 0717 0541 0525

Twitter+HDoutliers 0009 0018 0037 0037

Twitter+GESD -0024 -0014 0011 0010

Twitter+iForest 0007 0016 0050 0050

STR+HDoutliers 0469 0719 0369 0582

STR+GESD 0228 0495 0122 0329

STR+iForest 0511 0774 0438 0635

STR(ROB)+HDoutliers 0282 0495 0347 0330

STR(ROB)+GESD 0224 0432 0301 0285

STR(ROB)+iForest 0343 0557 0407 0385

Cuadro 412 Resultados Escenario 7 Iacutendice de Youden ARIMA(112)x(011)12

En el Cuadro 412 se recogen los resultados al Escenario 7 escenario en el que se simula un modeloARIMA (112)x(011)12 a partir de aplicarle la funcioacuten autoarima a una serie del IGE escogidaaleatoriamente En este escenario los meacutetodos que muestran unos mejores resultados vuelven a serSTL+iForest STR+iForest y cercano a ellos STL(Rob)+iForest El resto de resultados no muestranninguacuten meacutetodo estable para los cuatro casos

40 CAPIacuteTULO 4 ESTUDIO DE SIMULACIOacuteN

Caso 1 Caso 2 Caso 3 Caso 4

X-13ARIMA-SEATS 0298 0636 0334 0434

TRAMO-SEATS 0419 0712 0427 0481

STL+HDoutliers 0425 0697 0389 0620

STL+GESD 0176 0415 0108 0351

STL+iForest 0480 0734 0423 0662

STL(ROB)+HDoutliers 0429 0675 0483 0607

STL(ROB)+GESD 0449 0718 0543 0584

STL(ROB)+iForest 0486 0749 0559 0675

Twitter+HDoutliers 0271 0463 0378 0350

Twitter+GESD 0127 0286 0189 0147

Twitter+iForest 0300 0504 0424 0356

STR+HDoutliers 0448 0692 0459 0564

STR+GESD 0203 0438 0167 0274

STR+iForest 0492 0769 0502 0600

STR(ROB)+Hdoutliers 0416 0680 0503 0548

STR(ROB)+GESD 0260 0523 0329 0366

STR(ROB)+iForest 0460 0751 0573 0587

Cuadro 413 Resultados Escenario 8 Iacutendice de Youden ARIMA(011)x(100)12

En el Cuadro 413 se recogen los resultados al Escenario 8 escenario en el que se simula un mode-lo ARIMA(011)x(100)12 a partir de aplicarle la funcioacuten autoarima a una serie del IGE escogidaaleatoriamente Los resultados maacutes consistentes para los cuatro casos estaacuten formados por las combina-ciones de STR+iForest la misma combinacioacuten pero con la versioacuten robusta de la descomposicioacuten STRSTR(Rob)+iForest y la combinacioacuten STL+iForest y tambieacuten su versioacuten robusta STL (Rob)+iForest

44 CONCLUSIONES 41

44 Conclusiones

Los resultados de las simulaciones muestran dos realidades Por un lado nos encontramos con losresultados asociados a los escenarios 1 2 3 y 4 En estos escenarios prevalece el comportamientode TRAMO-SEATS por encima de todos los meacutetodos sin lugar a duda incluso tambieacuten podriacuteamosincluir a X-13ARIMA-SEATS aquiacute Cabe recordar que ambos parten de las mismas ideas pero esTRAMO-SEATS el que implanta una serie de mejoras a los meacutetodos de deteccioacuten de atiacutepicos en losque se inspiran ambos esto se trata en el Capiacutetulo 3 Por otra parte en los escenarios 5 6 7 y 8 ya noexiste tal hegemoniacutea de TRAMO-SEATS frente al resto de meacutetodos de hecho nos encontramos unosresultados bastante maacutes variados

Entre los meacutetodos de descomposicioacuten (STLTwitter y STR) el que presenta mejores resultados enlas simulaciones es STR En todos los escenarios presenta resultados que lo posicionan entre los tresprimeros Esto nos da una idea de que estamos ante un meacutetodo flexible capaz de entender la estructurasubyacente de series de tiempo muy diversas y adecuar una respuesta realista del mecanismo generadorSus buenos resultados son seguidos muy de cerca por la descomposicioacuten STL Este es un resultado queconcuerda con lo esperado debido a que siendo los dos meacutetodos similares plantean la misma idea perola ejecutan de distinta forma STR fue creado con el objetivo de suponer una mejora a STL

En lo que respecta a los meacutetodos de deteccioacuten GESD HDoutliers y iForest podemos extraerconclusiones acerca del comportamiento de cada uno

GESD es un buen meacutetodo de identificacioacuten de atiacutepicos Obtiene buenos resultados faacutecil deaplicar y es sencillo entender su mecanismo algo muy uacutetil para personas que quieran realizaro transmitir un estudio sin ahondar profundamente en materia Por otra parte sus buenosresultados en la deteccioacuten correcta de atiacutepicos se ven eclipsados por su tendencia a clasificaraltos valores de observaciones como anoacutemalas incorrectamente Si estamos realizando un anaacutelisisindividual esto podriacutea no ser un problema dado que se podriacutea intervenir modificando alguno desus paraacutemetros y conseguir mejores resultados Sin embargo en este trabajo buscamos un meacutetodoque nos sirva como filtro para analizar multitud de series con la menor intervencioacuten posible porlo que descartamos dicho mecanismo

HDoutliers supone una mejora a GESD Muestra mejor comportamiento en todas las combina-ciones con los meacutetodos de descomposicioacuten GESD solo consigue igualar o superar ligeramentesus resultados incurriendo en calificar una gran cantidad de observaciones como atiacutepicas lo queprovoca un incremento en el nuacutemero de observaciones calificadas erroacuteneamente esto se puede veren las tablas de exceso introducidas en el anexo Sin embargo pese a suponer una mejora noes el meacutetodo que presenta mejores resultados

Isolation Forest o iForest es el meacutetodo de deteccioacuten maacutes consistente a lo largo de los escenariosy para cada meacutetodo de descomposicioacuten Consigue un equilibrio entre buenos valores de deteccioacutencorrecta y bajas tasas de atiacutepicos sentildealados incorrectamente justo lo que se busca en un meacutetodode deteccioacuten de atiacutepicos La idea de aacuterbol bajo la que se desarrolla su mecanismo es faacutecil decomprender cada observacioacuten recibe una puntuacioacuten entre 0 y 1 de cuaacuten anoacutemala es esto permiteflexibilizar la decisioacuten del analista con el umbral en el que fija un valor como atiacutepico En Liu et

42 CAPIacuteTULO 4 ESTUDIO DE SIMULACIOacuteN

al (2009) califican como observaciones sospechosas de ser atiacutepicas aquellas cuya puntuacioacuten seamayor a 06 en este trabajo somos maacutes estrictos y fijamos un umbral superior 075 Ademaacutessu disentildeo le permite escalar a conjuntos de gran tamantildeo y dimensioacuten (big data) por lo que nosupone un freno ante situaciones futuras

Parece interesante tambieacuten recordar que los mecanismos que emplean los meacutetodos X-13ARIMA-SEATS y TRAMO-SEATS fueron analizados en estudios que planteaban simulaciones como las quese realizan en los escenarios 1 2 y 3 Ademaacutes tambieacuten cabe esperar un buen comportamiento que seespera de ellos en un modelo tan comuacuten como el de liacuteneas aacutereas (Escenario 4) Sin embargo cuando seaplican fuera de estos escenarios en modelos maacutes complejos solamente TRAMO-SEATS consigue noquedarse atraacutes

La simulacioacuten nos permite descartar la descomposicioacuten Twitter la cual estaacute quizaacutes maacutes enfocadaa datos de alta frecuencia datos que se producen en frecuencias de tiempo mucho maacutes pequentildeascomo minutos en vez de datos mensuales como los planteados en el estudio de simulacioacuten por lo querefleja peores resultados en escenarios de este aacutembito Tambieacuten nos permite descartar el meacutetodo X-13ARIMA-SEATS dado que supone una idea similar pero menos desarrollada en lo que a deteccioacuten deatiacutepicos se refiere a TRAMO-SEATS Finalmente el meacutetodo GESD tambieacuten es descartado debido asus resultados en los que muestra un comportamiento inferior frente a HDoutliers meacutetodo que suponeuna mejora a la idea sobre la que se basa GESD

Por lo que se concluye que los meacutetodos maacutes adecuados para la continuacioacuten del trabajo son elmodelo TRAMO-SEATS las descomposiciones de series temporales STL y STR y los meacutetodos dedeteccioacuten de atiacutepicos HDoutliers y iForest lo que conforman los siguientes mecanismos de deteccioacutende atiacutepicos

TRAMO-SEATS

STL+HDoutliers

STL+iForest

STR+HDoutliers

STR+iForest

Capiacutetulo 5

Aplicacioacuten a datos reales

En este capiacutetulo se aplican los meacutetodos que han mostrado unos mejores resultados en el estudiode simulacioacuten a las bases de datos del IGE comentadas en Capiacutetulo 1 Estos meacutetodos son TRAMO-SEATS STL+HDoutliers STL+iForest STR+HDoutliers y STL+iForest De este modo podemosanalizar el comportamiento de los meacutetodos con datos reales y extraer nuevas conclusiones que nosurgiacutean en el estudio de simulacioacuten Esto se debe a que si bien el estudio de simulacioacuten planteaba unadiversidad de escenarios amplia nunca seraacuten suficientes para recoger la multitud de naturalezas quecaracteriza a las series socio-econoacutemicas

El anaacutelisis de las datos del IGE se haraacute en dos niveles Un primer nivel mostraraacute el comportamientoglobal del conjunto mediante cuatro medidas el total de atiacutepicos detectados por cada meacutetodo en elconjunto el maacuteximo nuacutemero de atiacutepicos que detecta el meacutetodo en una serie del conjunto el nuacutemero deseries que no presentan atiacutepicos y la media de atiacutepicos detectados por cada meacutetodo El segundo nivelmostraraacute un anaacutelisis maacutes especiacutefico donde se analizaraacute el comportamiento de los meacutetodos respecto auna serie escogida del conjunto

Para finalizar el capiacutetulo introducimos una herramienta graacutefica disentildeada con el objetivo de eliminarla mayor incertidumbre posible que acompantildea a un campo como el de la deteccioacuten de valores atiacutepicosy analizamos su comportamiento

51 Anaacutelisis Series IGE

Los conjuntos utilizados para este trabajo han pasado primero por un proceso de filtrado en el quese han eliminado todas las series que presentan menos de 24 observaciones o maacutes de 24 ceros entre susobservaciones De este modo conseguimos quedarnos con series que recogen la informacioacuten suficientepara trabajar con ellas

A continuacioacuten se muestra el total de series perteneciente a cada conjunto

43

44 CAPIacuteTULO 5 APLICACIOacuteN A DATOS REALES

Conjunto 1 Conjunto 2 Conjunto 3 Conjunto 4 Conjunto 5 Conjunto 6 Conjunto 7

Pre-filtrado 108 72 55 42 162 165 55

Post-filtrado 84 60 50 42 90 165 47

Cuadro 51 Nuacutemero de series de tiempo perteneciente a cada conjunto antes y despueacutes del proceso defiltrado

Ademaacutes con el objetivo de capturar la influencia del Covid19 sobre las series de tiempo se procedea dividir el estudio en dos partes La primera analiza las series con datos hasta 2019 si el conjuntopresenta datos de frecuencia mensual esta fecha seraacute diciembre de 2019 por otra parte si el conjuntopresenta datos de frecuencia trimestral esta fecha seraacute el cuarto trimestre de 2019 La segunda analizalas series incluyendo el uacuteltimo dato actualizado el cual variacutea dependiendo del conjunto Los conjuntoscon datos trimestrales incluyen hasta el primer trimestre del 2020 mientras que los conjuntos condatos mensuales incluyen como uacuteltima actualizacioacuten fechas comprendidas entre abril y junio de 2020por lo que dicha fecha se concretaraacute en el momento que se analiza dicho conjunto Respecto a la fechade inicio de las series variacutea dependiendo del conjunto por lo que tambieacuten se especificaraacute en el iniciodel anaacutelisis del mismo

Para medir la influencia del Covid lo que se haraacute seraacute calcular la tasa de variacioacuten del total deatiacutepicos detectados entre ambos escenarios las series hasta 2019 y las series actualizadas al uacuteltimodato existente de 2020 la cual calcularemos como

Tasa de variacioacuten =

(Total atiacutepicos serie completaTotal atiacutepicos serie hasta 2019

minus 1

)lowast 100

Conjunto 1 (httpwwwigeeuigebdtigeapidatos3476)

Series de datos mensuales que contienen la informacioacuten de los viajeros noches y estancia media enestablecimientos hoteleros y de turismo rural en Espantildea Galicia y sus provincias Los datos de esteconjunto comienzan en enero de 1999 y finalizan en mayo de 2020

51 ANAacuteLISIS SERIES IGE 45

TRAMO -

SEATS

STL +

HDoutliers

STL +

iForest

STR +

HDoutliers

STR +

iForest

Atiacutepicos detectados 327 176 111 136 142

Max nuacutemero atip serie 17 11 3 8 4

Series con 0 atiacutepicos 13 20 11 23 3

Media de atiacutepicos detec 389 210 132 162 169

Cuadro 52 Resultados para el Conjunto 1 con datos hasta diciembre de 2019

Los resultados del Cuadro 52 se producen para un total de 18816 observaciones que muestra elconjunto con datos hasta diciembre de 2019 Ahora vamos a estudiar los resultados de forma quecada serie esteacute formada por el uacuteltimo dato actualizado y a realizar una comparacioacuten entre ambosescenarios En esta serie el uacuteltimo dato actualizado es mayo de 2020 lo que conforma un total de19172 observaciones

TRAMO -

SEATS

STL +

HDoutliers

STL +

iForest

STR +

HDoutliers

STR +

iForest

Atiacutepicos detectados 457 243 170 264 204

Max nuacutemero atip serie 17 11 4 15 5

Series con 0 atiacutepicos 1 6 1 10 3

Media de atiacutepicos detec 544 289 202 314 243

Cuadro 53 Resultados para el Conjunto 1 con datos hasta mayo de 2020

46 CAPIacuteTULO 5 APLICACIOacuteN A DATOS REALES

TRAMO -

SEATS

STL +

HDoutliers

STL +

iForest

STR +

HDoutliers

STR +

iForest

Hasta 2019 327 176 111 136 142

Hasta mayo 2020 457 243 170 264 204

Tasa de variacioacuten 3976 3807 5315 9412 4366

Cuadro 54 Total de atiacutepicos detectados por cada meacutetodo hasta diciembre de 2019 y abril 2020 y tasade variacioacuten que produce el efecto del Covid en el Conjunto 1

En el Cuadro 54 podemos ver como el efecto del Covid sobre el conjunto es muy notorio algoque cabriacutea esperar dado que estamos tratando series relacionadas con el Turismo en Galicia uno delos sectores maacutes afectados por la crisis del Covid El Cuadro 53 incorpora datos hasta mayo 2020lo que supone solamente un crecimiento del 189 del total de datos Sin embargo el crecimientoque experimenta el total de atiacutepicos detectado es muy superior en el caso maacutes suave representa uncrecimiento de maacutes del 38 llegando a suponer para alguacuten meacutetodo el 94

A continuacioacuten vamos a analizar un caso concreto de una serie del conjunto Hemos escogido laserie que hace referencia al nuacutemero de viajeros residentes en Espantildea hospedados en establecimientosde turismo rural en Espantildea El motivo de su eleccioacuten es que es la serie que provoca un mayor nuacutemerode atiacutepicos en el Cuadro 52 un total de 17 observaciones atiacutepicas sentildealadas por el meacutetodo TRAMO-SEATS

Figura 51 Serie de tiempo referente al nuacutemero de viajeros residentes en Espantildea hospedados en esta-blecimientos de turismo rural en Espantildea

La Figura 51 recoge la serie de tiempo referente al nuacutemero de viajeros residentes en Espantildea hos-

51 ANAacuteLISIS SERIES IGE 47

pedados en establecimientos de turismo rural en Espantildea La liacutenea vertical roja representa el comienzodel antildeo 2020 Observando dicha figura y centraacutendonos en la serie hasta 2019 nos encontramos con unaserie con mucha volatilidad debido al fuerte caraacutecter estacional que posee un sector como el turismoy con una ligera tendencia creciente que se estanca ligeramente en los antildeos posteriores a la crisis eco-noacutemica de 2011 para despueacutes continuar en aumento Sin embargo no parece que se encuentren valoresatiacutepicos en dicha serie La combinacioacuten STR+HDoutliers tambieacuten sentildeala un elevado nivel de atiacutepicosseis en total que se reduce con STR+iForest a tres posibles atiacutepicos Finalmente STL+HDoutliers ySTL+iForest coinciden en sentildealar un atiacutepico agosto de 2019

Si ahora observamos los resultados para la serie completa podemos comprobar que los resultadoscambian bruscamente con la introduccioacuten de cuatro nuevos datos enero febrero marzo y abril de2020 Ahora el meacutetodo TRAMO-SEATS sentildeala cuatro fechas de las que solo dos coinciden con lassentildealadas anteriormente Las combinaciones STL+HDoutliers y STL+iForest mantienen como atiacutepicoagosto de 2019 y antildeaden febrero marzo y abril 2020 y marzo y abril 2020 respectivamente Y ahorason las combinaciones STR+HDoutliers y STR+iForest las que sentildealan uacutenicamente agosto de 2019

Es interesante observar el comportamiento de los cinco meacutetodos en esta serie TRAMO-SEATS ylas combinaciones basadas en el proceso de descomposicioacuten STR soliacutean ser las que mejores resultadospresentaban sin embargo en este ejemplo son los meacutetodos basados en la descomposicioacuten STL que sibien presentaron buenos resultados en la simulacioacuten tendiacutean a ir por detraacutes de TRAMO-SEATS y losmeacutetodos basados en la descomposicioacuten STR los que presenta un comportamiento maacutes acorde con loque sucede en la serie De hecho son los meacutetodos basados en la descomposicioacuten STL los uacutenicos quesentildealan como atiacutepica la observacioacuten de abril 2020 la cual es la uacutenica que tiene un valor de 0 y esclaramente atiacutepica

La Figura 52 representa los atiacutepicos detectados por el meacutetodo STL+HDoutliers el cual es el meacutetodoque mejor comportamiento muestra para esta serie

Figura 52 Serie de tiempo referente al nuacutemero de viajeros residentes en Espantildea hospedados en esta-blecimientos de turismo rural en Espantildea analizada por el meacutetodo STL+HDoutliers

En la Figura 53 se muestran los resultados para la misma serie por el resto de meacutetodos utilizadosSTL+iForest STR+HDoutliers STR+iForest y TRAMO-SEATS

48 CAPIacuteTULO 5 APLICACIOacuteN A DATOS REALES

Figura 53 Serie de tiempo referente al nuacutemero de viajeros residentes en Espantildea hospedados en esta-blecimientos de turismo rural en Espantildea analizada por STL+iForest STR+HDoutliers STR+iForesty TRAMO-SEATS

Conjunto 2 (httpwwwigeeuigebdtigeapidatos6356)

Series de datos trimestrales acerca de la poblacioacuten de 16 y maacutes antildeos desglosados por sexo gruposde edad y relacioacuten con la actividad econoacutemica en Galicia Los datos de este conjunto comienzan en elprimer trimestre de 1996 y finalizan en el primer trimestre de 2020

TRAMO -

SEATS

STL +

HDoutliers

STL +

iForest

STR +

HDoutliers

STR +

iForest

Atiacutepicos detectados 56 70 61 62 66

Max nuacutemero atip serie 5 6 3 5 3

Series con 0 atiacutepicos 28 29 18 26 14

Media de atiacutepicos detec 093 117 102 103 110

Cuadro 55 Resultados para el Conjunto 2 con datos hasta el cuarto trimestre de 2019

Los resultados del Cuadro 55 se producen para un total de 5760 observaciones que muestra elconjunto con datos hasta el cuarto trimestre de 2019 Ahora vamos a estudiar los resultados de formaque cada serie esteacute formada por el uacuteltimo dato actualizado y a comparar ambos escenarios En estaserie el uacuteltimo dato actualizado es el primer trimestre de 2020 lo que conforma un total de 5820

51 ANAacuteLISIS SERIES IGE 49

observaciones

TRAMO -

SEATS

STL +

HDoutliers

STL +

iForest

STR +

HDoutliers

STR +

iForest

Atiacutepicos detectados 54 107 62 68 66

Max nuacutemero atip serie 5 45 3 4 3

Series con 0 atiacutepicos 28 30 15 20 12

Media de atiacutepicos detec 090 178 103 113 110

Cuadro 56 Resultados para el Conjunto 2 con datos hasta el primer trimestre de 2020

TRAMO -

SEATS

STL +

HDoutliers

STL +

iForest

STR +

HDoutliers

STR +

iForest

Hasta 2019 56 70 61 62 66

Hasta mayo 2020 54 107 62 68 66

Tasa de variacioacuten -357 5286 164 968 000

Cuadro 57 Total de atiacutepicos detectados por cada meacutetodo hasta el cuarto trimestre de 2019 y primertrimestre de 2020 y tasa de variacioacuten que produce el efecto del Covid en el Conjunto 2

En el Cuadro 57 podemos ver como el efecto del Covid sobre el conjunto es mucho menor que enlos datos del Conjunto 1 Esto se debe a la naturaleza trimestral de los datos por lo que situando lainfluencia del Covid en el contexto gallego a finales de marzo de 2020 su impacto es maacutes suave sobrelos datos Seriacutea interesante en el futuro ver que sucede con este conjunto una vez se antildeadan los datosdel segundo trimestre

A continuacioacuten vamos a analizar un caso concreto de una serie del conjunto Hemos escogido laserie que recoge los datos de hombres mayores de 55 antildeos y que forman parte de la poblacioacuten ocupada

En la Figura 54 se muestra la serie de tiempo referente a los hombres mayores de 55 antildeos queforma parte de la poblacioacuten ocupada La recta vertical roja diferencia los dos escenarios que estudiamosla serie hasta el cuarto trimestre de 2019 y la serie hasta el primer trimestre de 2020-

50 CAPIacuteTULO 5 APLICACIOacuteN A DATOS REALES

Figura 54 Serie de tiempo referente hombres mayores de 55 antildeos y que forman parte de la poblacioacutenocupada

El uacutenico dato que las diferencia el primer trimestre de 2020 sigue con lo que cabriacutea esperar Y losmeacutetodos de deteccioacuten de atiacutepicos concuerdan con lo que observamos no existen atiacutepicos ni antes nidespueacutes excepto en un caso Ahora son los meacutetodos basados en el proceso de descomposicioacuten STL losque sentildealan una fecha que parece discrepar con la realidad

En la serie con valores hasta 2019 son ambas combinaciones STL+HDoutliers y STL+iForestlas que sentildealan como posible atiacutepico julio 2013 Si nos trasladamos a la serie completa uacutenicamenteSTL+iForest sigue manteniendo ese posible atiacutepico mientras que STL+HDoutliers lo corrige Esta si-tuacioacuten en las que solo un meacutetodo sentildeala una fecha nos lleva a dudar de que realmente esta observacioacutensea atiacutepica

A continuacioacuten mostramos la serie referente a los hombres mayores de 55 antildeos y que forman partede la poblacioacuten ocupada analizada por el uacutenico meacutetodo que detecta atiacutepicos para la serie completaSTL+iForest

Figura 55 Serie de tiempo referente hombres mayores de 55 antildeos y que forman parte de la poblacioacutenocupada analizada por STL+iForest

51 ANAacuteLISIS SERIES IGE 51

Conjunto 3 (httpwwwigeeuigebdtigeapidatos308)

Series de datos mensuales acerca de contratos registrados seguacuten la modalidad del contrato Losdatos de este conjunto comienzan en enero de 1999 y finalizan en mayo de 2020

TRAMO -

SEATS

STL +

HDoutliers

STL +

iForest

STR +

HDoutliers

STR +

iForest

Atiacutepicos detectados 193 126 98 146 98

Max nuacutemero atip serie 9 14 5 10 4

Series con 0 atiacutepicos 5 9 1 7 2

Media de atiacutepicos detec 386 252 196 292 196

Cuadro 58 Resultados para el Conjunto 3 con datos hasta diciembre 2019

El Cuadro 58 recoge los resultados que se producen para un total de 12600 observaciones quemuestra el Conjunto 3 con datos hasta diciembre de 2019 Ahora vamos a estudiar los resultados deforma que cada serie esteacute conformada por el uacuteltimo dato actualizado y a realizar una comparativaentre ambas En esta serie el uacuteltimo dato actualizado es mayo de 2020 lo que conforma un total de12850 observaciones

TRAMO -

SEATS

STL +

HDoutliers

STL +

iForest

STR +

HDoutliers

STR +

iForest

Atiacutepicos detectados 242 144 107 153 121

Max nuacutemero atip serie 13 8 5 10 4

Series con 0 atiacutepicos 1 6 0 7 1

Media de atiacutepicos detec 484 288 214 306 242

Cuadro 59 Resultados para el Conjunto 3 con datos hasta mayo de 2020

52 CAPIacuteTULO 5 APLICACIOacuteN A DATOS REALES

TRAMO -

SEATS

STL +

HDoutliers

STL +

iForest

STR +

HDoutliers

STR +

iForest

Hasta 2019 193 126 98 146 98

Hasta mayo 2020 242 144 107 153 121

Tasa de variacioacuten 2539 1429 918 479 2350

Cuadro 510 Total de atiacutepicos detectados por cada meacutetodo hasta diciembre de 2019 y mayo de 2020y tasa de variacioacuten que produce el efecto del Covid en el Conjunto 3

En el Cuadro 510 podemos ver como el efecto del Covid sobre el conjunto es similar al que sepresentaba en los datos del Conjunto 1 Este conjunto vuelve a recoger datos de caraacutecter mensual porlo que la influencia de los meses de 2020 vuelven a reflejar un gran peso en los resultados Sin embargolas tasas de variacioacuten no son tan grandes como las que se produciacutean en el Conjunto 1 Esto podriacuteadeberse a que mientras el sector turiacutestico se redujo a cero en el mercado laboral se llevaron a cabopoliacuteticas contra la destruccioacuten masiva de empleo Estos resultados lo que hacen es aflorar que se haproducido un efecto en el conjunto de datos y que podriacutea ser de intereacutes para despueacutes desarrollar unestudio en profundidad

A continuacioacuten vamos a analizar la serie referente a las contrataciones eventuales por circunstanciasde la produccioacuten para la provincia de Ourense diferenciando a traveacutes de una recta roja vertical los dosescenarios analizados los datos hasta diciembre 2019 y los datos hasta mayo de 2020

Figura 56 Serie de tiempo referente a las contrataciones eventuales por circunstancias de la produccioacutenpara la provincia de Ourense

El meacutetodo TRAMO-SEATS sentildeala tres fechas atiacutepicas en ambas ocasiones en la serie hasta 2019

51 ANAacuteLISIS SERIES IGE 53

y hasta mayo de 2020 sin embargo ninguna de ellas es comuacuten Probablemente esto se deba al compor-tamiento que podemos apreciar en la Figura 56 donde se observa la caiacuteda que produce en la serie losmeses de marzo abril y mayo de 2020 La introduccioacuten de estos datos reajusta las prioridades sobrequeacute es un atiacutepico en la serie para TRAMO-SEATS de forma que pasa de identificar octubre 2001abril 2002 y enero 2012 a sentildealar como fechas atiacutepicas octubre 2007 y marzo y abril de 2020

Este suceso tambieacuten se presenta en el resto de meacutetodos STL+HDoutliers pasa de no identificarninguacuten dato en la serie hasta 2019 a sentildealar abril del 2002 y febrero abril y mayo de 2020 Otro meacutetodoque experimenta esta situacioacuten es STR+iForest que pasa de no calificar ninguna observacioacuten atiacutepicaa sentildealar abril y mayo en 2019 y en 2020 STL+iForest sentildeala dos y tres atiacutepicos en cada caso en laserie hasta 2019 sentildeala el mes de julio en 2018 y 2019 mientras que en la serie completa sentildeala losmeses de febrero abril y mayo de 2020 Por uacuteltimo STR+HDoutliers sentildeala como atiacutepico abril del2002 en la serie acortada observacioacuten que ya no es detectada al incluir la serie completa donde sentildealalos meses de abril y mayo para los antildeos 2019 y 2020 igual aquiacute que STR+iForest

Estos resultados conducen hacia un punto comuacuten mientras que en la serie recortada en 2019 noparece haber mucho acuerdo sobre los atiacutepicos o si existen atiacutepicos en la serie completa todos losmeacutetodos se ponen de acuerdo en que las situaciones de abril y mayo de 2020 son anoacutemalas Estosresultados se muestran en la Figura 57

Figura 57 Serie de tiempo referente a las contrataciones eventuales por circunstancias de la produccioacutenpara la provincia de Ourense sentildealizando las anomaliacuteas comunes a los cinco meacutetodos

Conjunto 4 (httpwwwigeeuigebdtigeapidatos9048)

Series de datos mensuales referidas al Iacutendice de produccioacuten industrial general y por destino eco-noacutemico de los bienes en Espantildea y Galicia Los distintos destinos econoacutemico son bienes de consumoduraderos y no duraderos bienes de equipo bienes intermedios y energiacutea Los datos del conjuntocomienzan en enero de 2002 y finalizan en mayo de 2020

54 CAPIacuteTULO 5 APLICACIOacuteN A DATOS REALES

TRAMO -

SEATS

STL +

HDoutliers

STL +

iForest

STR +

HDoutliers

STR +

iForest

Atiacutepicos detectados 288 129 73 212 64

Max nuacutemero atip serie 24 11 3 102 3

Series con 0 atiacutepicos 9 5 3 6 2

Media de atiacutepicos detec 686 307 174 505 152

Cuadro 511 Resultados para el Conjunto 4 con datos hasta diciembre de 2019

El Cuadro 511 recoge los resultados que se producen para un total de 8904 observaciones quemuestra el conjunto con datos hasta diciembre de 2019 Ahora vamos a estudiar los resultados deforma que cada serie esteacute conformada por el uacuteltimo dato actualizado y a analizar los cambios que seproducen entre ambos escenarios En este conjunto el uacuteltimo dato actualizado es mayo de 2020 lo queconforma un total de 9114 observaciones

TRAMO -

SEATS

STL +

HDoutliers

STL +

iForest

STR +

HDoutliers

STR +

iForest

Atiacutepicos detectados 282 92 78 144 79

Max nuacutemero atip serie 24 5 3 50 3

Series con 0 atiacutepicos 4 5 1 2 1

Media de atiacutepicos detec 672 219 186 343 189

Cuadro 512 Resultados para el Conjunto 4 con datos hasta mayo de 2020

51 ANAacuteLISIS SERIES IGE 55

TRAMO -

SEATS

STL +

HDoutliers

STL +

iForest

STR +

HDoutliers

STR +

iForest

Hasta 2019 288 129 73 212 64

Hasta mayo 2020 282 92 78 144 79

Tasa de variacioacuten -208 -2868 685 -3208 2344

Cuadro 513 Total de atiacutepicos detectados por cada meacutetodo hasta diciembre de 2019 y mayo de 2020y tasa de variacioacuten que produce el efecto del Covid en el Conjunto 4

En el Cuadro 513 podemos ver el efecto del Covid sobre el conjunto sin embargo en esta ocasioacuten nopodemos ver una direccioacuten clara Los meacutetodos difieren y mientras unos meacutetodos muestran crecimientosen el nuacutemero de atiacutepicos detectados para el conjunto otros decrecen y muestran ahora menos atiacutepicosSin embargo esto no implica que el efecto del Covid sobre el conjunto sea menor que por ejemplo en elConjunto 3 Las variaciones entre las series las que incluyen datos de 2020 y las que no son notoriaslo cual implica que el efecto existe

A continuacioacuten vamos a analizar la serie referente a la produccioacuten industrial destinada a bienesintermedios de Galicia diferenciando a traveacutes de una recta vertical roja los dos escenarios los datoshasta diciembre de 2019 y la serie hasta mayo 2020

Figura 58 Serie de tiempo referente a la produccioacuten industrial destinada a bienes intermedios deGalicia

El comportamiento que muestran los meacutetodos con esta serie nos ayuda a plasmar una idea quedesarrollaremos maacutes adelante en el siguiente apartado Si observamos los datos para la serie recortada

56 CAPIacuteTULO 5 APLICACIOacuteN A DATOS REALES

en diciembre de 2019 obtenemos que salvo TRAMO-SEATS que no detecta ninguacuten atiacutepico los otroscuatro meacutetodos concuerdan en dos fechas marzo y julio de 2008 Por otra parte en la serie completacinco meacutetodos sentildealan abril 2020 y cuatro sentildealan marzo de 2008 Estos dos atiacutepicos abril de 2020 ymarzo de 2008 los representamos en la Figura 59

Analizando la Figura 59 el atiacutepico sentildealado en marzo de 2008 parece dudoso sin embargo siprofundizamos en los datos observamos que esta fecha rompe una clara tendencia creciente respecto alos meses de marzo de antildeos anteriores

Este suceso en el que varios meacutetodos coinciden en identificar una fecha proveen al analista de unaseguridad a la hora de calificar una observacioacuten como anoacutemala Este concepto de seguridad eliminandola incertidumbre asociada al campo de la deteccioacuten de valores atiacutepicos seraacute desarrollado maacutes adelante

Figura 59 Serie de tiempo referente a la produccioacuten industrial destinada a bienes intermedios deGalicia con los dos atiacutepicos

Conjunto 5 (httpwwwigeeuigebdtigeapidatos4052)

Series de datos trimestrales de nuacutemero de transacciones inmobiliarias por reacutegimen (Libre Protegiday Total de viviendas) y tipo de vivienda (Nuevas segunda mano y total de viviendas) Las medidas enlas que se toman los datos son por nuacutemero de viviendas su valor total (en miles de euros) o su valormedio (en euros) Los datos se presentan a nivel Espantildea Galicia y las provincias gallegas Los datosse recogen entre el primer trimestre de 2004 hasta el primer trimestre de 2020

51 ANAacuteLISIS SERIES IGE 57

TRAMO -

SEATS

STL +

HDoutliers

STL +

iForest

STR +

HDoutliers

STR +

iForest

Atiacutepicos detectados 184 122 105 94 97

Max nuacutemero atip serie 7 8 2 6 2

Series con 0 atiacutepicos 13 41 12 47 11

Media de atiacutepicos detec 204 136 117 104 107

Cuadro 514 Resultados para el Conjunto 5 con datos hasta el cuarto trimestre de 2019

Los resultados que recoge el Cuadro 514 se producen para un total de 5760 observaciones que mues-tra el Conjunto 5 con datos hasta el cuarto trimestre de 2019 Ahora vamos a estudiar los resultadosde forma que cada serie esteacute conformada por el uacuteltimo dato actualizado y a realizar una comparacioacutenentre ambos escenarios En esta serie el uacuteltimo dato actualizado es el primer trimestre de 2020 lo queconforma un total de 5850 observaciones

TRAMO -

SEATS

STL +

HDoutliers

STL +

iForest

STR +

HDoutliers

STR +

iForest

Atiacutepicos detectados 184 106 108 90 93

Max nuacutemero atip serie 9 8 2 5 3

Series con 0 atiacutepicos 12 42 11 43 13

Media de atiacutepicos detec 204 118 120 100 103

Cuadro 515 Resultados para el Conjunto 5 con datos hasta el primer trimestre de 2020

58 CAPIacuteTULO 5 APLICACIOacuteN A DATOS REALES

TRAMO -

SEATS

STL +

HDoutliers

STL +

iForest

STR +

HDoutliers

STR +

iForest

Hasta 2019 184 122 105 94 97

Hasta mayo 2020 184 106 108 90 93

Tasa de variacioacuten 000 -1311 286 -426 -412

Cuadro 516 Total de atiacutepicos detectados por cada meacutetodo hasta cuarto trimestre de 2019 y primertrimestre de 2020 y tasa de variacioacuten que produce el efecto del Covid en el Conjunto 5

En el Cuadro 516 podemos ver que el efecto del Covid sobre las series trimestrales vuelve a sermuy pequentildeo similar a las conclusiones obtenidas para el Conjunto 2 Si comparamos las tablas 514y 515 podemos similitudes en los resultados para las diferentes medidas que se toman Por ejemplo sinos fijamos en la fila que mide el nuacutemero de series que son identificadas con cero atiacutepicos los meacutetodosapenas difieren en sus resultados Lo mismo sucede con la media de atiacutepicos detectados en cada serieEstos resultados sostienen la idea de que el Covid repercutioacute en menor medida en las series trimestralesen el primer trimestre del antildeo y es de intereacutes realizar este mismo estudio una vez se incorporen losdatos del segundo trimestre

A continuacioacuten vamos a analizar la serie referente al nuacutemero de viviendas transmitidas de segundamano en reacutegimen libre para la provincia de Lugo diferenciando los dos escenarios analizados a traveacutesde una recta vertical roja los datos hasta el cuarto trimestre de 2019 y los datos incluyendo el primertrimestre de 2020

Figura 510 Serie de tiempo referente al nuacutemero de viviendas transmitidas de segunda mano en reacutegimenlibre para la provincia de Lugo

51 ANAacuteLISIS SERIES IGE 59

Observando la Figura 510 parece que el dato incluido referente al primer trimestre de 2020 su-pone una caiacuteda una situacioacuten anoacutemala sin embargo si observamos la evolucioacuten histoacuterica de la seriepodemos comprobar que solamente en dos ocasiones se han mostrado valores superiores en este pri-mer trimestre Para ambos escenarios la serie hasta 2019 y la serie completa uacutenicamente un meacutetododetecta atiacutepicos TRAMO-SEATS que sentildeala en ambas ocasiones octubre de 2010 y 2012 El resto demeacutetodos concuerdan en que la serie no presenta en ninguacuten caso ninguna situacioacuten anoacutemala

La Figura 511 muestra las dos fechas que sentildeala como atiacutepicas el meacutetodo TRAMO-SEATS cuartotrimestre de 2010 y 2012 que si bien reflejan un pico en los espacios temporales en los que se producenno parecen ser atiacutepicas respecto a la serie completa

Figura 511 Serie de tiempo referente al nuacutemero de viviendas transmitidas de segunda mano en reacutegimenlibre para la provincia de Lugo

Conjunto 6 (httpwwwigeeuigebdtigeapidatos1243)

Series de datos mensuales referentes a las bajas de demandas de empleo seguacuten geacutenero y duracioacutende la demanda en Galicia y sus provincias Los datos de la serie se recogen desde enero de 2009 hastajunio de 2020

60 CAPIacuteTULO 5 APLICACIOacuteN A DATOS REALES

TRAMO -

SEATS

STL +

HDoutliers

STL +

iForest

STR +

HDoutliers

STR +

iForest

Atiacutepicos detectados 154 271 228 288 228

Max nuacutemero atip serie 7 11 4 7 3

Series con 0 atiacutepicos 85 44 16 40 12

Media de atiacutepicos detec 093 164 138 174 138

Cuadro 517 Resultados para el Conjunto 6 con datos hasta diciembre de 2019

Los resultados del Cuadro 517 se producen para un total de 21780 observaciones que muestra elconjunto con datos hasta diciembre de 2019 Ahora vamos a estudiar los resultados de forma que cadaserie esteacute conformada por el uacuteltimo dato actualizado y a comparar ambas situaciones En esta serie eluacuteltimo dato actualizado es junio de 2020 lo que conforma un total de 22770 observaciones

TRAMO -

SEATS

STL +

HDoutliers

STL +

iForest

STR +

HDoutliers

STR +

iForest

Atiacutepicos detectados 484 502 336 504 334

Max nuacutemero atip serie 9 12 4 11 4

Series con 0 atiacutepicos 1 10 3 15 5

Media de atiacutepicos detec 293 304 204 305 202

Cuadro 518 Resultados para el Conjunto 6 con datos hasta junio de 2020

51 ANAacuteLISIS SERIES IGE 61

TRAMO -

SEATS

STL +

HDoutliers

STL +

iForest

STR +

HDoutliers

STR +

iForest

Hasta 2019 154 271 228 288 228

Hasta mayo 2020 484 502 336 504 334

Tasa de variacioacuten 21429 8524 4737 7500 4649

Cuadro 519 Total de atiacutepicos detectados por cada meacutetodo hasta diciembre de 2019 y junio de 2020 ytasa de variacioacuten que produce el efecto del Covid en el Conjunto 6

En el Cuadro 519 podemos ver el efecto que supone la primera mitad del antildeo 2020 en la aparicioacutende valores atiacutepicos en este conjunto El incremento en el nuacutemero de datos a analizar no llega a serdel 5 pero esa miacutenima cantidad de datos nuevos dispara las fechas anoacutemalas que se suceden en lasseries En el Cuadro 518 se puede observar que apenas existen series sin atiacutepicos independientementedel meacutetodo que seleccionemos algo todaviacutea maacutes sorprendente si recordamos que este es el conjuntoque posee maacutes series un total de 165 series

A continuacioacuten analizamos un caso concreto utilizando la serie referente a las bajas de la demandade empleo en mujeres con una duracioacuten de la demanda entre 12 y 18 meses en Ourense La rectavertical roja indica el inicio del antildeo 2020 sirviendo asiacute para indicar la diferencia entre los dos escenariosanalizados en los Cuadros 517 y 518

Figura 512 Serie de tiempo referente a las bajas de la demanda de empleo en mujeres con una duracioacutende la demanda entre 12 y 18 meses en Ourense

Esta serie es de intereacutes por diversos motivos El primero es que posee claros atiacutepicos en ambos

62 CAPIacuteTULO 5 APLICACIOacuteN A DATOS REALES

escenarios En la serie con duracioacuten hasta 2019 se puede observar un valor cercano al inicio de 2014con claro aspecto de ser atiacutepico La serie con todos los datos muestra el atiacutepico anterior pero tambieacutennuevos valores con claro comportamiento discordante al resto de la serie

Para la serie recortada cinco meacutetodos coinciden en sus resultados julio de 2013 es atiacutepico uacutenica-mente TRAMO-SEATS difiere el cual no sentildeala ninguacuten atiacutepico en la serie Si ahora nos trasladamosa la serie completa TRAMO-SEATS sentildeala marzo de 2020 como atiacutepico mientras que el resto demeacutetodos vuelven a concordar sentildealando julio de 2013 y febrero de 2020 En la Figura 513 se muestrala serie sentildealizando dichos atiacutepicos julio de 2013 y febrero y marzo de 2020

Figura 513 Serie de tiempo referente a las bajas de la demanda de empleo en mujeres con una duracioacutende la demanda entre 12 y 18 meses en Ourense con los atiacutepicos identificados

Si observamos los datos de la serie podemos calificar todas estas fechas como atiacutepicas julio 2013febrero 2020 y marzo 2020 Sin embargo ninguacuten meacutetodo ha calificado los meses de abril mayo yjunio de 2020 siendo claramente atiacutepicos Estamos frente a una situacioacuten completamente inusual unasituacioacuten que se produce en multitud de series del IGE y es la secuencia de varias observacionesconsecutivas muy atiacutepicas que ejercen un gran peso en la serie

Este gran peso provoca que los meacutetodos no consigan analizar correctamente este escenario Losmodelos de series temporales como TRAMO-SEATS interpretan que se estaacute produciendo un cambiode nivel permanente en la serie mencionado en el Capiacutetulo 3 como Level Shift (LS) y modelizan laserie como tal Los procesos de descomposicioacuten de series temporales utilizados STL y STR entiendenlo que estaacute sucediendo como un cambio en la tendencia es decir en su proceso de extraccioacuten de laestacionalidad y la tendencia estiman una tendencia decreciente en la serie Y por uacuteltimo los meacutetodosde deteccioacuten de valores atiacutepicos HDoutliers y iForest sufren un grave problema de enmascaramientoLa idea del mecanismo de iForest reside en buscar valores aislados mientras que la de HDoutliers sefundamenta en buscar espacios entre los valores ordenados estas dos ideas son consistentes con la ideade la buacutesqueda de atiacutepicos sin embargo ven disminuida su eficiencia ante una situacioacuten tan atiacutepica quepermanece durante varias observaciones consecutivas llevando a provocar que observaciones atiacutepicaspuedan pasar desapercibidas para el mecanismo

51 ANAacuteLISIS SERIES IGE 63

Conjunto 7 (httpwwwigeeuigebdtigeapidatos4885)

Series de datos mensuales referentes a las afiliaciones a la seguridad social el uacuteltimo diacutea de mes enGalicia y sus provincias por regiacutemenes Los datos comienzan en enero de 1990 y finalizan en mayo de2020

TRAMO -

SEATS

STL +

HDoutliers

STL +

iForest

STR +

HDoutliers

STR +

iForest

Atiacutepicos detectados 288 96 118 136 121

Max nuacutemero atip serie 24 8 5 10 5

Series con 0 atiacutepicos 4 10 0 4 0

Media de atiacutepicos detec 613 204 251 289 257

Cuadro 520 Resultados para el Conjunto 7 con datos hasta diciembre de 2019

El Cuadro 520 muestra los resultado que se producen para un total de 16920 observaciones quemuestra el conjunto con datos hasta diciembre de 2019 Ahora vamos a estudiar los resultados de formaque cada serie esteacute conformada por el uacuteltimo dato actualizado y comparar ambas situaciones En estaserie el uacuteltimo dato actualizado es junio de 2020 lo que conforma un total de 17155 observaciones

TRAMO -

SEATS

STL +

HDoutliers

STL +

iForest

STR +

HDoutliers

STR +

iForest

Atiacutepicos detectados 333 179 128 118 136

Max nuacutemero atip serie 24 14 5 11 6

Series con 0 atiacutepicos 0 6 0 3 0

Media de atiacutepicos detec 709 380 272 251 289

Cuadro 521 Resultados para el Conjunto 7 con datos hasta mayo de 2020

64 CAPIacuteTULO 5 APLICACIOacuteN A DATOS REALES

TRAMO -

SEATS

STL +

HDoutliers

STL +

iForest

STR +

HDoutliers

STR +

iForest

Hasta 2019 288 96 118 136 121

Hasta mayo 2020 333 179 128 118 136

Tasa de variacioacuten 1563 8646 847 -1324 1240

Cuadro 522 Total de atiacutepicos detectados por cada meacutetodo hasta diciembre de 2019 y mayo de 2020y tasa de variacioacuten que produce el efecto del Covid en el Conjunto 7

En el Cuadro 522 podemos ver que el efecto que supone la primera mitad del antildeo 2020 en laaparicioacuten de valores atiacutepicos en este conjunto La variacioacuten que supone en el nuacutemero de valores detec-tados como anoacutemalos es considerable todaviacutea maacutes si lo comparamos con la variacioacuten de nuevos datosintroducidos en el anaacutelisis los cuales han aumentado solamente un 138 De este modo podemosafirmar que la presencia del Covid ha provocado un gran impacto en el incremento del nuacutemero deobservaciones atiacutepicas de los conjuntos que presentan datos de frecuencia mensual

A continuacioacuten analizamos un caso concreto utilizando la serie referente a las afiliaciones a laseguridad social en reacutegimen mar para la provincia de Lugo La Figura 514 muestra la representacioacutengraacutefica de dicha serie indicando mediante una recta vertical roja el inicio del 2020

Figura 514 Serie de tiempo referente a las afiliaciones a la seguridad social en reacutegimen mar para laprovincia de Lugo

El motivo de seleccionar esta serie reside en una idea que se va desarrollando a lo largo de todoeste apartado y que da lugar a la herramienta que se introduce en el siguiente Las series socio-econoacutemicas son complejas dado que se ven afectadas por multitud de factores externos que condicionansu desarrollo Este caraacutecter uacutenico de cada serie maacutes los resultados obtenidos a lo largo del trabajo

51 ANAacuteLISIS SERIES IGE 65

nos conduce a la conclusioacuten de que no existe un meacutetodo de deteccioacuten de atiacutepicos con una capacidadde clasificacioacuten superior al resto

Los resultados para esta serie son diversos Por ejemplo la combinacioacuten STR+HDoutliers muestrahasta ocho atiacutepicos para la serie delimitada en el antildeo 2019 sin embargo al introducir la serie completaesta cifra se reduce solamente a dos Sucede lo contrario con la combinacioacuten STL+HDoutliers quesi bien en la serie recortada califica dos observaciones en la completa sentildeala un total de siete Porsu parte TRAMO-SEATS identifica un total de siete atiacutepicos Sin embargo todos los meacutetodos dedeteccioacuten sentildealan dos fechas como atiacutepicas en los dos casos agosto de 2006 y junio de 2008 como serepresenta en la Figura 515 Esto dota al estudio de confianza si todos los mecanismos sospechan dedos fechas deberaacute haber un motivo de peso algo ha sucedido en la serie para que todos concuerdenEsta idea dio lugar al desarrollo de la herramienta que se introduce en el siguiente apartado

Figura 515 Serie de tiempo referente a las afiliaciones a la seguridad social en reacutegimen mar parala provincia de Lugo identificando los atiacutepicos sentildealados de forma comuacuten por los cinco meacutetodos dedeteccioacuten

Por uacuteltimo el Cuadro 523 recoge el total de atiacutepicos detectados por cada meacutetodo en los dosescenarios con los que se ha trabajado en este capiacutetulo El primer escenario incluye datos hasta lauacuteltima fecha de 2019 si las series son mensuales este dato es el correspondiente a diciembre de 2019si son series trimestrales el uacuteltimo dato seraacute el cuarto trimestre de 2019 En el Cuadro 523 se recogede modo general para todos los conjuntos bajo el teacutermino ldquodatos hasta 2019rdquo El segundo escenariorecoge los datos hasta su uacuteltima actualizacioacuten aquiacute existe un mayor abanico de fechas como vimos alo largo de todo este capiacutetulo Los conjuntos con datos de frecuencia trimestral presentan su uacuteltimodato en el primer trimestre de 2020 por su parte los conjuntos de datos mensuales variacutean su uacuteltimaactualizacioacuten entre los meses de abril mayo o junio de 2020 En el Cuadro 523 se recoge de modogeneral para todos ellos bajo el teacutermino ldquodatos hasta 2020rdquo

66 CAPIacuteTULO 5 APLICACIOacuteN A DATOS REALES

TRAMO -SEATS

STL +HDoutliers

STL +iForest

STR +HDoutliers

STR +iForest

Tiempo de ejecucioacuten (2019) 1332 24 1782 7234 8805Tiempo de ejecucioacuten (2020) 1503 21 2042 8043 10764Atiacutepicos detectados (2019) 1490 990 794 1074 816Atiacutepicos detectados (2020) 2036 1373 989 1341 1033

Tasa de variacioacuten 3664 3869 2456 2486 2659

Cuadro 523 Tiempo de ejecucioacuten (en segundos) y total de atiacutepicos detectados por cada meacutetodo hastael uacuteltimo dato de 2019 y hasta uacuteltima actualizacioacuten de 2020 y tasa de variacioacuten que produce el efectodel Covid en los siete conjuntos de datos

El Cuadro 523 nos permite concluir que el efecto global del Covid ha supuesto un incremento enel nuacutemero de observaciones atiacutepicas puesto que todos los meacutetodos experimentan una tasa de variacioacutenpositiva sobre sus cifras de valores atiacutepicos detectados Las cifras de tasas de variacioacuten que se muestranen el Cuadro 523 sorprenden todaviacutea maacutes si analizamos el incremento en el nuacutemero de observacionesanalizadas El escenario que analiza el conjunto de datos hasta 2019 presentan un total de 90540observaciones mientras que el escenario que incluye hasta el uacuteltimo dato actualizado recoge un totalde 92731 Es decir el nuacutemero total de datos analizados se ha incrementado en poco maacutes del 2 sinembargo la tasa de variacioacuten maacutes pequentildea muestra un incremento del maacutes del 24 del nuacutemero deatiacutepicos que se presentan en el conjunto de datos

Otra medida que incluye el Cuadro 523 es el tiempo que tarda en analizar los siete conjuntosde datos cada meacutetodo recogida bajo el nombre de ldquotiempo de ejecucioacutenrdquo A traveacutes de ella podemosobservar que la diferencia entre el tiempo de ejecucioacuten es pequentildea pero existe por lo que muestra quela presencia de atiacutepicos dificulta la modelizacioacuten de la series temporales Tambieacuten podemos comprobarcomo todos los meacutetodos presentan buenas cifras en este medida los que peores resultados muestranson los meacutetodos que utilizan la descomposicioacuten STR la cual ya mencionamos su posible problemade lentitud en el Capiacutetulo 2 Por uacuteltimo es sorprendente la combinacioacuten de STL+HDoutliers que escapaz de analizar las 538 en un tiempo inferior a los tres segundos en ambos casos

52 Anaacutelisis Graacutefico

El campo de la deteccioacuten de valores atiacutepicos estaacute caracterizado por una constante incertidumbrePartiendo del inicio del trabajo ni siquiera existe una definicioacuten exacta de queacute es un valor atiacutepicosino maacutes bien se trazan definiciones en base a ideas de lo que se espera que sea un valor atiacutepico enun conjunto de datos Es por ello que dependiendo de los escenarios y las complejidades asociadas auna serie unos meacutetodos resulten maacutes efectivos que otros Este es el motivo por el que surgioacute la ideade crear una herramienta de anaacutelisis graacutefico para el estudio de series de tiempo

El objetivo de esta herramienta es la de dotar al analista de un mecanismo sencillo de implantarque le permita trazar una idea de los posibles atiacutepicos con los que podriacutea contar la serie Para ello seha creado una funcioacuten en R que solo necesita introducir la serie de tiempo para devolver el graacutefico

52 ANAacuteLISIS GRAacuteFICO 67

Ademaacutes dado que esta herramienta estaacute disentildeada especiacuteficamente para trabajar con series de tiemposu representacioacuten dariacutea lugar a lo que podriacutea denominarse un mapa de calor para zonas atiacutepicas estose muestra maacutes adelante mediante ejemplos

Esta herramienta estaacute compuesta por los meacutetodos que han mostrado mejores resultados en el estudiode simulacioacuten Cada meacutetodo ocupa una fila mostrando a lo largo de ella sus atiacutepicos sentildealados y cadacolumna es una fecha detectada por un meacutetodo De tal modo que si una fecha es detectada por todoslos meacutetodos mostraraacute una columna verde y seraacute sospecha clara de que esa fecha es atiacutepica Por otraparte si una fecha es detectada por solo un meacutetodo mostraraacute solo de color verde la celda asociada aese meacutetodo y no seraacute sentildeal tan evidente de situacioacuten atiacutepica

Para la composicioacuten del graacutefico se utilizan los meacutetodos del apartado anterior y a mayores seintroducen las versiones robustas de los meacutetodos de descomposicioacuten de series temporales STL y STREl motivo de su uso en este apartado se debe a que si bien no mostraron los mejores resultados enel estudio de simulacioacuten ahora pueden resultar de utilidad Los meacutetodos robustos pueden generaranomaliacuteas espurias cuando no existen atiacutepicos debido a que resaltan el tamantildeo del residuo de unaobservacioacuten provocando su identificacioacuten como atiacutepico sin esta serlo Sin embargo cuando se producenanomaliacuteas que ejercen un gran peso en la serie como lo sucedido durante el Covid este tipo deestimaciones son de gran intereacutes esta situacioacuten tambieacuten se justificaraacute mediante un ejemplo praacutectico

El primer ejemplo lo extraemos a traveacutes de la serie referente a la estancia media de viajeros de todaslas procedencias en establecimientos hoteleros en Galicia perteneciente al Conjunto 1 En la Figura516 mostramos la representacioacuten de la misma ahora ya mostramos hasta el uacuteltimo dato actualizadoen este caso mayo de 2020

Figura 516 Estancia media de viajeros de todas las procedencias en establecimientos hoteleros enGalicia

Esta serie parece contar con dos atiacutepicos los relacionados con las dos uacuteltimas observaciones de laserie sin embargo vamos a analizar los resultados del graacutefico comparativo

68 CAPIacuteTULO 5 APLICACIOacuteN A DATOS REALES

Figura 517 Resultados para la serie estancia media de viajeros de todas las procedencias en estable-cimientos hoteleros en Galicia del Conjunto 1

La Figura 517 muestra el graacutefico que hemos desarrollado el cual vamos a desgranar ahora paraentender su utilidad Si hubieacutesemos escogido el meacutetodo TRAMO-SEATS hubieacutesemos sentildealado tresobservaciones atiacutepicas una de ellas seriacutea enero de 2003 Sin embargo analizando los datos podemoscomprobar que este dato parece normal y estariacuteamos identificaacutendolo erroacuteneamente como anoacutemalo Dehecho solo TRAMO-SEATS sentildeala esta fecha Lo mismo sucede con otras fechas como octubre delantildeo 2000 sentildealada por solo dos meacutetodos Por otra parte todos los meacutetodos sentildealan los meses deabril y mayo de 2020 las dos uacuteltimas observaciones de la serie que en la Figura 516 mostraban uncomportamiento totalmente discordante al resto del conjunto de datos Es decir el graacutefico permitetrazar una idea concisa al analista de queacute es anoacutemalo en la serie y que pueden ser falsos positivos

Observando el graacutefico podemos tambieacuten extraer una conclusioacuten raacutepida de la posible presenciade valores atiacutepicos en la serie Se muestran dos comportamientos muy marcados El primero estariacuteadeterminado por la serie hasta el antildeo 2020 en el cual la aparicioacuten de atiacutepicos es dispersa pococoncluyente el analista puede dudar de que estas observaciones sean realmente anoacutemalas El segundoson los datos de 2020 dos columnas enteras de color verde una imagen que comunica que en eseintervalo de tiempo estaacute sucediendo algo realmente anoacutemalo

Vamos a utilizar el graacutefico con otra serie para analizar otra de las caracteriacutesticas que muestran elintereacutes de analizar una serie de tiempo a traveacutes de este graacutefico En la Figura 518 se muestra la serie detiempo perteneciente al Conjunto 3 que recoge la evolucioacuten de los contratos iniciales en Galicia Dichaserie cuenta con tres atiacutepicos claros marzo abril y mayo de 2020

52 ANAacuteLISIS GRAacuteFICO 69

Figura 518 Contratos iniciales registrados en Galicia

Haciendo uso del graacutefico comparativo Figura 519 volvemos a obtener un escenario en el queresulta de intereacutes esta herramienta En este caso el meacutetodo compuesto por STR+HDoutliers muestraun comportamiento erraacutetico que le conduce a identificar una gran cantidad de atiacutepicos de modoincorrecto Lo mismo sucede con TRAMO-SEATS que es el uacutenico que sentildeala enero de 2001 comoatiacutepico sin existir motivo en los datos para esta calificacioacuten

Por otra parte este escenario nos permite observar la utilidad de incorporar las versiones robustasSi bien se equivocan en alguacuten caso por ejemplo el meacutetodo STR+HDoutliers(Rob) sentildealando junio de2002 nos permiten calificar marzo de 2020 como atiacutepico algo que los meacutetodos que utilizan las versionesno robustas de los meacutetodos de descomposicioacuten de series temporales STR y STR no logran Todasellas se ponen de acuerdo junto a TRAMO-SEATS para la sentildealizacioacuten de este mes

Ademaacutes dado que estamos trabajando con series temporales los resultados de la graacutefica se muestranen orden cronoloacutegico en vez de por cuaacuten anoacutemala es la observacioacuten como se hace en TRAMO-SEATSo en iForest Esto nos permite entender la graacutefica como un mapa de calor Al analizar la serie siexiste un intervalo de tiempo en el que se han producido situaciones anoacutemalas como por ejemplo eneste caso los meses relacionados al Covid se veraacute reflejado en el graacutefico por una serie de columnascon muchas celdas verdes lo que daraacute a entender de manera raacutepida al analista que en ese intervalode tiempo se han producido situaciones excepcionales De este modo tambieacuten conseguimos corregirel problema de enmascaramiento que pueden sufrir los meacutetodos cuando se suceden varias situacionesatiacutepicas consecutivas

70 CAPIacuteTULO 5 APLICACIOacuteN A DATOS REALES

Figura 519 Resultados para la serie Contratos iniciales registrados en Galicia del Conjunto 3

Capiacutetulo 6

Conclusiones

El IGE cuenta con una ampliacutea base de datos que se utiliza para el estudio del contexto socio-econoacutemico en Galicia Estos datos tienen una base temporal es decir son datos referidos a un intervalode tiempo en la mayoriacutea de los casos esta periodicidad es anual trimestral o mensual La manipulacioacutende los datos puede conllevar a que se introduzcan errores humanos o de medicioacuten que provoquen quese incluyan cifras incorrectas a las bases de datos Estos errores pueden distorsionar las conclusionesde un estudio o conducir haciacutea resultados alejados de la verdadera realidad Es por ello que resultanecesario el incorporar una herramienta de deteccioacuten de valores atiacutepicos al anaacutelisis de las bases dedatos del IGE

Para ello se planteoacute una revisioacuten bibliograacutefica de los principales meacutetodos de deteccioacuten de atiacutepicosen series temporales Esta revisioacuten nos permitioacute conocer la existencia de un amplio abanico de meacuteto-dos disponibles con los cuales empezamos a trabajar para analizar su comportamiento Es aquiacute dondedecidimos descartar una serie de meacutetodos mencionados al final del Apartado 34 debido a que sufuncionamiento y sus resultados correspondiacutean a versiones inferiores de otros meacutetodos que finalmenteadoptamos Este primer estudio nos proporcionoacute los meacutetodos de deteccioacuten de atiacutepicos en series tem-porales que supondriacutean el punto de partida del trabajo X-13ARIMA-SEATS TRAMO-SEATS y lalibreriacutea de R Anomalize

La libreriacutea Anomalize tambieacuten nos sirvioacute de ayuda en el desarrollo de nuestros propios meacutetodos dedeteccioacuten de atiacutepicos para series temporales La idea sobre la que se fundamenta esta libreriacutea es la deaplicar un proceso de descomposicioacuten de series de tiempo a una serie para extraer las componentes dela estacionalidad la tendencia y un residuo para despueacutes aplicar un meacutetodo de deteccioacuten de atiacutepicossobre el residuo Dado que se han producido mejoras a los meacutetodos de descomposicioacuten y deteccioacutenque se utilizan en la libreriacutea Anomalize consideramos que una nueva combinacioacuten podriacutea reflejar unamejora en los resultados

Para comparar todos los meacutetodos de deteccioacuten de atiacutepicos en series temporales los que sirven depunto de partida del trabajo y los desarrollados por nosotros decidimos llevar a cabo un ambiciosoestudio de simulacioacuten El estudio de simulacioacuten recoge diferentes escenarios con la finalidad de repre-sentar la heterogeneidad propia de las series de tiempo referentes a variables sociales y econoacutemicas Losresultados del estudio de simulacioacuten confirman nuestra idea acerca de que una nueva combinacioacuten pue-de suponer una mejora en los resultados debido a que varias de nuestras combinaciones reflejan mejores

71

72 CAPIacuteTULO 6 CONCLUSIONES

resultados que las propuestas en la libreriacutea Anomalize Tambieacuten nos permite observar que nuestraspropuestas compiten en los resultados con un modelo tan desarrollado como TRAMO-SEATS Final-mente nos permiten descartar otros meacutetodos que siendo uacutetiles en otros campos no parecen resultaridoacuteneos para el nuestro

Tras el estudio de simulacioacuten comenzamos a utilizar los meacutetodos que habiacutean mostrado mejoresresultados con los datos proporcionados por el IGE Fue en este momento cuando nos encontramos conuna situacioacuten no contemplada en ninguacuten momento en ninguacuten escenario del estudio de simulacioacuten yen general en ninguacuten momento de lo que podriacutea ser la historia reciente como fue la crisis del Covid19Esta crisis provoca un efecto enorme en los datos del contexto gallego como se recoge a lo largo delCapiacutetulo 5 y supone un nuevo escenario en lo que a deteccioacuten de valores atiacutepicos en series temporalesse refiere

Este nuevo escenario se caracteriza por reflejar durante varios periacuteodos de tiempo consecutivosobservaciones enormemente anoacutemalas y los modelos ven empeorado su comportamiento TRAMO-SEATS y los modelos de descomposicioacuten de series de tiempo STL y STR entienden que lo que seestaacute produciendo es una tendencia decreciente de la serie Por su parte los meacutetodos de deteccioacuten deatiacutepicos HDoutliers y iForest sufren un fenoacutemeno de enmascaramiento en el que son incapaces desentildealizar todos los atiacutepicos Fue aquiacute donde decidimos crear una nueva herramienta para el anaacutelisis

El objetivo con el que creamos esta herramienta de anaacutelisis graacutefico fue el de reducir la incertidumbreque supone el campo de la deteccioacuten de atiacutepicos de un modo sencillo y directo para el analista que lautilice Ademaacutes su disentildeo estaacute pensado para el trabajo con series temporales de modo que si se sucedeun periacuteodo convulso como el actual la graacutefica podraacute ser analizada como un mapa de calor un mapade calor que transmite visualmente la idea de en queacute intervalo de tiempo la serie estaacute experimentandocomportamientos atiacutepicos

Apeacutendice A

Tablas

A1 Tablas de sensibilidad

73

74 APEacuteNDICE A TABLAS

Caso 1 Caso 2 Caso 3 Caso 4

X-13ARIMA-SEATS 0496 0854 0700 0826

TRAMO-SEATS 0657 0928 0805 0851

STL+HDoutliers 0569 0838 0570 0732

STL+GESD 0266 0590 0236 0532

STL+iForest 0636 0885 0636 0790

STL(ROB)+HDoutliers 0562 0803 0678 0712

STL(ROB)+GESD 0637 0876 0746 0754

STL(ROB)+iForest 0640 0878 0747 0786

Twitter+HDoutliers 0471 0735 0597 0620

Twitter+GESD 0306 0590 0429 0434

Twitter+iForest 0529 0801 0652 0660

STR+HDoutliers 0611 0841 0603 0672

STR+GESD 0345 0650 0292 0448

STR+iForest 0674 0885 0679 0721

STR(ROB)+HDoutliers 0542 0812 0638 0658

STR(ROB)+GESD 0381 0685 0458 0558

STR(ROB)+iForest 0623 0862 0699 0714

Cuadro A1 Resultados Escenario 1Sensibilidad AR(1)

A1 TABLAS DE SENSIBILIDAD 75

Caso 1 Caso 2 Caso 3 Caso 4

X-13ARIMA-SEATS 0505 0829 0646 0875

TRAMO-SEATS 0668 0914 0743 0888

STL+HDoutliers 0472 0729 0481 0684

STL+GESD 0217 0457 0148 0428

STL+iForest 0506 0784 0525 0716

STL(ROB)+HDoutliers 0469 0735 0588 0648

STL(ROB)+GESD 0529 0775 0665 0668

STL(ROB)+iForest 0526 0803 0666 0716

Twitter+HDoutliers 0465 0698 0596 0646

Twitter+GESD 0349 0630 0483 0486

Twitter+iForest 0512 0778 0663 0692

STR+HDoutliers 0588 0823 0573 0664

STR+GESD 0298 0602 0247 0449

STR+iForest 0630 0869 0651 0721

STR(ROB)+HDoutliers 0521 0788 0611 0649

STR(ROB)+GESD 0336 0628 0406 0520

STR(ROB)+iForest 0582 0839 0691 0711

Cuadro A2 Resultados Escenario 2 Sensibilidad MA(1)

76 APEacuteNDICE A TABLAS

Caso 1 Caso 2 Caso 3 Caso 4

X-13ARIMA-SEATS 0922 0971 0927 0983

TRAMO-SEATS 0923 0972 0923 0982

STL+HDoutliers 0312 0508 0241 0440

STL+GESD 0089 0230 0051 0152

STL+iForest 0343 0578 0284 0454

STL(ROB)+HDoutliers 0261 0435 0297 0333

STL(ROB)+GESD 0311 0527 0393 0322

STL(ROB)+iForest 0298 0501 0336 0362

Twitter+HDoutliers 0064 0112 0127 0066

Twitter+GESD 0028 0040 0069 0032

Twitter+iForest 0079 0129 0169 0070

STR+HDoutliers 0407 0563 0348 0440

STR+GESD 0204 0367 0109 0230

STR+iForest 0445 0617 0389 0495

STR(ROB)+HDoutliers 0243 0397 0254 0272

STR(ROB)+GESD 0209 0391 0225 0259

STR(ROB)+iForest 0282 0455 0284 0293

Cuadro A3 Resultados Escenario 3 Sensibilidad ARIMA(011)

A1 TABLAS DE SENSIBILIDAD 77

Caso 1 Caso 2 Caso 3 Caso 4

X-13ARIMA-SEATS 0403 0593 0068 0816

TRAMO-SEATS 0542 0707 0072 0814

STL+HDoutliers 0005 0004 0016 0004

STL+GESD 0000 0001 0004 0000

STL+iForest 0003 0003 0015 0005

STL(ROB)+HDoutliers 0007 0007 0037 0004

STL(ROB)+GESD 0009 0021 0099 0029

STL(ROB)+iForest 0006 0008 0036 0005

Twitter+HDoutliers 0001 0000 0001 0008

Twitter+GESD 0006 0009 0012 0023

Twitter+iForest 0001 0000 0005 0018

STR+HDoutliers 0370 0428 0006 0088

STR+GESD 0424 0462 0000 0138

STR+iForest 0418 0479 0004 0103

STR(ROB)+HDoutliers 0028 0019 0011 0076

STR(ROB)+GESD 0064 0063 0051 0140

STR(ROB)+iForest 0022 0014 0010 0027

Cuadro A4 Resultados Escenario 4 Sensibilidad ARIMA(011)x(011)12

78 APEacuteNDICE A TABLAS

Caso 1 Caso 2 Caso 3 Caso 4

X-13ARIMA-SEATS 0266 0629 0177 0574

TRAMO-SEATS 0400 0750 0251 0618

STL+HDoutliers 0247 0477 0291 0130

STL+GESD 0093 0260 0160 0024

STL+iForest 0270 0536 0312 0138

STL(ROB)+HDoutliers 0278 0489 0358 0102

STL(ROB)+GESD 0400 0688 0478 0132

STL(ROB)+iForest 0314 0553 0398 0133

Twitter+HDoutliers 0254 0439 0363 0108

Twitter+GESD 0176 0385 0317 0064

Twitter+iForest 0274 0486 0388 0131

STR+HDoutliers 0664 0895 0240 0760

STR+GESD 0425 0770 0065 0567

STR+iForest 0724 0939 0283 0800

STR(ROB)+HDoutliers 0197 0334 0220 0529

STR(ROB)+GESD 0190 0333 0207 0692

STR(ROB)+iForest 0235 0369 0238 0591

Cuadro A5 Resultados Escenario 5 Sensibilidad ARIMA(101)x(012)12

A1 TABLAS DE SENSIBILIDAD 79

Caso 1 Caso 2 Caso 3 Caso 4

X-13ARIMA-SEATS 0333 0662 0355 0618

TRAMO-SEATS 0460 0767 0480 0656

STL+HDoutliers 0521 0798 0502 0629

STL+GESD 0230 0559 0188 0328

STL+iForest 0565 0836 0572 0651

STL(ROB)+HDoutliers 0519 0788 0605 0601

STL(ROB)+GESD 0541 0828 0676 0561

STL(ROB)+iForest 0566 0843 0668 0648

Twitter+HDoutliers 0246 0423 0362 0212

Twitter+GESD 0104 0232 0187 0102

Twitter+iForest 0284 0456 0398 0230

STR+HDoutliers 0527 0788 0444 0641

STR+GESD 0279 0585 0152 0386

STR+iForest 0600 0825 0499 0685

STR(ROB)+HDoutliers 0407 0674 0497 0550

STR(ROB)+GESD 0277 0527 0352 0404

STR(ROB)+iForest 0462 0735 0573 0582

Cuadro A6 Resultados Escenario 6 Sensibilidad ARIMA(111)x(101)12

80 APEacuteNDICE A TABLAS

Caso 1 Caso 2 Caso 3 Caso 4

X-13ARIMA-SEATS 0299 0638 0335 0632

TRAMO-SEATS 0424 0717 0432 0801

STL+HDoutliers 0432 0705 0397 0626

STL+GESD 0177 0416 0109 0351

STL+iForest 0514 0762 0463 0530

STL(ROB)+HDoutliers 0441 0686 0494 0613

STL(ROB)+GESD 0461 0731 0556 0584

STL(ROB)+iForest 0491 0723 0548 0528

Twitter+HDoutliers 0280 0471 0387 0354

Twitter+GESD 0129 0288 0191 0147

Twitter+iForest 0008 0017 0051 0050

STR+HDoutliers 0456 0700 0467 0568

STR+GESD 0203 0439 0167 0274

STR+iForest 0515 0778 0443 0638

STR(ROB)+HDoutliers 0424 0687 0510 0554

STR(ROB)+GESD 0262 0524 0330 0366

STR(ROB)+iForest 0349 0562 0413 0388

Cuadro A7 Resultados Escenario 7 Sensibilidad ARIMA(112)x(011)12

A1 TABLAS DE SENSIBILIDAD 81

Caso 1 Caso 2 Caso 3 Caso 4

X-13ARIMA-SEATS 0299 0638 0335 0632

TRAMO-SEATS 0424 0717 0432 0801

STL+HDoutliers 0432 0705 0397 0626

STL+GESD 0177 0416 0109 0351

STL+iForest 0485 0738 0428 0665

STL(ROB)+HDoutliers 0441 0686 0494 0613

STL(ROB)+GESD 0461 0731 0556 0584

STL(ROB)+iForest 0494 0755 0566 0678

Twitter+HDoutliers 0280 0471 0387 0354

Twitter+GESD 0129 0288 0191 0147

Twitter+iForest 0306 0509 0430 0359

STR+HDoutliers 0456 0700 0467 0568

STR+GESD 0203 0439 0167 0274

STR+iForest 0497 0772 0507 0602

STR(ROB)+HDoutliers 0424 0687 0510 0554

STR(ROB)+GESD 0262 0524 0330 0366

STR(ROB)+iForest 0465 0755 0577 0590

Cuadro A8 Resultados Escenario 8 Sensibilidad ARIMA(011)x(100)12

82 APEacuteNDICE A TABLAS

A2 Tablas de exceso

Caso 1 Caso 2 Caso 3 Caso 4

X-13ARIMA-SEATS 0078 0077 0066 0042

TRAMO-SEATS 0211 0208 0222 0056

STL+HDoutliers 0788 0829 0805 1534

STL+GESD 0056 0055 0045 0031

STL+iForest 0406 0300 0404 0659

STL(ROB)+HDoutliers 1162 1242 1212 1714

STL(ROB)+GESD 1411 1417 1416 0461

STL(ROB)+iForest 0637 0468 0575 0859

Twitter+HDoutliers 0930 0955 0905 1487

Twitter+GESD 0257 0273 0254 0069

Twitter+iForest 0538 0412 0490 0776

STR+HDoutliers 0759 0810 0759 1464

STR+GESD 0053 0062 0046 0024

STR+iForest 0403 0301 0381 0725

STR(ROB)+HDoutliers 0749 0842 0758 1460

STR(ROB)+GESD 0199 0196 0192 0099

STR(ROB)+iForest 0427 0315 0413 0749

Cuadro A9 Resultados Escenario 1 Exceso AR(1)

A2 TABLAS DE EXCESO 83

Caso 1 Caso 2 Caso 3 Caso 4

X-13ARIMA-SEATS 0054 0058 0066 0058

TRAMO-SEATS 0144 0138 0175 0061

STL+HDoutliers 0695 0772 0759 1472

STL+GESD 0034 0038 0050 0016

STL+iForest 0443 0318 0425 0706

STL(ROB)+HDoutliers 1168 1221 1180 1703

STL(ROB)+GESD 1309 1349 1415 0418

STL(ROB)+iForest 0682 0528 0621 0877

Twitter+HDoutliers 0836 0832 0911 1577

Twitter+GESD 0313 0329 0334 0061

Twitter+iForest 0552 0417 0483 0755

STR+HDoutliers 0798 0885 0694 1541

STR+GESD 0054 0064 0044 0018

STR+iForest 0407 0302 0396 0724

STR(ROB)+HDoutliers 0725 0776 0745 1516

STR(ROB)+GESD 0134 0143 0142 0076

STR(ROB)+iForest 0435 0312 0372 0727

Cuadro A10 Resultados Escenario 2 Exceso MA(1)

84 APEacuteNDICE A TABLAS

Caso 1 Caso 2 Caso 3 Caso 4

X-13ARIMA-SEATS 0106 0060 0101 0070

TRAMO-SEATS 0179 0123 0175 0085

STL+HDoutliers 0638 0635 0686 1376

STL+GESD 0052 0054 0067 0020

STL+iForest 0448 0346 0468 0867

STL(ROB)+HDoutliers 0932 0905 1010 1604

STL(ROB)+GESD 2339 2311 2338 1863

STL(ROB)+iForest 0705 0573 0695 1281

Twitter+HDoutliers 0311 0285 0311 0743

Twitter+GESD 1302 1282 1331 1946

Twitter+iForest 0167 0153 0175 0645

STR+HDoutliers 0672 0703 0623 1364

STR+GESD 0180 0183 0119 0050

STR+iForest 0372 0297 0393 0899

STR(ROB)+HDoutliers 0598 0568 0588 1225

STR(ROB)+GESD 1030 1008 0999 1341

STR(ROB)+iForest 0463 0383 0464 1108

Cuadro A11 Resultados Escenario 3 Exceso ARIMA(011)

A2 TABLAS DE EXCESO 85

Caso 1 Caso 2 Caso 3 Caso 4

X-13ARIMA-SEATS 0132 0120 0062 0274

TRAMO-SEATS 0198 0180 0075 0274

STL+HDoutliers 0832 0823 0837 1337

STL+GESD 0231 0225 0226 0165

STL+iForest 0727 0710 0718 1237

STL(ROB)+HDoutliers 1197 1152 1186 1230

STL(ROB)+GESD 4756 4699 4689 7954

STL(ROB)+iForest 0992 0993 0983 1514

Twitter+HDoutliers 0144 0162 0182 0376

Twitter+GESD 3050 2761 2813 6058

Twitter+iForest 0123 0128 0121 0508

STR+HDoutliers 1108 1135 1027 1454

STR+GESD 1469 1679 0582 4430

STR+iForest 0732 0674 0882 1653

STR(ROB)+HDoutliers 1382 1266 0876 10915

STR(ROB)+GESD 4452 4583 4289 19321

STR(ROB)+iForest 0831 0845 0828 1858

Cuadro A12 Resultados Escenario 4 Exceso ARIMA(011)x(011)12

86 APEacuteNDICE A TABLAS

Caso 1 Caso 2 Caso 3 Caso 4

X-13ARIMA-SEATS 0109 0123 0111 0069

TRAMO-SEATS 0239 0301 0312 0139

STL+HDoutliers 0869 0762 0986 1367

STL+GESD 0170 0170 0198 0244

STL+iForest 0667 0475 0712 1291

STL(ROB)+HDoutliers 1328 1357 1499 1287

STL(ROB)+GESD 2517 2530 2919 5438

STL(ROB)+iForest 0992 0813 0978 1444

Twitter+HDoutliers 1041 0966 1065 1383

Twitter+GESD 0796 0854 0830 2221

Twitter+iForest 0808 0655 0735 1412

STR+HDoutliers 0799 0979 0846 1551

STR+GESD 0101 0087 0083 0029

STR+iForest 0383 0286 0619 0669

STR(ROB)+HDoutliers 0764 0759 0755 1692

STR(ROB)+GESD 1600 1591 1490 8145

STR(ROB)+iForest 0603 0492 0593 0894

Cuadro A13 Resultados Escenario 5 Exceso ARIMA(101)x(012)12

A2 TABLAS DE EXCESO 87

Caso 1 Caso 2 Caso 3 Caso 4

X-13ARIMA-SEATS 0179 0167 0141 0096

TRAMO-SEATS 0307 0299 0297 0127

STL+HDoutliers 0792 0783 0775 1598

STL+GESD 0052 0050 0049 0030

STL+iForest 0452 0306 0459 0748

STL(ROB)+HDoutliers 1193 1207 1269 1697

STL(ROB)+GESD 1290 1324 1270 0437

STL(ROB)+iForest 0708 0531 0670 0952

Twitter+HDoutliers 0690 0698 0676 1157

Twitter+GESD 0266 0257 0225 0523

Twitter+iForest 0538 0416 0459 1063

STR+HDoutliers 0740 0853 0796 1429

STR+GESD 0065 0077 0063 0036

STR+iForest 0432 0311 0493 0750

STR(ROB)+HDoutliers 0749 0799 0717 1477

STR(ROB)+GESD 0317 0291 0254 0167

STR(ROB)+iForest 0502 0373 0463 0839

Cuadro A14 Resultados Escenario 6 Exceso ARIMA(111)x(101)12

88 APEacuteNDICE A TABLAS

Caso 1 Caso 2 Caso 3 Caso 4

X-13ARIMA-SEATS 0147 0138 0115 0081

TRAMO-SEATS 0278 0285 0287 0261

STL+HDoutliers 0788 0815 0776 1392

STL+GESD 0045 0047 0042 0031

STL+iForest 0471 0337 0478 0842

STL(ROB)+HDoutliers 1122 1183 1194 1785

STL(ROB)+GESD 1364 1387 1340 0670

STL(ROB)+iForest 0720 0559 0711 1100

Twitter+HDoutliers 0125 0109 0084 0092

Twitter+GESD 3247 3207 3185 7613

Twitter+iForest 0087 0066 0073 0294

STR+HDoutliers 0854 0807 0773 1430

STR+GESD 0069 0069 0050 0036

STR+iForest 0438 0357 0484 0793

STR(ROB)+HDoutliers 0765 0755 0725 1370

STR(ROB)+GESD 0434 0489 0510 0536

STR(ROB)+iForest 0581 0471 0547 1064

Cuadro A15 Resultados Escenario 7 Exceso ARIMA(112)x(011)12

A2 TABLAS DE EXCESO 89

Caso 1 Caso 2 Caso 3 Caso 4

X-13ARIMA-SEATS 0090 0095 0104 0056

TRAMO-SEATS 0487 0475 0494 0446

STL+HDoutliers 0734 0814 0749 1507

STL+GESD 0068 0059 0052 0025

STL+iForest 0496 0352 0479 0747

STL(ROB)+HDoutliers 1157 1098 1083 1660

STL(ROB)+GESD 1232 1281 1260 0294

STL(ROB)+iForest 0764 0566 0687 0918

Twitter+HDoutliers 0859 0822 0860 1415

Twitter+GESD 0214 0209 0217 0114

Twitter+iForest 0606 0526 0550 1031

STR+HDoutliers 0797 0792 0778 1469

STR+GESD 0048 0059 0042 0017

STR+iForest 0461 0336 0464 0782

STR(ROB)+HDoutliers 0786 0726 0699 1494

STR(ROB)+GESD 0159 0146 0145 0072

STR(ROB)+iForest 0520 0359 0433 0830

Cuadro A16 Resultados Escenario 8 Exceso ARIMA(011)x(100)12

90 APEacuteNDICE A TABLAS

Bibliografiacutea

Abraham B y Box G E P (1979) Bayesian analysis of some outlier problems in time seriesBiometrika 66 (2) 229ndash236

Barnett V y Lewis T (1996) Outliers in statistical data 3rd edition (John Wiley amp Sons Chi-chester) 584 pp [UK pound]5500 ISBN 0-471-93094-6 International Journal of Forecasting 12 (1) 175-176

Bell W (1983) A computer program for detecting outliers in time series Proceedings of the AmericanStatistical Association Business and Economic Statistics Section 634-639

Box G y Jenkins G (1976) Time series analysis forecasting and control En (Vol 134) doi1023072344246

Box G E P y Tiao G C (1975) Intervention analysis with applications to economic and environ-mental problems Journal of the American Statistical Association 70 (349) 70ndash79

Breunig M Kriegel H-P Ng R y Sander J (2000) Lof Identifying density-based local outliersEn (Vol 29 p 93-104) doi 101145342009335388

Chang I Tiao G y Chen C (1988) Estimation of time series parameters in the presence of outliersTechnometrics 30 193-204 doi 10108000401706198810488367

Chang I y Tiao G C (1983) Estimation of time series parameters in the presence of outliersTechnical Report 8 University of Chicago Statistics Research Center 30

Chauvenet W (1963) A manual of spherical and practical astronomy volume 2 474-566Chen C y Liu L-M (1993) Joint estimation of model parameters and outlier effects in time series

Journal of the American Statistical Association 88 (421) 284ndash297Cleveland R B Cleveland W S McRae J E y Terpenning I (1990) STL A seasonal-trend

decomposition procedure based on Loess Journal of Official Statistics 6 Dancho M y Vaughan D (2019) Anomalize Tidy anomaly detection [Manual de software informaacute-

tico]Datacamp (2018) Detect anomalies with anomalize in r httpswwwdatacampcomcommunity

tutorialsdetect-anomalies-anomalize-r (Visitado 2020-06-16)de Lacalle J L (2015) Detection of outliers in time series with r httpsjalobecomtsoutliers

(Visitado 2020-03-16)de Lacalle J L (2019) Detection of outliers in time series [Manual de software informaacutetico] https

cranr-projectorgwebpackagestsoutlierstsoutlierspdfDokumentov A y Hyndman R J (2015) STR A seasonal-trend decomposition procedure based

on Regression

91

92 BIBLIOGRAFIacuteA

Dokumentov A y Hyndman R J (2018) str Str decomposition [Manual de software informaacutetico](httpscranr-projectorgwebpackagesstRindexhtml)

Fraley C y Wilkinson L (2020) Hdoutliers Leland wilkinsonrsquos algorithm for detecting multidimen-sionaloutliers [Manual de software informaacutetico]

Goacutemez V y Maravall A (1997) Programs tramo and seats instructions for the user Mimeo Bancode Espantildea

Goacutemez V y Taguas D (1995) Deteccioacuten y correccioacuten automaacutetica de outliers con tramo Unaaplicacioacuten al ipc de bienes industriales no energeacuteticos

Grubbs F (1950) Sample criteria for testing outlying observations The Annals of MathematicalStatistics 21 doi 101214aoms1177729885

Hawkins D (1980) Identification of outliers London [ua] Chapman and HallHochenbaum J Vallis O y Kejariwal A (2017) Automatic anomaly detection in the cloud via

statistical learningHoerl A y Kennard R (1970) Ridge regression Biased estimation for nonorthogonal problems

Technometrics 8 27-51Hyndman R (2020) Forecasting functions for time series and linear models [Manual de software

informaacutetico] httpscranr-projectorgwebpackagesforecastforecastpdfla Tente A Q Michalek A Palate J y Baeyens R (2020) Rjdemetra Interface to rsquojdemetra+rsquo

seasonal adjustment software [Manual de software informaacutetico]Liu F T Ting K y Zhou Z-H (2009) Isolation forest En (p 413 - 422) doi 101109

ICDM200817Mahdavinejad M S Rezvan M Barekatain M Adibi P Barnaghi P y Sheth A P (2018)

Machine learning for internet of things data analysis a survey Digital Communications andNetworks 4 (3) 161 - 175 doi httpsdoiorg101016jdcan201710002

Moore D y McCabe G (1999) Introduction to the practice of statistics WH FreemanOtto M y Bell W (1990) Two issues in time series outlier detection using indicator variables

Proceedings of the American Statistical Association Business and Economic Statistics Section182-187

Peirce B (1852) Criterion for rejection of doubtful observations The Astronomical Journal 2 161-163 doi 101086100259

Pentildea D (2010) Anaacutelisis de series temporales Alianza EditorialRosner B (1975) On the detection of many outliers Technometrics 17 221-227 doi 101080

00401706197510489305Rosner B (1983) Percentagepoints for a generalized esd many-outier procedure Technometrics 25

165-172 doi 10108000401706198310487848Rousseeuw P y Hubert M (2011) Robust statistics for outlier detection Wiley Interdisc Rew

Data Mining and Knowledge Discovery 1 73-79 doi 101002widm2Shan G (2015) Improved confidence intervals for the youden index

doi 01371journalpone0127272Shiskin J Young A y Musgrave J (1967) The x-11 variant of the census method ii seasonal

adjustment program

BIBLIOGRAFIacuteA 93

Srikanth K S (2017) solitude An implementation of isolation forest [Manual de software informaacutetico](R package version 021 mdash For new features see the rsquoSolitudersquo file (in the package source))

Thompson W (1935) On a criterion for the rejection of observations and the distribution of theratio of deviation to sample standard deviation The Annals of Mathematical Statistics 6 doi101214aoms1177732567

Tibshirani R (1996) Regression shrinkage and selection via the lasso Journal of the Royal StatisticalSociety Series B (Methodological) 58 267-288 doi 101111j2517-61611996tb02080x

Time Series Research Staff (2017) X-13ARIMA-SEATS Reference Manual Center for StatisticalResearch and Methodology

Tsay R S (1986) Time series model specification in the presence of outliers Journal of the AmericanStatistical Association 81 (393) 132ndash141

Tsay R S y Tiao G C (1984) Consistent estimates of autoregressive parameters and extendedsample autocorrelation function for stationary and nonstationary arma models Journal of theAmerican Statistical Association 79 (385) 84ndash96

Tukey J W (1977) Exploratory data analysis Addison-WesleyTwitter Inc (2015) Anomalydetection r package GitHub (httpsgithubcomtwitter

AnomalyDetection)Wilkinson L (2017) Visualizing big data outliers through distributed aggregation IEEE Transactions

on Visualization and Computer Graphics PP 1-1 doi 101109TVCG20172744685Woodward W A Gray H L y Elliott A C (2017) Applied time series analysis with r second

edition Journal of Time Series Analysis 39 618 doi 101111jtsa12273Youden W (1950) Youden wjindex for rating diagnostic tests cancer 3(1) 32-35 Cancer 3 32-5

doi 1010021097-0142(1950)3130CO2-3

  • Resumen
  • Introduccioacuten
  • Modelizacioacuten de series temporales
    • Conceptos baacutesicos
    • Meacutetodos de modelizacioacuten de series temporales
      • X-13ARIMA-SEATS
      • TRAMO-SEATS
      • STL
      • STR
      • Twitter
        • Resumen meacutetodos de modelizacioacuten de series temporales
          • Deteccioacuten de valores atiacutepicos
            • Conceptos baacutesicos
            • Meacutetodos de deteccioacuten de valores atiacutepicos
              • X-13ARIMA-SEATS
              • TRAMO-SEATS
              • GESD
              • Isolation Forest
              • HDoutliers
                • Resumen meacutetodos de deteccioacuten de valores atiacutepicos
                • Meacutetodos de deteccioacuten de valores atiacutepicos en series temporales
                  • Estudio de simulacioacuten
                    • Escenarios
                    • Iacutendice de Youden
                    • Resultados
                    • Conclusiones
                      • Aplicacioacuten a datos reales
                        • Anaacutelisis Series IGE
                        • Anaacutelisis Graacutefico
                          • Conclusiones
                          • Tablas
                            • Tablas de sensibilidad
                            • Tablas de exceso
                              • Bibliografiacutea
Page 4: Trabajo Fin de Máster - USC

iv

v

Dontildea Mariacutea Joseacute Lombardiacutea Cortintildea profesora titular de Universidad del Departamento de Matemaacute-ticas da Universidade da Coruntildea y dontildea Esther Loacutepez Vizcaiacuteno responsable del Servicio de Difusioacutene Informacioacuten del Instituto Galego de Estadiacutestica informan que el Trabajo Fin de Maacutester titulado

Deteccioacuten de outliers en grandes bases de datos

fue realizado bajo su direccioacuten por don Sergio Da Vila Davila para el Maacutester en Teacutecnicas EstadiacutesticasEstimando que el trabajo estaacute terminado dan su conformidad para su presentacioacuten y defensa ante untribunal

En Santiago de Compostela a 14 de julio de 2020

La directora

Dontildea Mariacutea Joseacute Lombardiacutea Cortintildea

La tutora

Dontildea Esther Loacutepez Vizcaiacuteno

El autor

Don Sergio Da Vila Davila

vi

Iacutendice general

Resumen ix

1 Introduccioacuten 1

2 Modelizacioacuten de series temporales 5

21 Conceptos baacutesicos 5

22 Meacutetodos de modelizacioacuten de series temporales 8

221 X-13ARIMA-SEATS 8

222 TRAMO-SEATS 8

223 STL 10

224 STR 11

225 Twitter 11

23 Resumen meacutetodos de modelizacioacuten de series temporales 13

3 Deteccioacuten de valores atiacutepicos 15

31 Conceptos baacutesicos 15

32 Meacutetodos de deteccioacuten de valores atiacutepicos 17

321 X-13ARIMA-SEATS 17

322 TRAMO-SEATS 18

323 GESD 19

324 Isolation Forest 20

325 HDoutliers 21

33 Resumen meacutetodos de deteccioacuten de valores atiacutepicos 23

34 Meacutetodos de deteccioacuten de valores atiacutepicos en series temporales 24

4 Estudio de simulacioacuten 27

41 Escenarios 27

42 Iacutendice de Youden 29

43 Resultados 32

44 Conclusiones 41

vii

viii IacuteNDICE GENERAL

5 Aplicacioacuten a datos reales 4351 Anaacutelisis Series IGE 4352 Anaacutelisis Graacutefico 66

6 Conclusiones 71

A Tablas 73A1 Tablas de sensibilidad 73A2 Tablas de exceso 82

Bibliografiacutea 91

Resumen

Resumen en espantildeol

El objetivo de este trabajo es el de realizar un anaacutelisis acerca de la presencia de valores atiacutepicos enlos diferentes conjuntos de datos del Instituto Gallego de Estadiacutestica Para ello realizamos una revisioacutenbibliograacutefica que nos permite conocer los meacutetodos actuales y el recorrido que se produjo hasta llegar alos mismos A traveacutes de esta revisioacuten comprendemos la idea que se esconde detraacutes de la deteccioacuten devalores atiacutepicos en series temporales y somos capaces de proponer nuestros propios meacutetodos

Para comparar el comportamiento de los diferentes meacutetodos realizamos un estudio de simulacioacutenel cual nos sirve para contrastar el buen comportamiento de nuestras propuestas y para descartar otrosmeacutetodos

Finalmente aplicamos los meacutetodos que han reflejado un comportamiento maacutes consistente en elestudio de simulacioacuten y analizamos el efecto del Covid19 en el incremento de valores atiacutepicos en losconjuntos de datos Ademaacutes con el objetivo de reducir la incertidumbre asociada al campo de ladeteccioacuten de valores atiacutepicos introducimos una nueva herramienta graacutefica

English abstract

The aim of this project is to carry out an analysis about the presence of outliers in the differentdata sets of the Galician Institute of Statistics We carried out a bibliographic review that allows us toknow the current methods and the route that took place until we reached them Through this reviewwe understand the idea behind the detection of outliers in time series and we are able to propose ourown methods

To compare the behavior of the different methods we carried out a simulation study which helpsus compare the good behavior of our proposals and to rule out other methods

Finally we applied the methods that have reflected a more consistent behavior in the simulationstudy and analyzed the effect of Covid19 on the increase of outliers in the data sets Furthermore withthe aim of reducing the uncertainty associated with the field of outlier detection we introduced a newgraphical tool

ix

x RESUMEN

Capiacutetulo 1

Introduccioacuten

El Instituto Galego de Estadiacutestica (IGE) es un organismo autoacutenomo de la Xunta de Galicia creadoen el antildeo 1988 cuyo objetivo es el de promover el desarrollo del sistema estadiacutestico de la comunidadautoacutenoma mediante servicios de recopilacioacuten y difusioacuten de la documentacioacuten estadiacutestica disponibledesenvolver bases de datos de intereacutes puacuteblico analizar las necesidades y la evolucioacuten de la demandade estadiacutesticas y asegurar su difusioacuten El IGE se erige por tanto como una de las principales fuentesde informacioacuten de datos de caraacutecter socioeconoacutemico de Galicia y de sus divisiones territoriales

Al igual que el resto de organismos del mismo aacutembito el IGE estaacute experimentando un incrementocontinuo tanto en la generacioacuten como en el almacenamiento de datos Es por esto que se hace devital importancia el incorporar una herramienta que nos permita identificar de un modo automaacuteticoposibles candidatos a valores atiacutepicos dentro de nuestros conjuntos de datos

Un dato atiacutepico o outlier en ingleacutes es una observacioacuten anoacutemala en comparacioacuten con el restode datos contenidos en un determinado conjunto de datos Puede deberse a diversos motivos desdeerrores humanos errores relacionados con la medicioacuten grabacioacuten e introduccioacuten de los datos hastacausas como que el dato procede de una poblacioacuten diferente de la que se pretende estudiar

Existen multitud de definiciones que nos permiten dibujarnos una idea de a queacute nos referimoscuando hablamos de valores atiacutepicos

ldquoUn dato atiacutepico es una observacioacuten que se desviacutea tanto del resto de observaciones como paracrear la sospecha de que fue creada por un mecanismo generador diferenterdquo - Hawkins (1980)

ldquoUn dato atiacutepico es una observacioacuten (o conjunto de observaciones) que son inconsistentes con elresto de datosrdquo - Barnett y Lewis (1996)

ldquoUn outlier es una observacioacuten que se encuentra fuera del patroacuten general de una distribucioacutenrdquo-Moore y McCabe (1999)

ldquoLos datos atiacutepicos pueden ser dependiendo de la circunstancia errores no deseados que puedenafectar negativamente al resultado o valiosas pepitas de informacioacuten inesperadardquo- Rousseeuw yHubert (2011)

Eliminar un dato de una muestra por haberlo considerado atiacutepico puede llevar a perder informacioacutenrelevante debido a una singularidad del mecanismo generador y a su vez incluir un dato atiacutepico en una

1

2 CAPIacuteTULO 1 INTRODUCCIOacuteN

muestra puede confundir los resultados Ambos casos alteran los anaacutelisis posteriores y pueden dirigira conclusiones incorrectas si se llegara a tomar la decisioacuten equivocada Por lo tanto la importanciareside en identificar de manera adecuada queacute datos son atiacutepicos y cuaacuteles no

Esta identificacioacuten seraacute de gran utilidad dado que permitiraacute tanto realizar mejores anaacutelisis comopoder interpretar sucesos relevantes en el contexto socio-econoacutemico gallego

El problema de la deteccioacuten de atiacutepicos es un tema ampliamente tratado en la literatura por loque nuestro trabajo consistiraacute en realizar un estudio comparativo de los meacutetodos maacutes comunes en laactualidad y plantear posibles mejoras

Uno de los criterios a los que le prestaremos mayor atencioacuten en este estudio seraacute a la sensibilidaddel meacutetodo dado que si este es muy sensible e identifica muchos candidatos como atiacutepicos no serviraacute degran ayuda Por otra parte si apenas sentildeala ninguacuten caso seraacute similar a no aplicar ninguna herramientade deteccioacuten

Para estudiar este comportamiento realizaremos un estudio de simulacioacuten en el que a traveacutes devalores atiacutepicos previamente identificados podremos analizar el comportamiento de cada meacutetodoAdemaacutes dado que trabajamos con un gran volumen de datos una caracteriacutestica que se les exigiraacute alos meacutetodos seraacute una raacutepida velocidad de ejecucioacuten

La deteccioacuten de datos atiacutepicos tiene aplicaciones en muchos aacutembitos deteccioacuten de operacionesfraudulentas en tarjetas de creacutedito solicitudes para preacutestamos de clientes potencialmente morososdeteccioacuten de intrusiones en redes de comunicacioacuten monitorizacioacuten de paraacutemetros de fabricacioacuten paradeteccioacuten de producciones defectuosas anomaliacuteas en monitorizaciones meacutedicas anaacutelisis electoraleslimpieza de datos prediccioacuten del tiempo o hasta en astronomiacutea donde un punto anoacutemalo puedeimplicar el descubrimiento de una nueva estrella

En este trabajo nos centraremos en datos reales provenientes de la paacutegina web del IGE recogidosen siete conjuntos

Conjunto 1 Viajeros noches y estancia media en establecimientos hoteleros y de turismo ruralen Espantildea Galicia y sus provincias Datos mensuales Los datos proceden del Instituto Nacio-nal de Estadiacutestica (INE) de la Encuesta de ocupacioacuten hotelera y la Encuesta de ocupacioacuten enalojamientos de turismo rural (httpwwwigeeuigebdtigeapidatos3476)

Conjunto 2 Poblacioacuten de 16 y maacutes antildeos por sexo grupos de edad y relacioacuten con la actividadeconoacutemica en Galicia Datos trimestrales Los datos proceden de la Encuesta de Poblacioacuten Activa(EPA) elaborada conjuntamente entre el INE y el IGE (httpwwwigeeuigebdtigeapidatos6356)

Conjunto 3 Contratos registrados seguacuten su modalidad Datos mensuales Esta informacioacuten proce-de de la Estadiacutestica de contratos registrados elaborada por el Servicio Puacuteblico de Empleo Estatal(SEPE) (httpwwwigeeuigebdtigeapidatos308)

Conjunto 4 Iacutendice de produccioacuten industrial general y por destino econoacutemico de los bienes en Ga-licia (Base 2015) Datos mensuales La informacioacuten procede del Iacutendice de Produccioacuten Industrialoperacioacuten estadiacutestica ejecutada por el INE (httpwwwigeeuigebdtigeapidatos9048)

Conjunto 5 Transacciones inmobiliarias por reacutegimen y tipo de vivienda Nuacutemero valor totaly valor medio Datos trimestrales La fuente de esta informacioacuten es el Ministerio de Fomento y

3

hace referencia a la compraventa de viviendas elevadas a escritura puacuteblica ante notario (httpwwwigeeuigebdtigeapidatos4052)

Conjunto 6 Bajas de demandas de empleo seguacuten geacutenero y duracioacuten de la demanda en Galiciay sus provincias Datos mensuales La fuente de esta informacioacuten es el SEPE y hace referenciaa las bajas que los servicios de empleo puacuteblico tuvieron debido a una colocacioacuten no hacer larenovacioacuten de la demanda en el periodo establecido o por otras causas (httpwwwigeeuigebdtigeapidatos1243)

Conjunto 7 Afiliaciones a la Seguridad Social uacuteltimo diacutea del mes en Galicia y sus provinciasDatos mensuales La informacioacuten procede del Ministerio de Seguridad Social y Migraciones yhace referencia a las personas trabajadoras que estaacuten en alta en la Seguridad Social (httpwwwigeeuigebdtigeapidatos4885)

Los motivos por los que se han escogido estos conjuntos obedece a diversas razones En primerlugar el maacutes importante incluir series en las que existe el conocimiento de que se presentan atiacutepicosA partir de ahiacute se ha conformado un conjunto de series que permitiesen recoger la mayor amalgamade naturalezas posibles que se presentan en las series que trata el IGE mercado laboral turismoconstruccioacuten o industria Seriacutean aacutembitos que se recogen a lo largo de la seleccioacuten de datos realizadaAdemaacutes se han incorporado series con distinta frecuencia de obtencioacuten tanto series mensuales comotrimestrales

En este trabajo se recoge una comparativa de meacutetodos los cuales se pueden englobar bajo dosvisiones de coacutemo abordar la identificacioacuten de anomaliacuteas en series de tiempo Por un lado existen losmeacutetodos cuyo mecanismo se fundamenta en modelos de series temporales que realizan un procesoiterativo para estimar el modelo integrando la posible influencia de observaciones atiacutepicas Por el otrouna visioacuten maacutes reciente se plantea a traveacutes de realizar un proceso de deteccioacuten en dos partes en laprimera se le aplica a la serie de tiempo un meacutetodo de descomposicioacuten para despueacutes aplicar un meacutetodode deteccioacuten de atiacutepicos sobre el residuo

Dado que ambos enfoques comparten un nexo comuacuten como es la modelizacioacuten de la serie de tiempoy la localizacioacuten de atiacutepicos las podemos tratar conjuntamente en dos capiacutetulos el Capiacutetulo 2 y elCapiacutetulo 3

En el Capiacutetulo 2 se estudian las propiedades de modelizacioacuten de cada meacutetodo La importancia deun buen meacutetodo de modelizacioacuten de series temporales reside en que cuanto mejor se consiga extraer elmecanismo generador de la serie de tiempo maacutes resaltaraacuten las observaciones atiacutepicas En el Capiacutetulo 3se describen los meacutetodos de deteccioacuten de atiacutepicos Estos dos capiacutetulos conforman la parte teoacuterica deltrabajo

Para estudiar el comportamiento de los diferentes meacutetodos se plantea un profundo estudio desimulacioacuten en el Capiacutetulo 4 en el que se utiliza el Iacutendice de Youden como herramienta discriminatoriaacerca de queacute meacutetodos ofrecen mejores resultados En el Capiacutetulo 5 se tratan los datos proporcionadospor el IGE a traveacutes de los meacutetodos que han presentado un mejor comportamiento en el estudio desimulacioacuten Para finalizar el Capiacutetulo 6 expone las conclusiones que hemos extraiacutedo a lo largo de larealizacioacuten de este trabajo

4 CAPIacuteTULO 1 INTRODUCCIOacuteN

Capiacutetulo 2

Modelizacioacuten de series temporales

21 Conceptos baacutesicos

En este apartado definiremos los elementos principales que rodean a las series de tiempo Para ellopodemos echar mano de infinidad de manuales dado que las mismas son objeto de estudio en multitudde campos desde las ciencias sociales y econoacutemicas hasta ramas que requieren de un bagaje muchomaacutes matemaacutetico En este trabajo haremos uso de Pentildea (2010) y Woodward Gray y Elliott (2017)

En la estadiacutestica baacutesica estamos acostumbrados a trabajar con una muestra donde las observacio-nes X1 X2 Xn son variables aleatorias independientes e ideacutenticamente distribuidas Sin embargocuando las muestras se extraen en base a instantes de tiempo es muy probable que las observacionesesteacuten correlacionadas entre si Este tipo de muestras con dependencia temporal se denominan series detiempo Es decir una serie de tiempo es una secuencia de observaciones ordenadas cronoloacutegicamente

Este tipo de datos se utilizan en muacuteltiples disciplinas algunos ejemplos podriacutean incluir desde elaacutembito econoacutemico como la evolucioacuten del Producto Interior Bruto (PIB) o del precio del petroacuteleo hastaaacutembitos como la meteorologiacutea midiendo la temperatura de una localidad durante un periacuteodo de tiempoo el aacutembito sanitario siguiendo la evolucioacuten de una enfermedad en un paciente

Uno de los principales inconvenientes a la hora de trabajar con series temporales son los datos atiacute-picos Estos datos atiacutepicos pueden tener dos naturalezas errores no deseados o pepitas de informacioacuten(Rousseeuw y Hubert 2011) Estas pepitas de informacioacuten pueden servirnos por ejemplo para locali-zar sucesos importantes como huelgas medidas de poliacutetica econoacutemica o desastres naturales (Goacutemez yTaguas 1995) Al igual que en el resto de campos de la estadiacutestica que en nuestro conjunto de datos seencuentren valores atiacutepicos puede llevarnos a incurrir en errores de especificacioacuten Como se mencionaen Chang Tiao y Chen (1988) es importante ser capaz de identificar estos sucesos para comprendermejor la estructura subyacente de la serie

Uno de los modelos maacutes comuacutenmente usado y utilizado como punto de partida en el anaacutelisisde series temporales es el modelo ARIMA Los modelos ARIMA ajustan los valores de la serie enbase a las observaciones previas y errores aleatorios con una estructura que le permite incluir tantocomponentes ciacuteclicos como estacionales Siendo Xtt una serie de tiempo un modelo ARIMA seriacuteaaquel que admite una representacioacuten

5

6 CAPIacuteTULO 2 MODELIZACIOacuteN DE SERIES TEMPORALES

φ(B)(1minusB)dXt = c+ θ(B)at

donde Xt es la observacioacuten t de la serie de tiempo B el operador retardo definido por BXt = Xtminus1φ(B) = (1minusφ1(B)minusφ2B

2minusminusφpBp) φ(B) = (1minusθ1Bminusθ2B2minusminusθqBq) cφ1 φ2 φpθ1 θ2 θp

son constantes d es el nuacutemero de diferencias necesarias para eliminar la tendencia de la serie at esruido blanco y p y q los oacuterdenes de los procesos autorregresivos (AR) y de medias moviles (MA)

Con esta representacioacuten del modelo ARIMA se puede deducir raacutepidamente que estos no son maacutes quela mezcla de los dos primeros modelos de series temporales formulados los modelos AR y los modelosMA Ademaacutes si el proceso que genera la serie de tiempo presenta la posibilidad de estar formado porcomponentes de largo periacuteodo temporal se debe hacer uso de los ARIMA estacional muacuteltiplicativoARIMA(pdq)x(PDQ) cuya representacioacuten seriacutea

φ(B)Φ(Bs)(1minusB)d(1minusBs)DXt = c+ θ(B)Θ(Bs)at

En esta nueva formulacioacuten D es el nuacutemero de diferenciaciones estacionales aplicadas para eliminarla componente estacional Φi y Θj las constantes respectivas a la parte estacional para i = 1 2 P yj = 1 2 Q con P igual al orden del proceso AR estacional y Q al orden del proceso MA estacional

Sin embargo la presencia de atiacutepicos puede llevar a un incorrecto ajuste de los paraacutemetros delmodelo debido a que se pueden ver sesgados por el efecto del atiacutepico La mala estimacioacuten de losparaacutemetros nos conduce a diversos errores dado que podemos no diseccionar bien la estructura dela serie como para entender su comportamiento Ademaacutes en el caso de que el atiacutepico se produzcaen la uacuteltima parte de la serie afectariacutea a las estimaciones futuras incurriendo en un error mayor deprediccioacuten

Por ello surgieron meacutetodos como X-13ARIMA-SEATS o TRAMO-SEATS que parten de los mo-delos ARIMA e introducen mejoras como la deteccioacuten y correccioacuten de atiacutepicos Estos meacutetodos fueronampliamente utilizados durante mucho tiempo para la modelizacioacuten de series temporales Sin embargoel desarrollo de la tecnologiacutea provocoacute la creacioacuten del Internet de las Cosas (Mahdavinejad et al 2018)un entorno en el que casi la totalidad de los objetos y personas estaacute conectado a internet dejandohuella de su comportamiento Las caracteriacutesticas de esta red provocaron un incremento enorme en lacreacioacuten y obtencioacuten de datos unas caracteriacutesticas para las cuales no estaban preparados estos meacutetodosdisentildeados para escalar a conjuntos de tamantildeo pequentildeo o mediano

Es aquiacute donde surge un nuevo enfoque para la deteccioacuten de valores atiacutepicos en series de tiempobasado en aplicar un proceso de descomposicioacuten y analizar los residuos Los procesos de descomposicioacutentienen por objetivo diseccionar una serie en tres componentes tendencia estacionalidad y residuo demodo que se pueda establecer un patroacuten de como se comporta En este trabajo el objetivo no es buscarel modelo maacutes preciso sino aquel que consiga trazar mejor la estructura subyacente de la serie de formaque resalte los posibles valores atiacutepicos en su componente residual y es por ello que estos modelosresultan de tanto intereacutes El primer meacutetodo basado en esta idea que recibioacute cierta repercusioacuten fue elpresentado por el equipo de Twitter (Hochenbaum Vallis y Kejariwal 2017) el cual fue maacutes tardeampliado en el paquete Anomalize de R (Dancho y Vaughan 2019)

Esta forma de proceder en dos partes descomposicioacuten maacutes deteccioacuten se debe a la idea de quevisualizar o localizar atiacutepicos en una serie es complicado debido a causas como la estacionalidad o

21 CONCEPTOS BAacuteSICOS 7

tendencia de la serie Aplicarle a la serie un proceso de descomposicioacuten permite extraer estas compo-nentes y resaltar las posibles anomaliacuteas A continuacioacuten en la Figura 21 mostramos un ejemplo deeste procedimiento utilizando uno de los meacutetodos que se emplearaacuten posteriormente en el trabajo STL

Figura 21 A la izquierda la serie referente al Nuacutemero Total de Afiliaciones a la Seguridad Social eluacuteltimo diacutea de mes en Pontevedra perteneciente al Conjunto 7 A la derecha los residuos obtenidos trasaplicarle la descomposicioacuten STL

Como se puede apreciar en la Figura 21 observar alguacuten comportamiento extrantildeo en la serie detiempo es complicado debido a las fluctuaciones que va sufriendo a lo largo de los antildeos Sin embargouna vez aplicado el proceso de descomposicioacuten y eliminado los efectos de estacionalidad y tendenciapodemos ver el efecto de la crisis del Covid-19 apareciendo en los uacuteltimos datos de la serie Esta crisisprovoca que los datos reales de esos meses disten mucho de los esperados lo que se traduce en fuertesincrementos en el tamantildeo del residuo

Lo interesante de estos meacutetodos es que los procesos de descomposicioacuten de series de tiempo soncapaces de analizar multitud de series de caracteriacutesticas muy diferentes y filtrarlas de tal modo que elproblema acabe residiendo en lo que aparentemente es un sencillo problema de deteccioacuten de valoresatiacutepicos en el caso univariante Mientras que los meacutetodos como X-13ARIMA-SEATS o TRAMO-SEATS se encuentran limitados en su disentildeo a trabajar solamente con series con frecuencias mensualeso trimestrales

Sin embargo Wilkinson (2017) resalta que el problema de la deteccioacuten de valores atiacutepicos en elcaso univariante es engantildeosamente sencillo lo cual puede llevarnos a cometer errores en la deteccioacutende atiacutepicos pese a haber realizado una buena descomposicioacuten de la serie Por ello en este trabajo seplantea un capiacutetulo dedicado a analizar las propiedades de diferentes meacutetodos de deteccioacuten

Por tanto en el trabajo coexisten dos mecanismos de deteccioacuten de atiacutepicos en series temporalesPor un lado los meacutetodos de ajuste de series temporales que incorporan la deteccioacuten y correccioacuten deatiacutepicos al modelo de modo automaacutetico Y por el otro aquellos meacutetodos de deteccioacuten de atiacutepicos cuyaidea se centra en aplicar un proceso de descomposicioacuten maacutes anaacutelisis del residuo

En la Seccioacuten 22 se describen los procesos de modelizacioacuten de series temporales utilizados y en elCapiacutetulo 3 se describen los procesos de deteccioacuten de atiacutepicos

8 CAPIacuteTULO 2 MODELIZACIOacuteN DE SERIES TEMPORALES

22 Meacutetodos de modelizacioacuten de series temporales

221 X-13ARIMA-SEATS

El meacutetodo X-13ARIMA-SEATS es la versioacuten actualizada y mejorada del modelo X-11 desarrolladopor Shiskin Young y Musgrave (1967) X-13ARIMA-SEATS fue creado por el Censo de los EstadosUnidos (US Census Bureau) y forma parte de una familia de modelos de ajuste para series temporalesque se han ido desarrollando y estaacuten disentildeados para trabajar con series econoacutemicas estacionales Unaexplicacioacuten completa del meacutetodo y de coacutemo ha de implantarse se puede encontrar en Time SeriesResearch Staff (2017)

Este modelo se basa en la estimacioacuten de lo que sus autores denominan modelos regARIMA Estosson modelos de regresioacuten con errores ARIMA En concreto la media de la serie estaacute descrita por unacombinacioacuten lineal de regresores y la matriz de covarianzas es la de un proceso ARIMA Se incluyenregresores para modelar efectos de calendario como festivos vacaciones o diacutea de la semana Ademaacutestambieacuten se incluyen otro tipo de regresores para modelar el efecto de las anomaliacuteas que se puedanpresentar El modo en que se aborda este campo lo trataremos en profundidad en el Capiacutetulo 3 conel resto de meacutetodos de deteccioacuten

El proceso de ajuste comienza por un pre-ajuste de la serie a traveacutes de eliminar el efecto determiniacutes-tico mediante un modelo de regresioacuten con errores ARIMA En el siguiente paso la serie pre-ajustada sedescompone en tendencia (t) estacionalidad (s) y residuo (i) Esta descomposicioacuten puede ser aditiva(y = t+s+i) multiplicativa (y = tlowastslowasti) log-aditiva (log(y) = log(t)+log(s)+log(i)) o pseudo-aditiva(y = t lowast (s+ iminus 1)) Este paso en el que se aplica el proceso de descomposicioacuten se basa en el uso delalgoritmo X11 que descompone la serie a traveacutes de filtros lineales La serie final ajustada debe estarlibre de estacionalidad y efectos de calendario

X-13ARIMA-SEATS estaacute implementado en la libreriacutea RJDemetra de R en la funcioacuten x13 y lasespecificaciones necesarias para llevar a cabo la deteccioacuten de atiacutepicos se tratan en el Capiacutetulo 3 juntocon la explicacioacuten del proceso de deteccioacuten

222 TRAMO-SEATS

El meacutetodo TRAMO-SEATS (Goacutemez y Maravall 1997) fue disentildeado por el Banco de Espantildea parael anaacutelisis de series de tiempo Esta herramienta estaacute formada por dos mecanismos La parte TRAMO(Time Series Regression with Arima noise Missing Observations and Outliers) y la parte SEATS(Signal Extraction in ARIMA Time Series)

Como se introduce en Goacutemez y Taguas (1995) el programa TRAMO puede ser utilizado inde-pendientemente de SEATS sin embargo SEATS ha sido disentildeado para trabajar conjuntamente conTRAMO Su finalidad es la de realizar un anaacutelisis detallado de series temporales ya que cuenta conmecanismos para realizar tareas de estimacioacuten prediccioacuten interpolacioacuten de modelos de regresioacuten convalores ausentes con errores ARIMA y correccioacuten de valores atiacutepicos El programa incluye variables deregresioacuten para modelizar los diacuteas de calendario que pueden influir en el comportamiento de la serie co-mo puede ser la Pascua y variables de intervencioacuten que permiten corregir el efecto de las observacionesatiacutepicas La idea en la que se basa el modelo es muy similar a la del modelo X-13ARIMA-SEATS

TRAMO elimina de la serie los efectos especiales identifica y elimina automaacuteticamente los efectos

22 MEacuteTODOS DE MODELIZACIOacuteN DE SERIES TEMPORALES 9

de varios tipos de atiacutepicos e interpola las observaciones ausentes Tambieacuten cuenta con un moacuteduloque permite la identificacioacuten automaacutetica de modelos herramienta que imitaron los desarrolladores deX-13ARIMA-SEATS y que en su momento le permitioacute relevar de tareas monoacutetonas a los analistasEste procedimiento de identificacioacuten automaacutetica estaacute basado en estimar primero las raiacuteces unitarias yutilizar despueacutes el Criterio de Informacioacuten Bayesiano (BIC ) para especificar un modelo ARMA a laserie diferenciada

Figura 22 Esquema de funcionamiento de TRAMO-SEATS (Goacutemez y Maravall 1997)

La Figura 22 (Goacutemez y Maravall 1997) muestra como se integran ambas partes TRAMO ySEATS para formar en conjunto el mecanismo completo de modelizacioacuten

SEATS fue disentildeado originalmente para desestacionalizar series temporales El programa descom-pone una serie que sigue un modelo ARIMA en varios componentes tendencia componente estacionalciclo y componente irregular La descomposicioacuten puede ser aditiva o multiplicativa La descomposicioacutenparte de la hipoacutetesis de ortogonalidad de los componentes que a su vez siguen modelos ARIMA Paraidentificar los componentes se requiere que excepto el irregular esteacuten limpios de ruido blanco De estemodo se maximiza la varianza de este uacuteltimo y al contrario la tendencia el componente estacional yel ciclo son lo maacutes estables posibles

El modelo tratado por SEATS es el de una serie integrada lineal con innovaciones gaussianas Estahipoacutetesis puede no ser cierta en muacuteltiples ocasiones pero siempre es necesario extraer un modelo espor ello que SEATS fue disentildeada para ser utilizada de forma conjunta con TRAMO

TRAMO-SEATS estaacute implementado en la libreriacutea RJDemetra de R en la funcioacuten tramoseats y las

10 CAPIacuteTULO 2 MODELIZACIOacuteN DE SERIES TEMPORALES

especificaciones necesarias para llevar a cabo la deteccioacuten de atiacutepicos se tratan en el capiacutetulo 3 juntocon la explicacioacuten del proceso de deteccioacuten

223 STL

STL es un proceso de filtrado para descomponer series de tiempo en tendencia estacionalidad yresiduo cuyo nombre se debe a sus siglas en ingleacutes Seasonal-Trend decomposition based on Loessintroducido por Cleveland Cleveland McRae y Terpenning (1990) El propoacutesito de este meacutetodo fue elde desarrollar un meacutetodo de descomposicioacuten de series de tiempo que cumpliese los siguientes requisitos

1 Disentildeo sencillo y uso inmediato

2 Flexibilidad a la hora de especificar las variaciones en la tendencia y estacionalidad

3 Poder descomponer series de tiempo con valores faltantes

4 Tendencia y estacionalidad robusta de modo que no se vea distorsionada por datos anoacutemalos

5 Raacutepida computacioacuten y faacutecil implementacioacuten incluso para series temporales largas

El procedimiento de STL consiste en una secuencia de operaciones de suavizado realizadas todasellas salvo una por el mismo suavizador loess El mecanismo consiste en dos bucles uno interno yotro externo

Cada vuelta del bucle interno consiste en un suavizado estacional que actualiza dicha componenteseguido de un suavizado de la tendencia que actualiza la componente asociada con la tendencia Porotra parte cada vuelta del bucle externo consiste en aplicarle una serie de pesos robustos al bucleinterno Estos pesos se utilizan en la siguiente vuelta del bucle interno para reducir la influencia de losdatos anoacutemalos

La aplicacioacuten de la estimacioacuten robusta seraacute necesaria cuando exista un conocimiento previo de quelos datos tienen un comportamiento no gaussiano que conduce a una variacioacuten transitoria extrema delo contrario se pueden omitir las iteraciones del bucle externo y STL consistiriacutea solamente en el bucleinterno

A diferencia de otros meacutetodos como TRAMO-SEATS o X-13ARIMA-SEATS STL puede tratarcualquier tipo de estacionalidad en vez de estar atado a estacionalidades mensuales o trimestrales Sucomponente estacional es capaz de cambiar a lo largo del tiempo y dicho cambio puede ser controladopor el usuario Lo mismo sucede con el suavizado de la componente relacionada con la tendencia Unode sus inconvenientes es que no opera si en la serie se encuentran valores faltantes

En R encontramos este meacutetodo bajo la funcioacuten stl a la cual solo habraacute que especificarle unparaacutemetro Dicho paraacutemetro es el relacionado con el suavizado de la componente estacional e indicaal mecanismo el nuacutemero de observaciones consecutivas a utilizar para estimar los valores de dichacomponente Se podriacutea introducir un valor numeacuterico si tenemos alguacuten indicio sobre el posible desarrollode la componente estacional sin embargo dado que vamos a aplicarlo a un gran nuacutemero de series elanaacutelisis individual seriacutea costoso La solucioacuten utilizada en este trabajo pasa por fijar este paraacutemetrocomo perioacutedico lo cual asume que la evolucioacuten de la componente estacional es ideacutentica a lo largo delos antildeos que se desarrolla la serie

22 MEacuteTODOS DE MODELIZACIOacuteN DE SERIES TEMPORALES 11

224 STR

STR es un meacutetodo de descomposicioacuten de series de tiempo presentado por Dokumentov y Hyndman(2015) Sus siglas se deben a su nombre en ingleacutes Seasonal-Trend decomposition procedure based onRegression similar a la idea de STL salvo que ahora en vez de basarse en loess lo hace en regresioacutenEn concreto seguacuten los autores STR es similar a la regresioacuten Ridge (Hoerl y Kennard 1970) y suversioacuten robusta Robust STR (Dokumentov y Hyndman 2015) se podriacutea relacionar con una regresioacutenLASSO (Tibshirani 1996)

La idea de su desarrollo se originoacute debido a que los autores consideran que a pesar de existir variosalgoritmos de descomposicioacuten de series de tiempo existen muchas caracteriacutesticas en ellas que dichosalgoritmos son incapaces de tratar Las principales deficiencias que encuentran son

Incapacidad para proporcionar un modelo estadiacutestico significativo y simple

Incapacidad (o dificultad) para calcular intervalos de confianza

Incapacidad para tener en cuenta regresores

Incapacidad para tener en cuenta estacionalidad fraccionada

Incapacidad para tener en cuenta muacuteltiples estacionalidades

Incapacidad para tener en cuenta estacionalidades complejas y regresores que afecten a los datosde un modo estacional

El objetivo con el que se desarrolloacute STR fue el de corregir estas deficiencias a la par que presentar unmeacutetodo claro geneacuterico simple y robusto si fuera necesario Para solucionar estas deficiencias enfocan ladescomposicioacuten como un problema a resolver a traveacutes de una regresioacuten cuantil o de miacutenimos cuadradosordinarios

De acuerdo a sus desarrolladores STR constituye el meacutetodo de descomposicioacuten de series de tiempomaacutes geneacuterico disponible en el momento de su publicacioacuten Sin embargo matizan una gran desventajaque presenta el meacutetodo y es su ineficiencia o la ralentizacioacuten que sufre el mecanismo a la hora de tratarcasos en los que se utilizan varios componentes o predictores estacionales

Uno de sus desarrolladores Rob J Hyndman es conocido por sus aportaciones en el campo delas series de tiempo y su posterior implantacioacuten en paquetes para el software R como el famosopaquete forecast En este caso tambieacuten ha colaborado en la implantacioacuten de STR con el paquete stR(Dokumentov y Hyndman 2018)

225 Twitter

En Hochenbaum et al (2017) se aborda el problema de deteccioacuten de valores atiacutepicos en series detiempo introduciendo la idea de descomposicioacuten maacutes deteccioacuten como hemos comentado en la introduc-cioacuten de esta seccioacuten El equipo de Twitter plantea en su artiacuteculo utilizar en un primer momento STLcomo meacutetodo de descomposicioacuten para obtener los residuos sin embargo a la hora de trabajar con estemeacutetodo encuentran una serie de inconvenientes Estos inconvenientes estariacutean provocados por ciertasanomaliacuteas espurias producidas en el residuo

12 CAPIacuteTULO 2 MODELIZACIOacuteN DE SERIES TEMPORALES

Para corregir esta situacioacuten optan por utilizar la mediana de la serie de tiempo para representar latendencia ldquoestablerdquo que despueacutes seraacute utilizada para calcular el residuo

De este modo afirman que reemplazando la tendencia con la mediana se eliminan las anomaliacuteasespurias o ilegiacutetimas del residuo Los mismos desarrolladores publicaron un paquete en la plataformaGitHub (Twitter Inc 2015) que nos permitiacutea hacer uso de este mecanismo sin embargo su manteni-miento cesoacute a finales de 2015 y el paquete fue eliminado de la plataforma CRAN en marzo de 2019 Elpaquete Anomalize (Dancho y Vaughan 2019) recoge este mecanismo y seraacute el paquete que utilizaremosen este trabajo para utilizar esta modificacioacuten del meacutetodo STL bajo la funcioacuten decompose_twitter

23 RESUMEN MEacuteTODOS DE MODELIZACIOacuteN DE SERIES TEMPORALES 13

23 Resumen meacutetodos de modelizacioacuten de series temporales

Meacutetodo Ventajas Contras

X-13ARIMA-SEATS(2017)

Capaz de tratar con valores fal-tantesIntegra diversos tipos de descom-posicioacutenRaacutepida velocidad de ejecucioacuten

Disentildeado para trabajar solo conseries mensuales o trimestrales

TRAMO-SEATS(1997) Capaz de tratar con valores fal-tantesIntegra diversos tipos de descom-posicioacutenRaacutepida velocidad de ejecucioacuten

Disentildeado para trabajar solo conseries mensuales o trimestrales

STL(1990) Puede tratar series de cualquierfrecuenciaRaacutepidoCuenta con versioacuten robusta

No admite valores faltantesCarece de flexibilidad cuando elperiacuteodo estacional es largo y seobserva mucho ruido en la serieAuacuten con su versioacuten robusta pue-de verse afectado por la influen-cia de los atiacutepicos

STR(2015) Puede tratar series de cualquierfrecuenciaCuenta con versioacuten robustaAdmite valores faltantesSensible a cambios de estaciona-lidad

No puede seguir cambios bruscosen la tendenciaExtremadamente lento en com-paracioacuten al resto de meacutetodos

Twitter(2017) Puede tratar series de cualquierfrecuenciaElimina anomaliacuteas espuacutereas en lacomponente residualRaacutepido

No admite valores faltantesNo cuenta con versioacuten robusta

Cuadro 21 Resumen de los meacutetodos de modelizacioacuten de series temporales

14 CAPIacuteTULO 2 MODELIZACIOacuteN DE SERIES TEMPORALES

Capiacutetulo 3

Deteccioacuten de valores atiacutepicos

31 Conceptos baacutesicos

El problema que supone en la estadiacutestica la presencia de valores atiacutepicos aparecioacute muy pronto EnHawkins (1980) mencionan que este problema pudo haber surgido ya en los siglos XVIII y XIX enencuestas estadiacutesticas que se realizaban Las primeras decisiones de queacute hacer con ellos se basaron encriterios puramente subjetivos en los que era el propio analista el que decidiacutea descartar una observacioacutensi pareciacutea anoacutemala respecto al resto de los datos

Posteriormente se comenzaron a plantear posibles soluciones para tratar el problema bajo uncriterio La primera de ellas fue la presentada por Peirce (1852) basada en lo que se podriacutea entendercomo un test de razoacuten de verosimilitud donde todos los valores que superasen el umbral determinadopor cσ seriacutean rechazados siendo c una constante a calcular y σ la desviacioacuten tiacutepica de la muestraVarios autores realizaron criacuteticas a este meacutetodo y propusieron su correccioacuten a este criterio una de ellasfue la de Chauvenet (1963) Esta pasaba por calificar a una observacioacuten como atiacutepico si su valor sesituaba fuera del intervalo definido por 1(4n) puntos de la distribucioacuten Normal siendo n el tamantildeode la muestra

En ese momento surgen diversas propuestas no muy relevantes que trataron de abordar dichoproblema hasta que surgioacute la llevada a cabo por Thompson (1935) Su estudio condujo a descubrir ladistribucioacuten nula de un residuo estudentizado

xi minus xs

donde xi es la observacioacuten sospechosa de ser atiacutepica x la media muestral y s la desviacioacuten tiacutepica de lamuestra A partir de esto pudo deducir un procedimiento de deteccioacuten de atiacutepicos que rechazariacutea unaproporcioacuten fija de todos los datos buenos y devolveriacutea una tabla con los valores criacuteticos adecuados

Esta idea supuso el desarrollo del test de Grubbs (1950) el cual utilizando la misma notacioacutenanterior basaba su regla en los momentos muestrales de una normal

G =max1leilen|xi minus x|

s

Grubbs (1950) asocioacute G con una distribucioacuten t con el objetivo de encontrar un maacuteximo y un miacutenimo

15

16 CAPIacuteTULO 3 DETECCIOacuteN DE VALORES ATIacutePICOS

para localizar atiacutepicos Esta idea fue posteriormente ampliada dando lugar al meacutetodo GESD (Rosner1983) el cual se detalla en la siguiente seccioacuten

Posteriormente se presentoacute una de las herramientas maacutes comuacutenmente utilizadas para la identifi-cacioacuten de atiacutepicos el boxplot introducido en Tukey (1977) Sin embargo el objetivo inicial no fue ladeteccioacuten de atiacutepicos sino como un meacutetodo para trazar una idea del intervalo en el que se encuentranla gran parte de nuestros datos Ademaacutes la forma en la que se construye provoca dos grandes incon-venientes No se puede aplicar a distribuciones sesgadas y dado que no incluye el tamantildeo muestral ensu formulacioacuten tenderaacute a etiquetar falsos atiacutepicos cuanto maacutes grande sea la muestra

A la par que se iban presentando estas ideas para la buacutesqueda de valores atiacutepicos en un conjuntode datos se fueron presentando mecanismos enfocados a las series de tiempo

Uno de los primeros aportes al tratamiento de datos atiacutepicos en series de tiempo fue propuestopor G E P Box y Tiao (1975) Sin embargo este meacutetodo solamente permitiacutea modelar el efecto de laobservacioacuten atiacutepica si se conociacutea de antemano el momento de la intervencioacuten por lo que no se podriacuteaconsiderar una herramienta de deteccioacuten sino maacutes bien una herramienta de intervencioacuten

Posteriormente se propusieron diversos meacutetodos para abordar el problema de la estimacioacuten demodelos ARIMA en series bajo esta circunstancia El primero de ellos fue el de Abraham y Box(1979) que se basaba en proponer un enfoque bayesiano para resolver el problema partiendo de ideassimilares a las que se habiacutean propuesto en otros contextos por autores como Tukey (1977) Otro meacutetodoque buscaba resolver tambieacuten el mismo problema fue el propuesto por Chang y Tiao (1983) cuya idease centraba en aplicar un proceso iterativo

Fue en este artiacuteculo (Chang y Tiao 1983) donde se propuso por primera vez un meacutetodo de deteccioacutene identificacioacuten de atiacutepicos Tsay (1986) propuso su versioacuten que se basaba en combinar el procesoiterativo presentado en Chang y Tiao (1983) con la funcioacuten de autocorrelacioacuten muestral extendidadesarrollada en Tsay y Tiao (1984) la cual permite eliminar la necesidad de determinar el orden dediferenciacioacuten para producir una serie estacionaria que modelar

En Chen y Liu (1993) se reconocen los numerosos aportes hechos en los anteriores artiacuteculos citadospero matiza que algunos problemas seguiacutean estando vigentes

a La presencia de atiacutepicos puede resultar en un modelo inapropiado

b Incluso si el modelo es el apropiado los atiacutepicos pueden seguir produciendo sesgo en el paraacutemetroestimado y por tanto afectar a la deteccioacuten del atiacutepico

c Algunos atiacutepicos no van a ser identificados debido a un problema de enmascaramiento

Su objetivo era presentar un meacutetodo que fuese capaz de resolver los problemas b y c de modo quese pudiese generalizar para aplicar a los cuatro tipos de atiacutepicos en series temporales que se habiacutean idointroduciendo Los cuatro tipos son

IO (atiacutepico innovativo) existe un atiacutepico innovativo en el momento t cuando la innovacioacuten en esepunto esteacute directamente provocada por una cantidad desconocida debido a un suceso imprevisto

AO (atiacutepico aditivo) diremos que se produce un atiacutepico aditivo si en el momento t la serie segenera de manera diferente al resto

32 MEacuteTODOS DE DETECCIOacuteN DE VALORES ATIacutePICOS 17

LS (cambio de nivel) existe un cambio de nivel si en el momento t la serie experimenta unincremento de todos sus valores A diferencia del resto tiene un efecto permanente sobre la serieuna vez aparece

TC (cambio temporal) similar al cambio de nivel solo que el efecto no es permanente y decreceexponencialmente con el tiempo

X-13ARIMA-SEATS y TRAMO-SEATS basan su proceso de deteccioacuten de atiacutepicos en meacutetodosinspirados en el artiacuteculo de Chen y Liu (1993) cuya idea se fundamenta en integrar un mecanismoiterativo disentildeado para trabajar con series de tiempo que localiza e integra los atiacutepicos al modelo Porotra parte en la siguiente seccioacuten introducimos los meacutetodos de deteccioacuten de atiacutepicos que acompantildeana los procesos de descomposicioacuten de series de tiempo estos son GESD Isolation Forest y HDoutliersEstos meacutetodos son desarrollos de los mecanismos e ideas tratados al comienzo de esta seccioacuten como elmeacutetodo Grubbs (Grubbs 1950)

32 Meacutetodos de deteccioacuten de valores atiacutepicos

321 X-13ARIMA-SEATS

El anaacutelisis de diagnoacutestico del modelo regARIMA se realiza a traveacutes del anaacutelisis de los residuos delmodelo estimado Para el apartado de anaacutelisis de valores atiacutepicos X-13ARIMA-SEATS se fundamentaen Chang y Tiao (1983) con extensiones y modificaciones tratadas en Bell (1983) y Otto y Bell (1990)donde los valores atiacutepicos pueden ser de tres de los cuatro tipos antes mencionados AO LS y TC

El enfoque que plantea este mecanismo de deteccioacuten es similar a la regresioacuten paso a paso procedi-miento de regresioacuten en el que se construye el modelo a traveacutes de ir antildeadiendo o eliminando variablespredictoras en base a criterios de informacioacuten

En este caso las variables candidatas para la regresioacuten son las AO LS y TC para todos los puntosen los que la deteccioacuten de atiacutepicos se realiza Es decir se calcula el t-estadiacutestico para ver la significa-tividad de cada tipo de atiacutepico en cada instante temporal se busca significatividad entre todos estost-estadiacutesticos y se antildeade la correspondiente variable de regresioacuten (AO LS o TC) al modelo con el finde corregir los efectos que producen estas observaciones atiacutepicas De este modo se identifica e introduceel efecto de un momento atiacutepico en el modelo Mientras se produce el proceso de deteccioacuten de atiacutepicosse utiliza un estimador robusto de la desviacioacuten residual estaacutendar 148lowastla mediana del valor absolutode la desviacioacuten residual

X-13ARIMA-SEATS antildeade dos variaciones a este meacutetodo El meacutetodo addone en el que cada vezque se antildeade al modelo un atiacutepico se lleva a cabo una re-estimacioacuten del modelo y el meacutetodo addallque re-estima el modelo solo cuando un nuacutemero de variables atiacutepicas han sido antildeadidas al modelo

Este meacutetodo estaacute implantado en R a traveacutes de la funcioacuten x13 del paquete RJDemetra Dicha funcioacutenrequiere de un paraacutemetro de especificacioacuten spec en que se concreta el modelo que queremos introducirEste paraacutemetro es el que nos ofrece diversas posibilidades de modelizacioacuten de la serie como se recogeen la Figura 31 entre ellas los efectos de calendario o los atiacutepicos que presente la serie Dado quebuscamos sucesos atiacutepicos en su sentido maacutes amplio vamos a omitir incluir los efectos de calendarioy solamente introducir la deteccioacuten automaacutetica de atiacutepicos Esto provoca que en nuestro trabajo la

18 CAPIacuteTULO 3 DETECCIOacuteN DE VALORES ATIacutePICOS

especificacioacuten que nos interesa y con la que hemos trabajado sea RSA3 La opcioacuten RSA3 permiteajustar automaacuteticamente un modelo ARIMA identificando y corrigiendo las posibles observacionesanoacutemalas El resto de modificaciones que permite introducir el paraacutemetro de especificacioacuten de la funcioacutenx13 se recogen en la Figura 31 Por ejemplo si estuvieacutesemos interesados en modelizar nuestros datosa traveacutes de un modelo ARIMA de liacuteneas aeacutereas observariacuteamos en la Figura 31 que tendriacuteamos queescoger la especificacioacuten RSA0 Si ahora quisieacuteramos antildeadirle a dicho modelo deteccioacuten de atiacutepicostendriacuteamos que cambiar el paraacutemetro de especificacioacuten a RSA1 y si ademaacutes tambieacuten nos interesamodelar los efectos de calendario sobre dicho modelo introduciriacuteamos la especificacioacuten RSA2 El restode especificaciones ya trabajan sobre el ajuste de un modelo ARIMA de un modo automaacutetico la maacutessencilla es la que utilizamos nosotros en este trabajo RSA3 la cual ajusta un modelo ARIMA deforma automaacutetica incluyendo la deteccioacuten de atiacutepicos Las especificaciones RSA4 y RSA5 incorporanrespecto a RSA3 modelizar los efectos de calendario La diferencia entre ellas se encuentra en queRSA4 incluye en el modelo los efectos de calendario a traveacutes de dos variables que representan losdiacuteas laborables y los fines de semana y RSA5 incluye dichos efectos a traveacutes de siete variables cadadiacutea de la semana y ambas incluyen el efecto de la Pascua en el calendario Por uacuteltimo se encuentrala especificacioacuten RSAfull que incluye el ajuste automaacutetico de un modelo ARIMA y de los efectos decalendario e incorpora la deteccioacuten de atiacutepicos Todas estas especificaciones son las que se detallan enla Figura 31 para profundizar maacutes en ellas se puede consultar el manual de la libreriacutea RJDemetra (laTente Michalek Palate y Baeyens 2020)

Figura 31 Paraacutemetro de especificaciones a introducir al modelo X-13ARIMA-SEATS

322 TRAMO-SEATS

El mecanismo de deteccioacuten de atiacutepicos que utiliza el programa TRAMO-SEATS aborda el problemacon la intencioacuten de resolver los problemas b y c introducidos en el inicio del Capiacutetulo 3 dado queentiende que estos no se han resuelto de un modo satisfactorio en Chen y Liu (1993) En Goacutemez yTaguas (1995) explican que aunque este meacutetodo funciona de forma bastante satisfactoria su solucioacutenpresenta una serie de deficiencias

1 Se estima varias veces por maacutexima verosimilitud exacta lo que es costoso

2 No utiliza residuos exactos

3 El algoritmo es excesivamente complicado

4 Las regresiones muacuteltiples no se hacen filtrando los datos y las columnas de la matriz por un filtroexacto como el filtro de Kalman sino que se utiliza un filtro condicional

32 MEacuteTODOS DE DETECCIOacuteN DE VALORES ATIacutePICOS 19

Por tanto se presenta un mecanismo que pretende subsanar estas deficiencias a la par que corregirlos problemas b y c mencionados en Chen y Liu (1993) Ademaacutes si se utiliza de forma secuencial juntocon el procedimiento de especificacioacuten automaacutetica del programa supone un procedimiento alternativoal de Tsay (1986)

Al igual que X-13ARIMA-SEATS TRAMO-SEATS estaacute implementado en la libreriacutea RJDemetra

de R en la funcioacuten tramoseats Dicha funcioacuten tambieacuten requiere de un paraacutemetro de especificacioacutenspec en el que se concreta el modelo que queremos introducir La utilidad y mecanismo sobre el quetrabaja este paraacutemetro es ideacutentico al explicado en la Seccioacuten 321 para el meacutetodo X-13ARIMA-SEATSpor lo que utilizaremos la especificacioacuten RSA3 Esta especificacioacuten incluye el ajuste automaacutetico de unmodelo ARIMA corrigiendo las posibles observaciones atiacutepicas

El resto de posibles especificaciones que se pueden incluir en el modelo se recogen en la Figura32 El significado de esta figura es equivalente al de la Figura 31 dado que ambos modelos TRAMO-SEATS y X-13ARIMA-SEATS estaacuten implementados en la misma libreria RJDemetra y compartenel mismo paraacutemetro de especificacioacuten en la funcioacuten que estima sus modelos en R

Figura 32 Paraacutemetro de especificaciones a introducir al modelo TRAMO-SEATS

323 GESD

Introducido por Rosner (1983) como una mejora al por entonces conocido ESD (Rosner 1975) porsus siglas en ingleacutes Extreme Studentized Deviate A pesar de que ESD contaba con buenas propiedadesante una amplia alternativa de atiacutepicos presentaba una serie de defectos que le conduciacutean a etiquetarmaacutes candidatos a atiacutepicos que el nuacutemero apropiado Esto provocoacute que se quedase obsoleto en favor desu actualizacioacuten GESD General Extreme Studentized Deviate

Los pasos que sigue son los siguientes

1 Decidir un maacuteximo nuacutemero de posibles candidatos a atiacutepicos r La recomendacioacuten es de consi-derar el 20 del tamantildeo muestral

2 Comenzar las iteraciones i = 1

3 Calcular Ri = maxt|ximinusx|s siendo xi una observacioacuten sospechosa de ser anoacutemala x la media

muestral y s la desviacioacuten estaacutendar de la muestra respectivamente

4 Eliminar la observacioacuten que maximice xi minus x

5 Calcular el siguiente valor criacutetico λi =(nminusi)tpnminusi+1radic

(nminus1minus1+t2pnminusiminus1)(nminusi+1)

donde tpnminusi+1 es una distribucioacuten t con n minus i minus 1 grados de libertad y p = 1 minus α2(nminusi+1 siendo

α la probabilidad de cometer errores de tipo I

20 CAPIacuteTULO 3 DETECCIOacuteN DE VALORES ATIacutePICOS

6 Pasar a la siguiente iteracioacuten repetir los pasos 2 a 5 hasta i = r quedando r definido en el paso1

7 El nuacutemero de atiacutepicos detectados se determina al encontrar el mayor i tal que Ri gt λi dondeRi se define en el paso 2 y λi en el paso 5

GESD es principalmente el test de Grubbs (Grubbs 1950) aplicado de forma secuencial sin embargoexisten unas pequentildeas diferencias que premian su comportamiento GESD realiza ajustes del valorcriacutetico en base al nuacutemero de atiacutepicos a ser estudiado algo que el test de Grubbs no hace Ademaacutessi existe efecto de enmascaramiento aplicar el test de Grubbs de forma secuencial produciriacutea unadetencioacuten demasiado temprana del algoritmo de deteccioacuten lo que impediriacutea localizar algunos atiacutepicos

Los estudios de simulacioacuten realizados para estudiar el comportamiento de GESD indican que elmeacutetodo es muy preciso cuando contamos con tamantildeos muestrales n gt 25 por lo que en nuestrotrabajo no tendremos problema Sin embargo debido a que es un meacutetodo iterativo seraacute maacutes costosocomputacionalmente a medida que se incrementen los tamantildeos muestrales y es algo a tener en cuentacomo posible freno al crecimiento futuro del mecanismo de deteccioacuten

En R podemos encontrar la funcioacuten gesd dentro del paquete Anomalize (Dancho y Vaughan 2019)

324 Isolation Forest

Isolation Forest o iForest es el meacutetodo presentado por Liu Ting y Zhou (2009) donde se tratael tema de deteccioacuten de atiacutepicos desde un punto de vista diferente Ese punto de vista se basa en dospropiedades relacionadas con la idea de queacute es un valor atiacutepico son la minoriacutea de un conjunto y tienenunos atributos muy diferentes a los de las observaciones normales Es decir las anomaliacuteas son pocas ydiferentes lo que las hace maacutes propensas a encontrarse aisladas del resto

Por esta razoacuten los autores presentan un meacutetodo basado en construir un aacuterbol que aiacutesle cada ob-servacioacuten de tal modo que los valores atiacutepicos se encontraraacuten en ramas maacutes proacuteximas a la raiacutez y losvalores normales se encontraraacuten en zonas maacutes profundas del aacuterbol Es por ello que iForest (Liu et al2009) se distingue del resto de mecanismos basados en modelos distancias o densidades

Figura 33 Idea sobre la que se sustenta el mecanismo de Isolation Forest

32 MEacuteTODOS DE DETECCIOacuteN DE VALORES ATIacutePICOS 21

En la Figura 33 se puede observar la idea sobre la que se rige este mecanismo Un punto normalxi requiere maacutes particiones para ser aislado Y el opuesto tambieacuten es cierto donde un punto anoacutemalox0 requiere menos particiones para ser aislado Por lo que se trata de calcular la ldquolongitud del caminordquoa ser aislado dado que los valores atiacutepicos tendraacuten caminos maacutes cortos que los de los valores normales

Para definir como se calcula la ldquolongitud del caminordquo es necesario definir primero el aacuterbol deaislamiento Isolation Tree El aacuterbol de aislamiento seriacutea toda la estructura de ramas que trocean elconjunto de datos La longitud del camino h(x) path length de un punto x se mediriacutea por tanto comoel nuacutemero de ramas a atravesar desde la raiacutez del aacuterbol al punto

Es necesario definir una puntuacioacuten de cuaacuten anoacutemala es una observacioacuten score para ello se intro-duce c(n) como la media de h(x) siendo E el operador esperanza dado el tamantildeo de la muestra nDe tal modo que

Cuando E(h(x))rarr c(n) scorerarr 05

Cuando E(h(x))rarr 0 scorerarr 1

Cuando E(h(x))rarr nminus 1 scorerarr 0

Haciendo uso de la puntuacioacuten anoacutemala que recibe cada punto score tenemos que

Si score es cercano a 1 la observacioacuten es atiacutepica

Si la observacioacuten presenta valores de score inferiores a 05 pueden ser calificadas como observa-ciones normales

Si todas las observaciones devuelven un valor score asymp 05 entonces la muestra entera carece deatiacutepicos

En el artiacuteculo fijan como atiacutepicos potenciales observaciones con score ge 06 en este trabajo somosmaacutes estrictos y fijamos el umbral en score ge 075 Esta decisioacuten se toma tras probar diferentes umbralesy observar el comportamiento del meacutetodo en el estudio de simulacioacuten y en los datos reales Otrosumbrales que se barajaron y descartaron por los resultados mostrados fueron score ge 07 por serdemasiado laxo y score ge 08 por ser demasiado estricto

En R existen dos libreriacuteas que implantan dicho meacutetodo una es la implantada por la empresa H20 lacual ha desarrollado el algoritmo HDoutliers utilizado en este trabajo Y la otra es la libreriacutea solitude(Srikanth 2017) la cual hemos usado para el desarrollo de este trabajo

325 HDoutliers

HDoutliers (Wilkinson 2017) es un algoritmo que se puede aplicar en multitud de escenarios posi-bles desde el maacutes sencillo que seriacutea el caso univariante hasta maacutes complejos como el multidimensionalo el espacial La idea sobre la que se desarrolla es la de buscar espacios entre los valores ordenadosmaacutes que en la de buscar valores extremos De los meacutetodos que se centran en la idea de buscar valoresextremos como por ejemplo el test de Grubbs y por tanto GESD el autor hace una criacutetica y es queestos utilizan medidas como la media muestral o la desviacioacuten tiacutepica las cuales no son robustas frentea valores atiacutepicos

22 CAPIacuteTULO 3 DETECCIOacuteN DE VALORES ATIacutePICOS

El concepto anterior se puede explicar de un modo muy sencillo a traveacutes de un ejemplo que se recogeen Wilkinson (2017) En los resultados a un examen al que se presentaron 100 alumnos obtenemos unapuntuacioacuten media de 50 y una desviacioacuten estaacutendar de 5 Si entre todas las notas un alumno obtuvo un100 y la siguiente mejor nota es un 65 se podriacutea sospechar que ese alumno es un genio o un tramposoPor otra parte si la nota perfecta se encuentra en el punto maacutes alto de una serie de notas que difieren5 puntos entre ellas ese alumno ya no seriacutea tan sospechoso Los test claacutesicos de valores atiacutepicos no soncapaces de diferir entre ambas situaciones

Figura 34 El algoritmo de HDoutliers aplicado sobre el ejemplo anterior (Wilkinson 2017)

En la Figura 34 se representa este ejemplo En el caso de la izquierda estariacuteamos en la situacioacutenen la que no se sospecha que se hayan producido trampas por parte de ninguacuten alumno y el meacutetodoHDoutliers no detectariacutea ninguacuten candidato a atiacutepico A la derecha tendriacuteamos la situacioacuten en la quesospechariacuteamos de que existe un alumno brillante o tramposo y el meacutetodo detectariacutea una situacioacutenatiacutepica como se sentildeala con el punto rojo

La solucioacuten de buscar espacios permite identificar valores inusuales tanto en el medio de las dis-tribuciones como en los extremos Para ello HDoutliers calcula la distancia al vecino maacutes cercanoDespueacutes ajusta una distribucioacuten exponencial a la cola superior de las distancias calculadas y calcula elvalor 1minusα siendo α la probabilidad de cometer un error tipo I superior de la funcioacuten de distribucioacutenacumulada Por lo que cada observacioacuten que se encuentre significativamente alejada del resto basadaen este punto de corte se etiquetaraacute como atiacutepica

El autor menciona que este meacutetodo difiere de aquellos que se basan en hacer un ranking de candi-datos a atiacutepicos como podriacutea ser Local Outlier Factor (Breunig Kriegel Ng y Sander 2000) o quelos etiquetan bajo un liacutemite arbitrario como seriacutea el caso de Isolation Forest (Liu et al 2009) dadoque pueden conducir a resultados inconsistentes Para ello lo que hace es asignar una probabilidad ala creencia de que estamos ante un atiacutepico

En R podemos encontrar este meacutetodo en la libreriacutea HDoutliers (Fraley y Wilkinson 2020)

33 RESUMEN MEacuteTODOS DE DETECCIOacuteN DE VALORES ATIacutePICOS 23

33 Resumen meacutetodos de deteccioacuten de valores atiacutepicos

Meacutetodo Ventajas Contras

X-13ARIMA-SEATS(2017)

Califica el tipo de atiacutepicoRaacutepida velocidad de ejecucioacuten

Basado en modelos ARIMA

TRAMO-SEATS(1997) Califica el tipo de atiacutepicoRaacutepida velocidad de ejecucioacutenIdea similar a X-13ARIMA-SEATS pero profundizando maacutesen el desarrollo del mecanismo dedeteccioacuten de atiacutepicos

Basado en modelos ARIMA

GESD(1983) Elimina parte de la incertidum-bre de que se produzca un efectode enmascaramiento

Utiliza medidas como la media ola desviacioacuten tiacutepica medidas quese pueden ver distorsionadas porvalores atiacutepicosEs un proceso iterativo lo queimplica mayor coste computacio-nal a medida que se incrementeel tamantildeo de datos

Isolation Forest(2009) Escalable a conjuntos de gran di-mensioacutenDisentildeo sencillo

El usuario tiene que determinarel umbral de atiacutepico lo cual pue-de ser un inconveniente a veces

HDoutliers(2017) Identifica valores inusuales tantoen el medio de las distribucionescomo en los extremosEscalable a conjuntos de gran di-mensioacutenAlta velocidad de ejecucioacuten

Tendencia a calificar un excesode observaciones como atiacutepicassin serlo

Cuadro 31 Resumen de los meacutetodos de deteccioacuten de atiacutepicos

24 CAPIacuteTULO 3 DETECCIOacuteN DE VALORES ATIacutePICOS

34 Meacutetodos de deteccioacuten de valores atiacutepicos en series tempo-

rales

Dado que se han introducido diversos meacutetodos con diferentes enfoques respecto a la resolucioacuten delproblema de deteccioacuten de atiacutepicos en series de tiempo hemos decidido incluir este apartado al finaldel contenido principalmente teoacuterico del trabajo para asiacute centrar los meacutetodos que se utilizaraacuten en lossiguientes capiacutetulos Este apartado recoge todos los meacutetodos los ya existentes y nuevas propuestasrealizadas por nosotros que se utilizaraacuten en este trabajo

Los meacutetodos existentes son los pertenecientes a las libreriacuteas RJDemetra (la Tente et al 2020) yAnomalize (Dancho y Vaughan 2019) La libreriacutea RJDemetra es la que nos dota de las funcionesnecesarias para utilizar los modelos X-13ARIMA-SEATS y TRAMO-SEATS Mientras que la libreriacuteaAnomalize se ha convertido en uno de los paquetes de referencia en R para el anaacutelisis de valores atiacutepicosen series de tiempo A traveacutes de ella podemos utilizar el meacutetodo tratado en Hochenbaum et al (2017)basado en una combinacioacuten de Twitter+GESD y tambieacuten la otra opcioacuten que proponen a traveacutes decombinar STL+GESD

A partir de la idea desarrollada por autores como Hochenbaum et al (2017) o libreriacuteas comoAnomalize Dancho y Vaughan (2019) proponemos nuevos meacutetodos de deteccioacuten de atiacutepicos paraseries temporales El fundamento bajo el que se sostiene esta propuesta es muy sencillo Estos meca-nismos se fundamentan en aplicarle a la serie de tiempo un proceso de descomposicioacuten para extraer laestacionalidad y la tendencia para posteriormente aplicarle un meacutetodo de deteccioacuten de valores atiacutepicosal residuo Dado que se han propuesto mejoras en ambos campos tanto en los meacutetodos de descompo-sicioacuten de series temporales como en el de deteccioacuten de valores atiacutepicos creemos que su combinacioacutenpodriacutea suponer una mejora a las ya establecidas Teniendo en cuenta que se ha introducido un meacutetodode descomposicioacuten de series temporales STR (Dokumentov y Hyndman 2015) y dos meacutetodos de de-teccioacuten de valores atiacutepicos Isolation Forest (Liu et al 2009) y HDoutliers (Wilkinson 2017) lo que seharaacute seraacute obtener todas las combinaciones posibles a traveacutes de mezclar los procesos de descomposicioacutencon los meacutetodos de deteccioacuten dando lugar a las siguientes combinaciones

STL +iForest

STL +HDoutliers

STL (Robusto) +iForest

STL (Robusto) +HDoutliers

Twitter +iForest

Twitter +HDoutliers

STR + GESD

STR + iForest

STR + HDoutliers

34 MEacuteTODOS DE DETECCIOacuteN DE VALORES ATIacutePICOS EN SERIES TEMPORALES 25

STR (Robusto) + GESD

STR (Robusto) + iForest

STR (Robusto) + HDoutliers

Estos son los nuevos meacutetodos propuestos en el trabajo de los cuales estudiaremos su comporta-miento en el proacuteximo capiacutetulo a traveacutes de un estudio de simulacioacuten junto a los meacutetodos ya existentesX-13ARIMA-SEATS TRAMO-SEATS STL+GESD y Twitter+GESD

Existen otros meacutetodos populares en la deteccioacuten de atiacutepicos para el software R los cuales no se hanincluido en este trabajo debido a que planteaban peores resultados que los finalmente introducidospero que creemos que merecen una mencioacuten debido a que pueden ser de intereacutes para alguien quepretenda profundizar en este campo

El primero de ellos seriacutea el meacutetodo de deteccioacuten de atiacutepicos IQR incluido en la libreriacutea AnomalizeDancho y Vaughan (2019) el cual se ha descartado debido a que sus combinaciones con STL y Twittersuponiacutean una menor precisioacuten que las combinaciones con GESD (Datacamp 2018) Los autores lo hanincluido en dicha libreriacutea debido a que su coste computacional es mucho menor que el de GESD porlo que se puede plantear situaciones en las que sea uacutetil

El segundo seriacutea la funcioacuten tsoutliers del paquete forecast (Hyndman 2020) la cual hemosdescartado por presentar un mecanismo muy similar al que presentariacutea la combinacioacuten STL+IQR

Por uacuteltimo tambieacuten se ha descartado la funcioacuten tso del paquete tsoutliers (de Lacalle 2019)El motivo se debe a que su autor enfoca el proceso de deteccioacuten basaacutendose en las mismas ideas que lasdesarrolladas en los modelos X-13ARIMA-SEATS y TRAMO-SEATS pero comenta que este meacutetodono estaacute capacitado para trabajar con grandes y heterogeacuteneos conjuntos de series temporales comoX-13ARIMA-SEATS o TRAMO-SEATS sino maacutes bien para pequentildeas aplicaciones de un modo semi-automaacutetico (de Lacalle 2015)

26 CAPIacuteTULO 3 DETECCIOacuteN DE VALORES ATIacutePICOS

Capiacutetulo 4

Estudio de simulacioacuten

En este capiacutetulo se realiza un estudio de simulacioacuten con el objetivo de comparar la eficiencia delos diferentes meacutetodos expuestos en el apartado anterior En primer lugar se presenta un resumendel procedimiento seguido para realizar las simulaciones en los diferentes escenarios y el motivo deproponer cada escenario A continuacioacuten se introduce el Iacutendice de Youden medida que nos permitiraacutediscernir queacute meacutetodos presentan mejor comportamiento en el estudio Finalmente se presentan losresultados del estudio y las conclusiones extraiacutedas del mismo

41 Escenarios

El procedimiento para obtener las series simuladas ha sido el siguiente

1 Simular una serie de tiempo sin atiacutepicos

2 A la observacioacuten correspondiente al instante t sumarle el valor w el cual indicaraacute el tamantildeo delatiacutepico

3 Si se quiere introducir maacutes de un atiacutepico repetir los pasos 1 y 2

Se van a proponer ocho escenarios a continuacioacuten pasamos a justificar la eleccioacuten de cada uno deellos Los escenarios 1 2 y 3 son los planteados en Chen y Liu (1993) artiacuteculo utilizado para analizar laeficiencia de los mecanismos de deteccioacuten que inspiran los meacutetodos aplicados en X-13ARIMA-SEATS yTRAMO-SEATS El Escenario 4 plantea el modelo de liacuteneas aeacutereas utilizado ampliamente para datoseconoacutemicos como los que se van a tratar posteriormente Por uacuteltimo los escenarios 5 a 8 proponendiversos modelos que han sido generados a partir de seleccionar una serie del IGE aleatoriamente yaplicarle la funcioacuten autoarima del paquete forecast (Hyndman 2020) A continuacioacuten se recogentodos los escenarios planteados en el Cuadro 41 Los escenarios 1 a 3 se simulan a traveacutes de la funcioacuten deR arimasim mientras que los escenarios 4 a 8 a traveacutes de la funcioacuten simulate del paquete forecast

27

28 CAPIacuteTULO 4 ESTUDIO DE SIMULACIOacuteN

Escenario Modelo Motivo

Escenario 1 AR(1) Propuesto en el estudio de simu-lacioacuten de Chen y Liu (1993)

Escenario 2 MA(1) Propuesto en el estudio de simu-lacioacuten de Chen y Liu (1993)

Escenario 3 ARIMA(011) Propuesto en el estudio de simu-lacioacuten de Chen y Liu (1993)

Escenario 4 ARIMA(011)x(011)12 Modelos de liacuteneas aeacutereas muyutilizado en lo referente a datoseconoacutemicos

Escenario 5 ARIMA(101)x(012)12 Modelo extraiacutedo de aplicar lafuncioacuten autoarima a una seriedel IGE escogida aleatoriamente

Escenario 6 ARIMA(111)x(101)12 Modelo extraiacutedo de aplicar lafuncioacuten autoarima a una seriedel IGE escogida aleatoriamente

Escenario 7 ARIMA(112)x(011)12 Modelo extraiacutedo de aplicar lafuncioacuten autoarima a una seriedel IGE escogida aleatoriamente

Escenario 8 ARIMA(011)x(100)12 Modelo extraiacutedo de aplicar lafuncioacuten autoarima a una seriedel IGE escogida aleatoriamente

Cuadro 41 Resumen de los escenarios propuestos para el estudio de simulacioacuten

42 IacuteNDICE DE YOUDEN 29

En cada escenario se estudian cuatro casos

Caso 1 Serie con 100 observaciones y un atiacutepico en t = 40 el tamantildeo del atiacutepico es w = 35

Caso 2 Serie con 100 observaciones y un atiacutepico en t = 40 el tamantildeo del atiacutepico es w = 45

Caso 3 Serie con 100 observaciones y un atiacutepico en t = 2 el tamantildeo del atiacutepico es w = 4

Caso 4 Serie con 300 observaciones y dos atiacutepicos en t1 = 40 y t2 = 180 el tamantildeo de los atiacutepicoses w1 = 4 y w2 = 5

En el Escenario 4 hubo que modificar los valores del tamantildeo del atiacutepico introducido en cada casodebido a que no se obteniacutean resultados significativos para ninguacuten meacutetodo Por lo que finalmente solopara el Escenario 4 los valores introducidos fueron de w = 55 para el Caso 1 w = 65 para el Caso2 w = 6 para el Caso 1 w1 = 6 y w2 = 7 para el Caso 4

Los Casos 1 y 2 buscan estudiar la sensibilidad del meacutetodo de deteccioacuten dado que en lo uacutenico quese diferencian es en el tamantildeo del atiacutepico El Caso 3 plantea una situacioacuten complicada al encontrarseel atiacutepico al principio de la serie es maacutes difiacutecil detectar ese valor por dos motivos que el meacutetodo notenga todaviacutea la informacioacuten suficiente o que el meacutetodo vea afectada su estimacioacuten por este valor tantemprano El Caso 4 busca estudiar el comportamiento cuando se presenta maacutes de un atiacutepico

42 Iacutendice de Youden

Para comparar los resultados de los diferentes meacutetodos en las simulaciones vamos a utilizar lo queen otros campos como la investigacioacuten meacutedica se denomina test de diagnoacutestico En este tipo de testse compara la realidad con la prediccioacuten del mecanismo para analizar su funcionamiento Estos testde diagnoacutestico se presentan en lo que se denominan matrices de confusioacuten como la presentada en elCuadro 44 La idea de la matriz de confusioacuten es la de comparar las predicciones realizadas con larealidad de tal modo que se pueda observar cuando la prediccioacuten y la realidad coinciden y cuando no

Realidad

Negativo(0) Positivo (1)

PrediccioacutenNegativo(0) Verdadero Negativo (VN) Falso Negativo (FN)

Positivo(1) Falso Positivo (FP) Verdadero Positivo (VP)

Cuadro 42 Matriz de confusioacuten

En nuestro trabajo Negativo (0) representariacutea una observacioacuten normal y Positivo (1) una obser-vacioacuten atiacutepica La diagonal de la matriz estaacute representada por aquellas observaciones en las que larealidad y la prediccioacuten coinciden Los Falsos Negativos (FN) son aquellas observaciones en que el

30 CAPIacuteTULO 4 ESTUDIO DE SIMULACIOacuteN

mecanismo determinoacute que la observacioacuten era normal pero en realidad era atiacutepica Por otra parte losFalsos Positivos (FP) suceden cuando el mecanismo dictamina que la observacioacuten es atiacutepica pero larealidad es que es una observacioacuten normal

Los Falsos Positivos son tambieacuten conocidos como Error Tipo I la probabilidad de aceptar la hipoacute-tesis nula siendo esta falsa Y los Falsos Negativos son conocidos como Error Tipo II la probabilidadde no rechazar la hipoacutetesis nula siendo esta falsa

El iacutendice de Youden (Youden 1950) nacioacute con motivo de poder comparar los resultados de doso maacutes mecanismos de deteccioacuten y asiacute tener la capacidad de discernir cual de ellos tiene una mejorcapacidad discriminatoria Es decir el propoacutesito final del iacutendice es el de resumir la matriz de confusioacutenen un valor que consiga representar el comportamiento del mecanismo de deteccioacuten de tal modo quedos mecanismos se puedan comparar directamente

Este iacutendice considera con la misma importancia tanto los falsos positivos como los falsos negativosUtilizando otro campo de ejemplo la medicina un falso negativo supondriacutea no tratar la enfermedadde un paciente dado que establecemos que estaacute sano cuando la realidad es que estaacute enfermo Por otraparte un falso positivo supondriacutea un coste como podriacutea ser el monetario financiando el tratamiento oel emocional de un paciente que la realidad es que estaacute sano

Trasladando ese ejemplo a nuestro trabajo un falso negativo supondriacutea no calificar como atiacutepicauna observacioacuten que lo es Esto provocariacutea que estariacuteamos asumiendo como normal un comportamientoen el aacutembito socio-econoacutemico gallego que no lo fue estariacuteamos incurriendo en errores en posterioresanaacutelisis o estariacuteamos obviando sucesos relevantes

Los falsos positivos tambieacuten suponen un coste aquiacute cada observacioacuten que el meacutetodo detecte comoatiacutepica supondraacute la intervencioacuten de un analista para tratar de entender queacute ha sucedido Si finalmenteel analista concluye que la observacioacuten no es atiacutepica se habraacute desperdiciado una serie de horas y equipoque podriacutean haber sido invertidos para otro fin De ambos escenarios surgen dos medidas

Sensibilidad V PV P+FN refleja la proporcioacuten de verdaderos positivos sobre el total de positivos

Especifidad V NV N+FP refleja la proporcioacuten de verdaderos negativos sobre el total de negativos

El iacutendice de Youden se construye a partir de ambas medidas del siguiente modo

J = Sensibilidad + Especifidadminus 1 =V P

V P + FN+

V N

V N + FPminus 1

El rango en el que se utiliza este iacutendice es de 0 a 1 donde 1 representariacutea que el mecanismo escapaz de diferenciar perfectamente las observaciones atiacutepicas de las normales y 0 todo lo contrario

Sin embargo teoacutericamente este rango puede variar de minus1 a 1 (Shan G 2015) los valores menoresque cero no se suelen contemplar dado que no tienen una interpretacioacuten significativa En nuestrotrabajo sucede esta situacioacuten en la que se presentan mecanismos con valores negativos y si bien deforma general esto no tiene explicacioacuten en otros campos en este estudio si

Explicaacutendolo a traveacutes de lo que podriacutea ser un posible resultado de un mecanismo de deteccioacuten

42 IacuteNDICE DE YOUDEN 31

Realidad

Negativo(0) Positivo(1)

PrediccioacutenNegativo(0) 96 1

Positivo(1) 3 0

Cuadro 43 Ejemplo de posible resultado de un mecanismo de deteccioacuten en el que el iacutendice de Youdenseriacutea negativo

En el ejemplo del Cuadro 42 se analiza una serie de tiempo con 100 observaciones entre las cualesse encuentra un valor atiacutepico El mecanismo de deteccioacuten habriacutea detectado 3 posibles atiacutepicos peroninguno de ellos es el atiacutepico real Si calculamos el iacutendice de Youden obtenemos

J =0

0 + 1+

96

96 + 3minus 1 = minus003

El resultado es negativo debido a que el mecanismo de deteccioacuten nos situacutea en una posicioacuten peorque no clasificar nada como atiacutepico Por lo que si 1 refleja que el mecanismo es capaz de diferenciarperfectamente las dos clases y 0 que el mecanismo no nos ayuda en absoluto a diferenciar entre ellasun valor menor que 0 en nuestro trabajo supondriacutea que el mecanismo seriacutea peor que no clasificar nadadado que nos infunde un mayor error sobre la realidad

Un resultado de cero implicariacutea que el mecanismo no es uacutetil ya que no es capaz de diferenciar entrelo que es atiacutepico y lo que no En el Cuadro 43 se recoge un posible resultado que conduciriacutea a estasituacioacuten Este ejemplo recoge una situacioacuten en la que en una serie de tiempo de 100 observaciones seencuentran 5 valores atiacutepicos sin embargo el meacutetodo no es capaz de detectar ninguna de ellas

Realidad

Negativo(0) Positivo(1)

PrediccioacutenNegativo(0) 95 5

Positivo(1) 0 0

Cuadro 44 Ejemplo de posible resultado de un mecanismo de deteccioacuten en el que el iacutendice de Youdenseriacutea cero

J =0

0 + 5+

95

95 + 0minus 1 = 0

Finalmente el resultado perfecto implicariacutea que el mecanismo de deteccioacuten es capaz de diferenciarde forma precisa aquello que es atiacutepico de lo que no lo es En el Cuadro 44 se recoge un ejemplo de

32 CAPIacuteTULO 4 ESTUDIO DE SIMULACIOacuteN

esta situacioacuten En este ejemplo se plantea una serie de tiempo que cuenta con 100 observaciones delas cuales 5 son atiacutepicas igual que en el ejemplo anterior sin embargo el meacutetodo ahora es capaz dedetectar cada una de ellas sin incurrir en Falsos Positivos ni Falsos Negativos

Realidad

Negativo(0) Positivo(1)

PrediccioacutenNegativo(0) 95 0

Positivo(1) 0 5

Cuadro 45 Ejemplo de posible resultado de un mecanismo de deteccioacuten en el que el iacutendice de Youdenseriacutea uno

J =5

0 + 5+

95

95 + 0minus 1 = 1

Podemos observar como los valores fuera de la diagonal de la matriz aquellos que representan losFalsos Negativos y Falsos Positivos son cero En la diagonal de la matriz se encuentran los resultadosque muestran que el mecanismo ha conseguido identificar de forma perfecta aquellas observacionesque son atiacutepicas Esta seriacutea la situacioacuten ideal la cual representariacutea que el mecanismo de deteccioacuten deatiacutepicos funciona de forma idoacutenea

43 Resultados

A continuacioacuten se presentan los resultados para los ocho escenarios introducidos recogidos en elCuadro 41 Al introducir una gran cantidad de meacutetodos escenarios y casos el anaacutelisis de los resultadosse presenta confuso por lo que se decidioacute introducir un coacutedigo de color para resaltar los tres mejores ytres peores resultados en cada caso Los mejores resultados se asocian al color verde siendo el verde maacutesintenso el mejor resultado y decayendo gradualmente la intensidad del color seguacuten empeora Por otraparte los peores resultados estaacuten asociados al color rojo siendo el rojo maacutes intenso el peor resultadoy decayendo la intensidad seguacuten el resultado mejora

Se pensoacute en introducir un gradiente de color por cada caso de modo que fuese variando de mejora peor Finalmente se descartoacute debido a que su contribucioacuten a la comprensioacuten de los resultados eramenor que la idea finalmente escogida de resaltar los tres mejores y los tres peores resultados

Los resultados obtenidos para el iacutendice de Youden se muestran a continuacioacuten A mayores en elanexo se han incluido tablas referentes a los resultados que han presentado los distintos meacutetodos enbase a otras dos medidas que tambieacuten han resultado de utilidad a la hora de escoger los mecanismosadecuados La primera de esas medidas es la sensibilidad la cual hemos definido en este apartado yla otra es el exceso la cual se define como la media de detecciones incorrectas por simulacioacuten y cuyosresultados estaacuten incluidos en el anexo correspondiente

43 RESULTADOS 33

Caso 1 Caso 2 Caso 3 Caso 4

X-13ARIMA-SEATS 0495 0853 0699 0490

TRAMO-SEATS 0655 0926 0803 0494

STL+HDoutliers 0561 0830 0562 0727

STL+GESD 0265 0589 0236 0531

STL+iForest 0632 0882 0632 0788

STL(ROB)+HDoutliers 0550 0790 0666 0707

STL(ROB)+GESD 0623 0862 0732 0752

STL(ROB)+iForest 0634 0873 0741 0748

Twitter+HDoutliers 0462 0725 0588 0616

Twitter+GESD 0303 0587 0426 0433

Twitter+iForest 0524 0797 0647 0657

STR+Hdoutliers 0603 0833 0595 0667

STR+GESD 0344 0649 0292 0448

STR+iForest 0670 0882 0675 0719

STR(ROB)+Hdoutliers 0534 0803 0630 0654

STR(ROB)+GESD 0379 0683 0456 0557

STR(ROB)+iForest 0619 0859 0695 0711

Cuadro 46 Resultados Escenario 1Iacutendice de Youden AR(1)

En el Cuadro 46 se recogen los resultados al Escenario 1 escenario en el que se simula un AR(1)igual al realizado por Chen y Liu (1993) Los resultados muestran que en los casos 1 2 y 3 TRAMO-SEATS ejerce un papel superior al resto buen comportamiento que desaparece en el Caso 4 casoen el que se introducen dos atiacutepicos Si analizamos conjuntamente los resultados de los cuatro casospodriacuteamos decir que los meacutetodos que reflejan un mejor comportamiento global en el escenario seriacuteanSTR+iForest y STL(Rob)+iForest

34 CAPIacuteTULO 4 ESTUDIO DE SIMULACIOacuteN

Caso 1 Caso 2 Caso 3 Caso 4

X-13ARIMA-SEATS 0504 0828 0645 0494

TRAMO-SEATS 0667 0913 0741 0494

STL+HDoutliers 0465 0721 0473 0680

STL+GESD 0217 0457 0147 0428

STL+iForest 0502 0781 0521 0713

STL(ROB)+HDoutliers 0457 0723 0576 0642

STL(ROB)+GESD 0516 0761 0651 0667

STL(ROB)+iForest 0519 0798 0660 0713

Twitter+HDoutliers 0457 0690 0587 0640

Twitter+GESD 0346 0627 0480 0486

Twitter+iForest 0506 0774 0658 0689

STR+HDoutliers 0580 0814 0566 0658

STR+GESD 0297 0601 0247 0449

STR+iForest 0626 0866 0647 0719

STR(ROB)+HDoutliers 0514 0780 0603 0644

STR(ROB)+GESD 0335 0627 0405 0520

STR(ROB)+iForest 0578 0836 0687 0709

Cuadro 47 Resultados Escenario 2 Iacutendice de Youden MA(1)

En el Cuadro 47 se recogen los resultados al Escenario 2 escenario en el que se simula un MA(1)igual al realizado por Chen y Liu (1993) Los resultados que se observan son similares a los extraiacutedos delEscenario 1 TRAMO-SEATS es claramente superior en los casos 1 2 y 3 pero su buen comportamientodesaparece ante el Caso 4 Por otra parte STR+iForest presenta un comportamiento maacutes homogeacuteneoencontraacutendose en tres de los cuatro casos entre los tres mejores resultados Lo mismo sucede con suversioacuten robusta En esta ocasioacuten la combinacioacuten STL+iForest solamente se encuentra entre las mejoresen el Caso 4

43 RESULTADOS 35

Caso 1 Caso 2 Caso 3 Caso 4

X-13ARIMA-SEATS 0921 0970 0926 0500

TRAMO-SEATS 0921 0971 0921 0500

STL+HDoutliers 0306 0502 0234 0435

STL+GESD 0088 0229 0050 0152

STL+iForest 0338 0575 0279 0451

STL(ROB)+HDoutliers 0252 0426 0287 0328

STL(ROB)+GESD 0287 0504 0369 0316

STL(ROB)+iForest 0291 0495 0329 0358

Twitter+HDoutliers 0061 0109 0124 0064

Twitter+GESD 0015 0027 0056 0025

Twitter+iForest 0077 0127 0167 0068

STR+HDoutliers 0400 0556 0342 0436

STR+GESD 0202 0365 0108 0230

STR+iForest 0441 0614 0385 0492

STR(ROB)+HDoutliers 0237 0391 0248 0268

STR(ROB)+GESD 0199 0381 0215 0254

STR(ROB)+iForest 0277 0451 0279 0289

Cuadro 48 Resultados Escenario 3 Iacutendice de Youden ARIMA(011)

En el Cuadro 48 se recogen los resultados al Escenario 3 escenario en el que se simula un ARI-MA(011) igual al realizado por Chen y Liu (1993) En este escenario existe una hegemoniacutea de X-13ARIMA-SEATS y TRAMO-SEATS los cuales presentan resultados superiores a los de cualquierotro meacutetodo La combinacioacuten STR+iForest es el tercer meacutetodo que a pesar de la diferencia con losotros dos presenta mejores resultados

36 CAPIacuteTULO 4 ESTUDIO DE SIMULACIOacuteN

Caso 1 Caso 2 Caso 3 Caso 4

X-13ARIMA-SEATS 0402 0592 0067 0480

TRAMO-SEATS 0540 0705 0071 0481

STL+HDoutliers -0003 -0004 0008 0000

STL+GESD -0002 -0001 0002 -0001

STL+iForest -0004 -0004 0008 0001

STL(ROB)+HDoutliers -0005 -0005 0025 0000

STL(ROB)+GESD -0039 -0026 0052 0002

STL(ROB)+iForest 0004 -0002 0026 0000

Twitter+HDoutliers 0000 -0002 -0001 0007

Twitter+GESD -0025 -0019 -0016 0003

Twitter+iForest 0000 -0001 0004 0016

STR+HDoutliers 0359 0417 -0004 0083

STR+GESD 0409 0445 -0006 0124

STR+iForest 0411 0472 -0005 0097

STR(ROB)+HDoutliers 0014 0006 0002 0039

STR(ROB)+GESD 0019 0017 0008 0075

STR(ROB)+iForest 0014 0005 0002 0021

Cuadro 49 Resultados Escenario 4 Iacutendice de Youden ARIMA(011)x(011)12

En el Cuadro 49 se recogen los resultados al Escenario 4 escenario en el que se simula el modelo deliacuteneas aeacutereas (G Box y Jenkins 1976) Este modelo es famoso por su uso en series socio-econoacutemicasPor ello cabriacutea esperar un buen comportamiento de los modelos disentildeados para este fin X-13ARIMA-SEATS y TRAMO-SEATS El resto de combinaciones presentan resultados poco consistentes

43 RESULTADOS 37

Caso 1 Caso 2 Caso 3 Caso 4

X-13ARIMA-SEATS 0265 0628 0176 0409

TRAMO-SEATS 0398 0747 0248 0432

STL+HDoutliers 0238 0469 0281 0125

STL+GESD 0091 0258 0158 0024

STL+iForest 0263 0531 0305 0134

STL(ROB)+HDoutliers 0265 0475 0343 0097

STL(ROB)+GESD 0375 0662 0452 0114

STL(ROB)+iForest 0304 0545 0388 0128

Twitter+HDoutliers 0243 0429 0352 0103

Twitter+GESD 0168 0376 0309 0057

Twitter+iForest 0266 0479 0381 0126

STR+HDoutliers 0656 0885 0231 0755

STR+GESD 0424 0769 0064 0567

STR+iForest 0720 0936 0277 0798

STR(ROB)+HDoutliers 0189 0326 0212 0523

STR(ROB)+GESD 0174 0317 0192 0665

STR(ROB)+iForest 0229 0364 0232 0588

Cuadro 410 Resultados Escenario 5 Iacutendice de Youden ARIMA(101)x(012)12

En el Cuadro 410 se recogen los resultados al Escenario 5 escenario en el que se simula un modeloARIMA (101)x(012)12 a partir de aplicarle la funcioacuten autoarima a una serie del IGE escogidaaleatoriamente En este escenario predomina la descomposicioacuten STR ya que son las combinacionesjunto a los tres meacutetodos de deteccioacuten de atiacutepicos GESD iForest y HDoutliers los meacutetodos quepresentan mejores resultados En concreto la combinacioacuten STR+iForest supone la combinacioacuten maacutesinteresante para este escenario

38 CAPIacuteTULO 4 ESTUDIO DE SIMULACIOacuteN

Caso 1 Caso 2 Caso 3 Caso 4

X-13ARIMA-SEATS 0331 0659 0354 0425

TRAMO-SEATS 0457 0764 0477 0438

STL+HDoutliers 0513 0790 0494 0624

STL+GESD 0229 0558 0188 0328

STL+iForest 0560 0833 0567 0648

STL(ROB)+HDoutliers 0507 0776 0592 0595

STL(ROB)+GESD 0528 0815 0663 0560

STL(ROB)+iForest 0559 0838 0661 0645

Twitter+HDoutliers 0239 0416 0355 0208

Twitter+GESD 0101 0229 0185 0100

Twitter+iForest 0279 0452 0383 0227

STR+HDoutliers 0520 0779 0436 0636

STR+GESD 0278 0584 0151 0385

STR+iForest 0596 0822 0494 0682

STR(ROB)+HDoutliers 0399 0666 0490 0545

STR(ROB)+GESD 0274 0524 0349 0404

STR(ROB)+iForest 0457 0731 0568 0579

Cuadro 411 Resultados Escenario 6 Iacutendice de Youden ARIMA(111)x(101)12

En el Cuadro 411 se recogen los resultados al Escenario 6 escenario en el que se simula un modeloARIMA (111)x(101)12 a partir de aplicarle la funcioacuten autoarima a una serie del IGE escogidaaleatoriamente En este escenario los meacutetodos que muestran unos mejores resultados son STR+iForesty STL+iForest Tambieacuten muestra un buen comportamiento el meacutetodo STL(Rob)+GESD basado enla combinacioacuten de la versioacuten robusta de la descomposicioacuten STL y el meacutetodo de deteccioacuten de atiacutepicosGESD

43 RESULTADOS 39

Caso 1 Caso 2 Caso 3 Caso 4

X-13ARIMA-SEATS 0332 0673 0347 0422

TRAMO-SEATS 0426 0765 0425 0453

STL+HDoutliers 0451 0693 0414 0503

STL+GESD 0180 0438 0142 0219

STL+iForest 0509 0759 0458 0527

STL(ROB)+HDoutliers 0416 0655 0468 0489

STL(ROB)+GESD 0452 0702 0549 0457

STL(ROB)+iForest 0484 0717 0541 0525

Twitter+HDoutliers 0009 0018 0037 0037

Twitter+GESD -0024 -0014 0011 0010

Twitter+iForest 0007 0016 0050 0050

STR+HDoutliers 0469 0719 0369 0582

STR+GESD 0228 0495 0122 0329

STR+iForest 0511 0774 0438 0635

STR(ROB)+HDoutliers 0282 0495 0347 0330

STR(ROB)+GESD 0224 0432 0301 0285

STR(ROB)+iForest 0343 0557 0407 0385

Cuadro 412 Resultados Escenario 7 Iacutendice de Youden ARIMA(112)x(011)12

En el Cuadro 412 se recogen los resultados al Escenario 7 escenario en el que se simula un modeloARIMA (112)x(011)12 a partir de aplicarle la funcioacuten autoarima a una serie del IGE escogidaaleatoriamente En este escenario los meacutetodos que muestran unos mejores resultados vuelven a serSTL+iForest STR+iForest y cercano a ellos STL(Rob)+iForest El resto de resultados no muestranninguacuten meacutetodo estable para los cuatro casos

40 CAPIacuteTULO 4 ESTUDIO DE SIMULACIOacuteN

Caso 1 Caso 2 Caso 3 Caso 4

X-13ARIMA-SEATS 0298 0636 0334 0434

TRAMO-SEATS 0419 0712 0427 0481

STL+HDoutliers 0425 0697 0389 0620

STL+GESD 0176 0415 0108 0351

STL+iForest 0480 0734 0423 0662

STL(ROB)+HDoutliers 0429 0675 0483 0607

STL(ROB)+GESD 0449 0718 0543 0584

STL(ROB)+iForest 0486 0749 0559 0675

Twitter+HDoutliers 0271 0463 0378 0350

Twitter+GESD 0127 0286 0189 0147

Twitter+iForest 0300 0504 0424 0356

STR+HDoutliers 0448 0692 0459 0564

STR+GESD 0203 0438 0167 0274

STR+iForest 0492 0769 0502 0600

STR(ROB)+Hdoutliers 0416 0680 0503 0548

STR(ROB)+GESD 0260 0523 0329 0366

STR(ROB)+iForest 0460 0751 0573 0587

Cuadro 413 Resultados Escenario 8 Iacutendice de Youden ARIMA(011)x(100)12

En el Cuadro 413 se recogen los resultados al Escenario 8 escenario en el que se simula un mode-lo ARIMA(011)x(100)12 a partir de aplicarle la funcioacuten autoarima a una serie del IGE escogidaaleatoriamente Los resultados maacutes consistentes para los cuatro casos estaacuten formados por las combina-ciones de STR+iForest la misma combinacioacuten pero con la versioacuten robusta de la descomposicioacuten STRSTR(Rob)+iForest y la combinacioacuten STL+iForest y tambieacuten su versioacuten robusta STL (Rob)+iForest

44 CONCLUSIONES 41

44 Conclusiones

Los resultados de las simulaciones muestran dos realidades Por un lado nos encontramos con losresultados asociados a los escenarios 1 2 3 y 4 En estos escenarios prevalece el comportamientode TRAMO-SEATS por encima de todos los meacutetodos sin lugar a duda incluso tambieacuten podriacuteamosincluir a X-13ARIMA-SEATS aquiacute Cabe recordar que ambos parten de las mismas ideas pero esTRAMO-SEATS el que implanta una serie de mejoras a los meacutetodos de deteccioacuten de atiacutepicos en losque se inspiran ambos esto se trata en el Capiacutetulo 3 Por otra parte en los escenarios 5 6 7 y 8 ya noexiste tal hegemoniacutea de TRAMO-SEATS frente al resto de meacutetodos de hecho nos encontramos unosresultados bastante maacutes variados

Entre los meacutetodos de descomposicioacuten (STLTwitter y STR) el que presenta mejores resultados enlas simulaciones es STR En todos los escenarios presenta resultados que lo posicionan entre los tresprimeros Esto nos da una idea de que estamos ante un meacutetodo flexible capaz de entender la estructurasubyacente de series de tiempo muy diversas y adecuar una respuesta realista del mecanismo generadorSus buenos resultados son seguidos muy de cerca por la descomposicioacuten STL Este es un resultado queconcuerda con lo esperado debido a que siendo los dos meacutetodos similares plantean la misma idea perola ejecutan de distinta forma STR fue creado con el objetivo de suponer una mejora a STL

En lo que respecta a los meacutetodos de deteccioacuten GESD HDoutliers y iForest podemos extraerconclusiones acerca del comportamiento de cada uno

GESD es un buen meacutetodo de identificacioacuten de atiacutepicos Obtiene buenos resultados faacutecil deaplicar y es sencillo entender su mecanismo algo muy uacutetil para personas que quieran realizaro transmitir un estudio sin ahondar profundamente en materia Por otra parte sus buenosresultados en la deteccioacuten correcta de atiacutepicos se ven eclipsados por su tendencia a clasificaraltos valores de observaciones como anoacutemalas incorrectamente Si estamos realizando un anaacutelisisindividual esto podriacutea no ser un problema dado que se podriacutea intervenir modificando alguno desus paraacutemetros y conseguir mejores resultados Sin embargo en este trabajo buscamos un meacutetodoque nos sirva como filtro para analizar multitud de series con la menor intervencioacuten posible porlo que descartamos dicho mecanismo

HDoutliers supone una mejora a GESD Muestra mejor comportamiento en todas las combina-ciones con los meacutetodos de descomposicioacuten GESD solo consigue igualar o superar ligeramentesus resultados incurriendo en calificar una gran cantidad de observaciones como atiacutepicas lo queprovoca un incremento en el nuacutemero de observaciones calificadas erroacuteneamente esto se puede veren las tablas de exceso introducidas en el anexo Sin embargo pese a suponer una mejora noes el meacutetodo que presenta mejores resultados

Isolation Forest o iForest es el meacutetodo de deteccioacuten maacutes consistente a lo largo de los escenariosy para cada meacutetodo de descomposicioacuten Consigue un equilibrio entre buenos valores de deteccioacutencorrecta y bajas tasas de atiacutepicos sentildealados incorrectamente justo lo que se busca en un meacutetodode deteccioacuten de atiacutepicos La idea de aacuterbol bajo la que se desarrolla su mecanismo es faacutecil decomprender cada observacioacuten recibe una puntuacioacuten entre 0 y 1 de cuaacuten anoacutemala es esto permiteflexibilizar la decisioacuten del analista con el umbral en el que fija un valor como atiacutepico En Liu et

42 CAPIacuteTULO 4 ESTUDIO DE SIMULACIOacuteN

al (2009) califican como observaciones sospechosas de ser atiacutepicas aquellas cuya puntuacioacuten seamayor a 06 en este trabajo somos maacutes estrictos y fijamos un umbral superior 075 Ademaacutessu disentildeo le permite escalar a conjuntos de gran tamantildeo y dimensioacuten (big data) por lo que nosupone un freno ante situaciones futuras

Parece interesante tambieacuten recordar que los mecanismos que emplean los meacutetodos X-13ARIMA-SEATS y TRAMO-SEATS fueron analizados en estudios que planteaban simulaciones como las quese realizan en los escenarios 1 2 y 3 Ademaacutes tambieacuten cabe esperar un buen comportamiento que seespera de ellos en un modelo tan comuacuten como el de liacuteneas aacutereas (Escenario 4) Sin embargo cuando seaplican fuera de estos escenarios en modelos maacutes complejos solamente TRAMO-SEATS consigue noquedarse atraacutes

La simulacioacuten nos permite descartar la descomposicioacuten Twitter la cual estaacute quizaacutes maacutes enfocadaa datos de alta frecuencia datos que se producen en frecuencias de tiempo mucho maacutes pequentildeascomo minutos en vez de datos mensuales como los planteados en el estudio de simulacioacuten por lo querefleja peores resultados en escenarios de este aacutembito Tambieacuten nos permite descartar el meacutetodo X-13ARIMA-SEATS dado que supone una idea similar pero menos desarrollada en lo que a deteccioacuten deatiacutepicos se refiere a TRAMO-SEATS Finalmente el meacutetodo GESD tambieacuten es descartado debido asus resultados en los que muestra un comportamiento inferior frente a HDoutliers meacutetodo que suponeuna mejora a la idea sobre la que se basa GESD

Por lo que se concluye que los meacutetodos maacutes adecuados para la continuacioacuten del trabajo son elmodelo TRAMO-SEATS las descomposiciones de series temporales STL y STR y los meacutetodos dedeteccioacuten de atiacutepicos HDoutliers y iForest lo que conforman los siguientes mecanismos de deteccioacutende atiacutepicos

TRAMO-SEATS

STL+HDoutliers

STL+iForest

STR+HDoutliers

STR+iForest

Capiacutetulo 5

Aplicacioacuten a datos reales

En este capiacutetulo se aplican los meacutetodos que han mostrado unos mejores resultados en el estudiode simulacioacuten a las bases de datos del IGE comentadas en Capiacutetulo 1 Estos meacutetodos son TRAMO-SEATS STL+HDoutliers STL+iForest STR+HDoutliers y STL+iForest De este modo podemosanalizar el comportamiento de los meacutetodos con datos reales y extraer nuevas conclusiones que nosurgiacutean en el estudio de simulacioacuten Esto se debe a que si bien el estudio de simulacioacuten planteaba unadiversidad de escenarios amplia nunca seraacuten suficientes para recoger la multitud de naturalezas quecaracteriza a las series socio-econoacutemicas

El anaacutelisis de las datos del IGE se haraacute en dos niveles Un primer nivel mostraraacute el comportamientoglobal del conjunto mediante cuatro medidas el total de atiacutepicos detectados por cada meacutetodo en elconjunto el maacuteximo nuacutemero de atiacutepicos que detecta el meacutetodo en una serie del conjunto el nuacutemero deseries que no presentan atiacutepicos y la media de atiacutepicos detectados por cada meacutetodo El segundo nivelmostraraacute un anaacutelisis maacutes especiacutefico donde se analizaraacute el comportamiento de los meacutetodos respecto auna serie escogida del conjunto

Para finalizar el capiacutetulo introducimos una herramienta graacutefica disentildeada con el objetivo de eliminarla mayor incertidumbre posible que acompantildea a un campo como el de la deteccioacuten de valores atiacutepicosy analizamos su comportamiento

51 Anaacutelisis Series IGE

Los conjuntos utilizados para este trabajo han pasado primero por un proceso de filtrado en el quese han eliminado todas las series que presentan menos de 24 observaciones o maacutes de 24 ceros entre susobservaciones De este modo conseguimos quedarnos con series que recogen la informacioacuten suficientepara trabajar con ellas

A continuacioacuten se muestra el total de series perteneciente a cada conjunto

43

44 CAPIacuteTULO 5 APLICACIOacuteN A DATOS REALES

Conjunto 1 Conjunto 2 Conjunto 3 Conjunto 4 Conjunto 5 Conjunto 6 Conjunto 7

Pre-filtrado 108 72 55 42 162 165 55

Post-filtrado 84 60 50 42 90 165 47

Cuadro 51 Nuacutemero de series de tiempo perteneciente a cada conjunto antes y despueacutes del proceso defiltrado

Ademaacutes con el objetivo de capturar la influencia del Covid19 sobre las series de tiempo se procedea dividir el estudio en dos partes La primera analiza las series con datos hasta 2019 si el conjuntopresenta datos de frecuencia mensual esta fecha seraacute diciembre de 2019 por otra parte si el conjuntopresenta datos de frecuencia trimestral esta fecha seraacute el cuarto trimestre de 2019 La segunda analizalas series incluyendo el uacuteltimo dato actualizado el cual variacutea dependiendo del conjunto Los conjuntoscon datos trimestrales incluyen hasta el primer trimestre del 2020 mientras que los conjuntos condatos mensuales incluyen como uacuteltima actualizacioacuten fechas comprendidas entre abril y junio de 2020por lo que dicha fecha se concretaraacute en el momento que se analiza dicho conjunto Respecto a la fechade inicio de las series variacutea dependiendo del conjunto por lo que tambieacuten se especificaraacute en el iniciodel anaacutelisis del mismo

Para medir la influencia del Covid lo que se haraacute seraacute calcular la tasa de variacioacuten del total deatiacutepicos detectados entre ambos escenarios las series hasta 2019 y las series actualizadas al uacuteltimodato existente de 2020 la cual calcularemos como

Tasa de variacioacuten =

(Total atiacutepicos serie completaTotal atiacutepicos serie hasta 2019

minus 1

)lowast 100

Conjunto 1 (httpwwwigeeuigebdtigeapidatos3476)

Series de datos mensuales que contienen la informacioacuten de los viajeros noches y estancia media enestablecimientos hoteleros y de turismo rural en Espantildea Galicia y sus provincias Los datos de esteconjunto comienzan en enero de 1999 y finalizan en mayo de 2020

51 ANAacuteLISIS SERIES IGE 45

TRAMO -

SEATS

STL +

HDoutliers

STL +

iForest

STR +

HDoutliers

STR +

iForest

Atiacutepicos detectados 327 176 111 136 142

Max nuacutemero atip serie 17 11 3 8 4

Series con 0 atiacutepicos 13 20 11 23 3

Media de atiacutepicos detec 389 210 132 162 169

Cuadro 52 Resultados para el Conjunto 1 con datos hasta diciembre de 2019

Los resultados del Cuadro 52 se producen para un total de 18816 observaciones que muestra elconjunto con datos hasta diciembre de 2019 Ahora vamos a estudiar los resultados de forma quecada serie esteacute formada por el uacuteltimo dato actualizado y a realizar una comparacioacuten entre ambosescenarios En esta serie el uacuteltimo dato actualizado es mayo de 2020 lo que conforma un total de19172 observaciones

TRAMO -

SEATS

STL +

HDoutliers

STL +

iForest

STR +

HDoutliers

STR +

iForest

Atiacutepicos detectados 457 243 170 264 204

Max nuacutemero atip serie 17 11 4 15 5

Series con 0 atiacutepicos 1 6 1 10 3

Media de atiacutepicos detec 544 289 202 314 243

Cuadro 53 Resultados para el Conjunto 1 con datos hasta mayo de 2020

46 CAPIacuteTULO 5 APLICACIOacuteN A DATOS REALES

TRAMO -

SEATS

STL +

HDoutliers

STL +

iForest

STR +

HDoutliers

STR +

iForest

Hasta 2019 327 176 111 136 142

Hasta mayo 2020 457 243 170 264 204

Tasa de variacioacuten 3976 3807 5315 9412 4366

Cuadro 54 Total de atiacutepicos detectados por cada meacutetodo hasta diciembre de 2019 y abril 2020 y tasade variacioacuten que produce el efecto del Covid en el Conjunto 1

En el Cuadro 54 podemos ver como el efecto del Covid sobre el conjunto es muy notorio algoque cabriacutea esperar dado que estamos tratando series relacionadas con el Turismo en Galicia uno delos sectores maacutes afectados por la crisis del Covid El Cuadro 53 incorpora datos hasta mayo 2020lo que supone solamente un crecimiento del 189 del total de datos Sin embargo el crecimientoque experimenta el total de atiacutepicos detectado es muy superior en el caso maacutes suave representa uncrecimiento de maacutes del 38 llegando a suponer para alguacuten meacutetodo el 94

A continuacioacuten vamos a analizar un caso concreto de una serie del conjunto Hemos escogido laserie que hace referencia al nuacutemero de viajeros residentes en Espantildea hospedados en establecimientosde turismo rural en Espantildea El motivo de su eleccioacuten es que es la serie que provoca un mayor nuacutemerode atiacutepicos en el Cuadro 52 un total de 17 observaciones atiacutepicas sentildealadas por el meacutetodo TRAMO-SEATS

Figura 51 Serie de tiempo referente al nuacutemero de viajeros residentes en Espantildea hospedados en esta-blecimientos de turismo rural en Espantildea

La Figura 51 recoge la serie de tiempo referente al nuacutemero de viajeros residentes en Espantildea hos-

51 ANAacuteLISIS SERIES IGE 47

pedados en establecimientos de turismo rural en Espantildea La liacutenea vertical roja representa el comienzodel antildeo 2020 Observando dicha figura y centraacutendonos en la serie hasta 2019 nos encontramos con unaserie con mucha volatilidad debido al fuerte caraacutecter estacional que posee un sector como el turismoy con una ligera tendencia creciente que se estanca ligeramente en los antildeos posteriores a la crisis eco-noacutemica de 2011 para despueacutes continuar en aumento Sin embargo no parece que se encuentren valoresatiacutepicos en dicha serie La combinacioacuten STR+HDoutliers tambieacuten sentildeala un elevado nivel de atiacutepicosseis en total que se reduce con STR+iForest a tres posibles atiacutepicos Finalmente STL+HDoutliers ySTL+iForest coinciden en sentildealar un atiacutepico agosto de 2019

Si ahora observamos los resultados para la serie completa podemos comprobar que los resultadoscambian bruscamente con la introduccioacuten de cuatro nuevos datos enero febrero marzo y abril de2020 Ahora el meacutetodo TRAMO-SEATS sentildeala cuatro fechas de las que solo dos coinciden con lassentildealadas anteriormente Las combinaciones STL+HDoutliers y STL+iForest mantienen como atiacutepicoagosto de 2019 y antildeaden febrero marzo y abril 2020 y marzo y abril 2020 respectivamente Y ahorason las combinaciones STR+HDoutliers y STR+iForest las que sentildealan uacutenicamente agosto de 2019

Es interesante observar el comportamiento de los cinco meacutetodos en esta serie TRAMO-SEATS ylas combinaciones basadas en el proceso de descomposicioacuten STR soliacutean ser las que mejores resultadospresentaban sin embargo en este ejemplo son los meacutetodos basados en la descomposicioacuten STL que sibien presentaron buenos resultados en la simulacioacuten tendiacutean a ir por detraacutes de TRAMO-SEATS y losmeacutetodos basados en la descomposicioacuten STR los que presenta un comportamiento maacutes acorde con loque sucede en la serie De hecho son los meacutetodos basados en la descomposicioacuten STL los uacutenicos quesentildealan como atiacutepica la observacioacuten de abril 2020 la cual es la uacutenica que tiene un valor de 0 y esclaramente atiacutepica

La Figura 52 representa los atiacutepicos detectados por el meacutetodo STL+HDoutliers el cual es el meacutetodoque mejor comportamiento muestra para esta serie

Figura 52 Serie de tiempo referente al nuacutemero de viajeros residentes en Espantildea hospedados en esta-blecimientos de turismo rural en Espantildea analizada por el meacutetodo STL+HDoutliers

En la Figura 53 se muestran los resultados para la misma serie por el resto de meacutetodos utilizadosSTL+iForest STR+HDoutliers STR+iForest y TRAMO-SEATS

48 CAPIacuteTULO 5 APLICACIOacuteN A DATOS REALES

Figura 53 Serie de tiempo referente al nuacutemero de viajeros residentes en Espantildea hospedados en esta-blecimientos de turismo rural en Espantildea analizada por STL+iForest STR+HDoutliers STR+iForesty TRAMO-SEATS

Conjunto 2 (httpwwwigeeuigebdtigeapidatos6356)

Series de datos trimestrales acerca de la poblacioacuten de 16 y maacutes antildeos desglosados por sexo gruposde edad y relacioacuten con la actividad econoacutemica en Galicia Los datos de este conjunto comienzan en elprimer trimestre de 1996 y finalizan en el primer trimestre de 2020

TRAMO -

SEATS

STL +

HDoutliers

STL +

iForest

STR +

HDoutliers

STR +

iForest

Atiacutepicos detectados 56 70 61 62 66

Max nuacutemero atip serie 5 6 3 5 3

Series con 0 atiacutepicos 28 29 18 26 14

Media de atiacutepicos detec 093 117 102 103 110

Cuadro 55 Resultados para el Conjunto 2 con datos hasta el cuarto trimestre de 2019

Los resultados del Cuadro 55 se producen para un total de 5760 observaciones que muestra elconjunto con datos hasta el cuarto trimestre de 2019 Ahora vamos a estudiar los resultados de formaque cada serie esteacute formada por el uacuteltimo dato actualizado y a comparar ambos escenarios En estaserie el uacuteltimo dato actualizado es el primer trimestre de 2020 lo que conforma un total de 5820

51 ANAacuteLISIS SERIES IGE 49

observaciones

TRAMO -

SEATS

STL +

HDoutliers

STL +

iForest

STR +

HDoutliers

STR +

iForest

Atiacutepicos detectados 54 107 62 68 66

Max nuacutemero atip serie 5 45 3 4 3

Series con 0 atiacutepicos 28 30 15 20 12

Media de atiacutepicos detec 090 178 103 113 110

Cuadro 56 Resultados para el Conjunto 2 con datos hasta el primer trimestre de 2020

TRAMO -

SEATS

STL +

HDoutliers

STL +

iForest

STR +

HDoutliers

STR +

iForest

Hasta 2019 56 70 61 62 66

Hasta mayo 2020 54 107 62 68 66

Tasa de variacioacuten -357 5286 164 968 000

Cuadro 57 Total de atiacutepicos detectados por cada meacutetodo hasta el cuarto trimestre de 2019 y primertrimestre de 2020 y tasa de variacioacuten que produce el efecto del Covid en el Conjunto 2

En el Cuadro 57 podemos ver como el efecto del Covid sobre el conjunto es mucho menor que enlos datos del Conjunto 1 Esto se debe a la naturaleza trimestral de los datos por lo que situando lainfluencia del Covid en el contexto gallego a finales de marzo de 2020 su impacto es maacutes suave sobrelos datos Seriacutea interesante en el futuro ver que sucede con este conjunto una vez se antildeadan los datosdel segundo trimestre

A continuacioacuten vamos a analizar un caso concreto de una serie del conjunto Hemos escogido laserie que recoge los datos de hombres mayores de 55 antildeos y que forman parte de la poblacioacuten ocupada

En la Figura 54 se muestra la serie de tiempo referente a los hombres mayores de 55 antildeos queforma parte de la poblacioacuten ocupada La recta vertical roja diferencia los dos escenarios que estudiamosla serie hasta el cuarto trimestre de 2019 y la serie hasta el primer trimestre de 2020-

50 CAPIacuteTULO 5 APLICACIOacuteN A DATOS REALES

Figura 54 Serie de tiempo referente hombres mayores de 55 antildeos y que forman parte de la poblacioacutenocupada

El uacutenico dato que las diferencia el primer trimestre de 2020 sigue con lo que cabriacutea esperar Y losmeacutetodos de deteccioacuten de atiacutepicos concuerdan con lo que observamos no existen atiacutepicos ni antes nidespueacutes excepto en un caso Ahora son los meacutetodos basados en el proceso de descomposicioacuten STL losque sentildealan una fecha que parece discrepar con la realidad

En la serie con valores hasta 2019 son ambas combinaciones STL+HDoutliers y STL+iForestlas que sentildealan como posible atiacutepico julio 2013 Si nos trasladamos a la serie completa uacutenicamenteSTL+iForest sigue manteniendo ese posible atiacutepico mientras que STL+HDoutliers lo corrige Esta si-tuacioacuten en las que solo un meacutetodo sentildeala una fecha nos lleva a dudar de que realmente esta observacioacutensea atiacutepica

A continuacioacuten mostramos la serie referente a los hombres mayores de 55 antildeos y que forman partede la poblacioacuten ocupada analizada por el uacutenico meacutetodo que detecta atiacutepicos para la serie completaSTL+iForest

Figura 55 Serie de tiempo referente hombres mayores de 55 antildeos y que forman parte de la poblacioacutenocupada analizada por STL+iForest

51 ANAacuteLISIS SERIES IGE 51

Conjunto 3 (httpwwwigeeuigebdtigeapidatos308)

Series de datos mensuales acerca de contratos registrados seguacuten la modalidad del contrato Losdatos de este conjunto comienzan en enero de 1999 y finalizan en mayo de 2020

TRAMO -

SEATS

STL +

HDoutliers

STL +

iForest

STR +

HDoutliers

STR +

iForest

Atiacutepicos detectados 193 126 98 146 98

Max nuacutemero atip serie 9 14 5 10 4

Series con 0 atiacutepicos 5 9 1 7 2

Media de atiacutepicos detec 386 252 196 292 196

Cuadro 58 Resultados para el Conjunto 3 con datos hasta diciembre 2019

El Cuadro 58 recoge los resultados que se producen para un total de 12600 observaciones quemuestra el Conjunto 3 con datos hasta diciembre de 2019 Ahora vamos a estudiar los resultados deforma que cada serie esteacute conformada por el uacuteltimo dato actualizado y a realizar una comparativaentre ambas En esta serie el uacuteltimo dato actualizado es mayo de 2020 lo que conforma un total de12850 observaciones

TRAMO -

SEATS

STL +

HDoutliers

STL +

iForest

STR +

HDoutliers

STR +

iForest

Atiacutepicos detectados 242 144 107 153 121

Max nuacutemero atip serie 13 8 5 10 4

Series con 0 atiacutepicos 1 6 0 7 1

Media de atiacutepicos detec 484 288 214 306 242

Cuadro 59 Resultados para el Conjunto 3 con datos hasta mayo de 2020

52 CAPIacuteTULO 5 APLICACIOacuteN A DATOS REALES

TRAMO -

SEATS

STL +

HDoutliers

STL +

iForest

STR +

HDoutliers

STR +

iForest

Hasta 2019 193 126 98 146 98

Hasta mayo 2020 242 144 107 153 121

Tasa de variacioacuten 2539 1429 918 479 2350

Cuadro 510 Total de atiacutepicos detectados por cada meacutetodo hasta diciembre de 2019 y mayo de 2020y tasa de variacioacuten que produce el efecto del Covid en el Conjunto 3

En el Cuadro 510 podemos ver como el efecto del Covid sobre el conjunto es similar al que sepresentaba en los datos del Conjunto 1 Este conjunto vuelve a recoger datos de caraacutecter mensual porlo que la influencia de los meses de 2020 vuelven a reflejar un gran peso en los resultados Sin embargolas tasas de variacioacuten no son tan grandes como las que se produciacutean en el Conjunto 1 Esto podriacuteadeberse a que mientras el sector turiacutestico se redujo a cero en el mercado laboral se llevaron a cabopoliacuteticas contra la destruccioacuten masiva de empleo Estos resultados lo que hacen es aflorar que se haproducido un efecto en el conjunto de datos y que podriacutea ser de intereacutes para despueacutes desarrollar unestudio en profundidad

A continuacioacuten vamos a analizar la serie referente a las contrataciones eventuales por circunstanciasde la produccioacuten para la provincia de Ourense diferenciando a traveacutes de una recta roja vertical los dosescenarios analizados los datos hasta diciembre 2019 y los datos hasta mayo de 2020

Figura 56 Serie de tiempo referente a las contrataciones eventuales por circunstancias de la produccioacutenpara la provincia de Ourense

El meacutetodo TRAMO-SEATS sentildeala tres fechas atiacutepicas en ambas ocasiones en la serie hasta 2019

51 ANAacuteLISIS SERIES IGE 53

y hasta mayo de 2020 sin embargo ninguna de ellas es comuacuten Probablemente esto se deba al compor-tamiento que podemos apreciar en la Figura 56 donde se observa la caiacuteda que produce en la serie losmeses de marzo abril y mayo de 2020 La introduccioacuten de estos datos reajusta las prioridades sobrequeacute es un atiacutepico en la serie para TRAMO-SEATS de forma que pasa de identificar octubre 2001abril 2002 y enero 2012 a sentildealar como fechas atiacutepicas octubre 2007 y marzo y abril de 2020

Este suceso tambieacuten se presenta en el resto de meacutetodos STL+HDoutliers pasa de no identificarninguacuten dato en la serie hasta 2019 a sentildealar abril del 2002 y febrero abril y mayo de 2020 Otro meacutetodoque experimenta esta situacioacuten es STR+iForest que pasa de no calificar ninguna observacioacuten atiacutepicaa sentildealar abril y mayo en 2019 y en 2020 STL+iForest sentildeala dos y tres atiacutepicos en cada caso en laserie hasta 2019 sentildeala el mes de julio en 2018 y 2019 mientras que en la serie completa sentildeala losmeses de febrero abril y mayo de 2020 Por uacuteltimo STR+HDoutliers sentildeala como atiacutepico abril del2002 en la serie acortada observacioacuten que ya no es detectada al incluir la serie completa donde sentildealalos meses de abril y mayo para los antildeos 2019 y 2020 igual aquiacute que STR+iForest

Estos resultados conducen hacia un punto comuacuten mientras que en la serie recortada en 2019 noparece haber mucho acuerdo sobre los atiacutepicos o si existen atiacutepicos en la serie completa todos losmeacutetodos se ponen de acuerdo en que las situaciones de abril y mayo de 2020 son anoacutemalas Estosresultados se muestran en la Figura 57

Figura 57 Serie de tiempo referente a las contrataciones eventuales por circunstancias de la produccioacutenpara la provincia de Ourense sentildealizando las anomaliacuteas comunes a los cinco meacutetodos

Conjunto 4 (httpwwwigeeuigebdtigeapidatos9048)

Series de datos mensuales referidas al Iacutendice de produccioacuten industrial general y por destino eco-noacutemico de los bienes en Espantildea y Galicia Los distintos destinos econoacutemico son bienes de consumoduraderos y no duraderos bienes de equipo bienes intermedios y energiacutea Los datos del conjuntocomienzan en enero de 2002 y finalizan en mayo de 2020

54 CAPIacuteTULO 5 APLICACIOacuteN A DATOS REALES

TRAMO -

SEATS

STL +

HDoutliers

STL +

iForest

STR +

HDoutliers

STR +

iForest

Atiacutepicos detectados 288 129 73 212 64

Max nuacutemero atip serie 24 11 3 102 3

Series con 0 atiacutepicos 9 5 3 6 2

Media de atiacutepicos detec 686 307 174 505 152

Cuadro 511 Resultados para el Conjunto 4 con datos hasta diciembre de 2019

El Cuadro 511 recoge los resultados que se producen para un total de 8904 observaciones quemuestra el conjunto con datos hasta diciembre de 2019 Ahora vamos a estudiar los resultados deforma que cada serie esteacute conformada por el uacuteltimo dato actualizado y a analizar los cambios que seproducen entre ambos escenarios En este conjunto el uacuteltimo dato actualizado es mayo de 2020 lo queconforma un total de 9114 observaciones

TRAMO -

SEATS

STL +

HDoutliers

STL +

iForest

STR +

HDoutliers

STR +

iForest

Atiacutepicos detectados 282 92 78 144 79

Max nuacutemero atip serie 24 5 3 50 3

Series con 0 atiacutepicos 4 5 1 2 1

Media de atiacutepicos detec 672 219 186 343 189

Cuadro 512 Resultados para el Conjunto 4 con datos hasta mayo de 2020

51 ANAacuteLISIS SERIES IGE 55

TRAMO -

SEATS

STL +

HDoutliers

STL +

iForest

STR +

HDoutliers

STR +

iForest

Hasta 2019 288 129 73 212 64

Hasta mayo 2020 282 92 78 144 79

Tasa de variacioacuten -208 -2868 685 -3208 2344

Cuadro 513 Total de atiacutepicos detectados por cada meacutetodo hasta diciembre de 2019 y mayo de 2020y tasa de variacioacuten que produce el efecto del Covid en el Conjunto 4

En el Cuadro 513 podemos ver el efecto del Covid sobre el conjunto sin embargo en esta ocasioacuten nopodemos ver una direccioacuten clara Los meacutetodos difieren y mientras unos meacutetodos muestran crecimientosen el nuacutemero de atiacutepicos detectados para el conjunto otros decrecen y muestran ahora menos atiacutepicosSin embargo esto no implica que el efecto del Covid sobre el conjunto sea menor que por ejemplo en elConjunto 3 Las variaciones entre las series las que incluyen datos de 2020 y las que no son notoriaslo cual implica que el efecto existe

A continuacioacuten vamos a analizar la serie referente a la produccioacuten industrial destinada a bienesintermedios de Galicia diferenciando a traveacutes de una recta vertical roja los dos escenarios los datoshasta diciembre de 2019 y la serie hasta mayo 2020

Figura 58 Serie de tiempo referente a la produccioacuten industrial destinada a bienes intermedios deGalicia

El comportamiento que muestran los meacutetodos con esta serie nos ayuda a plasmar una idea quedesarrollaremos maacutes adelante en el siguiente apartado Si observamos los datos para la serie recortada

56 CAPIacuteTULO 5 APLICACIOacuteN A DATOS REALES

en diciembre de 2019 obtenemos que salvo TRAMO-SEATS que no detecta ninguacuten atiacutepico los otroscuatro meacutetodos concuerdan en dos fechas marzo y julio de 2008 Por otra parte en la serie completacinco meacutetodos sentildealan abril 2020 y cuatro sentildealan marzo de 2008 Estos dos atiacutepicos abril de 2020 ymarzo de 2008 los representamos en la Figura 59

Analizando la Figura 59 el atiacutepico sentildealado en marzo de 2008 parece dudoso sin embargo siprofundizamos en los datos observamos que esta fecha rompe una clara tendencia creciente respecto alos meses de marzo de antildeos anteriores

Este suceso en el que varios meacutetodos coinciden en identificar una fecha proveen al analista de unaseguridad a la hora de calificar una observacioacuten como anoacutemala Este concepto de seguridad eliminandola incertidumbre asociada al campo de la deteccioacuten de valores atiacutepicos seraacute desarrollado maacutes adelante

Figura 59 Serie de tiempo referente a la produccioacuten industrial destinada a bienes intermedios deGalicia con los dos atiacutepicos

Conjunto 5 (httpwwwigeeuigebdtigeapidatos4052)

Series de datos trimestrales de nuacutemero de transacciones inmobiliarias por reacutegimen (Libre Protegiday Total de viviendas) y tipo de vivienda (Nuevas segunda mano y total de viviendas) Las medidas enlas que se toman los datos son por nuacutemero de viviendas su valor total (en miles de euros) o su valormedio (en euros) Los datos se presentan a nivel Espantildea Galicia y las provincias gallegas Los datosse recogen entre el primer trimestre de 2004 hasta el primer trimestre de 2020

51 ANAacuteLISIS SERIES IGE 57

TRAMO -

SEATS

STL +

HDoutliers

STL +

iForest

STR +

HDoutliers

STR +

iForest

Atiacutepicos detectados 184 122 105 94 97

Max nuacutemero atip serie 7 8 2 6 2

Series con 0 atiacutepicos 13 41 12 47 11

Media de atiacutepicos detec 204 136 117 104 107

Cuadro 514 Resultados para el Conjunto 5 con datos hasta el cuarto trimestre de 2019

Los resultados que recoge el Cuadro 514 se producen para un total de 5760 observaciones que mues-tra el Conjunto 5 con datos hasta el cuarto trimestre de 2019 Ahora vamos a estudiar los resultadosde forma que cada serie esteacute conformada por el uacuteltimo dato actualizado y a realizar una comparacioacutenentre ambos escenarios En esta serie el uacuteltimo dato actualizado es el primer trimestre de 2020 lo queconforma un total de 5850 observaciones

TRAMO -

SEATS

STL +

HDoutliers

STL +

iForest

STR +

HDoutliers

STR +

iForest

Atiacutepicos detectados 184 106 108 90 93

Max nuacutemero atip serie 9 8 2 5 3

Series con 0 atiacutepicos 12 42 11 43 13

Media de atiacutepicos detec 204 118 120 100 103

Cuadro 515 Resultados para el Conjunto 5 con datos hasta el primer trimestre de 2020

58 CAPIacuteTULO 5 APLICACIOacuteN A DATOS REALES

TRAMO -

SEATS

STL +

HDoutliers

STL +

iForest

STR +

HDoutliers

STR +

iForest

Hasta 2019 184 122 105 94 97

Hasta mayo 2020 184 106 108 90 93

Tasa de variacioacuten 000 -1311 286 -426 -412

Cuadro 516 Total de atiacutepicos detectados por cada meacutetodo hasta cuarto trimestre de 2019 y primertrimestre de 2020 y tasa de variacioacuten que produce el efecto del Covid en el Conjunto 5

En el Cuadro 516 podemos ver que el efecto del Covid sobre las series trimestrales vuelve a sermuy pequentildeo similar a las conclusiones obtenidas para el Conjunto 2 Si comparamos las tablas 514y 515 podemos similitudes en los resultados para las diferentes medidas que se toman Por ejemplo sinos fijamos en la fila que mide el nuacutemero de series que son identificadas con cero atiacutepicos los meacutetodosapenas difieren en sus resultados Lo mismo sucede con la media de atiacutepicos detectados en cada serieEstos resultados sostienen la idea de que el Covid repercutioacute en menor medida en las series trimestralesen el primer trimestre del antildeo y es de intereacutes realizar este mismo estudio una vez se incorporen losdatos del segundo trimestre

A continuacioacuten vamos a analizar la serie referente al nuacutemero de viviendas transmitidas de segundamano en reacutegimen libre para la provincia de Lugo diferenciando los dos escenarios analizados a traveacutesde una recta vertical roja los datos hasta el cuarto trimestre de 2019 y los datos incluyendo el primertrimestre de 2020

Figura 510 Serie de tiempo referente al nuacutemero de viviendas transmitidas de segunda mano en reacutegimenlibre para la provincia de Lugo

51 ANAacuteLISIS SERIES IGE 59

Observando la Figura 510 parece que el dato incluido referente al primer trimestre de 2020 su-pone una caiacuteda una situacioacuten anoacutemala sin embargo si observamos la evolucioacuten histoacuterica de la seriepodemos comprobar que solamente en dos ocasiones se han mostrado valores superiores en este pri-mer trimestre Para ambos escenarios la serie hasta 2019 y la serie completa uacutenicamente un meacutetododetecta atiacutepicos TRAMO-SEATS que sentildeala en ambas ocasiones octubre de 2010 y 2012 El resto demeacutetodos concuerdan en que la serie no presenta en ninguacuten caso ninguna situacioacuten anoacutemala

La Figura 511 muestra las dos fechas que sentildeala como atiacutepicas el meacutetodo TRAMO-SEATS cuartotrimestre de 2010 y 2012 que si bien reflejan un pico en los espacios temporales en los que se producenno parecen ser atiacutepicas respecto a la serie completa

Figura 511 Serie de tiempo referente al nuacutemero de viviendas transmitidas de segunda mano en reacutegimenlibre para la provincia de Lugo

Conjunto 6 (httpwwwigeeuigebdtigeapidatos1243)

Series de datos mensuales referentes a las bajas de demandas de empleo seguacuten geacutenero y duracioacutende la demanda en Galicia y sus provincias Los datos de la serie se recogen desde enero de 2009 hastajunio de 2020

60 CAPIacuteTULO 5 APLICACIOacuteN A DATOS REALES

TRAMO -

SEATS

STL +

HDoutliers

STL +

iForest

STR +

HDoutliers

STR +

iForest

Atiacutepicos detectados 154 271 228 288 228

Max nuacutemero atip serie 7 11 4 7 3

Series con 0 atiacutepicos 85 44 16 40 12

Media de atiacutepicos detec 093 164 138 174 138

Cuadro 517 Resultados para el Conjunto 6 con datos hasta diciembre de 2019

Los resultados del Cuadro 517 se producen para un total de 21780 observaciones que muestra elconjunto con datos hasta diciembre de 2019 Ahora vamos a estudiar los resultados de forma que cadaserie esteacute conformada por el uacuteltimo dato actualizado y a comparar ambas situaciones En esta serie eluacuteltimo dato actualizado es junio de 2020 lo que conforma un total de 22770 observaciones

TRAMO -

SEATS

STL +

HDoutliers

STL +

iForest

STR +

HDoutliers

STR +

iForest

Atiacutepicos detectados 484 502 336 504 334

Max nuacutemero atip serie 9 12 4 11 4

Series con 0 atiacutepicos 1 10 3 15 5

Media de atiacutepicos detec 293 304 204 305 202

Cuadro 518 Resultados para el Conjunto 6 con datos hasta junio de 2020

51 ANAacuteLISIS SERIES IGE 61

TRAMO -

SEATS

STL +

HDoutliers

STL +

iForest

STR +

HDoutliers

STR +

iForest

Hasta 2019 154 271 228 288 228

Hasta mayo 2020 484 502 336 504 334

Tasa de variacioacuten 21429 8524 4737 7500 4649

Cuadro 519 Total de atiacutepicos detectados por cada meacutetodo hasta diciembre de 2019 y junio de 2020 ytasa de variacioacuten que produce el efecto del Covid en el Conjunto 6

En el Cuadro 519 podemos ver el efecto que supone la primera mitad del antildeo 2020 en la aparicioacutende valores atiacutepicos en este conjunto El incremento en el nuacutemero de datos a analizar no llega a serdel 5 pero esa miacutenima cantidad de datos nuevos dispara las fechas anoacutemalas que se suceden en lasseries En el Cuadro 518 se puede observar que apenas existen series sin atiacutepicos independientementedel meacutetodo que seleccionemos algo todaviacutea maacutes sorprendente si recordamos que este es el conjuntoque posee maacutes series un total de 165 series

A continuacioacuten analizamos un caso concreto utilizando la serie referente a las bajas de la demandade empleo en mujeres con una duracioacuten de la demanda entre 12 y 18 meses en Ourense La rectavertical roja indica el inicio del antildeo 2020 sirviendo asiacute para indicar la diferencia entre los dos escenariosanalizados en los Cuadros 517 y 518

Figura 512 Serie de tiempo referente a las bajas de la demanda de empleo en mujeres con una duracioacutende la demanda entre 12 y 18 meses en Ourense

Esta serie es de intereacutes por diversos motivos El primero es que posee claros atiacutepicos en ambos

62 CAPIacuteTULO 5 APLICACIOacuteN A DATOS REALES

escenarios En la serie con duracioacuten hasta 2019 se puede observar un valor cercano al inicio de 2014con claro aspecto de ser atiacutepico La serie con todos los datos muestra el atiacutepico anterior pero tambieacutennuevos valores con claro comportamiento discordante al resto de la serie

Para la serie recortada cinco meacutetodos coinciden en sus resultados julio de 2013 es atiacutepico uacutenica-mente TRAMO-SEATS difiere el cual no sentildeala ninguacuten atiacutepico en la serie Si ahora nos trasladamosa la serie completa TRAMO-SEATS sentildeala marzo de 2020 como atiacutepico mientras que el resto demeacutetodos vuelven a concordar sentildealando julio de 2013 y febrero de 2020 En la Figura 513 se muestrala serie sentildealizando dichos atiacutepicos julio de 2013 y febrero y marzo de 2020

Figura 513 Serie de tiempo referente a las bajas de la demanda de empleo en mujeres con una duracioacutende la demanda entre 12 y 18 meses en Ourense con los atiacutepicos identificados

Si observamos los datos de la serie podemos calificar todas estas fechas como atiacutepicas julio 2013febrero 2020 y marzo 2020 Sin embargo ninguacuten meacutetodo ha calificado los meses de abril mayo yjunio de 2020 siendo claramente atiacutepicos Estamos frente a una situacioacuten completamente inusual unasituacioacuten que se produce en multitud de series del IGE y es la secuencia de varias observacionesconsecutivas muy atiacutepicas que ejercen un gran peso en la serie

Este gran peso provoca que los meacutetodos no consigan analizar correctamente este escenario Losmodelos de series temporales como TRAMO-SEATS interpretan que se estaacute produciendo un cambiode nivel permanente en la serie mencionado en el Capiacutetulo 3 como Level Shift (LS) y modelizan laserie como tal Los procesos de descomposicioacuten de series temporales utilizados STL y STR entiendenlo que estaacute sucediendo como un cambio en la tendencia es decir en su proceso de extraccioacuten de laestacionalidad y la tendencia estiman una tendencia decreciente en la serie Y por uacuteltimo los meacutetodosde deteccioacuten de valores atiacutepicos HDoutliers y iForest sufren un grave problema de enmascaramientoLa idea del mecanismo de iForest reside en buscar valores aislados mientras que la de HDoutliers sefundamenta en buscar espacios entre los valores ordenados estas dos ideas son consistentes con la ideade la buacutesqueda de atiacutepicos sin embargo ven disminuida su eficiencia ante una situacioacuten tan atiacutepica quepermanece durante varias observaciones consecutivas llevando a provocar que observaciones atiacutepicaspuedan pasar desapercibidas para el mecanismo

51 ANAacuteLISIS SERIES IGE 63

Conjunto 7 (httpwwwigeeuigebdtigeapidatos4885)

Series de datos mensuales referentes a las afiliaciones a la seguridad social el uacuteltimo diacutea de mes enGalicia y sus provincias por regiacutemenes Los datos comienzan en enero de 1990 y finalizan en mayo de2020

TRAMO -

SEATS

STL +

HDoutliers

STL +

iForest

STR +

HDoutliers

STR +

iForest

Atiacutepicos detectados 288 96 118 136 121

Max nuacutemero atip serie 24 8 5 10 5

Series con 0 atiacutepicos 4 10 0 4 0

Media de atiacutepicos detec 613 204 251 289 257

Cuadro 520 Resultados para el Conjunto 7 con datos hasta diciembre de 2019

El Cuadro 520 muestra los resultado que se producen para un total de 16920 observaciones quemuestra el conjunto con datos hasta diciembre de 2019 Ahora vamos a estudiar los resultados de formaque cada serie esteacute conformada por el uacuteltimo dato actualizado y comparar ambas situaciones En estaserie el uacuteltimo dato actualizado es junio de 2020 lo que conforma un total de 17155 observaciones

TRAMO -

SEATS

STL +

HDoutliers

STL +

iForest

STR +

HDoutliers

STR +

iForest

Atiacutepicos detectados 333 179 128 118 136

Max nuacutemero atip serie 24 14 5 11 6

Series con 0 atiacutepicos 0 6 0 3 0

Media de atiacutepicos detec 709 380 272 251 289

Cuadro 521 Resultados para el Conjunto 7 con datos hasta mayo de 2020

64 CAPIacuteTULO 5 APLICACIOacuteN A DATOS REALES

TRAMO -

SEATS

STL +

HDoutliers

STL +

iForest

STR +

HDoutliers

STR +

iForest

Hasta 2019 288 96 118 136 121

Hasta mayo 2020 333 179 128 118 136

Tasa de variacioacuten 1563 8646 847 -1324 1240

Cuadro 522 Total de atiacutepicos detectados por cada meacutetodo hasta diciembre de 2019 y mayo de 2020y tasa de variacioacuten que produce el efecto del Covid en el Conjunto 7

En el Cuadro 522 podemos ver que el efecto que supone la primera mitad del antildeo 2020 en laaparicioacuten de valores atiacutepicos en este conjunto La variacioacuten que supone en el nuacutemero de valores detec-tados como anoacutemalos es considerable todaviacutea maacutes si lo comparamos con la variacioacuten de nuevos datosintroducidos en el anaacutelisis los cuales han aumentado solamente un 138 De este modo podemosafirmar que la presencia del Covid ha provocado un gran impacto en el incremento del nuacutemero deobservaciones atiacutepicas de los conjuntos que presentan datos de frecuencia mensual

A continuacioacuten analizamos un caso concreto utilizando la serie referente a las afiliaciones a laseguridad social en reacutegimen mar para la provincia de Lugo La Figura 514 muestra la representacioacutengraacutefica de dicha serie indicando mediante una recta vertical roja el inicio del 2020

Figura 514 Serie de tiempo referente a las afiliaciones a la seguridad social en reacutegimen mar para laprovincia de Lugo

El motivo de seleccionar esta serie reside en una idea que se va desarrollando a lo largo de todoeste apartado y que da lugar a la herramienta que se introduce en el siguiente Las series socio-econoacutemicas son complejas dado que se ven afectadas por multitud de factores externos que condicionansu desarrollo Este caraacutecter uacutenico de cada serie maacutes los resultados obtenidos a lo largo del trabajo

51 ANAacuteLISIS SERIES IGE 65

nos conduce a la conclusioacuten de que no existe un meacutetodo de deteccioacuten de atiacutepicos con una capacidadde clasificacioacuten superior al resto

Los resultados para esta serie son diversos Por ejemplo la combinacioacuten STR+HDoutliers muestrahasta ocho atiacutepicos para la serie delimitada en el antildeo 2019 sin embargo al introducir la serie completaesta cifra se reduce solamente a dos Sucede lo contrario con la combinacioacuten STL+HDoutliers quesi bien en la serie recortada califica dos observaciones en la completa sentildeala un total de siete Porsu parte TRAMO-SEATS identifica un total de siete atiacutepicos Sin embargo todos los meacutetodos dedeteccioacuten sentildealan dos fechas como atiacutepicas en los dos casos agosto de 2006 y junio de 2008 como serepresenta en la Figura 515 Esto dota al estudio de confianza si todos los mecanismos sospechan dedos fechas deberaacute haber un motivo de peso algo ha sucedido en la serie para que todos concuerdenEsta idea dio lugar al desarrollo de la herramienta que se introduce en el siguiente apartado

Figura 515 Serie de tiempo referente a las afiliaciones a la seguridad social en reacutegimen mar parala provincia de Lugo identificando los atiacutepicos sentildealados de forma comuacuten por los cinco meacutetodos dedeteccioacuten

Por uacuteltimo el Cuadro 523 recoge el total de atiacutepicos detectados por cada meacutetodo en los dosescenarios con los que se ha trabajado en este capiacutetulo El primer escenario incluye datos hasta lauacuteltima fecha de 2019 si las series son mensuales este dato es el correspondiente a diciembre de 2019si son series trimestrales el uacuteltimo dato seraacute el cuarto trimestre de 2019 En el Cuadro 523 se recogede modo general para todos los conjuntos bajo el teacutermino ldquodatos hasta 2019rdquo El segundo escenariorecoge los datos hasta su uacuteltima actualizacioacuten aquiacute existe un mayor abanico de fechas como vimos alo largo de todo este capiacutetulo Los conjuntos con datos de frecuencia trimestral presentan su uacuteltimodato en el primer trimestre de 2020 por su parte los conjuntos de datos mensuales variacutean su uacuteltimaactualizacioacuten entre los meses de abril mayo o junio de 2020 En el Cuadro 523 se recoge de modogeneral para todos ellos bajo el teacutermino ldquodatos hasta 2020rdquo

66 CAPIacuteTULO 5 APLICACIOacuteN A DATOS REALES

TRAMO -SEATS

STL +HDoutliers

STL +iForest

STR +HDoutliers

STR +iForest

Tiempo de ejecucioacuten (2019) 1332 24 1782 7234 8805Tiempo de ejecucioacuten (2020) 1503 21 2042 8043 10764Atiacutepicos detectados (2019) 1490 990 794 1074 816Atiacutepicos detectados (2020) 2036 1373 989 1341 1033

Tasa de variacioacuten 3664 3869 2456 2486 2659

Cuadro 523 Tiempo de ejecucioacuten (en segundos) y total de atiacutepicos detectados por cada meacutetodo hastael uacuteltimo dato de 2019 y hasta uacuteltima actualizacioacuten de 2020 y tasa de variacioacuten que produce el efectodel Covid en los siete conjuntos de datos

El Cuadro 523 nos permite concluir que el efecto global del Covid ha supuesto un incremento enel nuacutemero de observaciones atiacutepicas puesto que todos los meacutetodos experimentan una tasa de variacioacutenpositiva sobre sus cifras de valores atiacutepicos detectados Las cifras de tasas de variacioacuten que se muestranen el Cuadro 523 sorprenden todaviacutea maacutes si analizamos el incremento en el nuacutemero de observacionesanalizadas El escenario que analiza el conjunto de datos hasta 2019 presentan un total de 90540observaciones mientras que el escenario que incluye hasta el uacuteltimo dato actualizado recoge un totalde 92731 Es decir el nuacutemero total de datos analizados se ha incrementado en poco maacutes del 2 sinembargo la tasa de variacioacuten maacutes pequentildea muestra un incremento del maacutes del 24 del nuacutemero deatiacutepicos que se presentan en el conjunto de datos

Otra medida que incluye el Cuadro 523 es el tiempo que tarda en analizar los siete conjuntosde datos cada meacutetodo recogida bajo el nombre de ldquotiempo de ejecucioacutenrdquo A traveacutes de ella podemosobservar que la diferencia entre el tiempo de ejecucioacuten es pequentildea pero existe por lo que muestra quela presencia de atiacutepicos dificulta la modelizacioacuten de la series temporales Tambieacuten podemos comprobarcomo todos los meacutetodos presentan buenas cifras en este medida los que peores resultados muestranson los meacutetodos que utilizan la descomposicioacuten STR la cual ya mencionamos su posible problemade lentitud en el Capiacutetulo 2 Por uacuteltimo es sorprendente la combinacioacuten de STL+HDoutliers que escapaz de analizar las 538 en un tiempo inferior a los tres segundos en ambos casos

52 Anaacutelisis Graacutefico

El campo de la deteccioacuten de valores atiacutepicos estaacute caracterizado por una constante incertidumbrePartiendo del inicio del trabajo ni siquiera existe una definicioacuten exacta de queacute es un valor atiacutepicosino maacutes bien se trazan definiciones en base a ideas de lo que se espera que sea un valor atiacutepico enun conjunto de datos Es por ello que dependiendo de los escenarios y las complejidades asociadas auna serie unos meacutetodos resulten maacutes efectivos que otros Este es el motivo por el que surgioacute la ideade crear una herramienta de anaacutelisis graacutefico para el estudio de series de tiempo

El objetivo de esta herramienta es la de dotar al analista de un mecanismo sencillo de implantarque le permita trazar una idea de los posibles atiacutepicos con los que podriacutea contar la serie Para ello seha creado una funcioacuten en R que solo necesita introducir la serie de tiempo para devolver el graacutefico

52 ANAacuteLISIS GRAacuteFICO 67

Ademaacutes dado que esta herramienta estaacute disentildeada especiacuteficamente para trabajar con series de tiemposu representacioacuten dariacutea lugar a lo que podriacutea denominarse un mapa de calor para zonas atiacutepicas estose muestra maacutes adelante mediante ejemplos

Esta herramienta estaacute compuesta por los meacutetodos que han mostrado mejores resultados en el estudiode simulacioacuten Cada meacutetodo ocupa una fila mostrando a lo largo de ella sus atiacutepicos sentildealados y cadacolumna es una fecha detectada por un meacutetodo De tal modo que si una fecha es detectada por todoslos meacutetodos mostraraacute una columna verde y seraacute sospecha clara de que esa fecha es atiacutepica Por otraparte si una fecha es detectada por solo un meacutetodo mostraraacute solo de color verde la celda asociada aese meacutetodo y no seraacute sentildeal tan evidente de situacioacuten atiacutepica

Para la composicioacuten del graacutefico se utilizan los meacutetodos del apartado anterior y a mayores seintroducen las versiones robustas de los meacutetodos de descomposicioacuten de series temporales STL y STREl motivo de su uso en este apartado se debe a que si bien no mostraron los mejores resultados enel estudio de simulacioacuten ahora pueden resultar de utilidad Los meacutetodos robustos pueden generaranomaliacuteas espurias cuando no existen atiacutepicos debido a que resaltan el tamantildeo del residuo de unaobservacioacuten provocando su identificacioacuten como atiacutepico sin esta serlo Sin embargo cuando se producenanomaliacuteas que ejercen un gran peso en la serie como lo sucedido durante el Covid este tipo deestimaciones son de gran intereacutes esta situacioacuten tambieacuten se justificaraacute mediante un ejemplo praacutectico

El primer ejemplo lo extraemos a traveacutes de la serie referente a la estancia media de viajeros de todaslas procedencias en establecimientos hoteleros en Galicia perteneciente al Conjunto 1 En la Figura516 mostramos la representacioacuten de la misma ahora ya mostramos hasta el uacuteltimo dato actualizadoen este caso mayo de 2020

Figura 516 Estancia media de viajeros de todas las procedencias en establecimientos hoteleros enGalicia

Esta serie parece contar con dos atiacutepicos los relacionados con las dos uacuteltimas observaciones de laserie sin embargo vamos a analizar los resultados del graacutefico comparativo

68 CAPIacuteTULO 5 APLICACIOacuteN A DATOS REALES

Figura 517 Resultados para la serie estancia media de viajeros de todas las procedencias en estable-cimientos hoteleros en Galicia del Conjunto 1

La Figura 517 muestra el graacutefico que hemos desarrollado el cual vamos a desgranar ahora paraentender su utilidad Si hubieacutesemos escogido el meacutetodo TRAMO-SEATS hubieacutesemos sentildealado tresobservaciones atiacutepicas una de ellas seriacutea enero de 2003 Sin embargo analizando los datos podemoscomprobar que este dato parece normal y estariacuteamos identificaacutendolo erroacuteneamente como anoacutemalo Dehecho solo TRAMO-SEATS sentildeala esta fecha Lo mismo sucede con otras fechas como octubre delantildeo 2000 sentildealada por solo dos meacutetodos Por otra parte todos los meacutetodos sentildealan los meses deabril y mayo de 2020 las dos uacuteltimas observaciones de la serie que en la Figura 516 mostraban uncomportamiento totalmente discordante al resto del conjunto de datos Es decir el graacutefico permitetrazar una idea concisa al analista de queacute es anoacutemalo en la serie y que pueden ser falsos positivos

Observando el graacutefico podemos tambieacuten extraer una conclusioacuten raacutepida de la posible presenciade valores atiacutepicos en la serie Se muestran dos comportamientos muy marcados El primero estariacuteadeterminado por la serie hasta el antildeo 2020 en el cual la aparicioacuten de atiacutepicos es dispersa pococoncluyente el analista puede dudar de que estas observaciones sean realmente anoacutemalas El segundoson los datos de 2020 dos columnas enteras de color verde una imagen que comunica que en eseintervalo de tiempo estaacute sucediendo algo realmente anoacutemalo

Vamos a utilizar el graacutefico con otra serie para analizar otra de las caracteriacutesticas que muestran elintereacutes de analizar una serie de tiempo a traveacutes de este graacutefico En la Figura 518 se muestra la serie detiempo perteneciente al Conjunto 3 que recoge la evolucioacuten de los contratos iniciales en Galicia Dichaserie cuenta con tres atiacutepicos claros marzo abril y mayo de 2020

52 ANAacuteLISIS GRAacuteFICO 69

Figura 518 Contratos iniciales registrados en Galicia

Haciendo uso del graacutefico comparativo Figura 519 volvemos a obtener un escenario en el queresulta de intereacutes esta herramienta En este caso el meacutetodo compuesto por STR+HDoutliers muestraun comportamiento erraacutetico que le conduce a identificar una gran cantidad de atiacutepicos de modoincorrecto Lo mismo sucede con TRAMO-SEATS que es el uacutenico que sentildeala enero de 2001 comoatiacutepico sin existir motivo en los datos para esta calificacioacuten

Por otra parte este escenario nos permite observar la utilidad de incorporar las versiones robustasSi bien se equivocan en alguacuten caso por ejemplo el meacutetodo STR+HDoutliers(Rob) sentildealando junio de2002 nos permiten calificar marzo de 2020 como atiacutepico algo que los meacutetodos que utilizan las versionesno robustas de los meacutetodos de descomposicioacuten de series temporales STR y STR no logran Todasellas se ponen de acuerdo junto a TRAMO-SEATS para la sentildealizacioacuten de este mes

Ademaacutes dado que estamos trabajando con series temporales los resultados de la graacutefica se muestranen orden cronoloacutegico en vez de por cuaacuten anoacutemala es la observacioacuten como se hace en TRAMO-SEATSo en iForest Esto nos permite entender la graacutefica como un mapa de calor Al analizar la serie siexiste un intervalo de tiempo en el que se han producido situaciones anoacutemalas como por ejemplo eneste caso los meses relacionados al Covid se veraacute reflejado en el graacutefico por una serie de columnascon muchas celdas verdes lo que daraacute a entender de manera raacutepida al analista que en ese intervalode tiempo se han producido situaciones excepcionales De este modo tambieacuten conseguimos corregirel problema de enmascaramiento que pueden sufrir los meacutetodos cuando se suceden varias situacionesatiacutepicas consecutivas

70 CAPIacuteTULO 5 APLICACIOacuteN A DATOS REALES

Figura 519 Resultados para la serie Contratos iniciales registrados en Galicia del Conjunto 3

Capiacutetulo 6

Conclusiones

El IGE cuenta con una ampliacutea base de datos que se utiliza para el estudio del contexto socio-econoacutemico en Galicia Estos datos tienen una base temporal es decir son datos referidos a un intervalode tiempo en la mayoriacutea de los casos esta periodicidad es anual trimestral o mensual La manipulacioacutende los datos puede conllevar a que se introduzcan errores humanos o de medicioacuten que provoquen quese incluyan cifras incorrectas a las bases de datos Estos errores pueden distorsionar las conclusionesde un estudio o conducir haciacutea resultados alejados de la verdadera realidad Es por ello que resultanecesario el incorporar una herramienta de deteccioacuten de valores atiacutepicos al anaacutelisis de las bases dedatos del IGE

Para ello se planteoacute una revisioacuten bibliograacutefica de los principales meacutetodos de deteccioacuten de atiacutepicosen series temporales Esta revisioacuten nos permitioacute conocer la existencia de un amplio abanico de meacuteto-dos disponibles con los cuales empezamos a trabajar para analizar su comportamiento Es aquiacute dondedecidimos descartar una serie de meacutetodos mencionados al final del Apartado 34 debido a que sufuncionamiento y sus resultados correspondiacutean a versiones inferiores de otros meacutetodos que finalmenteadoptamos Este primer estudio nos proporcionoacute los meacutetodos de deteccioacuten de atiacutepicos en series tem-porales que supondriacutean el punto de partida del trabajo X-13ARIMA-SEATS TRAMO-SEATS y lalibreriacutea de R Anomalize

La libreriacutea Anomalize tambieacuten nos sirvioacute de ayuda en el desarrollo de nuestros propios meacutetodos dedeteccioacuten de atiacutepicos para series temporales La idea sobre la que se fundamenta esta libreriacutea es la deaplicar un proceso de descomposicioacuten de series de tiempo a una serie para extraer las componentes dela estacionalidad la tendencia y un residuo para despueacutes aplicar un meacutetodo de deteccioacuten de atiacutepicossobre el residuo Dado que se han producido mejoras a los meacutetodos de descomposicioacuten y deteccioacutenque se utilizan en la libreriacutea Anomalize consideramos que una nueva combinacioacuten podriacutea reflejar unamejora en los resultados

Para comparar todos los meacutetodos de deteccioacuten de atiacutepicos en series temporales los que sirven depunto de partida del trabajo y los desarrollados por nosotros decidimos llevar a cabo un ambiciosoestudio de simulacioacuten El estudio de simulacioacuten recoge diferentes escenarios con la finalidad de repre-sentar la heterogeneidad propia de las series de tiempo referentes a variables sociales y econoacutemicas Losresultados del estudio de simulacioacuten confirman nuestra idea acerca de que una nueva combinacioacuten pue-de suponer una mejora en los resultados debido a que varias de nuestras combinaciones reflejan mejores

71

72 CAPIacuteTULO 6 CONCLUSIONES

resultados que las propuestas en la libreriacutea Anomalize Tambieacuten nos permite observar que nuestraspropuestas compiten en los resultados con un modelo tan desarrollado como TRAMO-SEATS Final-mente nos permiten descartar otros meacutetodos que siendo uacutetiles en otros campos no parecen resultaridoacuteneos para el nuestro

Tras el estudio de simulacioacuten comenzamos a utilizar los meacutetodos que habiacutean mostrado mejoresresultados con los datos proporcionados por el IGE Fue en este momento cuando nos encontramos conuna situacioacuten no contemplada en ninguacuten momento en ninguacuten escenario del estudio de simulacioacuten yen general en ninguacuten momento de lo que podriacutea ser la historia reciente como fue la crisis del Covid19Esta crisis provoca un efecto enorme en los datos del contexto gallego como se recoge a lo largo delCapiacutetulo 5 y supone un nuevo escenario en lo que a deteccioacuten de valores atiacutepicos en series temporalesse refiere

Este nuevo escenario se caracteriza por reflejar durante varios periacuteodos de tiempo consecutivosobservaciones enormemente anoacutemalas y los modelos ven empeorado su comportamiento TRAMO-SEATS y los modelos de descomposicioacuten de series de tiempo STL y STR entienden que lo que seestaacute produciendo es una tendencia decreciente de la serie Por su parte los meacutetodos de deteccioacuten deatiacutepicos HDoutliers y iForest sufren un fenoacutemeno de enmascaramiento en el que son incapaces desentildealizar todos los atiacutepicos Fue aquiacute donde decidimos crear una nueva herramienta para el anaacutelisis

El objetivo con el que creamos esta herramienta de anaacutelisis graacutefico fue el de reducir la incertidumbreque supone el campo de la deteccioacuten de atiacutepicos de un modo sencillo y directo para el analista que lautilice Ademaacutes su disentildeo estaacute pensado para el trabajo con series temporales de modo que si se sucedeun periacuteodo convulso como el actual la graacutefica podraacute ser analizada como un mapa de calor un mapade calor que transmite visualmente la idea de en queacute intervalo de tiempo la serie estaacute experimentandocomportamientos atiacutepicos

Apeacutendice A

Tablas

A1 Tablas de sensibilidad

73

74 APEacuteNDICE A TABLAS

Caso 1 Caso 2 Caso 3 Caso 4

X-13ARIMA-SEATS 0496 0854 0700 0826

TRAMO-SEATS 0657 0928 0805 0851

STL+HDoutliers 0569 0838 0570 0732

STL+GESD 0266 0590 0236 0532

STL+iForest 0636 0885 0636 0790

STL(ROB)+HDoutliers 0562 0803 0678 0712

STL(ROB)+GESD 0637 0876 0746 0754

STL(ROB)+iForest 0640 0878 0747 0786

Twitter+HDoutliers 0471 0735 0597 0620

Twitter+GESD 0306 0590 0429 0434

Twitter+iForest 0529 0801 0652 0660

STR+HDoutliers 0611 0841 0603 0672

STR+GESD 0345 0650 0292 0448

STR+iForest 0674 0885 0679 0721

STR(ROB)+HDoutliers 0542 0812 0638 0658

STR(ROB)+GESD 0381 0685 0458 0558

STR(ROB)+iForest 0623 0862 0699 0714

Cuadro A1 Resultados Escenario 1Sensibilidad AR(1)

A1 TABLAS DE SENSIBILIDAD 75

Caso 1 Caso 2 Caso 3 Caso 4

X-13ARIMA-SEATS 0505 0829 0646 0875

TRAMO-SEATS 0668 0914 0743 0888

STL+HDoutliers 0472 0729 0481 0684

STL+GESD 0217 0457 0148 0428

STL+iForest 0506 0784 0525 0716

STL(ROB)+HDoutliers 0469 0735 0588 0648

STL(ROB)+GESD 0529 0775 0665 0668

STL(ROB)+iForest 0526 0803 0666 0716

Twitter+HDoutliers 0465 0698 0596 0646

Twitter+GESD 0349 0630 0483 0486

Twitter+iForest 0512 0778 0663 0692

STR+HDoutliers 0588 0823 0573 0664

STR+GESD 0298 0602 0247 0449

STR+iForest 0630 0869 0651 0721

STR(ROB)+HDoutliers 0521 0788 0611 0649

STR(ROB)+GESD 0336 0628 0406 0520

STR(ROB)+iForest 0582 0839 0691 0711

Cuadro A2 Resultados Escenario 2 Sensibilidad MA(1)

76 APEacuteNDICE A TABLAS

Caso 1 Caso 2 Caso 3 Caso 4

X-13ARIMA-SEATS 0922 0971 0927 0983

TRAMO-SEATS 0923 0972 0923 0982

STL+HDoutliers 0312 0508 0241 0440

STL+GESD 0089 0230 0051 0152

STL+iForest 0343 0578 0284 0454

STL(ROB)+HDoutliers 0261 0435 0297 0333

STL(ROB)+GESD 0311 0527 0393 0322

STL(ROB)+iForest 0298 0501 0336 0362

Twitter+HDoutliers 0064 0112 0127 0066

Twitter+GESD 0028 0040 0069 0032

Twitter+iForest 0079 0129 0169 0070

STR+HDoutliers 0407 0563 0348 0440

STR+GESD 0204 0367 0109 0230

STR+iForest 0445 0617 0389 0495

STR(ROB)+HDoutliers 0243 0397 0254 0272

STR(ROB)+GESD 0209 0391 0225 0259

STR(ROB)+iForest 0282 0455 0284 0293

Cuadro A3 Resultados Escenario 3 Sensibilidad ARIMA(011)

A1 TABLAS DE SENSIBILIDAD 77

Caso 1 Caso 2 Caso 3 Caso 4

X-13ARIMA-SEATS 0403 0593 0068 0816

TRAMO-SEATS 0542 0707 0072 0814

STL+HDoutliers 0005 0004 0016 0004

STL+GESD 0000 0001 0004 0000

STL+iForest 0003 0003 0015 0005

STL(ROB)+HDoutliers 0007 0007 0037 0004

STL(ROB)+GESD 0009 0021 0099 0029

STL(ROB)+iForest 0006 0008 0036 0005

Twitter+HDoutliers 0001 0000 0001 0008

Twitter+GESD 0006 0009 0012 0023

Twitter+iForest 0001 0000 0005 0018

STR+HDoutliers 0370 0428 0006 0088

STR+GESD 0424 0462 0000 0138

STR+iForest 0418 0479 0004 0103

STR(ROB)+HDoutliers 0028 0019 0011 0076

STR(ROB)+GESD 0064 0063 0051 0140

STR(ROB)+iForest 0022 0014 0010 0027

Cuadro A4 Resultados Escenario 4 Sensibilidad ARIMA(011)x(011)12

78 APEacuteNDICE A TABLAS

Caso 1 Caso 2 Caso 3 Caso 4

X-13ARIMA-SEATS 0266 0629 0177 0574

TRAMO-SEATS 0400 0750 0251 0618

STL+HDoutliers 0247 0477 0291 0130

STL+GESD 0093 0260 0160 0024

STL+iForest 0270 0536 0312 0138

STL(ROB)+HDoutliers 0278 0489 0358 0102

STL(ROB)+GESD 0400 0688 0478 0132

STL(ROB)+iForest 0314 0553 0398 0133

Twitter+HDoutliers 0254 0439 0363 0108

Twitter+GESD 0176 0385 0317 0064

Twitter+iForest 0274 0486 0388 0131

STR+HDoutliers 0664 0895 0240 0760

STR+GESD 0425 0770 0065 0567

STR+iForest 0724 0939 0283 0800

STR(ROB)+HDoutliers 0197 0334 0220 0529

STR(ROB)+GESD 0190 0333 0207 0692

STR(ROB)+iForest 0235 0369 0238 0591

Cuadro A5 Resultados Escenario 5 Sensibilidad ARIMA(101)x(012)12

A1 TABLAS DE SENSIBILIDAD 79

Caso 1 Caso 2 Caso 3 Caso 4

X-13ARIMA-SEATS 0333 0662 0355 0618

TRAMO-SEATS 0460 0767 0480 0656

STL+HDoutliers 0521 0798 0502 0629

STL+GESD 0230 0559 0188 0328

STL+iForest 0565 0836 0572 0651

STL(ROB)+HDoutliers 0519 0788 0605 0601

STL(ROB)+GESD 0541 0828 0676 0561

STL(ROB)+iForest 0566 0843 0668 0648

Twitter+HDoutliers 0246 0423 0362 0212

Twitter+GESD 0104 0232 0187 0102

Twitter+iForest 0284 0456 0398 0230

STR+HDoutliers 0527 0788 0444 0641

STR+GESD 0279 0585 0152 0386

STR+iForest 0600 0825 0499 0685

STR(ROB)+HDoutliers 0407 0674 0497 0550

STR(ROB)+GESD 0277 0527 0352 0404

STR(ROB)+iForest 0462 0735 0573 0582

Cuadro A6 Resultados Escenario 6 Sensibilidad ARIMA(111)x(101)12

80 APEacuteNDICE A TABLAS

Caso 1 Caso 2 Caso 3 Caso 4

X-13ARIMA-SEATS 0299 0638 0335 0632

TRAMO-SEATS 0424 0717 0432 0801

STL+HDoutliers 0432 0705 0397 0626

STL+GESD 0177 0416 0109 0351

STL+iForest 0514 0762 0463 0530

STL(ROB)+HDoutliers 0441 0686 0494 0613

STL(ROB)+GESD 0461 0731 0556 0584

STL(ROB)+iForest 0491 0723 0548 0528

Twitter+HDoutliers 0280 0471 0387 0354

Twitter+GESD 0129 0288 0191 0147

Twitter+iForest 0008 0017 0051 0050

STR+HDoutliers 0456 0700 0467 0568

STR+GESD 0203 0439 0167 0274

STR+iForest 0515 0778 0443 0638

STR(ROB)+HDoutliers 0424 0687 0510 0554

STR(ROB)+GESD 0262 0524 0330 0366

STR(ROB)+iForest 0349 0562 0413 0388

Cuadro A7 Resultados Escenario 7 Sensibilidad ARIMA(112)x(011)12

A1 TABLAS DE SENSIBILIDAD 81

Caso 1 Caso 2 Caso 3 Caso 4

X-13ARIMA-SEATS 0299 0638 0335 0632

TRAMO-SEATS 0424 0717 0432 0801

STL+HDoutliers 0432 0705 0397 0626

STL+GESD 0177 0416 0109 0351

STL+iForest 0485 0738 0428 0665

STL(ROB)+HDoutliers 0441 0686 0494 0613

STL(ROB)+GESD 0461 0731 0556 0584

STL(ROB)+iForest 0494 0755 0566 0678

Twitter+HDoutliers 0280 0471 0387 0354

Twitter+GESD 0129 0288 0191 0147

Twitter+iForest 0306 0509 0430 0359

STR+HDoutliers 0456 0700 0467 0568

STR+GESD 0203 0439 0167 0274

STR+iForest 0497 0772 0507 0602

STR(ROB)+HDoutliers 0424 0687 0510 0554

STR(ROB)+GESD 0262 0524 0330 0366

STR(ROB)+iForest 0465 0755 0577 0590

Cuadro A8 Resultados Escenario 8 Sensibilidad ARIMA(011)x(100)12

82 APEacuteNDICE A TABLAS

A2 Tablas de exceso

Caso 1 Caso 2 Caso 3 Caso 4

X-13ARIMA-SEATS 0078 0077 0066 0042

TRAMO-SEATS 0211 0208 0222 0056

STL+HDoutliers 0788 0829 0805 1534

STL+GESD 0056 0055 0045 0031

STL+iForest 0406 0300 0404 0659

STL(ROB)+HDoutliers 1162 1242 1212 1714

STL(ROB)+GESD 1411 1417 1416 0461

STL(ROB)+iForest 0637 0468 0575 0859

Twitter+HDoutliers 0930 0955 0905 1487

Twitter+GESD 0257 0273 0254 0069

Twitter+iForest 0538 0412 0490 0776

STR+HDoutliers 0759 0810 0759 1464

STR+GESD 0053 0062 0046 0024

STR+iForest 0403 0301 0381 0725

STR(ROB)+HDoutliers 0749 0842 0758 1460

STR(ROB)+GESD 0199 0196 0192 0099

STR(ROB)+iForest 0427 0315 0413 0749

Cuadro A9 Resultados Escenario 1 Exceso AR(1)

A2 TABLAS DE EXCESO 83

Caso 1 Caso 2 Caso 3 Caso 4

X-13ARIMA-SEATS 0054 0058 0066 0058

TRAMO-SEATS 0144 0138 0175 0061

STL+HDoutliers 0695 0772 0759 1472

STL+GESD 0034 0038 0050 0016

STL+iForest 0443 0318 0425 0706

STL(ROB)+HDoutliers 1168 1221 1180 1703

STL(ROB)+GESD 1309 1349 1415 0418

STL(ROB)+iForest 0682 0528 0621 0877

Twitter+HDoutliers 0836 0832 0911 1577

Twitter+GESD 0313 0329 0334 0061

Twitter+iForest 0552 0417 0483 0755

STR+HDoutliers 0798 0885 0694 1541

STR+GESD 0054 0064 0044 0018

STR+iForest 0407 0302 0396 0724

STR(ROB)+HDoutliers 0725 0776 0745 1516

STR(ROB)+GESD 0134 0143 0142 0076

STR(ROB)+iForest 0435 0312 0372 0727

Cuadro A10 Resultados Escenario 2 Exceso MA(1)

84 APEacuteNDICE A TABLAS

Caso 1 Caso 2 Caso 3 Caso 4

X-13ARIMA-SEATS 0106 0060 0101 0070

TRAMO-SEATS 0179 0123 0175 0085

STL+HDoutliers 0638 0635 0686 1376

STL+GESD 0052 0054 0067 0020

STL+iForest 0448 0346 0468 0867

STL(ROB)+HDoutliers 0932 0905 1010 1604

STL(ROB)+GESD 2339 2311 2338 1863

STL(ROB)+iForest 0705 0573 0695 1281

Twitter+HDoutliers 0311 0285 0311 0743

Twitter+GESD 1302 1282 1331 1946

Twitter+iForest 0167 0153 0175 0645

STR+HDoutliers 0672 0703 0623 1364

STR+GESD 0180 0183 0119 0050

STR+iForest 0372 0297 0393 0899

STR(ROB)+HDoutliers 0598 0568 0588 1225

STR(ROB)+GESD 1030 1008 0999 1341

STR(ROB)+iForest 0463 0383 0464 1108

Cuadro A11 Resultados Escenario 3 Exceso ARIMA(011)

A2 TABLAS DE EXCESO 85

Caso 1 Caso 2 Caso 3 Caso 4

X-13ARIMA-SEATS 0132 0120 0062 0274

TRAMO-SEATS 0198 0180 0075 0274

STL+HDoutliers 0832 0823 0837 1337

STL+GESD 0231 0225 0226 0165

STL+iForest 0727 0710 0718 1237

STL(ROB)+HDoutliers 1197 1152 1186 1230

STL(ROB)+GESD 4756 4699 4689 7954

STL(ROB)+iForest 0992 0993 0983 1514

Twitter+HDoutliers 0144 0162 0182 0376

Twitter+GESD 3050 2761 2813 6058

Twitter+iForest 0123 0128 0121 0508

STR+HDoutliers 1108 1135 1027 1454

STR+GESD 1469 1679 0582 4430

STR+iForest 0732 0674 0882 1653

STR(ROB)+HDoutliers 1382 1266 0876 10915

STR(ROB)+GESD 4452 4583 4289 19321

STR(ROB)+iForest 0831 0845 0828 1858

Cuadro A12 Resultados Escenario 4 Exceso ARIMA(011)x(011)12

86 APEacuteNDICE A TABLAS

Caso 1 Caso 2 Caso 3 Caso 4

X-13ARIMA-SEATS 0109 0123 0111 0069

TRAMO-SEATS 0239 0301 0312 0139

STL+HDoutliers 0869 0762 0986 1367

STL+GESD 0170 0170 0198 0244

STL+iForest 0667 0475 0712 1291

STL(ROB)+HDoutliers 1328 1357 1499 1287

STL(ROB)+GESD 2517 2530 2919 5438

STL(ROB)+iForest 0992 0813 0978 1444

Twitter+HDoutliers 1041 0966 1065 1383

Twitter+GESD 0796 0854 0830 2221

Twitter+iForest 0808 0655 0735 1412

STR+HDoutliers 0799 0979 0846 1551

STR+GESD 0101 0087 0083 0029

STR+iForest 0383 0286 0619 0669

STR(ROB)+HDoutliers 0764 0759 0755 1692

STR(ROB)+GESD 1600 1591 1490 8145

STR(ROB)+iForest 0603 0492 0593 0894

Cuadro A13 Resultados Escenario 5 Exceso ARIMA(101)x(012)12

A2 TABLAS DE EXCESO 87

Caso 1 Caso 2 Caso 3 Caso 4

X-13ARIMA-SEATS 0179 0167 0141 0096

TRAMO-SEATS 0307 0299 0297 0127

STL+HDoutliers 0792 0783 0775 1598

STL+GESD 0052 0050 0049 0030

STL+iForest 0452 0306 0459 0748

STL(ROB)+HDoutliers 1193 1207 1269 1697

STL(ROB)+GESD 1290 1324 1270 0437

STL(ROB)+iForest 0708 0531 0670 0952

Twitter+HDoutliers 0690 0698 0676 1157

Twitter+GESD 0266 0257 0225 0523

Twitter+iForest 0538 0416 0459 1063

STR+HDoutliers 0740 0853 0796 1429

STR+GESD 0065 0077 0063 0036

STR+iForest 0432 0311 0493 0750

STR(ROB)+HDoutliers 0749 0799 0717 1477

STR(ROB)+GESD 0317 0291 0254 0167

STR(ROB)+iForest 0502 0373 0463 0839

Cuadro A14 Resultados Escenario 6 Exceso ARIMA(111)x(101)12

88 APEacuteNDICE A TABLAS

Caso 1 Caso 2 Caso 3 Caso 4

X-13ARIMA-SEATS 0147 0138 0115 0081

TRAMO-SEATS 0278 0285 0287 0261

STL+HDoutliers 0788 0815 0776 1392

STL+GESD 0045 0047 0042 0031

STL+iForest 0471 0337 0478 0842

STL(ROB)+HDoutliers 1122 1183 1194 1785

STL(ROB)+GESD 1364 1387 1340 0670

STL(ROB)+iForest 0720 0559 0711 1100

Twitter+HDoutliers 0125 0109 0084 0092

Twitter+GESD 3247 3207 3185 7613

Twitter+iForest 0087 0066 0073 0294

STR+HDoutliers 0854 0807 0773 1430

STR+GESD 0069 0069 0050 0036

STR+iForest 0438 0357 0484 0793

STR(ROB)+HDoutliers 0765 0755 0725 1370

STR(ROB)+GESD 0434 0489 0510 0536

STR(ROB)+iForest 0581 0471 0547 1064

Cuadro A15 Resultados Escenario 7 Exceso ARIMA(112)x(011)12

A2 TABLAS DE EXCESO 89

Caso 1 Caso 2 Caso 3 Caso 4

X-13ARIMA-SEATS 0090 0095 0104 0056

TRAMO-SEATS 0487 0475 0494 0446

STL+HDoutliers 0734 0814 0749 1507

STL+GESD 0068 0059 0052 0025

STL+iForest 0496 0352 0479 0747

STL(ROB)+HDoutliers 1157 1098 1083 1660

STL(ROB)+GESD 1232 1281 1260 0294

STL(ROB)+iForest 0764 0566 0687 0918

Twitter+HDoutliers 0859 0822 0860 1415

Twitter+GESD 0214 0209 0217 0114

Twitter+iForest 0606 0526 0550 1031

STR+HDoutliers 0797 0792 0778 1469

STR+GESD 0048 0059 0042 0017

STR+iForest 0461 0336 0464 0782

STR(ROB)+HDoutliers 0786 0726 0699 1494

STR(ROB)+GESD 0159 0146 0145 0072

STR(ROB)+iForest 0520 0359 0433 0830

Cuadro A16 Resultados Escenario 8 Exceso ARIMA(011)x(100)12

90 APEacuteNDICE A TABLAS

Bibliografiacutea

Abraham B y Box G E P (1979) Bayesian analysis of some outlier problems in time seriesBiometrika 66 (2) 229ndash236

Barnett V y Lewis T (1996) Outliers in statistical data 3rd edition (John Wiley amp Sons Chi-chester) 584 pp [UK pound]5500 ISBN 0-471-93094-6 International Journal of Forecasting 12 (1) 175-176

Bell W (1983) A computer program for detecting outliers in time series Proceedings of the AmericanStatistical Association Business and Economic Statistics Section 634-639

Box G y Jenkins G (1976) Time series analysis forecasting and control En (Vol 134) doi1023072344246

Box G E P y Tiao G C (1975) Intervention analysis with applications to economic and environ-mental problems Journal of the American Statistical Association 70 (349) 70ndash79

Breunig M Kriegel H-P Ng R y Sander J (2000) Lof Identifying density-based local outliersEn (Vol 29 p 93-104) doi 101145342009335388

Chang I Tiao G y Chen C (1988) Estimation of time series parameters in the presence of outliersTechnometrics 30 193-204 doi 10108000401706198810488367

Chang I y Tiao G C (1983) Estimation of time series parameters in the presence of outliersTechnical Report 8 University of Chicago Statistics Research Center 30

Chauvenet W (1963) A manual of spherical and practical astronomy volume 2 474-566Chen C y Liu L-M (1993) Joint estimation of model parameters and outlier effects in time series

Journal of the American Statistical Association 88 (421) 284ndash297Cleveland R B Cleveland W S McRae J E y Terpenning I (1990) STL A seasonal-trend

decomposition procedure based on Loess Journal of Official Statistics 6 Dancho M y Vaughan D (2019) Anomalize Tidy anomaly detection [Manual de software informaacute-

tico]Datacamp (2018) Detect anomalies with anomalize in r httpswwwdatacampcomcommunity

tutorialsdetect-anomalies-anomalize-r (Visitado 2020-06-16)de Lacalle J L (2015) Detection of outliers in time series with r httpsjalobecomtsoutliers

(Visitado 2020-03-16)de Lacalle J L (2019) Detection of outliers in time series [Manual de software informaacutetico] https

cranr-projectorgwebpackagestsoutlierstsoutlierspdfDokumentov A y Hyndman R J (2015) STR A seasonal-trend decomposition procedure based

on Regression

91

92 BIBLIOGRAFIacuteA

Dokumentov A y Hyndman R J (2018) str Str decomposition [Manual de software informaacutetico](httpscranr-projectorgwebpackagesstRindexhtml)

Fraley C y Wilkinson L (2020) Hdoutliers Leland wilkinsonrsquos algorithm for detecting multidimen-sionaloutliers [Manual de software informaacutetico]

Goacutemez V y Maravall A (1997) Programs tramo and seats instructions for the user Mimeo Bancode Espantildea

Goacutemez V y Taguas D (1995) Deteccioacuten y correccioacuten automaacutetica de outliers con tramo Unaaplicacioacuten al ipc de bienes industriales no energeacuteticos

Grubbs F (1950) Sample criteria for testing outlying observations The Annals of MathematicalStatistics 21 doi 101214aoms1177729885

Hawkins D (1980) Identification of outliers London [ua] Chapman and HallHochenbaum J Vallis O y Kejariwal A (2017) Automatic anomaly detection in the cloud via

statistical learningHoerl A y Kennard R (1970) Ridge regression Biased estimation for nonorthogonal problems

Technometrics 8 27-51Hyndman R (2020) Forecasting functions for time series and linear models [Manual de software

informaacutetico] httpscranr-projectorgwebpackagesforecastforecastpdfla Tente A Q Michalek A Palate J y Baeyens R (2020) Rjdemetra Interface to rsquojdemetra+rsquo

seasonal adjustment software [Manual de software informaacutetico]Liu F T Ting K y Zhou Z-H (2009) Isolation forest En (p 413 - 422) doi 101109

ICDM200817Mahdavinejad M S Rezvan M Barekatain M Adibi P Barnaghi P y Sheth A P (2018)

Machine learning for internet of things data analysis a survey Digital Communications andNetworks 4 (3) 161 - 175 doi httpsdoiorg101016jdcan201710002

Moore D y McCabe G (1999) Introduction to the practice of statistics WH FreemanOtto M y Bell W (1990) Two issues in time series outlier detection using indicator variables

Proceedings of the American Statistical Association Business and Economic Statistics Section182-187

Peirce B (1852) Criterion for rejection of doubtful observations The Astronomical Journal 2 161-163 doi 101086100259

Pentildea D (2010) Anaacutelisis de series temporales Alianza EditorialRosner B (1975) On the detection of many outliers Technometrics 17 221-227 doi 101080

00401706197510489305Rosner B (1983) Percentagepoints for a generalized esd many-outier procedure Technometrics 25

165-172 doi 10108000401706198310487848Rousseeuw P y Hubert M (2011) Robust statistics for outlier detection Wiley Interdisc Rew

Data Mining and Knowledge Discovery 1 73-79 doi 101002widm2Shan G (2015) Improved confidence intervals for the youden index

doi 01371journalpone0127272Shiskin J Young A y Musgrave J (1967) The x-11 variant of the census method ii seasonal

adjustment program

BIBLIOGRAFIacuteA 93

Srikanth K S (2017) solitude An implementation of isolation forest [Manual de software informaacutetico](R package version 021 mdash For new features see the rsquoSolitudersquo file (in the package source))

Thompson W (1935) On a criterion for the rejection of observations and the distribution of theratio of deviation to sample standard deviation The Annals of Mathematical Statistics 6 doi101214aoms1177732567

Tibshirani R (1996) Regression shrinkage and selection via the lasso Journal of the Royal StatisticalSociety Series B (Methodological) 58 267-288 doi 101111j2517-61611996tb02080x

Time Series Research Staff (2017) X-13ARIMA-SEATS Reference Manual Center for StatisticalResearch and Methodology

Tsay R S (1986) Time series model specification in the presence of outliers Journal of the AmericanStatistical Association 81 (393) 132ndash141

Tsay R S y Tiao G C (1984) Consistent estimates of autoregressive parameters and extendedsample autocorrelation function for stationary and nonstationary arma models Journal of theAmerican Statistical Association 79 (385) 84ndash96

Tukey J W (1977) Exploratory data analysis Addison-WesleyTwitter Inc (2015) Anomalydetection r package GitHub (httpsgithubcomtwitter

AnomalyDetection)Wilkinson L (2017) Visualizing big data outliers through distributed aggregation IEEE Transactions

on Visualization and Computer Graphics PP 1-1 doi 101109TVCG20172744685Woodward W A Gray H L y Elliott A C (2017) Applied time series analysis with r second

edition Journal of Time Series Analysis 39 618 doi 101111jtsa12273Youden W (1950) Youden wjindex for rating diagnostic tests cancer 3(1) 32-35 Cancer 3 32-5

doi 1010021097-0142(1950)3130CO2-3

  • Resumen
  • Introduccioacuten
  • Modelizacioacuten de series temporales
    • Conceptos baacutesicos
    • Meacutetodos de modelizacioacuten de series temporales
      • X-13ARIMA-SEATS
      • TRAMO-SEATS
      • STL
      • STR
      • Twitter
        • Resumen meacutetodos de modelizacioacuten de series temporales
          • Deteccioacuten de valores atiacutepicos
            • Conceptos baacutesicos
            • Meacutetodos de deteccioacuten de valores atiacutepicos
              • X-13ARIMA-SEATS
              • TRAMO-SEATS
              • GESD
              • Isolation Forest
              • HDoutliers
                • Resumen meacutetodos de deteccioacuten de valores atiacutepicos
                • Meacutetodos de deteccioacuten de valores atiacutepicos en series temporales
                  • Estudio de simulacioacuten
                    • Escenarios
                    • Iacutendice de Youden
                    • Resultados
                    • Conclusiones
                      • Aplicacioacuten a datos reales
                        • Anaacutelisis Series IGE
                        • Anaacutelisis Graacutefico
                          • Conclusiones
                          • Tablas
                            • Tablas de sensibilidad
                            • Tablas de exceso
                              • Bibliografiacutea
Page 5: Trabajo Fin de Máster - USC

v

Dontildea Mariacutea Joseacute Lombardiacutea Cortintildea profesora titular de Universidad del Departamento de Matemaacute-ticas da Universidade da Coruntildea y dontildea Esther Loacutepez Vizcaiacuteno responsable del Servicio de Difusioacutene Informacioacuten del Instituto Galego de Estadiacutestica informan que el Trabajo Fin de Maacutester titulado

Deteccioacuten de outliers en grandes bases de datos

fue realizado bajo su direccioacuten por don Sergio Da Vila Davila para el Maacutester en Teacutecnicas EstadiacutesticasEstimando que el trabajo estaacute terminado dan su conformidad para su presentacioacuten y defensa ante untribunal

En Santiago de Compostela a 14 de julio de 2020

La directora

Dontildea Mariacutea Joseacute Lombardiacutea Cortintildea

La tutora

Dontildea Esther Loacutepez Vizcaiacuteno

El autor

Don Sergio Da Vila Davila

vi

Iacutendice general

Resumen ix

1 Introduccioacuten 1

2 Modelizacioacuten de series temporales 5

21 Conceptos baacutesicos 5

22 Meacutetodos de modelizacioacuten de series temporales 8

221 X-13ARIMA-SEATS 8

222 TRAMO-SEATS 8

223 STL 10

224 STR 11

225 Twitter 11

23 Resumen meacutetodos de modelizacioacuten de series temporales 13

3 Deteccioacuten de valores atiacutepicos 15

31 Conceptos baacutesicos 15

32 Meacutetodos de deteccioacuten de valores atiacutepicos 17

321 X-13ARIMA-SEATS 17

322 TRAMO-SEATS 18

323 GESD 19

324 Isolation Forest 20

325 HDoutliers 21

33 Resumen meacutetodos de deteccioacuten de valores atiacutepicos 23

34 Meacutetodos de deteccioacuten de valores atiacutepicos en series temporales 24

4 Estudio de simulacioacuten 27

41 Escenarios 27

42 Iacutendice de Youden 29

43 Resultados 32

44 Conclusiones 41

vii

viii IacuteNDICE GENERAL

5 Aplicacioacuten a datos reales 4351 Anaacutelisis Series IGE 4352 Anaacutelisis Graacutefico 66

6 Conclusiones 71

A Tablas 73A1 Tablas de sensibilidad 73A2 Tablas de exceso 82

Bibliografiacutea 91

Resumen

Resumen en espantildeol

El objetivo de este trabajo es el de realizar un anaacutelisis acerca de la presencia de valores atiacutepicos enlos diferentes conjuntos de datos del Instituto Gallego de Estadiacutestica Para ello realizamos una revisioacutenbibliograacutefica que nos permite conocer los meacutetodos actuales y el recorrido que se produjo hasta llegar alos mismos A traveacutes de esta revisioacuten comprendemos la idea que se esconde detraacutes de la deteccioacuten devalores atiacutepicos en series temporales y somos capaces de proponer nuestros propios meacutetodos

Para comparar el comportamiento de los diferentes meacutetodos realizamos un estudio de simulacioacutenel cual nos sirve para contrastar el buen comportamiento de nuestras propuestas y para descartar otrosmeacutetodos

Finalmente aplicamos los meacutetodos que han reflejado un comportamiento maacutes consistente en elestudio de simulacioacuten y analizamos el efecto del Covid19 en el incremento de valores atiacutepicos en losconjuntos de datos Ademaacutes con el objetivo de reducir la incertidumbre asociada al campo de ladeteccioacuten de valores atiacutepicos introducimos una nueva herramienta graacutefica

English abstract

The aim of this project is to carry out an analysis about the presence of outliers in the differentdata sets of the Galician Institute of Statistics We carried out a bibliographic review that allows us toknow the current methods and the route that took place until we reached them Through this reviewwe understand the idea behind the detection of outliers in time series and we are able to propose ourown methods

To compare the behavior of the different methods we carried out a simulation study which helpsus compare the good behavior of our proposals and to rule out other methods

Finally we applied the methods that have reflected a more consistent behavior in the simulationstudy and analyzed the effect of Covid19 on the increase of outliers in the data sets Furthermore withthe aim of reducing the uncertainty associated with the field of outlier detection we introduced a newgraphical tool

ix

x RESUMEN

Capiacutetulo 1

Introduccioacuten

El Instituto Galego de Estadiacutestica (IGE) es un organismo autoacutenomo de la Xunta de Galicia creadoen el antildeo 1988 cuyo objetivo es el de promover el desarrollo del sistema estadiacutestico de la comunidadautoacutenoma mediante servicios de recopilacioacuten y difusioacuten de la documentacioacuten estadiacutestica disponibledesenvolver bases de datos de intereacutes puacuteblico analizar las necesidades y la evolucioacuten de la demandade estadiacutesticas y asegurar su difusioacuten El IGE se erige por tanto como una de las principales fuentesde informacioacuten de datos de caraacutecter socioeconoacutemico de Galicia y de sus divisiones territoriales

Al igual que el resto de organismos del mismo aacutembito el IGE estaacute experimentando un incrementocontinuo tanto en la generacioacuten como en el almacenamiento de datos Es por esto que se hace devital importancia el incorporar una herramienta que nos permita identificar de un modo automaacuteticoposibles candidatos a valores atiacutepicos dentro de nuestros conjuntos de datos

Un dato atiacutepico o outlier en ingleacutes es una observacioacuten anoacutemala en comparacioacuten con el restode datos contenidos en un determinado conjunto de datos Puede deberse a diversos motivos desdeerrores humanos errores relacionados con la medicioacuten grabacioacuten e introduccioacuten de los datos hastacausas como que el dato procede de una poblacioacuten diferente de la que se pretende estudiar

Existen multitud de definiciones que nos permiten dibujarnos una idea de a queacute nos referimoscuando hablamos de valores atiacutepicos

ldquoUn dato atiacutepico es una observacioacuten que se desviacutea tanto del resto de observaciones como paracrear la sospecha de que fue creada por un mecanismo generador diferenterdquo - Hawkins (1980)

ldquoUn dato atiacutepico es una observacioacuten (o conjunto de observaciones) que son inconsistentes con elresto de datosrdquo - Barnett y Lewis (1996)

ldquoUn outlier es una observacioacuten que se encuentra fuera del patroacuten general de una distribucioacutenrdquo-Moore y McCabe (1999)

ldquoLos datos atiacutepicos pueden ser dependiendo de la circunstancia errores no deseados que puedenafectar negativamente al resultado o valiosas pepitas de informacioacuten inesperadardquo- Rousseeuw yHubert (2011)

Eliminar un dato de una muestra por haberlo considerado atiacutepico puede llevar a perder informacioacutenrelevante debido a una singularidad del mecanismo generador y a su vez incluir un dato atiacutepico en una

1

2 CAPIacuteTULO 1 INTRODUCCIOacuteN

muestra puede confundir los resultados Ambos casos alteran los anaacutelisis posteriores y pueden dirigira conclusiones incorrectas si se llegara a tomar la decisioacuten equivocada Por lo tanto la importanciareside en identificar de manera adecuada queacute datos son atiacutepicos y cuaacuteles no

Esta identificacioacuten seraacute de gran utilidad dado que permitiraacute tanto realizar mejores anaacutelisis comopoder interpretar sucesos relevantes en el contexto socio-econoacutemico gallego

El problema de la deteccioacuten de atiacutepicos es un tema ampliamente tratado en la literatura por loque nuestro trabajo consistiraacute en realizar un estudio comparativo de los meacutetodos maacutes comunes en laactualidad y plantear posibles mejoras

Uno de los criterios a los que le prestaremos mayor atencioacuten en este estudio seraacute a la sensibilidaddel meacutetodo dado que si este es muy sensible e identifica muchos candidatos como atiacutepicos no serviraacute degran ayuda Por otra parte si apenas sentildeala ninguacuten caso seraacute similar a no aplicar ninguna herramientade deteccioacuten

Para estudiar este comportamiento realizaremos un estudio de simulacioacuten en el que a traveacutes devalores atiacutepicos previamente identificados podremos analizar el comportamiento de cada meacutetodoAdemaacutes dado que trabajamos con un gran volumen de datos una caracteriacutestica que se les exigiraacute alos meacutetodos seraacute una raacutepida velocidad de ejecucioacuten

La deteccioacuten de datos atiacutepicos tiene aplicaciones en muchos aacutembitos deteccioacuten de operacionesfraudulentas en tarjetas de creacutedito solicitudes para preacutestamos de clientes potencialmente morososdeteccioacuten de intrusiones en redes de comunicacioacuten monitorizacioacuten de paraacutemetros de fabricacioacuten paradeteccioacuten de producciones defectuosas anomaliacuteas en monitorizaciones meacutedicas anaacutelisis electoraleslimpieza de datos prediccioacuten del tiempo o hasta en astronomiacutea donde un punto anoacutemalo puedeimplicar el descubrimiento de una nueva estrella

En este trabajo nos centraremos en datos reales provenientes de la paacutegina web del IGE recogidosen siete conjuntos

Conjunto 1 Viajeros noches y estancia media en establecimientos hoteleros y de turismo ruralen Espantildea Galicia y sus provincias Datos mensuales Los datos proceden del Instituto Nacio-nal de Estadiacutestica (INE) de la Encuesta de ocupacioacuten hotelera y la Encuesta de ocupacioacuten enalojamientos de turismo rural (httpwwwigeeuigebdtigeapidatos3476)

Conjunto 2 Poblacioacuten de 16 y maacutes antildeos por sexo grupos de edad y relacioacuten con la actividadeconoacutemica en Galicia Datos trimestrales Los datos proceden de la Encuesta de Poblacioacuten Activa(EPA) elaborada conjuntamente entre el INE y el IGE (httpwwwigeeuigebdtigeapidatos6356)

Conjunto 3 Contratos registrados seguacuten su modalidad Datos mensuales Esta informacioacuten proce-de de la Estadiacutestica de contratos registrados elaborada por el Servicio Puacuteblico de Empleo Estatal(SEPE) (httpwwwigeeuigebdtigeapidatos308)

Conjunto 4 Iacutendice de produccioacuten industrial general y por destino econoacutemico de los bienes en Ga-licia (Base 2015) Datos mensuales La informacioacuten procede del Iacutendice de Produccioacuten Industrialoperacioacuten estadiacutestica ejecutada por el INE (httpwwwigeeuigebdtigeapidatos9048)

Conjunto 5 Transacciones inmobiliarias por reacutegimen y tipo de vivienda Nuacutemero valor totaly valor medio Datos trimestrales La fuente de esta informacioacuten es el Ministerio de Fomento y

3

hace referencia a la compraventa de viviendas elevadas a escritura puacuteblica ante notario (httpwwwigeeuigebdtigeapidatos4052)

Conjunto 6 Bajas de demandas de empleo seguacuten geacutenero y duracioacuten de la demanda en Galiciay sus provincias Datos mensuales La fuente de esta informacioacuten es el SEPE y hace referenciaa las bajas que los servicios de empleo puacuteblico tuvieron debido a una colocacioacuten no hacer larenovacioacuten de la demanda en el periodo establecido o por otras causas (httpwwwigeeuigebdtigeapidatos1243)

Conjunto 7 Afiliaciones a la Seguridad Social uacuteltimo diacutea del mes en Galicia y sus provinciasDatos mensuales La informacioacuten procede del Ministerio de Seguridad Social y Migraciones yhace referencia a las personas trabajadoras que estaacuten en alta en la Seguridad Social (httpwwwigeeuigebdtigeapidatos4885)

Los motivos por los que se han escogido estos conjuntos obedece a diversas razones En primerlugar el maacutes importante incluir series en las que existe el conocimiento de que se presentan atiacutepicosA partir de ahiacute se ha conformado un conjunto de series que permitiesen recoger la mayor amalgamade naturalezas posibles que se presentan en las series que trata el IGE mercado laboral turismoconstruccioacuten o industria Seriacutean aacutembitos que se recogen a lo largo de la seleccioacuten de datos realizadaAdemaacutes se han incorporado series con distinta frecuencia de obtencioacuten tanto series mensuales comotrimestrales

En este trabajo se recoge una comparativa de meacutetodos los cuales se pueden englobar bajo dosvisiones de coacutemo abordar la identificacioacuten de anomaliacuteas en series de tiempo Por un lado existen losmeacutetodos cuyo mecanismo se fundamenta en modelos de series temporales que realizan un procesoiterativo para estimar el modelo integrando la posible influencia de observaciones atiacutepicas Por el otrouna visioacuten maacutes reciente se plantea a traveacutes de realizar un proceso de deteccioacuten en dos partes en laprimera se le aplica a la serie de tiempo un meacutetodo de descomposicioacuten para despueacutes aplicar un meacutetodode deteccioacuten de atiacutepicos sobre el residuo

Dado que ambos enfoques comparten un nexo comuacuten como es la modelizacioacuten de la serie de tiempoy la localizacioacuten de atiacutepicos las podemos tratar conjuntamente en dos capiacutetulos el Capiacutetulo 2 y elCapiacutetulo 3

En el Capiacutetulo 2 se estudian las propiedades de modelizacioacuten de cada meacutetodo La importancia deun buen meacutetodo de modelizacioacuten de series temporales reside en que cuanto mejor se consiga extraer elmecanismo generador de la serie de tiempo maacutes resaltaraacuten las observaciones atiacutepicas En el Capiacutetulo 3se describen los meacutetodos de deteccioacuten de atiacutepicos Estos dos capiacutetulos conforman la parte teoacuterica deltrabajo

Para estudiar el comportamiento de los diferentes meacutetodos se plantea un profundo estudio desimulacioacuten en el Capiacutetulo 4 en el que se utiliza el Iacutendice de Youden como herramienta discriminatoriaacerca de queacute meacutetodos ofrecen mejores resultados En el Capiacutetulo 5 se tratan los datos proporcionadospor el IGE a traveacutes de los meacutetodos que han presentado un mejor comportamiento en el estudio desimulacioacuten Para finalizar el Capiacutetulo 6 expone las conclusiones que hemos extraiacutedo a lo largo de larealizacioacuten de este trabajo

4 CAPIacuteTULO 1 INTRODUCCIOacuteN

Capiacutetulo 2

Modelizacioacuten de series temporales

21 Conceptos baacutesicos

En este apartado definiremos los elementos principales que rodean a las series de tiempo Para ellopodemos echar mano de infinidad de manuales dado que las mismas son objeto de estudio en multitudde campos desde las ciencias sociales y econoacutemicas hasta ramas que requieren de un bagaje muchomaacutes matemaacutetico En este trabajo haremos uso de Pentildea (2010) y Woodward Gray y Elliott (2017)

En la estadiacutestica baacutesica estamos acostumbrados a trabajar con una muestra donde las observacio-nes X1 X2 Xn son variables aleatorias independientes e ideacutenticamente distribuidas Sin embargocuando las muestras se extraen en base a instantes de tiempo es muy probable que las observacionesesteacuten correlacionadas entre si Este tipo de muestras con dependencia temporal se denominan series detiempo Es decir una serie de tiempo es una secuencia de observaciones ordenadas cronoloacutegicamente

Este tipo de datos se utilizan en muacuteltiples disciplinas algunos ejemplos podriacutean incluir desde elaacutembito econoacutemico como la evolucioacuten del Producto Interior Bruto (PIB) o del precio del petroacuteleo hastaaacutembitos como la meteorologiacutea midiendo la temperatura de una localidad durante un periacuteodo de tiempoo el aacutembito sanitario siguiendo la evolucioacuten de una enfermedad en un paciente

Uno de los principales inconvenientes a la hora de trabajar con series temporales son los datos atiacute-picos Estos datos atiacutepicos pueden tener dos naturalezas errores no deseados o pepitas de informacioacuten(Rousseeuw y Hubert 2011) Estas pepitas de informacioacuten pueden servirnos por ejemplo para locali-zar sucesos importantes como huelgas medidas de poliacutetica econoacutemica o desastres naturales (Goacutemez yTaguas 1995) Al igual que en el resto de campos de la estadiacutestica que en nuestro conjunto de datos seencuentren valores atiacutepicos puede llevarnos a incurrir en errores de especificacioacuten Como se mencionaen Chang Tiao y Chen (1988) es importante ser capaz de identificar estos sucesos para comprendermejor la estructura subyacente de la serie

Uno de los modelos maacutes comuacutenmente usado y utilizado como punto de partida en el anaacutelisisde series temporales es el modelo ARIMA Los modelos ARIMA ajustan los valores de la serie enbase a las observaciones previas y errores aleatorios con una estructura que le permite incluir tantocomponentes ciacuteclicos como estacionales Siendo Xtt una serie de tiempo un modelo ARIMA seriacuteaaquel que admite una representacioacuten

5

6 CAPIacuteTULO 2 MODELIZACIOacuteN DE SERIES TEMPORALES

φ(B)(1minusB)dXt = c+ θ(B)at

donde Xt es la observacioacuten t de la serie de tiempo B el operador retardo definido por BXt = Xtminus1φ(B) = (1minusφ1(B)minusφ2B

2minusminusφpBp) φ(B) = (1minusθ1Bminusθ2B2minusminusθqBq) cφ1 φ2 φpθ1 θ2 θp

son constantes d es el nuacutemero de diferencias necesarias para eliminar la tendencia de la serie at esruido blanco y p y q los oacuterdenes de los procesos autorregresivos (AR) y de medias moviles (MA)

Con esta representacioacuten del modelo ARIMA se puede deducir raacutepidamente que estos no son maacutes quela mezcla de los dos primeros modelos de series temporales formulados los modelos AR y los modelosMA Ademaacutes si el proceso que genera la serie de tiempo presenta la posibilidad de estar formado porcomponentes de largo periacuteodo temporal se debe hacer uso de los ARIMA estacional muacuteltiplicativoARIMA(pdq)x(PDQ) cuya representacioacuten seriacutea

φ(B)Φ(Bs)(1minusB)d(1minusBs)DXt = c+ θ(B)Θ(Bs)at

En esta nueva formulacioacuten D es el nuacutemero de diferenciaciones estacionales aplicadas para eliminarla componente estacional Φi y Θj las constantes respectivas a la parte estacional para i = 1 2 P yj = 1 2 Q con P igual al orden del proceso AR estacional y Q al orden del proceso MA estacional

Sin embargo la presencia de atiacutepicos puede llevar a un incorrecto ajuste de los paraacutemetros delmodelo debido a que se pueden ver sesgados por el efecto del atiacutepico La mala estimacioacuten de losparaacutemetros nos conduce a diversos errores dado que podemos no diseccionar bien la estructura dela serie como para entender su comportamiento Ademaacutes en el caso de que el atiacutepico se produzcaen la uacuteltima parte de la serie afectariacutea a las estimaciones futuras incurriendo en un error mayor deprediccioacuten

Por ello surgieron meacutetodos como X-13ARIMA-SEATS o TRAMO-SEATS que parten de los mo-delos ARIMA e introducen mejoras como la deteccioacuten y correccioacuten de atiacutepicos Estos meacutetodos fueronampliamente utilizados durante mucho tiempo para la modelizacioacuten de series temporales Sin embargoel desarrollo de la tecnologiacutea provocoacute la creacioacuten del Internet de las Cosas (Mahdavinejad et al 2018)un entorno en el que casi la totalidad de los objetos y personas estaacute conectado a internet dejandohuella de su comportamiento Las caracteriacutesticas de esta red provocaron un incremento enorme en lacreacioacuten y obtencioacuten de datos unas caracteriacutesticas para las cuales no estaban preparados estos meacutetodosdisentildeados para escalar a conjuntos de tamantildeo pequentildeo o mediano

Es aquiacute donde surge un nuevo enfoque para la deteccioacuten de valores atiacutepicos en series de tiempobasado en aplicar un proceso de descomposicioacuten y analizar los residuos Los procesos de descomposicioacutentienen por objetivo diseccionar una serie en tres componentes tendencia estacionalidad y residuo demodo que se pueda establecer un patroacuten de como se comporta En este trabajo el objetivo no es buscarel modelo maacutes preciso sino aquel que consiga trazar mejor la estructura subyacente de la serie de formaque resalte los posibles valores atiacutepicos en su componente residual y es por ello que estos modelosresultan de tanto intereacutes El primer meacutetodo basado en esta idea que recibioacute cierta repercusioacuten fue elpresentado por el equipo de Twitter (Hochenbaum Vallis y Kejariwal 2017) el cual fue maacutes tardeampliado en el paquete Anomalize de R (Dancho y Vaughan 2019)

Esta forma de proceder en dos partes descomposicioacuten maacutes deteccioacuten se debe a la idea de quevisualizar o localizar atiacutepicos en una serie es complicado debido a causas como la estacionalidad o

21 CONCEPTOS BAacuteSICOS 7

tendencia de la serie Aplicarle a la serie un proceso de descomposicioacuten permite extraer estas compo-nentes y resaltar las posibles anomaliacuteas A continuacioacuten en la Figura 21 mostramos un ejemplo deeste procedimiento utilizando uno de los meacutetodos que se emplearaacuten posteriormente en el trabajo STL

Figura 21 A la izquierda la serie referente al Nuacutemero Total de Afiliaciones a la Seguridad Social eluacuteltimo diacutea de mes en Pontevedra perteneciente al Conjunto 7 A la derecha los residuos obtenidos trasaplicarle la descomposicioacuten STL

Como se puede apreciar en la Figura 21 observar alguacuten comportamiento extrantildeo en la serie detiempo es complicado debido a las fluctuaciones que va sufriendo a lo largo de los antildeos Sin embargouna vez aplicado el proceso de descomposicioacuten y eliminado los efectos de estacionalidad y tendenciapodemos ver el efecto de la crisis del Covid-19 apareciendo en los uacuteltimos datos de la serie Esta crisisprovoca que los datos reales de esos meses disten mucho de los esperados lo que se traduce en fuertesincrementos en el tamantildeo del residuo

Lo interesante de estos meacutetodos es que los procesos de descomposicioacuten de series de tiempo soncapaces de analizar multitud de series de caracteriacutesticas muy diferentes y filtrarlas de tal modo que elproblema acabe residiendo en lo que aparentemente es un sencillo problema de deteccioacuten de valoresatiacutepicos en el caso univariante Mientras que los meacutetodos como X-13ARIMA-SEATS o TRAMO-SEATS se encuentran limitados en su disentildeo a trabajar solamente con series con frecuencias mensualeso trimestrales

Sin embargo Wilkinson (2017) resalta que el problema de la deteccioacuten de valores atiacutepicos en elcaso univariante es engantildeosamente sencillo lo cual puede llevarnos a cometer errores en la deteccioacutende atiacutepicos pese a haber realizado una buena descomposicioacuten de la serie Por ello en este trabajo seplantea un capiacutetulo dedicado a analizar las propiedades de diferentes meacutetodos de deteccioacuten

Por tanto en el trabajo coexisten dos mecanismos de deteccioacuten de atiacutepicos en series temporalesPor un lado los meacutetodos de ajuste de series temporales que incorporan la deteccioacuten y correccioacuten deatiacutepicos al modelo de modo automaacutetico Y por el otro aquellos meacutetodos de deteccioacuten de atiacutepicos cuyaidea se centra en aplicar un proceso de descomposicioacuten maacutes anaacutelisis del residuo

En la Seccioacuten 22 se describen los procesos de modelizacioacuten de series temporales utilizados y en elCapiacutetulo 3 se describen los procesos de deteccioacuten de atiacutepicos

8 CAPIacuteTULO 2 MODELIZACIOacuteN DE SERIES TEMPORALES

22 Meacutetodos de modelizacioacuten de series temporales

221 X-13ARIMA-SEATS

El meacutetodo X-13ARIMA-SEATS es la versioacuten actualizada y mejorada del modelo X-11 desarrolladopor Shiskin Young y Musgrave (1967) X-13ARIMA-SEATS fue creado por el Censo de los EstadosUnidos (US Census Bureau) y forma parte de una familia de modelos de ajuste para series temporalesque se han ido desarrollando y estaacuten disentildeados para trabajar con series econoacutemicas estacionales Unaexplicacioacuten completa del meacutetodo y de coacutemo ha de implantarse se puede encontrar en Time SeriesResearch Staff (2017)

Este modelo se basa en la estimacioacuten de lo que sus autores denominan modelos regARIMA Estosson modelos de regresioacuten con errores ARIMA En concreto la media de la serie estaacute descrita por unacombinacioacuten lineal de regresores y la matriz de covarianzas es la de un proceso ARIMA Se incluyenregresores para modelar efectos de calendario como festivos vacaciones o diacutea de la semana Ademaacutestambieacuten se incluyen otro tipo de regresores para modelar el efecto de las anomaliacuteas que se puedanpresentar El modo en que se aborda este campo lo trataremos en profundidad en el Capiacutetulo 3 conel resto de meacutetodos de deteccioacuten

El proceso de ajuste comienza por un pre-ajuste de la serie a traveacutes de eliminar el efecto determiniacutes-tico mediante un modelo de regresioacuten con errores ARIMA En el siguiente paso la serie pre-ajustada sedescompone en tendencia (t) estacionalidad (s) y residuo (i) Esta descomposicioacuten puede ser aditiva(y = t+s+i) multiplicativa (y = tlowastslowasti) log-aditiva (log(y) = log(t)+log(s)+log(i)) o pseudo-aditiva(y = t lowast (s+ iminus 1)) Este paso en el que se aplica el proceso de descomposicioacuten se basa en el uso delalgoritmo X11 que descompone la serie a traveacutes de filtros lineales La serie final ajustada debe estarlibre de estacionalidad y efectos de calendario

X-13ARIMA-SEATS estaacute implementado en la libreriacutea RJDemetra de R en la funcioacuten x13 y lasespecificaciones necesarias para llevar a cabo la deteccioacuten de atiacutepicos se tratan en el Capiacutetulo 3 juntocon la explicacioacuten del proceso de deteccioacuten

222 TRAMO-SEATS

El meacutetodo TRAMO-SEATS (Goacutemez y Maravall 1997) fue disentildeado por el Banco de Espantildea parael anaacutelisis de series de tiempo Esta herramienta estaacute formada por dos mecanismos La parte TRAMO(Time Series Regression with Arima noise Missing Observations and Outliers) y la parte SEATS(Signal Extraction in ARIMA Time Series)

Como se introduce en Goacutemez y Taguas (1995) el programa TRAMO puede ser utilizado inde-pendientemente de SEATS sin embargo SEATS ha sido disentildeado para trabajar conjuntamente conTRAMO Su finalidad es la de realizar un anaacutelisis detallado de series temporales ya que cuenta conmecanismos para realizar tareas de estimacioacuten prediccioacuten interpolacioacuten de modelos de regresioacuten convalores ausentes con errores ARIMA y correccioacuten de valores atiacutepicos El programa incluye variables deregresioacuten para modelizar los diacuteas de calendario que pueden influir en el comportamiento de la serie co-mo puede ser la Pascua y variables de intervencioacuten que permiten corregir el efecto de las observacionesatiacutepicas La idea en la que se basa el modelo es muy similar a la del modelo X-13ARIMA-SEATS

TRAMO elimina de la serie los efectos especiales identifica y elimina automaacuteticamente los efectos

22 MEacuteTODOS DE MODELIZACIOacuteN DE SERIES TEMPORALES 9

de varios tipos de atiacutepicos e interpola las observaciones ausentes Tambieacuten cuenta con un moacuteduloque permite la identificacioacuten automaacutetica de modelos herramienta que imitaron los desarrolladores deX-13ARIMA-SEATS y que en su momento le permitioacute relevar de tareas monoacutetonas a los analistasEste procedimiento de identificacioacuten automaacutetica estaacute basado en estimar primero las raiacuteces unitarias yutilizar despueacutes el Criterio de Informacioacuten Bayesiano (BIC ) para especificar un modelo ARMA a laserie diferenciada

Figura 22 Esquema de funcionamiento de TRAMO-SEATS (Goacutemez y Maravall 1997)

La Figura 22 (Goacutemez y Maravall 1997) muestra como se integran ambas partes TRAMO ySEATS para formar en conjunto el mecanismo completo de modelizacioacuten

SEATS fue disentildeado originalmente para desestacionalizar series temporales El programa descom-pone una serie que sigue un modelo ARIMA en varios componentes tendencia componente estacionalciclo y componente irregular La descomposicioacuten puede ser aditiva o multiplicativa La descomposicioacutenparte de la hipoacutetesis de ortogonalidad de los componentes que a su vez siguen modelos ARIMA Paraidentificar los componentes se requiere que excepto el irregular esteacuten limpios de ruido blanco De estemodo se maximiza la varianza de este uacuteltimo y al contrario la tendencia el componente estacional yel ciclo son lo maacutes estables posibles

El modelo tratado por SEATS es el de una serie integrada lineal con innovaciones gaussianas Estahipoacutetesis puede no ser cierta en muacuteltiples ocasiones pero siempre es necesario extraer un modelo espor ello que SEATS fue disentildeada para ser utilizada de forma conjunta con TRAMO

TRAMO-SEATS estaacute implementado en la libreriacutea RJDemetra de R en la funcioacuten tramoseats y las

10 CAPIacuteTULO 2 MODELIZACIOacuteN DE SERIES TEMPORALES

especificaciones necesarias para llevar a cabo la deteccioacuten de atiacutepicos se tratan en el capiacutetulo 3 juntocon la explicacioacuten del proceso de deteccioacuten

223 STL

STL es un proceso de filtrado para descomponer series de tiempo en tendencia estacionalidad yresiduo cuyo nombre se debe a sus siglas en ingleacutes Seasonal-Trend decomposition based on Loessintroducido por Cleveland Cleveland McRae y Terpenning (1990) El propoacutesito de este meacutetodo fue elde desarrollar un meacutetodo de descomposicioacuten de series de tiempo que cumpliese los siguientes requisitos

1 Disentildeo sencillo y uso inmediato

2 Flexibilidad a la hora de especificar las variaciones en la tendencia y estacionalidad

3 Poder descomponer series de tiempo con valores faltantes

4 Tendencia y estacionalidad robusta de modo que no se vea distorsionada por datos anoacutemalos

5 Raacutepida computacioacuten y faacutecil implementacioacuten incluso para series temporales largas

El procedimiento de STL consiste en una secuencia de operaciones de suavizado realizadas todasellas salvo una por el mismo suavizador loess El mecanismo consiste en dos bucles uno interno yotro externo

Cada vuelta del bucle interno consiste en un suavizado estacional que actualiza dicha componenteseguido de un suavizado de la tendencia que actualiza la componente asociada con la tendencia Porotra parte cada vuelta del bucle externo consiste en aplicarle una serie de pesos robustos al bucleinterno Estos pesos se utilizan en la siguiente vuelta del bucle interno para reducir la influencia de losdatos anoacutemalos

La aplicacioacuten de la estimacioacuten robusta seraacute necesaria cuando exista un conocimiento previo de quelos datos tienen un comportamiento no gaussiano que conduce a una variacioacuten transitoria extrema delo contrario se pueden omitir las iteraciones del bucle externo y STL consistiriacutea solamente en el bucleinterno

A diferencia de otros meacutetodos como TRAMO-SEATS o X-13ARIMA-SEATS STL puede tratarcualquier tipo de estacionalidad en vez de estar atado a estacionalidades mensuales o trimestrales Sucomponente estacional es capaz de cambiar a lo largo del tiempo y dicho cambio puede ser controladopor el usuario Lo mismo sucede con el suavizado de la componente relacionada con la tendencia Unode sus inconvenientes es que no opera si en la serie se encuentran valores faltantes

En R encontramos este meacutetodo bajo la funcioacuten stl a la cual solo habraacute que especificarle unparaacutemetro Dicho paraacutemetro es el relacionado con el suavizado de la componente estacional e indicaal mecanismo el nuacutemero de observaciones consecutivas a utilizar para estimar los valores de dichacomponente Se podriacutea introducir un valor numeacuterico si tenemos alguacuten indicio sobre el posible desarrollode la componente estacional sin embargo dado que vamos a aplicarlo a un gran nuacutemero de series elanaacutelisis individual seriacutea costoso La solucioacuten utilizada en este trabajo pasa por fijar este paraacutemetrocomo perioacutedico lo cual asume que la evolucioacuten de la componente estacional es ideacutentica a lo largo delos antildeos que se desarrolla la serie

22 MEacuteTODOS DE MODELIZACIOacuteN DE SERIES TEMPORALES 11

224 STR

STR es un meacutetodo de descomposicioacuten de series de tiempo presentado por Dokumentov y Hyndman(2015) Sus siglas se deben a su nombre en ingleacutes Seasonal-Trend decomposition procedure based onRegression similar a la idea de STL salvo que ahora en vez de basarse en loess lo hace en regresioacutenEn concreto seguacuten los autores STR es similar a la regresioacuten Ridge (Hoerl y Kennard 1970) y suversioacuten robusta Robust STR (Dokumentov y Hyndman 2015) se podriacutea relacionar con una regresioacutenLASSO (Tibshirani 1996)

La idea de su desarrollo se originoacute debido a que los autores consideran que a pesar de existir variosalgoritmos de descomposicioacuten de series de tiempo existen muchas caracteriacutesticas en ellas que dichosalgoritmos son incapaces de tratar Las principales deficiencias que encuentran son

Incapacidad para proporcionar un modelo estadiacutestico significativo y simple

Incapacidad (o dificultad) para calcular intervalos de confianza

Incapacidad para tener en cuenta regresores

Incapacidad para tener en cuenta estacionalidad fraccionada

Incapacidad para tener en cuenta muacuteltiples estacionalidades

Incapacidad para tener en cuenta estacionalidades complejas y regresores que afecten a los datosde un modo estacional

El objetivo con el que se desarrolloacute STR fue el de corregir estas deficiencias a la par que presentar unmeacutetodo claro geneacuterico simple y robusto si fuera necesario Para solucionar estas deficiencias enfocan ladescomposicioacuten como un problema a resolver a traveacutes de una regresioacuten cuantil o de miacutenimos cuadradosordinarios

De acuerdo a sus desarrolladores STR constituye el meacutetodo de descomposicioacuten de series de tiempomaacutes geneacuterico disponible en el momento de su publicacioacuten Sin embargo matizan una gran desventajaque presenta el meacutetodo y es su ineficiencia o la ralentizacioacuten que sufre el mecanismo a la hora de tratarcasos en los que se utilizan varios componentes o predictores estacionales

Uno de sus desarrolladores Rob J Hyndman es conocido por sus aportaciones en el campo delas series de tiempo y su posterior implantacioacuten en paquetes para el software R como el famosopaquete forecast En este caso tambieacuten ha colaborado en la implantacioacuten de STR con el paquete stR(Dokumentov y Hyndman 2018)

225 Twitter

En Hochenbaum et al (2017) se aborda el problema de deteccioacuten de valores atiacutepicos en series detiempo introduciendo la idea de descomposicioacuten maacutes deteccioacuten como hemos comentado en la introduc-cioacuten de esta seccioacuten El equipo de Twitter plantea en su artiacuteculo utilizar en un primer momento STLcomo meacutetodo de descomposicioacuten para obtener los residuos sin embargo a la hora de trabajar con estemeacutetodo encuentran una serie de inconvenientes Estos inconvenientes estariacutean provocados por ciertasanomaliacuteas espurias producidas en el residuo

12 CAPIacuteTULO 2 MODELIZACIOacuteN DE SERIES TEMPORALES

Para corregir esta situacioacuten optan por utilizar la mediana de la serie de tiempo para representar latendencia ldquoestablerdquo que despueacutes seraacute utilizada para calcular el residuo

De este modo afirman que reemplazando la tendencia con la mediana se eliminan las anomaliacuteasespurias o ilegiacutetimas del residuo Los mismos desarrolladores publicaron un paquete en la plataformaGitHub (Twitter Inc 2015) que nos permitiacutea hacer uso de este mecanismo sin embargo su manteni-miento cesoacute a finales de 2015 y el paquete fue eliminado de la plataforma CRAN en marzo de 2019 Elpaquete Anomalize (Dancho y Vaughan 2019) recoge este mecanismo y seraacute el paquete que utilizaremosen este trabajo para utilizar esta modificacioacuten del meacutetodo STL bajo la funcioacuten decompose_twitter

23 RESUMEN MEacuteTODOS DE MODELIZACIOacuteN DE SERIES TEMPORALES 13

23 Resumen meacutetodos de modelizacioacuten de series temporales

Meacutetodo Ventajas Contras

X-13ARIMA-SEATS(2017)

Capaz de tratar con valores fal-tantesIntegra diversos tipos de descom-posicioacutenRaacutepida velocidad de ejecucioacuten

Disentildeado para trabajar solo conseries mensuales o trimestrales

TRAMO-SEATS(1997) Capaz de tratar con valores fal-tantesIntegra diversos tipos de descom-posicioacutenRaacutepida velocidad de ejecucioacuten

Disentildeado para trabajar solo conseries mensuales o trimestrales

STL(1990) Puede tratar series de cualquierfrecuenciaRaacutepidoCuenta con versioacuten robusta

No admite valores faltantesCarece de flexibilidad cuando elperiacuteodo estacional es largo y seobserva mucho ruido en la serieAuacuten con su versioacuten robusta pue-de verse afectado por la influen-cia de los atiacutepicos

STR(2015) Puede tratar series de cualquierfrecuenciaCuenta con versioacuten robustaAdmite valores faltantesSensible a cambios de estaciona-lidad

No puede seguir cambios bruscosen la tendenciaExtremadamente lento en com-paracioacuten al resto de meacutetodos

Twitter(2017) Puede tratar series de cualquierfrecuenciaElimina anomaliacuteas espuacutereas en lacomponente residualRaacutepido

No admite valores faltantesNo cuenta con versioacuten robusta

Cuadro 21 Resumen de los meacutetodos de modelizacioacuten de series temporales

14 CAPIacuteTULO 2 MODELIZACIOacuteN DE SERIES TEMPORALES

Capiacutetulo 3

Deteccioacuten de valores atiacutepicos

31 Conceptos baacutesicos

El problema que supone en la estadiacutestica la presencia de valores atiacutepicos aparecioacute muy pronto EnHawkins (1980) mencionan que este problema pudo haber surgido ya en los siglos XVIII y XIX enencuestas estadiacutesticas que se realizaban Las primeras decisiones de queacute hacer con ellos se basaron encriterios puramente subjetivos en los que era el propio analista el que decidiacutea descartar una observacioacutensi pareciacutea anoacutemala respecto al resto de los datos

Posteriormente se comenzaron a plantear posibles soluciones para tratar el problema bajo uncriterio La primera de ellas fue la presentada por Peirce (1852) basada en lo que se podriacutea entendercomo un test de razoacuten de verosimilitud donde todos los valores que superasen el umbral determinadopor cσ seriacutean rechazados siendo c una constante a calcular y σ la desviacioacuten tiacutepica de la muestraVarios autores realizaron criacuteticas a este meacutetodo y propusieron su correccioacuten a este criterio una de ellasfue la de Chauvenet (1963) Esta pasaba por calificar a una observacioacuten como atiacutepico si su valor sesituaba fuera del intervalo definido por 1(4n) puntos de la distribucioacuten Normal siendo n el tamantildeode la muestra

En ese momento surgen diversas propuestas no muy relevantes que trataron de abordar dichoproblema hasta que surgioacute la llevada a cabo por Thompson (1935) Su estudio condujo a descubrir ladistribucioacuten nula de un residuo estudentizado

xi minus xs

donde xi es la observacioacuten sospechosa de ser atiacutepica x la media muestral y s la desviacioacuten tiacutepica de lamuestra A partir de esto pudo deducir un procedimiento de deteccioacuten de atiacutepicos que rechazariacutea unaproporcioacuten fija de todos los datos buenos y devolveriacutea una tabla con los valores criacuteticos adecuados

Esta idea supuso el desarrollo del test de Grubbs (1950) el cual utilizando la misma notacioacutenanterior basaba su regla en los momentos muestrales de una normal

G =max1leilen|xi minus x|

s

Grubbs (1950) asocioacute G con una distribucioacuten t con el objetivo de encontrar un maacuteximo y un miacutenimo

15

16 CAPIacuteTULO 3 DETECCIOacuteN DE VALORES ATIacutePICOS

para localizar atiacutepicos Esta idea fue posteriormente ampliada dando lugar al meacutetodo GESD (Rosner1983) el cual se detalla en la siguiente seccioacuten

Posteriormente se presentoacute una de las herramientas maacutes comuacutenmente utilizadas para la identifi-cacioacuten de atiacutepicos el boxplot introducido en Tukey (1977) Sin embargo el objetivo inicial no fue ladeteccioacuten de atiacutepicos sino como un meacutetodo para trazar una idea del intervalo en el que se encuentranla gran parte de nuestros datos Ademaacutes la forma en la que se construye provoca dos grandes incon-venientes No se puede aplicar a distribuciones sesgadas y dado que no incluye el tamantildeo muestral ensu formulacioacuten tenderaacute a etiquetar falsos atiacutepicos cuanto maacutes grande sea la muestra

A la par que se iban presentando estas ideas para la buacutesqueda de valores atiacutepicos en un conjuntode datos se fueron presentando mecanismos enfocados a las series de tiempo

Uno de los primeros aportes al tratamiento de datos atiacutepicos en series de tiempo fue propuestopor G E P Box y Tiao (1975) Sin embargo este meacutetodo solamente permitiacutea modelar el efecto de laobservacioacuten atiacutepica si se conociacutea de antemano el momento de la intervencioacuten por lo que no se podriacuteaconsiderar una herramienta de deteccioacuten sino maacutes bien una herramienta de intervencioacuten

Posteriormente se propusieron diversos meacutetodos para abordar el problema de la estimacioacuten demodelos ARIMA en series bajo esta circunstancia El primero de ellos fue el de Abraham y Box(1979) que se basaba en proponer un enfoque bayesiano para resolver el problema partiendo de ideassimilares a las que se habiacutean propuesto en otros contextos por autores como Tukey (1977) Otro meacutetodoque buscaba resolver tambieacuten el mismo problema fue el propuesto por Chang y Tiao (1983) cuya idease centraba en aplicar un proceso iterativo

Fue en este artiacuteculo (Chang y Tiao 1983) donde se propuso por primera vez un meacutetodo de deteccioacutene identificacioacuten de atiacutepicos Tsay (1986) propuso su versioacuten que se basaba en combinar el procesoiterativo presentado en Chang y Tiao (1983) con la funcioacuten de autocorrelacioacuten muestral extendidadesarrollada en Tsay y Tiao (1984) la cual permite eliminar la necesidad de determinar el orden dediferenciacioacuten para producir una serie estacionaria que modelar

En Chen y Liu (1993) se reconocen los numerosos aportes hechos en los anteriores artiacuteculos citadospero matiza que algunos problemas seguiacutean estando vigentes

a La presencia de atiacutepicos puede resultar en un modelo inapropiado

b Incluso si el modelo es el apropiado los atiacutepicos pueden seguir produciendo sesgo en el paraacutemetroestimado y por tanto afectar a la deteccioacuten del atiacutepico

c Algunos atiacutepicos no van a ser identificados debido a un problema de enmascaramiento

Su objetivo era presentar un meacutetodo que fuese capaz de resolver los problemas b y c de modo quese pudiese generalizar para aplicar a los cuatro tipos de atiacutepicos en series temporales que se habiacutean idointroduciendo Los cuatro tipos son

IO (atiacutepico innovativo) existe un atiacutepico innovativo en el momento t cuando la innovacioacuten en esepunto esteacute directamente provocada por una cantidad desconocida debido a un suceso imprevisto

AO (atiacutepico aditivo) diremos que se produce un atiacutepico aditivo si en el momento t la serie segenera de manera diferente al resto

32 MEacuteTODOS DE DETECCIOacuteN DE VALORES ATIacutePICOS 17

LS (cambio de nivel) existe un cambio de nivel si en el momento t la serie experimenta unincremento de todos sus valores A diferencia del resto tiene un efecto permanente sobre la serieuna vez aparece

TC (cambio temporal) similar al cambio de nivel solo que el efecto no es permanente y decreceexponencialmente con el tiempo

X-13ARIMA-SEATS y TRAMO-SEATS basan su proceso de deteccioacuten de atiacutepicos en meacutetodosinspirados en el artiacuteculo de Chen y Liu (1993) cuya idea se fundamenta en integrar un mecanismoiterativo disentildeado para trabajar con series de tiempo que localiza e integra los atiacutepicos al modelo Porotra parte en la siguiente seccioacuten introducimos los meacutetodos de deteccioacuten de atiacutepicos que acompantildeana los procesos de descomposicioacuten de series de tiempo estos son GESD Isolation Forest y HDoutliersEstos meacutetodos son desarrollos de los mecanismos e ideas tratados al comienzo de esta seccioacuten como elmeacutetodo Grubbs (Grubbs 1950)

32 Meacutetodos de deteccioacuten de valores atiacutepicos

321 X-13ARIMA-SEATS

El anaacutelisis de diagnoacutestico del modelo regARIMA se realiza a traveacutes del anaacutelisis de los residuos delmodelo estimado Para el apartado de anaacutelisis de valores atiacutepicos X-13ARIMA-SEATS se fundamentaen Chang y Tiao (1983) con extensiones y modificaciones tratadas en Bell (1983) y Otto y Bell (1990)donde los valores atiacutepicos pueden ser de tres de los cuatro tipos antes mencionados AO LS y TC

El enfoque que plantea este mecanismo de deteccioacuten es similar a la regresioacuten paso a paso procedi-miento de regresioacuten en el que se construye el modelo a traveacutes de ir antildeadiendo o eliminando variablespredictoras en base a criterios de informacioacuten

En este caso las variables candidatas para la regresioacuten son las AO LS y TC para todos los puntosen los que la deteccioacuten de atiacutepicos se realiza Es decir se calcula el t-estadiacutestico para ver la significa-tividad de cada tipo de atiacutepico en cada instante temporal se busca significatividad entre todos estost-estadiacutesticos y se antildeade la correspondiente variable de regresioacuten (AO LS o TC) al modelo con el finde corregir los efectos que producen estas observaciones atiacutepicas De este modo se identifica e introduceel efecto de un momento atiacutepico en el modelo Mientras se produce el proceso de deteccioacuten de atiacutepicosse utiliza un estimador robusto de la desviacioacuten residual estaacutendar 148lowastla mediana del valor absolutode la desviacioacuten residual

X-13ARIMA-SEATS antildeade dos variaciones a este meacutetodo El meacutetodo addone en el que cada vezque se antildeade al modelo un atiacutepico se lleva a cabo una re-estimacioacuten del modelo y el meacutetodo addallque re-estima el modelo solo cuando un nuacutemero de variables atiacutepicas han sido antildeadidas al modelo

Este meacutetodo estaacute implantado en R a traveacutes de la funcioacuten x13 del paquete RJDemetra Dicha funcioacutenrequiere de un paraacutemetro de especificacioacuten spec en que se concreta el modelo que queremos introducirEste paraacutemetro es el que nos ofrece diversas posibilidades de modelizacioacuten de la serie como se recogeen la Figura 31 entre ellas los efectos de calendario o los atiacutepicos que presente la serie Dado quebuscamos sucesos atiacutepicos en su sentido maacutes amplio vamos a omitir incluir los efectos de calendarioy solamente introducir la deteccioacuten automaacutetica de atiacutepicos Esto provoca que en nuestro trabajo la

18 CAPIacuteTULO 3 DETECCIOacuteN DE VALORES ATIacutePICOS

especificacioacuten que nos interesa y con la que hemos trabajado sea RSA3 La opcioacuten RSA3 permiteajustar automaacuteticamente un modelo ARIMA identificando y corrigiendo las posibles observacionesanoacutemalas El resto de modificaciones que permite introducir el paraacutemetro de especificacioacuten de la funcioacutenx13 se recogen en la Figura 31 Por ejemplo si estuvieacutesemos interesados en modelizar nuestros datosa traveacutes de un modelo ARIMA de liacuteneas aeacutereas observariacuteamos en la Figura 31 que tendriacuteamos queescoger la especificacioacuten RSA0 Si ahora quisieacuteramos antildeadirle a dicho modelo deteccioacuten de atiacutepicostendriacuteamos que cambiar el paraacutemetro de especificacioacuten a RSA1 y si ademaacutes tambieacuten nos interesamodelar los efectos de calendario sobre dicho modelo introduciriacuteamos la especificacioacuten RSA2 El restode especificaciones ya trabajan sobre el ajuste de un modelo ARIMA de un modo automaacutetico la maacutessencilla es la que utilizamos nosotros en este trabajo RSA3 la cual ajusta un modelo ARIMA deforma automaacutetica incluyendo la deteccioacuten de atiacutepicos Las especificaciones RSA4 y RSA5 incorporanrespecto a RSA3 modelizar los efectos de calendario La diferencia entre ellas se encuentra en queRSA4 incluye en el modelo los efectos de calendario a traveacutes de dos variables que representan losdiacuteas laborables y los fines de semana y RSA5 incluye dichos efectos a traveacutes de siete variables cadadiacutea de la semana y ambas incluyen el efecto de la Pascua en el calendario Por uacuteltimo se encuentrala especificacioacuten RSAfull que incluye el ajuste automaacutetico de un modelo ARIMA y de los efectos decalendario e incorpora la deteccioacuten de atiacutepicos Todas estas especificaciones son las que se detallan enla Figura 31 para profundizar maacutes en ellas se puede consultar el manual de la libreriacutea RJDemetra (laTente Michalek Palate y Baeyens 2020)

Figura 31 Paraacutemetro de especificaciones a introducir al modelo X-13ARIMA-SEATS

322 TRAMO-SEATS

El mecanismo de deteccioacuten de atiacutepicos que utiliza el programa TRAMO-SEATS aborda el problemacon la intencioacuten de resolver los problemas b y c introducidos en el inicio del Capiacutetulo 3 dado queentiende que estos no se han resuelto de un modo satisfactorio en Chen y Liu (1993) En Goacutemez yTaguas (1995) explican que aunque este meacutetodo funciona de forma bastante satisfactoria su solucioacutenpresenta una serie de deficiencias

1 Se estima varias veces por maacutexima verosimilitud exacta lo que es costoso

2 No utiliza residuos exactos

3 El algoritmo es excesivamente complicado

4 Las regresiones muacuteltiples no se hacen filtrando los datos y las columnas de la matriz por un filtroexacto como el filtro de Kalman sino que se utiliza un filtro condicional

32 MEacuteTODOS DE DETECCIOacuteN DE VALORES ATIacutePICOS 19

Por tanto se presenta un mecanismo que pretende subsanar estas deficiencias a la par que corregirlos problemas b y c mencionados en Chen y Liu (1993) Ademaacutes si se utiliza de forma secuencial juntocon el procedimiento de especificacioacuten automaacutetica del programa supone un procedimiento alternativoal de Tsay (1986)

Al igual que X-13ARIMA-SEATS TRAMO-SEATS estaacute implementado en la libreriacutea RJDemetra

de R en la funcioacuten tramoseats Dicha funcioacuten tambieacuten requiere de un paraacutemetro de especificacioacutenspec en el que se concreta el modelo que queremos introducir La utilidad y mecanismo sobre el quetrabaja este paraacutemetro es ideacutentico al explicado en la Seccioacuten 321 para el meacutetodo X-13ARIMA-SEATSpor lo que utilizaremos la especificacioacuten RSA3 Esta especificacioacuten incluye el ajuste automaacutetico de unmodelo ARIMA corrigiendo las posibles observaciones atiacutepicas

El resto de posibles especificaciones que se pueden incluir en el modelo se recogen en la Figura32 El significado de esta figura es equivalente al de la Figura 31 dado que ambos modelos TRAMO-SEATS y X-13ARIMA-SEATS estaacuten implementados en la misma libreria RJDemetra y compartenel mismo paraacutemetro de especificacioacuten en la funcioacuten que estima sus modelos en R

Figura 32 Paraacutemetro de especificaciones a introducir al modelo TRAMO-SEATS

323 GESD

Introducido por Rosner (1983) como una mejora al por entonces conocido ESD (Rosner 1975) porsus siglas en ingleacutes Extreme Studentized Deviate A pesar de que ESD contaba con buenas propiedadesante una amplia alternativa de atiacutepicos presentaba una serie de defectos que le conduciacutean a etiquetarmaacutes candidatos a atiacutepicos que el nuacutemero apropiado Esto provocoacute que se quedase obsoleto en favor desu actualizacioacuten GESD General Extreme Studentized Deviate

Los pasos que sigue son los siguientes

1 Decidir un maacuteximo nuacutemero de posibles candidatos a atiacutepicos r La recomendacioacuten es de consi-derar el 20 del tamantildeo muestral

2 Comenzar las iteraciones i = 1

3 Calcular Ri = maxt|ximinusx|s siendo xi una observacioacuten sospechosa de ser anoacutemala x la media

muestral y s la desviacioacuten estaacutendar de la muestra respectivamente

4 Eliminar la observacioacuten que maximice xi minus x

5 Calcular el siguiente valor criacutetico λi =(nminusi)tpnminusi+1radic

(nminus1minus1+t2pnminusiminus1)(nminusi+1)

donde tpnminusi+1 es una distribucioacuten t con n minus i minus 1 grados de libertad y p = 1 minus α2(nminusi+1 siendo

α la probabilidad de cometer errores de tipo I

20 CAPIacuteTULO 3 DETECCIOacuteN DE VALORES ATIacutePICOS

6 Pasar a la siguiente iteracioacuten repetir los pasos 2 a 5 hasta i = r quedando r definido en el paso1

7 El nuacutemero de atiacutepicos detectados se determina al encontrar el mayor i tal que Ri gt λi dondeRi se define en el paso 2 y λi en el paso 5

GESD es principalmente el test de Grubbs (Grubbs 1950) aplicado de forma secuencial sin embargoexisten unas pequentildeas diferencias que premian su comportamiento GESD realiza ajustes del valorcriacutetico en base al nuacutemero de atiacutepicos a ser estudiado algo que el test de Grubbs no hace Ademaacutessi existe efecto de enmascaramiento aplicar el test de Grubbs de forma secuencial produciriacutea unadetencioacuten demasiado temprana del algoritmo de deteccioacuten lo que impediriacutea localizar algunos atiacutepicos

Los estudios de simulacioacuten realizados para estudiar el comportamiento de GESD indican que elmeacutetodo es muy preciso cuando contamos con tamantildeos muestrales n gt 25 por lo que en nuestrotrabajo no tendremos problema Sin embargo debido a que es un meacutetodo iterativo seraacute maacutes costosocomputacionalmente a medida que se incrementen los tamantildeos muestrales y es algo a tener en cuentacomo posible freno al crecimiento futuro del mecanismo de deteccioacuten

En R podemos encontrar la funcioacuten gesd dentro del paquete Anomalize (Dancho y Vaughan 2019)

324 Isolation Forest

Isolation Forest o iForest es el meacutetodo presentado por Liu Ting y Zhou (2009) donde se tratael tema de deteccioacuten de atiacutepicos desde un punto de vista diferente Ese punto de vista se basa en dospropiedades relacionadas con la idea de queacute es un valor atiacutepico son la minoriacutea de un conjunto y tienenunos atributos muy diferentes a los de las observaciones normales Es decir las anomaliacuteas son pocas ydiferentes lo que las hace maacutes propensas a encontrarse aisladas del resto

Por esta razoacuten los autores presentan un meacutetodo basado en construir un aacuterbol que aiacutesle cada ob-servacioacuten de tal modo que los valores atiacutepicos se encontraraacuten en ramas maacutes proacuteximas a la raiacutez y losvalores normales se encontraraacuten en zonas maacutes profundas del aacuterbol Es por ello que iForest (Liu et al2009) se distingue del resto de mecanismos basados en modelos distancias o densidades

Figura 33 Idea sobre la que se sustenta el mecanismo de Isolation Forest

32 MEacuteTODOS DE DETECCIOacuteN DE VALORES ATIacutePICOS 21

En la Figura 33 se puede observar la idea sobre la que se rige este mecanismo Un punto normalxi requiere maacutes particiones para ser aislado Y el opuesto tambieacuten es cierto donde un punto anoacutemalox0 requiere menos particiones para ser aislado Por lo que se trata de calcular la ldquolongitud del caminordquoa ser aislado dado que los valores atiacutepicos tendraacuten caminos maacutes cortos que los de los valores normales

Para definir como se calcula la ldquolongitud del caminordquo es necesario definir primero el aacuterbol deaislamiento Isolation Tree El aacuterbol de aislamiento seriacutea toda la estructura de ramas que trocean elconjunto de datos La longitud del camino h(x) path length de un punto x se mediriacutea por tanto comoel nuacutemero de ramas a atravesar desde la raiacutez del aacuterbol al punto

Es necesario definir una puntuacioacuten de cuaacuten anoacutemala es una observacioacuten score para ello se intro-duce c(n) como la media de h(x) siendo E el operador esperanza dado el tamantildeo de la muestra nDe tal modo que

Cuando E(h(x))rarr c(n) scorerarr 05

Cuando E(h(x))rarr 0 scorerarr 1

Cuando E(h(x))rarr nminus 1 scorerarr 0

Haciendo uso de la puntuacioacuten anoacutemala que recibe cada punto score tenemos que

Si score es cercano a 1 la observacioacuten es atiacutepica

Si la observacioacuten presenta valores de score inferiores a 05 pueden ser calificadas como observa-ciones normales

Si todas las observaciones devuelven un valor score asymp 05 entonces la muestra entera carece deatiacutepicos

En el artiacuteculo fijan como atiacutepicos potenciales observaciones con score ge 06 en este trabajo somosmaacutes estrictos y fijamos el umbral en score ge 075 Esta decisioacuten se toma tras probar diferentes umbralesy observar el comportamiento del meacutetodo en el estudio de simulacioacuten y en los datos reales Otrosumbrales que se barajaron y descartaron por los resultados mostrados fueron score ge 07 por serdemasiado laxo y score ge 08 por ser demasiado estricto

En R existen dos libreriacuteas que implantan dicho meacutetodo una es la implantada por la empresa H20 lacual ha desarrollado el algoritmo HDoutliers utilizado en este trabajo Y la otra es la libreriacutea solitude(Srikanth 2017) la cual hemos usado para el desarrollo de este trabajo

325 HDoutliers

HDoutliers (Wilkinson 2017) es un algoritmo que se puede aplicar en multitud de escenarios posi-bles desde el maacutes sencillo que seriacutea el caso univariante hasta maacutes complejos como el multidimensionalo el espacial La idea sobre la que se desarrolla es la de buscar espacios entre los valores ordenadosmaacutes que en la de buscar valores extremos De los meacutetodos que se centran en la idea de buscar valoresextremos como por ejemplo el test de Grubbs y por tanto GESD el autor hace una criacutetica y es queestos utilizan medidas como la media muestral o la desviacioacuten tiacutepica las cuales no son robustas frentea valores atiacutepicos

22 CAPIacuteTULO 3 DETECCIOacuteN DE VALORES ATIacutePICOS

El concepto anterior se puede explicar de un modo muy sencillo a traveacutes de un ejemplo que se recogeen Wilkinson (2017) En los resultados a un examen al que se presentaron 100 alumnos obtenemos unapuntuacioacuten media de 50 y una desviacioacuten estaacutendar de 5 Si entre todas las notas un alumno obtuvo un100 y la siguiente mejor nota es un 65 se podriacutea sospechar que ese alumno es un genio o un tramposoPor otra parte si la nota perfecta se encuentra en el punto maacutes alto de una serie de notas que difieren5 puntos entre ellas ese alumno ya no seriacutea tan sospechoso Los test claacutesicos de valores atiacutepicos no soncapaces de diferir entre ambas situaciones

Figura 34 El algoritmo de HDoutliers aplicado sobre el ejemplo anterior (Wilkinson 2017)

En la Figura 34 se representa este ejemplo En el caso de la izquierda estariacuteamos en la situacioacutenen la que no se sospecha que se hayan producido trampas por parte de ninguacuten alumno y el meacutetodoHDoutliers no detectariacutea ninguacuten candidato a atiacutepico A la derecha tendriacuteamos la situacioacuten en la quesospechariacuteamos de que existe un alumno brillante o tramposo y el meacutetodo detectariacutea una situacioacutenatiacutepica como se sentildeala con el punto rojo

La solucioacuten de buscar espacios permite identificar valores inusuales tanto en el medio de las dis-tribuciones como en los extremos Para ello HDoutliers calcula la distancia al vecino maacutes cercanoDespueacutes ajusta una distribucioacuten exponencial a la cola superior de las distancias calculadas y calcula elvalor 1minusα siendo α la probabilidad de cometer un error tipo I superior de la funcioacuten de distribucioacutenacumulada Por lo que cada observacioacuten que se encuentre significativamente alejada del resto basadaen este punto de corte se etiquetaraacute como atiacutepica

El autor menciona que este meacutetodo difiere de aquellos que se basan en hacer un ranking de candi-datos a atiacutepicos como podriacutea ser Local Outlier Factor (Breunig Kriegel Ng y Sander 2000) o quelos etiquetan bajo un liacutemite arbitrario como seriacutea el caso de Isolation Forest (Liu et al 2009) dadoque pueden conducir a resultados inconsistentes Para ello lo que hace es asignar una probabilidad ala creencia de que estamos ante un atiacutepico

En R podemos encontrar este meacutetodo en la libreriacutea HDoutliers (Fraley y Wilkinson 2020)

33 RESUMEN MEacuteTODOS DE DETECCIOacuteN DE VALORES ATIacutePICOS 23

33 Resumen meacutetodos de deteccioacuten de valores atiacutepicos

Meacutetodo Ventajas Contras

X-13ARIMA-SEATS(2017)

Califica el tipo de atiacutepicoRaacutepida velocidad de ejecucioacuten

Basado en modelos ARIMA

TRAMO-SEATS(1997) Califica el tipo de atiacutepicoRaacutepida velocidad de ejecucioacutenIdea similar a X-13ARIMA-SEATS pero profundizando maacutesen el desarrollo del mecanismo dedeteccioacuten de atiacutepicos

Basado en modelos ARIMA

GESD(1983) Elimina parte de la incertidum-bre de que se produzca un efectode enmascaramiento

Utiliza medidas como la media ola desviacioacuten tiacutepica medidas quese pueden ver distorsionadas porvalores atiacutepicosEs un proceso iterativo lo queimplica mayor coste computacio-nal a medida que se incrementeel tamantildeo de datos

Isolation Forest(2009) Escalable a conjuntos de gran di-mensioacutenDisentildeo sencillo

El usuario tiene que determinarel umbral de atiacutepico lo cual pue-de ser un inconveniente a veces

HDoutliers(2017) Identifica valores inusuales tantoen el medio de las distribucionescomo en los extremosEscalable a conjuntos de gran di-mensioacutenAlta velocidad de ejecucioacuten

Tendencia a calificar un excesode observaciones como atiacutepicassin serlo

Cuadro 31 Resumen de los meacutetodos de deteccioacuten de atiacutepicos

24 CAPIacuteTULO 3 DETECCIOacuteN DE VALORES ATIacutePICOS

34 Meacutetodos de deteccioacuten de valores atiacutepicos en series tempo-

rales

Dado que se han introducido diversos meacutetodos con diferentes enfoques respecto a la resolucioacuten delproblema de deteccioacuten de atiacutepicos en series de tiempo hemos decidido incluir este apartado al finaldel contenido principalmente teoacuterico del trabajo para asiacute centrar los meacutetodos que se utilizaraacuten en lossiguientes capiacutetulos Este apartado recoge todos los meacutetodos los ya existentes y nuevas propuestasrealizadas por nosotros que se utilizaraacuten en este trabajo

Los meacutetodos existentes son los pertenecientes a las libreriacuteas RJDemetra (la Tente et al 2020) yAnomalize (Dancho y Vaughan 2019) La libreriacutea RJDemetra es la que nos dota de las funcionesnecesarias para utilizar los modelos X-13ARIMA-SEATS y TRAMO-SEATS Mientras que la libreriacuteaAnomalize se ha convertido en uno de los paquetes de referencia en R para el anaacutelisis de valores atiacutepicosen series de tiempo A traveacutes de ella podemos utilizar el meacutetodo tratado en Hochenbaum et al (2017)basado en una combinacioacuten de Twitter+GESD y tambieacuten la otra opcioacuten que proponen a traveacutes decombinar STL+GESD

A partir de la idea desarrollada por autores como Hochenbaum et al (2017) o libreriacuteas comoAnomalize Dancho y Vaughan (2019) proponemos nuevos meacutetodos de deteccioacuten de atiacutepicos paraseries temporales El fundamento bajo el que se sostiene esta propuesta es muy sencillo Estos meca-nismos se fundamentan en aplicarle a la serie de tiempo un proceso de descomposicioacuten para extraer laestacionalidad y la tendencia para posteriormente aplicarle un meacutetodo de deteccioacuten de valores atiacutepicosal residuo Dado que se han propuesto mejoras en ambos campos tanto en los meacutetodos de descompo-sicioacuten de series temporales como en el de deteccioacuten de valores atiacutepicos creemos que su combinacioacutenpodriacutea suponer una mejora a las ya establecidas Teniendo en cuenta que se ha introducido un meacutetodode descomposicioacuten de series temporales STR (Dokumentov y Hyndman 2015) y dos meacutetodos de de-teccioacuten de valores atiacutepicos Isolation Forest (Liu et al 2009) y HDoutliers (Wilkinson 2017) lo que seharaacute seraacute obtener todas las combinaciones posibles a traveacutes de mezclar los procesos de descomposicioacutencon los meacutetodos de deteccioacuten dando lugar a las siguientes combinaciones

STL +iForest

STL +HDoutliers

STL (Robusto) +iForest

STL (Robusto) +HDoutliers

Twitter +iForest

Twitter +HDoutliers

STR + GESD

STR + iForest

STR + HDoutliers

34 MEacuteTODOS DE DETECCIOacuteN DE VALORES ATIacutePICOS EN SERIES TEMPORALES 25

STR (Robusto) + GESD

STR (Robusto) + iForest

STR (Robusto) + HDoutliers

Estos son los nuevos meacutetodos propuestos en el trabajo de los cuales estudiaremos su comporta-miento en el proacuteximo capiacutetulo a traveacutes de un estudio de simulacioacuten junto a los meacutetodos ya existentesX-13ARIMA-SEATS TRAMO-SEATS STL+GESD y Twitter+GESD

Existen otros meacutetodos populares en la deteccioacuten de atiacutepicos para el software R los cuales no se hanincluido en este trabajo debido a que planteaban peores resultados que los finalmente introducidospero que creemos que merecen una mencioacuten debido a que pueden ser de intereacutes para alguien quepretenda profundizar en este campo

El primero de ellos seriacutea el meacutetodo de deteccioacuten de atiacutepicos IQR incluido en la libreriacutea AnomalizeDancho y Vaughan (2019) el cual se ha descartado debido a que sus combinaciones con STL y Twittersuponiacutean una menor precisioacuten que las combinaciones con GESD (Datacamp 2018) Los autores lo hanincluido en dicha libreriacutea debido a que su coste computacional es mucho menor que el de GESD porlo que se puede plantear situaciones en las que sea uacutetil

El segundo seriacutea la funcioacuten tsoutliers del paquete forecast (Hyndman 2020) la cual hemosdescartado por presentar un mecanismo muy similar al que presentariacutea la combinacioacuten STL+IQR

Por uacuteltimo tambieacuten se ha descartado la funcioacuten tso del paquete tsoutliers (de Lacalle 2019)El motivo se debe a que su autor enfoca el proceso de deteccioacuten basaacutendose en las mismas ideas que lasdesarrolladas en los modelos X-13ARIMA-SEATS y TRAMO-SEATS pero comenta que este meacutetodono estaacute capacitado para trabajar con grandes y heterogeacuteneos conjuntos de series temporales comoX-13ARIMA-SEATS o TRAMO-SEATS sino maacutes bien para pequentildeas aplicaciones de un modo semi-automaacutetico (de Lacalle 2015)

26 CAPIacuteTULO 3 DETECCIOacuteN DE VALORES ATIacutePICOS

Capiacutetulo 4

Estudio de simulacioacuten

En este capiacutetulo se realiza un estudio de simulacioacuten con el objetivo de comparar la eficiencia delos diferentes meacutetodos expuestos en el apartado anterior En primer lugar se presenta un resumendel procedimiento seguido para realizar las simulaciones en los diferentes escenarios y el motivo deproponer cada escenario A continuacioacuten se introduce el Iacutendice de Youden medida que nos permitiraacutediscernir queacute meacutetodos presentan mejor comportamiento en el estudio Finalmente se presentan losresultados del estudio y las conclusiones extraiacutedas del mismo

41 Escenarios

El procedimiento para obtener las series simuladas ha sido el siguiente

1 Simular una serie de tiempo sin atiacutepicos

2 A la observacioacuten correspondiente al instante t sumarle el valor w el cual indicaraacute el tamantildeo delatiacutepico

3 Si se quiere introducir maacutes de un atiacutepico repetir los pasos 1 y 2

Se van a proponer ocho escenarios a continuacioacuten pasamos a justificar la eleccioacuten de cada uno deellos Los escenarios 1 2 y 3 son los planteados en Chen y Liu (1993) artiacuteculo utilizado para analizar laeficiencia de los mecanismos de deteccioacuten que inspiran los meacutetodos aplicados en X-13ARIMA-SEATS yTRAMO-SEATS El Escenario 4 plantea el modelo de liacuteneas aeacutereas utilizado ampliamente para datoseconoacutemicos como los que se van a tratar posteriormente Por uacuteltimo los escenarios 5 a 8 proponendiversos modelos que han sido generados a partir de seleccionar una serie del IGE aleatoriamente yaplicarle la funcioacuten autoarima del paquete forecast (Hyndman 2020) A continuacioacuten se recogentodos los escenarios planteados en el Cuadro 41 Los escenarios 1 a 3 se simulan a traveacutes de la funcioacuten deR arimasim mientras que los escenarios 4 a 8 a traveacutes de la funcioacuten simulate del paquete forecast

27

28 CAPIacuteTULO 4 ESTUDIO DE SIMULACIOacuteN

Escenario Modelo Motivo

Escenario 1 AR(1) Propuesto en el estudio de simu-lacioacuten de Chen y Liu (1993)

Escenario 2 MA(1) Propuesto en el estudio de simu-lacioacuten de Chen y Liu (1993)

Escenario 3 ARIMA(011) Propuesto en el estudio de simu-lacioacuten de Chen y Liu (1993)

Escenario 4 ARIMA(011)x(011)12 Modelos de liacuteneas aeacutereas muyutilizado en lo referente a datoseconoacutemicos

Escenario 5 ARIMA(101)x(012)12 Modelo extraiacutedo de aplicar lafuncioacuten autoarima a una seriedel IGE escogida aleatoriamente

Escenario 6 ARIMA(111)x(101)12 Modelo extraiacutedo de aplicar lafuncioacuten autoarima a una seriedel IGE escogida aleatoriamente

Escenario 7 ARIMA(112)x(011)12 Modelo extraiacutedo de aplicar lafuncioacuten autoarima a una seriedel IGE escogida aleatoriamente

Escenario 8 ARIMA(011)x(100)12 Modelo extraiacutedo de aplicar lafuncioacuten autoarima a una seriedel IGE escogida aleatoriamente

Cuadro 41 Resumen de los escenarios propuestos para el estudio de simulacioacuten

42 IacuteNDICE DE YOUDEN 29

En cada escenario se estudian cuatro casos

Caso 1 Serie con 100 observaciones y un atiacutepico en t = 40 el tamantildeo del atiacutepico es w = 35

Caso 2 Serie con 100 observaciones y un atiacutepico en t = 40 el tamantildeo del atiacutepico es w = 45

Caso 3 Serie con 100 observaciones y un atiacutepico en t = 2 el tamantildeo del atiacutepico es w = 4

Caso 4 Serie con 300 observaciones y dos atiacutepicos en t1 = 40 y t2 = 180 el tamantildeo de los atiacutepicoses w1 = 4 y w2 = 5

En el Escenario 4 hubo que modificar los valores del tamantildeo del atiacutepico introducido en cada casodebido a que no se obteniacutean resultados significativos para ninguacuten meacutetodo Por lo que finalmente solopara el Escenario 4 los valores introducidos fueron de w = 55 para el Caso 1 w = 65 para el Caso2 w = 6 para el Caso 1 w1 = 6 y w2 = 7 para el Caso 4

Los Casos 1 y 2 buscan estudiar la sensibilidad del meacutetodo de deteccioacuten dado que en lo uacutenico quese diferencian es en el tamantildeo del atiacutepico El Caso 3 plantea una situacioacuten complicada al encontrarseel atiacutepico al principio de la serie es maacutes difiacutecil detectar ese valor por dos motivos que el meacutetodo notenga todaviacutea la informacioacuten suficiente o que el meacutetodo vea afectada su estimacioacuten por este valor tantemprano El Caso 4 busca estudiar el comportamiento cuando se presenta maacutes de un atiacutepico

42 Iacutendice de Youden

Para comparar los resultados de los diferentes meacutetodos en las simulaciones vamos a utilizar lo queen otros campos como la investigacioacuten meacutedica se denomina test de diagnoacutestico En este tipo de testse compara la realidad con la prediccioacuten del mecanismo para analizar su funcionamiento Estos testde diagnoacutestico se presentan en lo que se denominan matrices de confusioacuten como la presentada en elCuadro 44 La idea de la matriz de confusioacuten es la de comparar las predicciones realizadas con larealidad de tal modo que se pueda observar cuando la prediccioacuten y la realidad coinciden y cuando no

Realidad

Negativo(0) Positivo (1)

PrediccioacutenNegativo(0) Verdadero Negativo (VN) Falso Negativo (FN)

Positivo(1) Falso Positivo (FP) Verdadero Positivo (VP)

Cuadro 42 Matriz de confusioacuten

En nuestro trabajo Negativo (0) representariacutea una observacioacuten normal y Positivo (1) una obser-vacioacuten atiacutepica La diagonal de la matriz estaacute representada por aquellas observaciones en las que larealidad y la prediccioacuten coinciden Los Falsos Negativos (FN) son aquellas observaciones en que el

30 CAPIacuteTULO 4 ESTUDIO DE SIMULACIOacuteN

mecanismo determinoacute que la observacioacuten era normal pero en realidad era atiacutepica Por otra parte losFalsos Positivos (FP) suceden cuando el mecanismo dictamina que la observacioacuten es atiacutepica pero larealidad es que es una observacioacuten normal

Los Falsos Positivos son tambieacuten conocidos como Error Tipo I la probabilidad de aceptar la hipoacute-tesis nula siendo esta falsa Y los Falsos Negativos son conocidos como Error Tipo II la probabilidadde no rechazar la hipoacutetesis nula siendo esta falsa

El iacutendice de Youden (Youden 1950) nacioacute con motivo de poder comparar los resultados de doso maacutes mecanismos de deteccioacuten y asiacute tener la capacidad de discernir cual de ellos tiene una mejorcapacidad discriminatoria Es decir el propoacutesito final del iacutendice es el de resumir la matriz de confusioacutenen un valor que consiga representar el comportamiento del mecanismo de deteccioacuten de tal modo quedos mecanismos se puedan comparar directamente

Este iacutendice considera con la misma importancia tanto los falsos positivos como los falsos negativosUtilizando otro campo de ejemplo la medicina un falso negativo supondriacutea no tratar la enfermedadde un paciente dado que establecemos que estaacute sano cuando la realidad es que estaacute enfermo Por otraparte un falso positivo supondriacutea un coste como podriacutea ser el monetario financiando el tratamiento oel emocional de un paciente que la realidad es que estaacute sano

Trasladando ese ejemplo a nuestro trabajo un falso negativo supondriacutea no calificar como atiacutepicauna observacioacuten que lo es Esto provocariacutea que estariacuteamos asumiendo como normal un comportamientoen el aacutembito socio-econoacutemico gallego que no lo fue estariacuteamos incurriendo en errores en posterioresanaacutelisis o estariacuteamos obviando sucesos relevantes

Los falsos positivos tambieacuten suponen un coste aquiacute cada observacioacuten que el meacutetodo detecte comoatiacutepica supondraacute la intervencioacuten de un analista para tratar de entender queacute ha sucedido Si finalmenteel analista concluye que la observacioacuten no es atiacutepica se habraacute desperdiciado una serie de horas y equipoque podriacutean haber sido invertidos para otro fin De ambos escenarios surgen dos medidas

Sensibilidad V PV P+FN refleja la proporcioacuten de verdaderos positivos sobre el total de positivos

Especifidad V NV N+FP refleja la proporcioacuten de verdaderos negativos sobre el total de negativos

El iacutendice de Youden se construye a partir de ambas medidas del siguiente modo

J = Sensibilidad + Especifidadminus 1 =V P

V P + FN+

V N

V N + FPminus 1

El rango en el que se utiliza este iacutendice es de 0 a 1 donde 1 representariacutea que el mecanismo escapaz de diferenciar perfectamente las observaciones atiacutepicas de las normales y 0 todo lo contrario

Sin embargo teoacutericamente este rango puede variar de minus1 a 1 (Shan G 2015) los valores menoresque cero no se suelen contemplar dado que no tienen una interpretacioacuten significativa En nuestrotrabajo sucede esta situacioacuten en la que se presentan mecanismos con valores negativos y si bien deforma general esto no tiene explicacioacuten en otros campos en este estudio si

Explicaacutendolo a traveacutes de lo que podriacutea ser un posible resultado de un mecanismo de deteccioacuten

42 IacuteNDICE DE YOUDEN 31

Realidad

Negativo(0) Positivo(1)

PrediccioacutenNegativo(0) 96 1

Positivo(1) 3 0

Cuadro 43 Ejemplo de posible resultado de un mecanismo de deteccioacuten en el que el iacutendice de Youdenseriacutea negativo

En el ejemplo del Cuadro 42 se analiza una serie de tiempo con 100 observaciones entre las cualesse encuentra un valor atiacutepico El mecanismo de deteccioacuten habriacutea detectado 3 posibles atiacutepicos peroninguno de ellos es el atiacutepico real Si calculamos el iacutendice de Youden obtenemos

J =0

0 + 1+

96

96 + 3minus 1 = minus003

El resultado es negativo debido a que el mecanismo de deteccioacuten nos situacutea en una posicioacuten peorque no clasificar nada como atiacutepico Por lo que si 1 refleja que el mecanismo es capaz de diferenciarperfectamente las dos clases y 0 que el mecanismo no nos ayuda en absoluto a diferenciar entre ellasun valor menor que 0 en nuestro trabajo supondriacutea que el mecanismo seriacutea peor que no clasificar nadadado que nos infunde un mayor error sobre la realidad

Un resultado de cero implicariacutea que el mecanismo no es uacutetil ya que no es capaz de diferenciar entrelo que es atiacutepico y lo que no En el Cuadro 43 se recoge un posible resultado que conduciriacutea a estasituacioacuten Este ejemplo recoge una situacioacuten en la que en una serie de tiempo de 100 observaciones seencuentran 5 valores atiacutepicos sin embargo el meacutetodo no es capaz de detectar ninguna de ellas

Realidad

Negativo(0) Positivo(1)

PrediccioacutenNegativo(0) 95 5

Positivo(1) 0 0

Cuadro 44 Ejemplo de posible resultado de un mecanismo de deteccioacuten en el que el iacutendice de Youdenseriacutea cero

J =0

0 + 5+

95

95 + 0minus 1 = 0

Finalmente el resultado perfecto implicariacutea que el mecanismo de deteccioacuten es capaz de diferenciarde forma precisa aquello que es atiacutepico de lo que no lo es En el Cuadro 44 se recoge un ejemplo de

32 CAPIacuteTULO 4 ESTUDIO DE SIMULACIOacuteN

esta situacioacuten En este ejemplo se plantea una serie de tiempo que cuenta con 100 observaciones delas cuales 5 son atiacutepicas igual que en el ejemplo anterior sin embargo el meacutetodo ahora es capaz dedetectar cada una de ellas sin incurrir en Falsos Positivos ni Falsos Negativos

Realidad

Negativo(0) Positivo(1)

PrediccioacutenNegativo(0) 95 0

Positivo(1) 0 5

Cuadro 45 Ejemplo de posible resultado de un mecanismo de deteccioacuten en el que el iacutendice de Youdenseriacutea uno

J =5

0 + 5+

95

95 + 0minus 1 = 1

Podemos observar como los valores fuera de la diagonal de la matriz aquellos que representan losFalsos Negativos y Falsos Positivos son cero En la diagonal de la matriz se encuentran los resultadosque muestran que el mecanismo ha conseguido identificar de forma perfecta aquellas observacionesque son atiacutepicas Esta seriacutea la situacioacuten ideal la cual representariacutea que el mecanismo de deteccioacuten deatiacutepicos funciona de forma idoacutenea

43 Resultados

A continuacioacuten se presentan los resultados para los ocho escenarios introducidos recogidos en elCuadro 41 Al introducir una gran cantidad de meacutetodos escenarios y casos el anaacutelisis de los resultadosse presenta confuso por lo que se decidioacute introducir un coacutedigo de color para resaltar los tres mejores ytres peores resultados en cada caso Los mejores resultados se asocian al color verde siendo el verde maacutesintenso el mejor resultado y decayendo gradualmente la intensidad del color seguacuten empeora Por otraparte los peores resultados estaacuten asociados al color rojo siendo el rojo maacutes intenso el peor resultadoy decayendo la intensidad seguacuten el resultado mejora

Se pensoacute en introducir un gradiente de color por cada caso de modo que fuese variando de mejora peor Finalmente se descartoacute debido a que su contribucioacuten a la comprensioacuten de los resultados eramenor que la idea finalmente escogida de resaltar los tres mejores y los tres peores resultados

Los resultados obtenidos para el iacutendice de Youden se muestran a continuacioacuten A mayores en elanexo se han incluido tablas referentes a los resultados que han presentado los distintos meacutetodos enbase a otras dos medidas que tambieacuten han resultado de utilidad a la hora de escoger los mecanismosadecuados La primera de esas medidas es la sensibilidad la cual hemos definido en este apartado yla otra es el exceso la cual se define como la media de detecciones incorrectas por simulacioacuten y cuyosresultados estaacuten incluidos en el anexo correspondiente

43 RESULTADOS 33

Caso 1 Caso 2 Caso 3 Caso 4

X-13ARIMA-SEATS 0495 0853 0699 0490

TRAMO-SEATS 0655 0926 0803 0494

STL+HDoutliers 0561 0830 0562 0727

STL+GESD 0265 0589 0236 0531

STL+iForest 0632 0882 0632 0788

STL(ROB)+HDoutliers 0550 0790 0666 0707

STL(ROB)+GESD 0623 0862 0732 0752

STL(ROB)+iForest 0634 0873 0741 0748

Twitter+HDoutliers 0462 0725 0588 0616

Twitter+GESD 0303 0587 0426 0433

Twitter+iForest 0524 0797 0647 0657

STR+Hdoutliers 0603 0833 0595 0667

STR+GESD 0344 0649 0292 0448

STR+iForest 0670 0882 0675 0719

STR(ROB)+Hdoutliers 0534 0803 0630 0654

STR(ROB)+GESD 0379 0683 0456 0557

STR(ROB)+iForest 0619 0859 0695 0711

Cuadro 46 Resultados Escenario 1Iacutendice de Youden AR(1)

En el Cuadro 46 se recogen los resultados al Escenario 1 escenario en el que se simula un AR(1)igual al realizado por Chen y Liu (1993) Los resultados muestran que en los casos 1 2 y 3 TRAMO-SEATS ejerce un papel superior al resto buen comportamiento que desaparece en el Caso 4 casoen el que se introducen dos atiacutepicos Si analizamos conjuntamente los resultados de los cuatro casospodriacuteamos decir que los meacutetodos que reflejan un mejor comportamiento global en el escenario seriacuteanSTR+iForest y STL(Rob)+iForest

34 CAPIacuteTULO 4 ESTUDIO DE SIMULACIOacuteN

Caso 1 Caso 2 Caso 3 Caso 4

X-13ARIMA-SEATS 0504 0828 0645 0494

TRAMO-SEATS 0667 0913 0741 0494

STL+HDoutliers 0465 0721 0473 0680

STL+GESD 0217 0457 0147 0428

STL+iForest 0502 0781 0521 0713

STL(ROB)+HDoutliers 0457 0723 0576 0642

STL(ROB)+GESD 0516 0761 0651 0667

STL(ROB)+iForest 0519 0798 0660 0713

Twitter+HDoutliers 0457 0690 0587 0640

Twitter+GESD 0346 0627 0480 0486

Twitter+iForest 0506 0774 0658 0689

STR+HDoutliers 0580 0814 0566 0658

STR+GESD 0297 0601 0247 0449

STR+iForest 0626 0866 0647 0719

STR(ROB)+HDoutliers 0514 0780 0603 0644

STR(ROB)+GESD 0335 0627 0405 0520

STR(ROB)+iForest 0578 0836 0687 0709

Cuadro 47 Resultados Escenario 2 Iacutendice de Youden MA(1)

En el Cuadro 47 se recogen los resultados al Escenario 2 escenario en el que se simula un MA(1)igual al realizado por Chen y Liu (1993) Los resultados que se observan son similares a los extraiacutedos delEscenario 1 TRAMO-SEATS es claramente superior en los casos 1 2 y 3 pero su buen comportamientodesaparece ante el Caso 4 Por otra parte STR+iForest presenta un comportamiento maacutes homogeacuteneoencontraacutendose en tres de los cuatro casos entre los tres mejores resultados Lo mismo sucede con suversioacuten robusta En esta ocasioacuten la combinacioacuten STL+iForest solamente se encuentra entre las mejoresen el Caso 4

43 RESULTADOS 35

Caso 1 Caso 2 Caso 3 Caso 4

X-13ARIMA-SEATS 0921 0970 0926 0500

TRAMO-SEATS 0921 0971 0921 0500

STL+HDoutliers 0306 0502 0234 0435

STL+GESD 0088 0229 0050 0152

STL+iForest 0338 0575 0279 0451

STL(ROB)+HDoutliers 0252 0426 0287 0328

STL(ROB)+GESD 0287 0504 0369 0316

STL(ROB)+iForest 0291 0495 0329 0358

Twitter+HDoutliers 0061 0109 0124 0064

Twitter+GESD 0015 0027 0056 0025

Twitter+iForest 0077 0127 0167 0068

STR+HDoutliers 0400 0556 0342 0436

STR+GESD 0202 0365 0108 0230

STR+iForest 0441 0614 0385 0492

STR(ROB)+HDoutliers 0237 0391 0248 0268

STR(ROB)+GESD 0199 0381 0215 0254

STR(ROB)+iForest 0277 0451 0279 0289

Cuadro 48 Resultados Escenario 3 Iacutendice de Youden ARIMA(011)

En el Cuadro 48 se recogen los resultados al Escenario 3 escenario en el que se simula un ARI-MA(011) igual al realizado por Chen y Liu (1993) En este escenario existe una hegemoniacutea de X-13ARIMA-SEATS y TRAMO-SEATS los cuales presentan resultados superiores a los de cualquierotro meacutetodo La combinacioacuten STR+iForest es el tercer meacutetodo que a pesar de la diferencia con losotros dos presenta mejores resultados

36 CAPIacuteTULO 4 ESTUDIO DE SIMULACIOacuteN

Caso 1 Caso 2 Caso 3 Caso 4

X-13ARIMA-SEATS 0402 0592 0067 0480

TRAMO-SEATS 0540 0705 0071 0481

STL+HDoutliers -0003 -0004 0008 0000

STL+GESD -0002 -0001 0002 -0001

STL+iForest -0004 -0004 0008 0001

STL(ROB)+HDoutliers -0005 -0005 0025 0000

STL(ROB)+GESD -0039 -0026 0052 0002

STL(ROB)+iForest 0004 -0002 0026 0000

Twitter+HDoutliers 0000 -0002 -0001 0007

Twitter+GESD -0025 -0019 -0016 0003

Twitter+iForest 0000 -0001 0004 0016

STR+HDoutliers 0359 0417 -0004 0083

STR+GESD 0409 0445 -0006 0124

STR+iForest 0411 0472 -0005 0097

STR(ROB)+HDoutliers 0014 0006 0002 0039

STR(ROB)+GESD 0019 0017 0008 0075

STR(ROB)+iForest 0014 0005 0002 0021

Cuadro 49 Resultados Escenario 4 Iacutendice de Youden ARIMA(011)x(011)12

En el Cuadro 49 se recogen los resultados al Escenario 4 escenario en el que se simula el modelo deliacuteneas aeacutereas (G Box y Jenkins 1976) Este modelo es famoso por su uso en series socio-econoacutemicasPor ello cabriacutea esperar un buen comportamiento de los modelos disentildeados para este fin X-13ARIMA-SEATS y TRAMO-SEATS El resto de combinaciones presentan resultados poco consistentes

43 RESULTADOS 37

Caso 1 Caso 2 Caso 3 Caso 4

X-13ARIMA-SEATS 0265 0628 0176 0409

TRAMO-SEATS 0398 0747 0248 0432

STL+HDoutliers 0238 0469 0281 0125

STL+GESD 0091 0258 0158 0024

STL+iForest 0263 0531 0305 0134

STL(ROB)+HDoutliers 0265 0475 0343 0097

STL(ROB)+GESD 0375 0662 0452 0114

STL(ROB)+iForest 0304 0545 0388 0128

Twitter+HDoutliers 0243 0429 0352 0103

Twitter+GESD 0168 0376 0309 0057

Twitter+iForest 0266 0479 0381 0126

STR+HDoutliers 0656 0885 0231 0755

STR+GESD 0424 0769 0064 0567

STR+iForest 0720 0936 0277 0798

STR(ROB)+HDoutliers 0189 0326 0212 0523

STR(ROB)+GESD 0174 0317 0192 0665

STR(ROB)+iForest 0229 0364 0232 0588

Cuadro 410 Resultados Escenario 5 Iacutendice de Youden ARIMA(101)x(012)12

En el Cuadro 410 se recogen los resultados al Escenario 5 escenario en el que se simula un modeloARIMA (101)x(012)12 a partir de aplicarle la funcioacuten autoarima a una serie del IGE escogidaaleatoriamente En este escenario predomina la descomposicioacuten STR ya que son las combinacionesjunto a los tres meacutetodos de deteccioacuten de atiacutepicos GESD iForest y HDoutliers los meacutetodos quepresentan mejores resultados En concreto la combinacioacuten STR+iForest supone la combinacioacuten maacutesinteresante para este escenario

38 CAPIacuteTULO 4 ESTUDIO DE SIMULACIOacuteN

Caso 1 Caso 2 Caso 3 Caso 4

X-13ARIMA-SEATS 0331 0659 0354 0425

TRAMO-SEATS 0457 0764 0477 0438

STL+HDoutliers 0513 0790 0494 0624

STL+GESD 0229 0558 0188 0328

STL+iForest 0560 0833 0567 0648

STL(ROB)+HDoutliers 0507 0776 0592 0595

STL(ROB)+GESD 0528 0815 0663 0560

STL(ROB)+iForest 0559 0838 0661 0645

Twitter+HDoutliers 0239 0416 0355 0208

Twitter+GESD 0101 0229 0185 0100

Twitter+iForest 0279 0452 0383 0227

STR+HDoutliers 0520 0779 0436 0636

STR+GESD 0278 0584 0151 0385

STR+iForest 0596 0822 0494 0682

STR(ROB)+HDoutliers 0399 0666 0490 0545

STR(ROB)+GESD 0274 0524 0349 0404

STR(ROB)+iForest 0457 0731 0568 0579

Cuadro 411 Resultados Escenario 6 Iacutendice de Youden ARIMA(111)x(101)12

En el Cuadro 411 se recogen los resultados al Escenario 6 escenario en el que se simula un modeloARIMA (111)x(101)12 a partir de aplicarle la funcioacuten autoarima a una serie del IGE escogidaaleatoriamente En este escenario los meacutetodos que muestran unos mejores resultados son STR+iForesty STL+iForest Tambieacuten muestra un buen comportamiento el meacutetodo STL(Rob)+GESD basado enla combinacioacuten de la versioacuten robusta de la descomposicioacuten STL y el meacutetodo de deteccioacuten de atiacutepicosGESD

43 RESULTADOS 39

Caso 1 Caso 2 Caso 3 Caso 4

X-13ARIMA-SEATS 0332 0673 0347 0422

TRAMO-SEATS 0426 0765 0425 0453

STL+HDoutliers 0451 0693 0414 0503

STL+GESD 0180 0438 0142 0219

STL+iForest 0509 0759 0458 0527

STL(ROB)+HDoutliers 0416 0655 0468 0489

STL(ROB)+GESD 0452 0702 0549 0457

STL(ROB)+iForest 0484 0717 0541 0525

Twitter+HDoutliers 0009 0018 0037 0037

Twitter+GESD -0024 -0014 0011 0010

Twitter+iForest 0007 0016 0050 0050

STR+HDoutliers 0469 0719 0369 0582

STR+GESD 0228 0495 0122 0329

STR+iForest 0511 0774 0438 0635

STR(ROB)+HDoutliers 0282 0495 0347 0330

STR(ROB)+GESD 0224 0432 0301 0285

STR(ROB)+iForest 0343 0557 0407 0385

Cuadro 412 Resultados Escenario 7 Iacutendice de Youden ARIMA(112)x(011)12

En el Cuadro 412 se recogen los resultados al Escenario 7 escenario en el que se simula un modeloARIMA (112)x(011)12 a partir de aplicarle la funcioacuten autoarima a una serie del IGE escogidaaleatoriamente En este escenario los meacutetodos que muestran unos mejores resultados vuelven a serSTL+iForest STR+iForest y cercano a ellos STL(Rob)+iForest El resto de resultados no muestranninguacuten meacutetodo estable para los cuatro casos

40 CAPIacuteTULO 4 ESTUDIO DE SIMULACIOacuteN

Caso 1 Caso 2 Caso 3 Caso 4

X-13ARIMA-SEATS 0298 0636 0334 0434

TRAMO-SEATS 0419 0712 0427 0481

STL+HDoutliers 0425 0697 0389 0620

STL+GESD 0176 0415 0108 0351

STL+iForest 0480 0734 0423 0662

STL(ROB)+HDoutliers 0429 0675 0483 0607

STL(ROB)+GESD 0449 0718 0543 0584

STL(ROB)+iForest 0486 0749 0559 0675

Twitter+HDoutliers 0271 0463 0378 0350

Twitter+GESD 0127 0286 0189 0147

Twitter+iForest 0300 0504 0424 0356

STR+HDoutliers 0448 0692 0459 0564

STR+GESD 0203 0438 0167 0274

STR+iForest 0492 0769 0502 0600

STR(ROB)+Hdoutliers 0416 0680 0503 0548

STR(ROB)+GESD 0260 0523 0329 0366

STR(ROB)+iForest 0460 0751 0573 0587

Cuadro 413 Resultados Escenario 8 Iacutendice de Youden ARIMA(011)x(100)12

En el Cuadro 413 se recogen los resultados al Escenario 8 escenario en el que se simula un mode-lo ARIMA(011)x(100)12 a partir de aplicarle la funcioacuten autoarima a una serie del IGE escogidaaleatoriamente Los resultados maacutes consistentes para los cuatro casos estaacuten formados por las combina-ciones de STR+iForest la misma combinacioacuten pero con la versioacuten robusta de la descomposicioacuten STRSTR(Rob)+iForest y la combinacioacuten STL+iForest y tambieacuten su versioacuten robusta STL (Rob)+iForest

44 CONCLUSIONES 41

44 Conclusiones

Los resultados de las simulaciones muestran dos realidades Por un lado nos encontramos con losresultados asociados a los escenarios 1 2 3 y 4 En estos escenarios prevalece el comportamientode TRAMO-SEATS por encima de todos los meacutetodos sin lugar a duda incluso tambieacuten podriacuteamosincluir a X-13ARIMA-SEATS aquiacute Cabe recordar que ambos parten de las mismas ideas pero esTRAMO-SEATS el que implanta una serie de mejoras a los meacutetodos de deteccioacuten de atiacutepicos en losque se inspiran ambos esto se trata en el Capiacutetulo 3 Por otra parte en los escenarios 5 6 7 y 8 ya noexiste tal hegemoniacutea de TRAMO-SEATS frente al resto de meacutetodos de hecho nos encontramos unosresultados bastante maacutes variados

Entre los meacutetodos de descomposicioacuten (STLTwitter y STR) el que presenta mejores resultados enlas simulaciones es STR En todos los escenarios presenta resultados que lo posicionan entre los tresprimeros Esto nos da una idea de que estamos ante un meacutetodo flexible capaz de entender la estructurasubyacente de series de tiempo muy diversas y adecuar una respuesta realista del mecanismo generadorSus buenos resultados son seguidos muy de cerca por la descomposicioacuten STL Este es un resultado queconcuerda con lo esperado debido a que siendo los dos meacutetodos similares plantean la misma idea perola ejecutan de distinta forma STR fue creado con el objetivo de suponer una mejora a STL

En lo que respecta a los meacutetodos de deteccioacuten GESD HDoutliers y iForest podemos extraerconclusiones acerca del comportamiento de cada uno

GESD es un buen meacutetodo de identificacioacuten de atiacutepicos Obtiene buenos resultados faacutecil deaplicar y es sencillo entender su mecanismo algo muy uacutetil para personas que quieran realizaro transmitir un estudio sin ahondar profundamente en materia Por otra parte sus buenosresultados en la deteccioacuten correcta de atiacutepicos se ven eclipsados por su tendencia a clasificaraltos valores de observaciones como anoacutemalas incorrectamente Si estamos realizando un anaacutelisisindividual esto podriacutea no ser un problema dado que se podriacutea intervenir modificando alguno desus paraacutemetros y conseguir mejores resultados Sin embargo en este trabajo buscamos un meacutetodoque nos sirva como filtro para analizar multitud de series con la menor intervencioacuten posible porlo que descartamos dicho mecanismo

HDoutliers supone una mejora a GESD Muestra mejor comportamiento en todas las combina-ciones con los meacutetodos de descomposicioacuten GESD solo consigue igualar o superar ligeramentesus resultados incurriendo en calificar una gran cantidad de observaciones como atiacutepicas lo queprovoca un incremento en el nuacutemero de observaciones calificadas erroacuteneamente esto se puede veren las tablas de exceso introducidas en el anexo Sin embargo pese a suponer una mejora noes el meacutetodo que presenta mejores resultados

Isolation Forest o iForest es el meacutetodo de deteccioacuten maacutes consistente a lo largo de los escenariosy para cada meacutetodo de descomposicioacuten Consigue un equilibrio entre buenos valores de deteccioacutencorrecta y bajas tasas de atiacutepicos sentildealados incorrectamente justo lo que se busca en un meacutetodode deteccioacuten de atiacutepicos La idea de aacuterbol bajo la que se desarrolla su mecanismo es faacutecil decomprender cada observacioacuten recibe una puntuacioacuten entre 0 y 1 de cuaacuten anoacutemala es esto permiteflexibilizar la decisioacuten del analista con el umbral en el que fija un valor como atiacutepico En Liu et

42 CAPIacuteTULO 4 ESTUDIO DE SIMULACIOacuteN

al (2009) califican como observaciones sospechosas de ser atiacutepicas aquellas cuya puntuacioacuten seamayor a 06 en este trabajo somos maacutes estrictos y fijamos un umbral superior 075 Ademaacutessu disentildeo le permite escalar a conjuntos de gran tamantildeo y dimensioacuten (big data) por lo que nosupone un freno ante situaciones futuras

Parece interesante tambieacuten recordar que los mecanismos que emplean los meacutetodos X-13ARIMA-SEATS y TRAMO-SEATS fueron analizados en estudios que planteaban simulaciones como las quese realizan en los escenarios 1 2 y 3 Ademaacutes tambieacuten cabe esperar un buen comportamiento que seespera de ellos en un modelo tan comuacuten como el de liacuteneas aacutereas (Escenario 4) Sin embargo cuando seaplican fuera de estos escenarios en modelos maacutes complejos solamente TRAMO-SEATS consigue noquedarse atraacutes

La simulacioacuten nos permite descartar la descomposicioacuten Twitter la cual estaacute quizaacutes maacutes enfocadaa datos de alta frecuencia datos que se producen en frecuencias de tiempo mucho maacutes pequentildeascomo minutos en vez de datos mensuales como los planteados en el estudio de simulacioacuten por lo querefleja peores resultados en escenarios de este aacutembito Tambieacuten nos permite descartar el meacutetodo X-13ARIMA-SEATS dado que supone una idea similar pero menos desarrollada en lo que a deteccioacuten deatiacutepicos se refiere a TRAMO-SEATS Finalmente el meacutetodo GESD tambieacuten es descartado debido asus resultados en los que muestra un comportamiento inferior frente a HDoutliers meacutetodo que suponeuna mejora a la idea sobre la que se basa GESD

Por lo que se concluye que los meacutetodos maacutes adecuados para la continuacioacuten del trabajo son elmodelo TRAMO-SEATS las descomposiciones de series temporales STL y STR y los meacutetodos dedeteccioacuten de atiacutepicos HDoutliers y iForest lo que conforman los siguientes mecanismos de deteccioacutende atiacutepicos

TRAMO-SEATS

STL+HDoutliers

STL+iForest

STR+HDoutliers

STR+iForest

Capiacutetulo 5

Aplicacioacuten a datos reales

En este capiacutetulo se aplican los meacutetodos que han mostrado unos mejores resultados en el estudiode simulacioacuten a las bases de datos del IGE comentadas en Capiacutetulo 1 Estos meacutetodos son TRAMO-SEATS STL+HDoutliers STL+iForest STR+HDoutliers y STL+iForest De este modo podemosanalizar el comportamiento de los meacutetodos con datos reales y extraer nuevas conclusiones que nosurgiacutean en el estudio de simulacioacuten Esto se debe a que si bien el estudio de simulacioacuten planteaba unadiversidad de escenarios amplia nunca seraacuten suficientes para recoger la multitud de naturalezas quecaracteriza a las series socio-econoacutemicas

El anaacutelisis de las datos del IGE se haraacute en dos niveles Un primer nivel mostraraacute el comportamientoglobal del conjunto mediante cuatro medidas el total de atiacutepicos detectados por cada meacutetodo en elconjunto el maacuteximo nuacutemero de atiacutepicos que detecta el meacutetodo en una serie del conjunto el nuacutemero deseries que no presentan atiacutepicos y la media de atiacutepicos detectados por cada meacutetodo El segundo nivelmostraraacute un anaacutelisis maacutes especiacutefico donde se analizaraacute el comportamiento de los meacutetodos respecto auna serie escogida del conjunto

Para finalizar el capiacutetulo introducimos una herramienta graacutefica disentildeada con el objetivo de eliminarla mayor incertidumbre posible que acompantildea a un campo como el de la deteccioacuten de valores atiacutepicosy analizamos su comportamiento

51 Anaacutelisis Series IGE

Los conjuntos utilizados para este trabajo han pasado primero por un proceso de filtrado en el quese han eliminado todas las series que presentan menos de 24 observaciones o maacutes de 24 ceros entre susobservaciones De este modo conseguimos quedarnos con series que recogen la informacioacuten suficientepara trabajar con ellas

A continuacioacuten se muestra el total de series perteneciente a cada conjunto

43

44 CAPIacuteTULO 5 APLICACIOacuteN A DATOS REALES

Conjunto 1 Conjunto 2 Conjunto 3 Conjunto 4 Conjunto 5 Conjunto 6 Conjunto 7

Pre-filtrado 108 72 55 42 162 165 55

Post-filtrado 84 60 50 42 90 165 47

Cuadro 51 Nuacutemero de series de tiempo perteneciente a cada conjunto antes y despueacutes del proceso defiltrado

Ademaacutes con el objetivo de capturar la influencia del Covid19 sobre las series de tiempo se procedea dividir el estudio en dos partes La primera analiza las series con datos hasta 2019 si el conjuntopresenta datos de frecuencia mensual esta fecha seraacute diciembre de 2019 por otra parte si el conjuntopresenta datos de frecuencia trimestral esta fecha seraacute el cuarto trimestre de 2019 La segunda analizalas series incluyendo el uacuteltimo dato actualizado el cual variacutea dependiendo del conjunto Los conjuntoscon datos trimestrales incluyen hasta el primer trimestre del 2020 mientras que los conjuntos condatos mensuales incluyen como uacuteltima actualizacioacuten fechas comprendidas entre abril y junio de 2020por lo que dicha fecha se concretaraacute en el momento que se analiza dicho conjunto Respecto a la fechade inicio de las series variacutea dependiendo del conjunto por lo que tambieacuten se especificaraacute en el iniciodel anaacutelisis del mismo

Para medir la influencia del Covid lo que se haraacute seraacute calcular la tasa de variacioacuten del total deatiacutepicos detectados entre ambos escenarios las series hasta 2019 y las series actualizadas al uacuteltimodato existente de 2020 la cual calcularemos como

Tasa de variacioacuten =

(Total atiacutepicos serie completaTotal atiacutepicos serie hasta 2019

minus 1

)lowast 100

Conjunto 1 (httpwwwigeeuigebdtigeapidatos3476)

Series de datos mensuales que contienen la informacioacuten de los viajeros noches y estancia media enestablecimientos hoteleros y de turismo rural en Espantildea Galicia y sus provincias Los datos de esteconjunto comienzan en enero de 1999 y finalizan en mayo de 2020

51 ANAacuteLISIS SERIES IGE 45

TRAMO -

SEATS

STL +

HDoutliers

STL +

iForest

STR +

HDoutliers

STR +

iForest

Atiacutepicos detectados 327 176 111 136 142

Max nuacutemero atip serie 17 11 3 8 4

Series con 0 atiacutepicos 13 20 11 23 3

Media de atiacutepicos detec 389 210 132 162 169

Cuadro 52 Resultados para el Conjunto 1 con datos hasta diciembre de 2019

Los resultados del Cuadro 52 se producen para un total de 18816 observaciones que muestra elconjunto con datos hasta diciembre de 2019 Ahora vamos a estudiar los resultados de forma quecada serie esteacute formada por el uacuteltimo dato actualizado y a realizar una comparacioacuten entre ambosescenarios En esta serie el uacuteltimo dato actualizado es mayo de 2020 lo que conforma un total de19172 observaciones

TRAMO -

SEATS

STL +

HDoutliers

STL +

iForest

STR +

HDoutliers

STR +

iForest

Atiacutepicos detectados 457 243 170 264 204

Max nuacutemero atip serie 17 11 4 15 5

Series con 0 atiacutepicos 1 6 1 10 3

Media de atiacutepicos detec 544 289 202 314 243

Cuadro 53 Resultados para el Conjunto 1 con datos hasta mayo de 2020

46 CAPIacuteTULO 5 APLICACIOacuteN A DATOS REALES

TRAMO -

SEATS

STL +

HDoutliers

STL +

iForest

STR +

HDoutliers

STR +

iForest

Hasta 2019 327 176 111 136 142

Hasta mayo 2020 457 243 170 264 204

Tasa de variacioacuten 3976 3807 5315 9412 4366

Cuadro 54 Total de atiacutepicos detectados por cada meacutetodo hasta diciembre de 2019 y abril 2020 y tasade variacioacuten que produce el efecto del Covid en el Conjunto 1

En el Cuadro 54 podemos ver como el efecto del Covid sobre el conjunto es muy notorio algoque cabriacutea esperar dado que estamos tratando series relacionadas con el Turismo en Galicia uno delos sectores maacutes afectados por la crisis del Covid El Cuadro 53 incorpora datos hasta mayo 2020lo que supone solamente un crecimiento del 189 del total de datos Sin embargo el crecimientoque experimenta el total de atiacutepicos detectado es muy superior en el caso maacutes suave representa uncrecimiento de maacutes del 38 llegando a suponer para alguacuten meacutetodo el 94

A continuacioacuten vamos a analizar un caso concreto de una serie del conjunto Hemos escogido laserie que hace referencia al nuacutemero de viajeros residentes en Espantildea hospedados en establecimientosde turismo rural en Espantildea El motivo de su eleccioacuten es que es la serie que provoca un mayor nuacutemerode atiacutepicos en el Cuadro 52 un total de 17 observaciones atiacutepicas sentildealadas por el meacutetodo TRAMO-SEATS

Figura 51 Serie de tiempo referente al nuacutemero de viajeros residentes en Espantildea hospedados en esta-blecimientos de turismo rural en Espantildea

La Figura 51 recoge la serie de tiempo referente al nuacutemero de viajeros residentes en Espantildea hos-

51 ANAacuteLISIS SERIES IGE 47

pedados en establecimientos de turismo rural en Espantildea La liacutenea vertical roja representa el comienzodel antildeo 2020 Observando dicha figura y centraacutendonos en la serie hasta 2019 nos encontramos con unaserie con mucha volatilidad debido al fuerte caraacutecter estacional que posee un sector como el turismoy con una ligera tendencia creciente que se estanca ligeramente en los antildeos posteriores a la crisis eco-noacutemica de 2011 para despueacutes continuar en aumento Sin embargo no parece que se encuentren valoresatiacutepicos en dicha serie La combinacioacuten STR+HDoutliers tambieacuten sentildeala un elevado nivel de atiacutepicosseis en total que se reduce con STR+iForest a tres posibles atiacutepicos Finalmente STL+HDoutliers ySTL+iForest coinciden en sentildealar un atiacutepico agosto de 2019

Si ahora observamos los resultados para la serie completa podemos comprobar que los resultadoscambian bruscamente con la introduccioacuten de cuatro nuevos datos enero febrero marzo y abril de2020 Ahora el meacutetodo TRAMO-SEATS sentildeala cuatro fechas de las que solo dos coinciden con lassentildealadas anteriormente Las combinaciones STL+HDoutliers y STL+iForest mantienen como atiacutepicoagosto de 2019 y antildeaden febrero marzo y abril 2020 y marzo y abril 2020 respectivamente Y ahorason las combinaciones STR+HDoutliers y STR+iForest las que sentildealan uacutenicamente agosto de 2019

Es interesante observar el comportamiento de los cinco meacutetodos en esta serie TRAMO-SEATS ylas combinaciones basadas en el proceso de descomposicioacuten STR soliacutean ser las que mejores resultadospresentaban sin embargo en este ejemplo son los meacutetodos basados en la descomposicioacuten STL que sibien presentaron buenos resultados en la simulacioacuten tendiacutean a ir por detraacutes de TRAMO-SEATS y losmeacutetodos basados en la descomposicioacuten STR los que presenta un comportamiento maacutes acorde con loque sucede en la serie De hecho son los meacutetodos basados en la descomposicioacuten STL los uacutenicos quesentildealan como atiacutepica la observacioacuten de abril 2020 la cual es la uacutenica que tiene un valor de 0 y esclaramente atiacutepica

La Figura 52 representa los atiacutepicos detectados por el meacutetodo STL+HDoutliers el cual es el meacutetodoque mejor comportamiento muestra para esta serie

Figura 52 Serie de tiempo referente al nuacutemero de viajeros residentes en Espantildea hospedados en esta-blecimientos de turismo rural en Espantildea analizada por el meacutetodo STL+HDoutliers

En la Figura 53 se muestran los resultados para la misma serie por el resto de meacutetodos utilizadosSTL+iForest STR+HDoutliers STR+iForest y TRAMO-SEATS

48 CAPIacuteTULO 5 APLICACIOacuteN A DATOS REALES

Figura 53 Serie de tiempo referente al nuacutemero de viajeros residentes en Espantildea hospedados en esta-blecimientos de turismo rural en Espantildea analizada por STL+iForest STR+HDoutliers STR+iForesty TRAMO-SEATS

Conjunto 2 (httpwwwigeeuigebdtigeapidatos6356)

Series de datos trimestrales acerca de la poblacioacuten de 16 y maacutes antildeos desglosados por sexo gruposde edad y relacioacuten con la actividad econoacutemica en Galicia Los datos de este conjunto comienzan en elprimer trimestre de 1996 y finalizan en el primer trimestre de 2020

TRAMO -

SEATS

STL +

HDoutliers

STL +

iForest

STR +

HDoutliers

STR +

iForest

Atiacutepicos detectados 56 70 61 62 66

Max nuacutemero atip serie 5 6 3 5 3

Series con 0 atiacutepicos 28 29 18 26 14

Media de atiacutepicos detec 093 117 102 103 110

Cuadro 55 Resultados para el Conjunto 2 con datos hasta el cuarto trimestre de 2019

Los resultados del Cuadro 55 se producen para un total de 5760 observaciones que muestra elconjunto con datos hasta el cuarto trimestre de 2019 Ahora vamos a estudiar los resultados de formaque cada serie esteacute formada por el uacuteltimo dato actualizado y a comparar ambos escenarios En estaserie el uacuteltimo dato actualizado es el primer trimestre de 2020 lo que conforma un total de 5820

51 ANAacuteLISIS SERIES IGE 49

observaciones

TRAMO -

SEATS

STL +

HDoutliers

STL +

iForest

STR +

HDoutliers

STR +

iForest

Atiacutepicos detectados 54 107 62 68 66

Max nuacutemero atip serie 5 45 3 4 3

Series con 0 atiacutepicos 28 30 15 20 12

Media de atiacutepicos detec 090 178 103 113 110

Cuadro 56 Resultados para el Conjunto 2 con datos hasta el primer trimestre de 2020

TRAMO -

SEATS

STL +

HDoutliers

STL +

iForest

STR +

HDoutliers

STR +

iForest

Hasta 2019 56 70 61 62 66

Hasta mayo 2020 54 107 62 68 66

Tasa de variacioacuten -357 5286 164 968 000

Cuadro 57 Total de atiacutepicos detectados por cada meacutetodo hasta el cuarto trimestre de 2019 y primertrimestre de 2020 y tasa de variacioacuten que produce el efecto del Covid en el Conjunto 2

En el Cuadro 57 podemos ver como el efecto del Covid sobre el conjunto es mucho menor que enlos datos del Conjunto 1 Esto se debe a la naturaleza trimestral de los datos por lo que situando lainfluencia del Covid en el contexto gallego a finales de marzo de 2020 su impacto es maacutes suave sobrelos datos Seriacutea interesante en el futuro ver que sucede con este conjunto una vez se antildeadan los datosdel segundo trimestre

A continuacioacuten vamos a analizar un caso concreto de una serie del conjunto Hemos escogido laserie que recoge los datos de hombres mayores de 55 antildeos y que forman parte de la poblacioacuten ocupada

En la Figura 54 se muestra la serie de tiempo referente a los hombres mayores de 55 antildeos queforma parte de la poblacioacuten ocupada La recta vertical roja diferencia los dos escenarios que estudiamosla serie hasta el cuarto trimestre de 2019 y la serie hasta el primer trimestre de 2020-

50 CAPIacuteTULO 5 APLICACIOacuteN A DATOS REALES

Figura 54 Serie de tiempo referente hombres mayores de 55 antildeos y que forman parte de la poblacioacutenocupada

El uacutenico dato que las diferencia el primer trimestre de 2020 sigue con lo que cabriacutea esperar Y losmeacutetodos de deteccioacuten de atiacutepicos concuerdan con lo que observamos no existen atiacutepicos ni antes nidespueacutes excepto en un caso Ahora son los meacutetodos basados en el proceso de descomposicioacuten STL losque sentildealan una fecha que parece discrepar con la realidad

En la serie con valores hasta 2019 son ambas combinaciones STL+HDoutliers y STL+iForestlas que sentildealan como posible atiacutepico julio 2013 Si nos trasladamos a la serie completa uacutenicamenteSTL+iForest sigue manteniendo ese posible atiacutepico mientras que STL+HDoutliers lo corrige Esta si-tuacioacuten en las que solo un meacutetodo sentildeala una fecha nos lleva a dudar de que realmente esta observacioacutensea atiacutepica

A continuacioacuten mostramos la serie referente a los hombres mayores de 55 antildeos y que forman partede la poblacioacuten ocupada analizada por el uacutenico meacutetodo que detecta atiacutepicos para la serie completaSTL+iForest

Figura 55 Serie de tiempo referente hombres mayores de 55 antildeos y que forman parte de la poblacioacutenocupada analizada por STL+iForest

51 ANAacuteLISIS SERIES IGE 51

Conjunto 3 (httpwwwigeeuigebdtigeapidatos308)

Series de datos mensuales acerca de contratos registrados seguacuten la modalidad del contrato Losdatos de este conjunto comienzan en enero de 1999 y finalizan en mayo de 2020

TRAMO -

SEATS

STL +

HDoutliers

STL +

iForest

STR +

HDoutliers

STR +

iForest

Atiacutepicos detectados 193 126 98 146 98

Max nuacutemero atip serie 9 14 5 10 4

Series con 0 atiacutepicos 5 9 1 7 2

Media de atiacutepicos detec 386 252 196 292 196

Cuadro 58 Resultados para el Conjunto 3 con datos hasta diciembre 2019

El Cuadro 58 recoge los resultados que se producen para un total de 12600 observaciones quemuestra el Conjunto 3 con datos hasta diciembre de 2019 Ahora vamos a estudiar los resultados deforma que cada serie esteacute conformada por el uacuteltimo dato actualizado y a realizar una comparativaentre ambas En esta serie el uacuteltimo dato actualizado es mayo de 2020 lo que conforma un total de12850 observaciones

TRAMO -

SEATS

STL +

HDoutliers

STL +

iForest

STR +

HDoutliers

STR +

iForest

Atiacutepicos detectados 242 144 107 153 121

Max nuacutemero atip serie 13 8 5 10 4

Series con 0 atiacutepicos 1 6 0 7 1

Media de atiacutepicos detec 484 288 214 306 242

Cuadro 59 Resultados para el Conjunto 3 con datos hasta mayo de 2020

52 CAPIacuteTULO 5 APLICACIOacuteN A DATOS REALES

TRAMO -

SEATS

STL +

HDoutliers

STL +

iForest

STR +

HDoutliers

STR +

iForest

Hasta 2019 193 126 98 146 98

Hasta mayo 2020 242 144 107 153 121

Tasa de variacioacuten 2539 1429 918 479 2350

Cuadro 510 Total de atiacutepicos detectados por cada meacutetodo hasta diciembre de 2019 y mayo de 2020y tasa de variacioacuten que produce el efecto del Covid en el Conjunto 3

En el Cuadro 510 podemos ver como el efecto del Covid sobre el conjunto es similar al que sepresentaba en los datos del Conjunto 1 Este conjunto vuelve a recoger datos de caraacutecter mensual porlo que la influencia de los meses de 2020 vuelven a reflejar un gran peso en los resultados Sin embargolas tasas de variacioacuten no son tan grandes como las que se produciacutean en el Conjunto 1 Esto podriacuteadeberse a que mientras el sector turiacutestico se redujo a cero en el mercado laboral se llevaron a cabopoliacuteticas contra la destruccioacuten masiva de empleo Estos resultados lo que hacen es aflorar que se haproducido un efecto en el conjunto de datos y que podriacutea ser de intereacutes para despueacutes desarrollar unestudio en profundidad

A continuacioacuten vamos a analizar la serie referente a las contrataciones eventuales por circunstanciasde la produccioacuten para la provincia de Ourense diferenciando a traveacutes de una recta roja vertical los dosescenarios analizados los datos hasta diciembre 2019 y los datos hasta mayo de 2020

Figura 56 Serie de tiempo referente a las contrataciones eventuales por circunstancias de la produccioacutenpara la provincia de Ourense

El meacutetodo TRAMO-SEATS sentildeala tres fechas atiacutepicas en ambas ocasiones en la serie hasta 2019

51 ANAacuteLISIS SERIES IGE 53

y hasta mayo de 2020 sin embargo ninguna de ellas es comuacuten Probablemente esto se deba al compor-tamiento que podemos apreciar en la Figura 56 donde se observa la caiacuteda que produce en la serie losmeses de marzo abril y mayo de 2020 La introduccioacuten de estos datos reajusta las prioridades sobrequeacute es un atiacutepico en la serie para TRAMO-SEATS de forma que pasa de identificar octubre 2001abril 2002 y enero 2012 a sentildealar como fechas atiacutepicas octubre 2007 y marzo y abril de 2020

Este suceso tambieacuten se presenta en el resto de meacutetodos STL+HDoutliers pasa de no identificarninguacuten dato en la serie hasta 2019 a sentildealar abril del 2002 y febrero abril y mayo de 2020 Otro meacutetodoque experimenta esta situacioacuten es STR+iForest que pasa de no calificar ninguna observacioacuten atiacutepicaa sentildealar abril y mayo en 2019 y en 2020 STL+iForest sentildeala dos y tres atiacutepicos en cada caso en laserie hasta 2019 sentildeala el mes de julio en 2018 y 2019 mientras que en la serie completa sentildeala losmeses de febrero abril y mayo de 2020 Por uacuteltimo STR+HDoutliers sentildeala como atiacutepico abril del2002 en la serie acortada observacioacuten que ya no es detectada al incluir la serie completa donde sentildealalos meses de abril y mayo para los antildeos 2019 y 2020 igual aquiacute que STR+iForest

Estos resultados conducen hacia un punto comuacuten mientras que en la serie recortada en 2019 noparece haber mucho acuerdo sobre los atiacutepicos o si existen atiacutepicos en la serie completa todos losmeacutetodos se ponen de acuerdo en que las situaciones de abril y mayo de 2020 son anoacutemalas Estosresultados se muestran en la Figura 57

Figura 57 Serie de tiempo referente a las contrataciones eventuales por circunstancias de la produccioacutenpara la provincia de Ourense sentildealizando las anomaliacuteas comunes a los cinco meacutetodos

Conjunto 4 (httpwwwigeeuigebdtigeapidatos9048)

Series de datos mensuales referidas al Iacutendice de produccioacuten industrial general y por destino eco-noacutemico de los bienes en Espantildea y Galicia Los distintos destinos econoacutemico son bienes de consumoduraderos y no duraderos bienes de equipo bienes intermedios y energiacutea Los datos del conjuntocomienzan en enero de 2002 y finalizan en mayo de 2020

54 CAPIacuteTULO 5 APLICACIOacuteN A DATOS REALES

TRAMO -

SEATS

STL +

HDoutliers

STL +

iForest

STR +

HDoutliers

STR +

iForest

Atiacutepicos detectados 288 129 73 212 64

Max nuacutemero atip serie 24 11 3 102 3

Series con 0 atiacutepicos 9 5 3 6 2

Media de atiacutepicos detec 686 307 174 505 152

Cuadro 511 Resultados para el Conjunto 4 con datos hasta diciembre de 2019

El Cuadro 511 recoge los resultados que se producen para un total de 8904 observaciones quemuestra el conjunto con datos hasta diciembre de 2019 Ahora vamos a estudiar los resultados deforma que cada serie esteacute conformada por el uacuteltimo dato actualizado y a analizar los cambios que seproducen entre ambos escenarios En este conjunto el uacuteltimo dato actualizado es mayo de 2020 lo queconforma un total de 9114 observaciones

TRAMO -

SEATS

STL +

HDoutliers

STL +

iForest

STR +

HDoutliers

STR +

iForest

Atiacutepicos detectados 282 92 78 144 79

Max nuacutemero atip serie 24 5 3 50 3

Series con 0 atiacutepicos 4 5 1 2 1

Media de atiacutepicos detec 672 219 186 343 189

Cuadro 512 Resultados para el Conjunto 4 con datos hasta mayo de 2020

51 ANAacuteLISIS SERIES IGE 55

TRAMO -

SEATS

STL +

HDoutliers

STL +

iForest

STR +

HDoutliers

STR +

iForest

Hasta 2019 288 129 73 212 64

Hasta mayo 2020 282 92 78 144 79

Tasa de variacioacuten -208 -2868 685 -3208 2344

Cuadro 513 Total de atiacutepicos detectados por cada meacutetodo hasta diciembre de 2019 y mayo de 2020y tasa de variacioacuten que produce el efecto del Covid en el Conjunto 4

En el Cuadro 513 podemos ver el efecto del Covid sobre el conjunto sin embargo en esta ocasioacuten nopodemos ver una direccioacuten clara Los meacutetodos difieren y mientras unos meacutetodos muestran crecimientosen el nuacutemero de atiacutepicos detectados para el conjunto otros decrecen y muestran ahora menos atiacutepicosSin embargo esto no implica que el efecto del Covid sobre el conjunto sea menor que por ejemplo en elConjunto 3 Las variaciones entre las series las que incluyen datos de 2020 y las que no son notoriaslo cual implica que el efecto existe

A continuacioacuten vamos a analizar la serie referente a la produccioacuten industrial destinada a bienesintermedios de Galicia diferenciando a traveacutes de una recta vertical roja los dos escenarios los datoshasta diciembre de 2019 y la serie hasta mayo 2020

Figura 58 Serie de tiempo referente a la produccioacuten industrial destinada a bienes intermedios deGalicia

El comportamiento que muestran los meacutetodos con esta serie nos ayuda a plasmar una idea quedesarrollaremos maacutes adelante en el siguiente apartado Si observamos los datos para la serie recortada

56 CAPIacuteTULO 5 APLICACIOacuteN A DATOS REALES

en diciembre de 2019 obtenemos que salvo TRAMO-SEATS que no detecta ninguacuten atiacutepico los otroscuatro meacutetodos concuerdan en dos fechas marzo y julio de 2008 Por otra parte en la serie completacinco meacutetodos sentildealan abril 2020 y cuatro sentildealan marzo de 2008 Estos dos atiacutepicos abril de 2020 ymarzo de 2008 los representamos en la Figura 59

Analizando la Figura 59 el atiacutepico sentildealado en marzo de 2008 parece dudoso sin embargo siprofundizamos en los datos observamos que esta fecha rompe una clara tendencia creciente respecto alos meses de marzo de antildeos anteriores

Este suceso en el que varios meacutetodos coinciden en identificar una fecha proveen al analista de unaseguridad a la hora de calificar una observacioacuten como anoacutemala Este concepto de seguridad eliminandola incertidumbre asociada al campo de la deteccioacuten de valores atiacutepicos seraacute desarrollado maacutes adelante

Figura 59 Serie de tiempo referente a la produccioacuten industrial destinada a bienes intermedios deGalicia con los dos atiacutepicos

Conjunto 5 (httpwwwigeeuigebdtigeapidatos4052)

Series de datos trimestrales de nuacutemero de transacciones inmobiliarias por reacutegimen (Libre Protegiday Total de viviendas) y tipo de vivienda (Nuevas segunda mano y total de viviendas) Las medidas enlas que se toman los datos son por nuacutemero de viviendas su valor total (en miles de euros) o su valormedio (en euros) Los datos se presentan a nivel Espantildea Galicia y las provincias gallegas Los datosse recogen entre el primer trimestre de 2004 hasta el primer trimestre de 2020

51 ANAacuteLISIS SERIES IGE 57

TRAMO -

SEATS

STL +

HDoutliers

STL +

iForest

STR +

HDoutliers

STR +

iForest

Atiacutepicos detectados 184 122 105 94 97

Max nuacutemero atip serie 7 8 2 6 2

Series con 0 atiacutepicos 13 41 12 47 11

Media de atiacutepicos detec 204 136 117 104 107

Cuadro 514 Resultados para el Conjunto 5 con datos hasta el cuarto trimestre de 2019

Los resultados que recoge el Cuadro 514 se producen para un total de 5760 observaciones que mues-tra el Conjunto 5 con datos hasta el cuarto trimestre de 2019 Ahora vamos a estudiar los resultadosde forma que cada serie esteacute conformada por el uacuteltimo dato actualizado y a realizar una comparacioacutenentre ambos escenarios En esta serie el uacuteltimo dato actualizado es el primer trimestre de 2020 lo queconforma un total de 5850 observaciones

TRAMO -

SEATS

STL +

HDoutliers

STL +

iForest

STR +

HDoutliers

STR +

iForest

Atiacutepicos detectados 184 106 108 90 93

Max nuacutemero atip serie 9 8 2 5 3

Series con 0 atiacutepicos 12 42 11 43 13

Media de atiacutepicos detec 204 118 120 100 103

Cuadro 515 Resultados para el Conjunto 5 con datos hasta el primer trimestre de 2020

58 CAPIacuteTULO 5 APLICACIOacuteN A DATOS REALES

TRAMO -

SEATS

STL +

HDoutliers

STL +

iForest

STR +

HDoutliers

STR +

iForest

Hasta 2019 184 122 105 94 97

Hasta mayo 2020 184 106 108 90 93

Tasa de variacioacuten 000 -1311 286 -426 -412

Cuadro 516 Total de atiacutepicos detectados por cada meacutetodo hasta cuarto trimestre de 2019 y primertrimestre de 2020 y tasa de variacioacuten que produce el efecto del Covid en el Conjunto 5

En el Cuadro 516 podemos ver que el efecto del Covid sobre las series trimestrales vuelve a sermuy pequentildeo similar a las conclusiones obtenidas para el Conjunto 2 Si comparamos las tablas 514y 515 podemos similitudes en los resultados para las diferentes medidas que se toman Por ejemplo sinos fijamos en la fila que mide el nuacutemero de series que son identificadas con cero atiacutepicos los meacutetodosapenas difieren en sus resultados Lo mismo sucede con la media de atiacutepicos detectados en cada serieEstos resultados sostienen la idea de que el Covid repercutioacute en menor medida en las series trimestralesen el primer trimestre del antildeo y es de intereacutes realizar este mismo estudio una vez se incorporen losdatos del segundo trimestre

A continuacioacuten vamos a analizar la serie referente al nuacutemero de viviendas transmitidas de segundamano en reacutegimen libre para la provincia de Lugo diferenciando los dos escenarios analizados a traveacutesde una recta vertical roja los datos hasta el cuarto trimestre de 2019 y los datos incluyendo el primertrimestre de 2020

Figura 510 Serie de tiempo referente al nuacutemero de viviendas transmitidas de segunda mano en reacutegimenlibre para la provincia de Lugo

51 ANAacuteLISIS SERIES IGE 59

Observando la Figura 510 parece que el dato incluido referente al primer trimestre de 2020 su-pone una caiacuteda una situacioacuten anoacutemala sin embargo si observamos la evolucioacuten histoacuterica de la seriepodemos comprobar que solamente en dos ocasiones se han mostrado valores superiores en este pri-mer trimestre Para ambos escenarios la serie hasta 2019 y la serie completa uacutenicamente un meacutetododetecta atiacutepicos TRAMO-SEATS que sentildeala en ambas ocasiones octubre de 2010 y 2012 El resto demeacutetodos concuerdan en que la serie no presenta en ninguacuten caso ninguna situacioacuten anoacutemala

La Figura 511 muestra las dos fechas que sentildeala como atiacutepicas el meacutetodo TRAMO-SEATS cuartotrimestre de 2010 y 2012 que si bien reflejan un pico en los espacios temporales en los que se producenno parecen ser atiacutepicas respecto a la serie completa

Figura 511 Serie de tiempo referente al nuacutemero de viviendas transmitidas de segunda mano en reacutegimenlibre para la provincia de Lugo

Conjunto 6 (httpwwwigeeuigebdtigeapidatos1243)

Series de datos mensuales referentes a las bajas de demandas de empleo seguacuten geacutenero y duracioacutende la demanda en Galicia y sus provincias Los datos de la serie se recogen desde enero de 2009 hastajunio de 2020

60 CAPIacuteTULO 5 APLICACIOacuteN A DATOS REALES

TRAMO -

SEATS

STL +

HDoutliers

STL +

iForest

STR +

HDoutliers

STR +

iForest

Atiacutepicos detectados 154 271 228 288 228

Max nuacutemero atip serie 7 11 4 7 3

Series con 0 atiacutepicos 85 44 16 40 12

Media de atiacutepicos detec 093 164 138 174 138

Cuadro 517 Resultados para el Conjunto 6 con datos hasta diciembre de 2019

Los resultados del Cuadro 517 se producen para un total de 21780 observaciones que muestra elconjunto con datos hasta diciembre de 2019 Ahora vamos a estudiar los resultados de forma que cadaserie esteacute conformada por el uacuteltimo dato actualizado y a comparar ambas situaciones En esta serie eluacuteltimo dato actualizado es junio de 2020 lo que conforma un total de 22770 observaciones

TRAMO -

SEATS

STL +

HDoutliers

STL +

iForest

STR +

HDoutliers

STR +

iForest

Atiacutepicos detectados 484 502 336 504 334

Max nuacutemero atip serie 9 12 4 11 4

Series con 0 atiacutepicos 1 10 3 15 5

Media de atiacutepicos detec 293 304 204 305 202

Cuadro 518 Resultados para el Conjunto 6 con datos hasta junio de 2020

51 ANAacuteLISIS SERIES IGE 61

TRAMO -

SEATS

STL +

HDoutliers

STL +

iForest

STR +

HDoutliers

STR +

iForest

Hasta 2019 154 271 228 288 228

Hasta mayo 2020 484 502 336 504 334

Tasa de variacioacuten 21429 8524 4737 7500 4649

Cuadro 519 Total de atiacutepicos detectados por cada meacutetodo hasta diciembre de 2019 y junio de 2020 ytasa de variacioacuten que produce el efecto del Covid en el Conjunto 6

En el Cuadro 519 podemos ver el efecto que supone la primera mitad del antildeo 2020 en la aparicioacutende valores atiacutepicos en este conjunto El incremento en el nuacutemero de datos a analizar no llega a serdel 5 pero esa miacutenima cantidad de datos nuevos dispara las fechas anoacutemalas que se suceden en lasseries En el Cuadro 518 se puede observar que apenas existen series sin atiacutepicos independientementedel meacutetodo que seleccionemos algo todaviacutea maacutes sorprendente si recordamos que este es el conjuntoque posee maacutes series un total de 165 series

A continuacioacuten analizamos un caso concreto utilizando la serie referente a las bajas de la demandade empleo en mujeres con una duracioacuten de la demanda entre 12 y 18 meses en Ourense La rectavertical roja indica el inicio del antildeo 2020 sirviendo asiacute para indicar la diferencia entre los dos escenariosanalizados en los Cuadros 517 y 518

Figura 512 Serie de tiempo referente a las bajas de la demanda de empleo en mujeres con una duracioacutende la demanda entre 12 y 18 meses en Ourense

Esta serie es de intereacutes por diversos motivos El primero es que posee claros atiacutepicos en ambos

62 CAPIacuteTULO 5 APLICACIOacuteN A DATOS REALES

escenarios En la serie con duracioacuten hasta 2019 se puede observar un valor cercano al inicio de 2014con claro aspecto de ser atiacutepico La serie con todos los datos muestra el atiacutepico anterior pero tambieacutennuevos valores con claro comportamiento discordante al resto de la serie

Para la serie recortada cinco meacutetodos coinciden en sus resultados julio de 2013 es atiacutepico uacutenica-mente TRAMO-SEATS difiere el cual no sentildeala ninguacuten atiacutepico en la serie Si ahora nos trasladamosa la serie completa TRAMO-SEATS sentildeala marzo de 2020 como atiacutepico mientras que el resto demeacutetodos vuelven a concordar sentildealando julio de 2013 y febrero de 2020 En la Figura 513 se muestrala serie sentildealizando dichos atiacutepicos julio de 2013 y febrero y marzo de 2020

Figura 513 Serie de tiempo referente a las bajas de la demanda de empleo en mujeres con una duracioacutende la demanda entre 12 y 18 meses en Ourense con los atiacutepicos identificados

Si observamos los datos de la serie podemos calificar todas estas fechas como atiacutepicas julio 2013febrero 2020 y marzo 2020 Sin embargo ninguacuten meacutetodo ha calificado los meses de abril mayo yjunio de 2020 siendo claramente atiacutepicos Estamos frente a una situacioacuten completamente inusual unasituacioacuten que se produce en multitud de series del IGE y es la secuencia de varias observacionesconsecutivas muy atiacutepicas que ejercen un gran peso en la serie

Este gran peso provoca que los meacutetodos no consigan analizar correctamente este escenario Losmodelos de series temporales como TRAMO-SEATS interpretan que se estaacute produciendo un cambiode nivel permanente en la serie mencionado en el Capiacutetulo 3 como Level Shift (LS) y modelizan laserie como tal Los procesos de descomposicioacuten de series temporales utilizados STL y STR entiendenlo que estaacute sucediendo como un cambio en la tendencia es decir en su proceso de extraccioacuten de laestacionalidad y la tendencia estiman una tendencia decreciente en la serie Y por uacuteltimo los meacutetodosde deteccioacuten de valores atiacutepicos HDoutliers y iForest sufren un grave problema de enmascaramientoLa idea del mecanismo de iForest reside en buscar valores aislados mientras que la de HDoutliers sefundamenta en buscar espacios entre los valores ordenados estas dos ideas son consistentes con la ideade la buacutesqueda de atiacutepicos sin embargo ven disminuida su eficiencia ante una situacioacuten tan atiacutepica quepermanece durante varias observaciones consecutivas llevando a provocar que observaciones atiacutepicaspuedan pasar desapercibidas para el mecanismo

51 ANAacuteLISIS SERIES IGE 63

Conjunto 7 (httpwwwigeeuigebdtigeapidatos4885)

Series de datos mensuales referentes a las afiliaciones a la seguridad social el uacuteltimo diacutea de mes enGalicia y sus provincias por regiacutemenes Los datos comienzan en enero de 1990 y finalizan en mayo de2020

TRAMO -

SEATS

STL +

HDoutliers

STL +

iForest

STR +

HDoutliers

STR +

iForest

Atiacutepicos detectados 288 96 118 136 121

Max nuacutemero atip serie 24 8 5 10 5

Series con 0 atiacutepicos 4 10 0 4 0

Media de atiacutepicos detec 613 204 251 289 257

Cuadro 520 Resultados para el Conjunto 7 con datos hasta diciembre de 2019

El Cuadro 520 muestra los resultado que se producen para un total de 16920 observaciones quemuestra el conjunto con datos hasta diciembre de 2019 Ahora vamos a estudiar los resultados de formaque cada serie esteacute conformada por el uacuteltimo dato actualizado y comparar ambas situaciones En estaserie el uacuteltimo dato actualizado es junio de 2020 lo que conforma un total de 17155 observaciones

TRAMO -

SEATS

STL +

HDoutliers

STL +

iForest

STR +

HDoutliers

STR +

iForest

Atiacutepicos detectados 333 179 128 118 136

Max nuacutemero atip serie 24 14 5 11 6

Series con 0 atiacutepicos 0 6 0 3 0

Media de atiacutepicos detec 709 380 272 251 289

Cuadro 521 Resultados para el Conjunto 7 con datos hasta mayo de 2020

64 CAPIacuteTULO 5 APLICACIOacuteN A DATOS REALES

TRAMO -

SEATS

STL +

HDoutliers

STL +

iForest

STR +

HDoutliers

STR +

iForest

Hasta 2019 288 96 118 136 121

Hasta mayo 2020 333 179 128 118 136

Tasa de variacioacuten 1563 8646 847 -1324 1240

Cuadro 522 Total de atiacutepicos detectados por cada meacutetodo hasta diciembre de 2019 y mayo de 2020y tasa de variacioacuten que produce el efecto del Covid en el Conjunto 7

En el Cuadro 522 podemos ver que el efecto que supone la primera mitad del antildeo 2020 en laaparicioacuten de valores atiacutepicos en este conjunto La variacioacuten que supone en el nuacutemero de valores detec-tados como anoacutemalos es considerable todaviacutea maacutes si lo comparamos con la variacioacuten de nuevos datosintroducidos en el anaacutelisis los cuales han aumentado solamente un 138 De este modo podemosafirmar que la presencia del Covid ha provocado un gran impacto en el incremento del nuacutemero deobservaciones atiacutepicas de los conjuntos que presentan datos de frecuencia mensual

A continuacioacuten analizamos un caso concreto utilizando la serie referente a las afiliaciones a laseguridad social en reacutegimen mar para la provincia de Lugo La Figura 514 muestra la representacioacutengraacutefica de dicha serie indicando mediante una recta vertical roja el inicio del 2020

Figura 514 Serie de tiempo referente a las afiliaciones a la seguridad social en reacutegimen mar para laprovincia de Lugo

El motivo de seleccionar esta serie reside en una idea que se va desarrollando a lo largo de todoeste apartado y que da lugar a la herramienta que se introduce en el siguiente Las series socio-econoacutemicas son complejas dado que se ven afectadas por multitud de factores externos que condicionansu desarrollo Este caraacutecter uacutenico de cada serie maacutes los resultados obtenidos a lo largo del trabajo

51 ANAacuteLISIS SERIES IGE 65

nos conduce a la conclusioacuten de que no existe un meacutetodo de deteccioacuten de atiacutepicos con una capacidadde clasificacioacuten superior al resto

Los resultados para esta serie son diversos Por ejemplo la combinacioacuten STR+HDoutliers muestrahasta ocho atiacutepicos para la serie delimitada en el antildeo 2019 sin embargo al introducir la serie completaesta cifra se reduce solamente a dos Sucede lo contrario con la combinacioacuten STL+HDoutliers quesi bien en la serie recortada califica dos observaciones en la completa sentildeala un total de siete Porsu parte TRAMO-SEATS identifica un total de siete atiacutepicos Sin embargo todos los meacutetodos dedeteccioacuten sentildealan dos fechas como atiacutepicas en los dos casos agosto de 2006 y junio de 2008 como serepresenta en la Figura 515 Esto dota al estudio de confianza si todos los mecanismos sospechan dedos fechas deberaacute haber un motivo de peso algo ha sucedido en la serie para que todos concuerdenEsta idea dio lugar al desarrollo de la herramienta que se introduce en el siguiente apartado

Figura 515 Serie de tiempo referente a las afiliaciones a la seguridad social en reacutegimen mar parala provincia de Lugo identificando los atiacutepicos sentildealados de forma comuacuten por los cinco meacutetodos dedeteccioacuten

Por uacuteltimo el Cuadro 523 recoge el total de atiacutepicos detectados por cada meacutetodo en los dosescenarios con los que se ha trabajado en este capiacutetulo El primer escenario incluye datos hasta lauacuteltima fecha de 2019 si las series son mensuales este dato es el correspondiente a diciembre de 2019si son series trimestrales el uacuteltimo dato seraacute el cuarto trimestre de 2019 En el Cuadro 523 se recogede modo general para todos los conjuntos bajo el teacutermino ldquodatos hasta 2019rdquo El segundo escenariorecoge los datos hasta su uacuteltima actualizacioacuten aquiacute existe un mayor abanico de fechas como vimos alo largo de todo este capiacutetulo Los conjuntos con datos de frecuencia trimestral presentan su uacuteltimodato en el primer trimestre de 2020 por su parte los conjuntos de datos mensuales variacutean su uacuteltimaactualizacioacuten entre los meses de abril mayo o junio de 2020 En el Cuadro 523 se recoge de modogeneral para todos ellos bajo el teacutermino ldquodatos hasta 2020rdquo

66 CAPIacuteTULO 5 APLICACIOacuteN A DATOS REALES

TRAMO -SEATS

STL +HDoutliers

STL +iForest

STR +HDoutliers

STR +iForest

Tiempo de ejecucioacuten (2019) 1332 24 1782 7234 8805Tiempo de ejecucioacuten (2020) 1503 21 2042 8043 10764Atiacutepicos detectados (2019) 1490 990 794 1074 816Atiacutepicos detectados (2020) 2036 1373 989 1341 1033

Tasa de variacioacuten 3664 3869 2456 2486 2659

Cuadro 523 Tiempo de ejecucioacuten (en segundos) y total de atiacutepicos detectados por cada meacutetodo hastael uacuteltimo dato de 2019 y hasta uacuteltima actualizacioacuten de 2020 y tasa de variacioacuten que produce el efectodel Covid en los siete conjuntos de datos

El Cuadro 523 nos permite concluir que el efecto global del Covid ha supuesto un incremento enel nuacutemero de observaciones atiacutepicas puesto que todos los meacutetodos experimentan una tasa de variacioacutenpositiva sobre sus cifras de valores atiacutepicos detectados Las cifras de tasas de variacioacuten que se muestranen el Cuadro 523 sorprenden todaviacutea maacutes si analizamos el incremento en el nuacutemero de observacionesanalizadas El escenario que analiza el conjunto de datos hasta 2019 presentan un total de 90540observaciones mientras que el escenario que incluye hasta el uacuteltimo dato actualizado recoge un totalde 92731 Es decir el nuacutemero total de datos analizados se ha incrementado en poco maacutes del 2 sinembargo la tasa de variacioacuten maacutes pequentildea muestra un incremento del maacutes del 24 del nuacutemero deatiacutepicos que se presentan en el conjunto de datos

Otra medida que incluye el Cuadro 523 es el tiempo que tarda en analizar los siete conjuntosde datos cada meacutetodo recogida bajo el nombre de ldquotiempo de ejecucioacutenrdquo A traveacutes de ella podemosobservar que la diferencia entre el tiempo de ejecucioacuten es pequentildea pero existe por lo que muestra quela presencia de atiacutepicos dificulta la modelizacioacuten de la series temporales Tambieacuten podemos comprobarcomo todos los meacutetodos presentan buenas cifras en este medida los que peores resultados muestranson los meacutetodos que utilizan la descomposicioacuten STR la cual ya mencionamos su posible problemade lentitud en el Capiacutetulo 2 Por uacuteltimo es sorprendente la combinacioacuten de STL+HDoutliers que escapaz de analizar las 538 en un tiempo inferior a los tres segundos en ambos casos

52 Anaacutelisis Graacutefico

El campo de la deteccioacuten de valores atiacutepicos estaacute caracterizado por una constante incertidumbrePartiendo del inicio del trabajo ni siquiera existe una definicioacuten exacta de queacute es un valor atiacutepicosino maacutes bien se trazan definiciones en base a ideas de lo que se espera que sea un valor atiacutepico enun conjunto de datos Es por ello que dependiendo de los escenarios y las complejidades asociadas auna serie unos meacutetodos resulten maacutes efectivos que otros Este es el motivo por el que surgioacute la ideade crear una herramienta de anaacutelisis graacutefico para el estudio de series de tiempo

El objetivo de esta herramienta es la de dotar al analista de un mecanismo sencillo de implantarque le permita trazar una idea de los posibles atiacutepicos con los que podriacutea contar la serie Para ello seha creado una funcioacuten en R que solo necesita introducir la serie de tiempo para devolver el graacutefico

52 ANAacuteLISIS GRAacuteFICO 67

Ademaacutes dado que esta herramienta estaacute disentildeada especiacuteficamente para trabajar con series de tiemposu representacioacuten dariacutea lugar a lo que podriacutea denominarse un mapa de calor para zonas atiacutepicas estose muestra maacutes adelante mediante ejemplos

Esta herramienta estaacute compuesta por los meacutetodos que han mostrado mejores resultados en el estudiode simulacioacuten Cada meacutetodo ocupa una fila mostrando a lo largo de ella sus atiacutepicos sentildealados y cadacolumna es una fecha detectada por un meacutetodo De tal modo que si una fecha es detectada por todoslos meacutetodos mostraraacute una columna verde y seraacute sospecha clara de que esa fecha es atiacutepica Por otraparte si una fecha es detectada por solo un meacutetodo mostraraacute solo de color verde la celda asociada aese meacutetodo y no seraacute sentildeal tan evidente de situacioacuten atiacutepica

Para la composicioacuten del graacutefico se utilizan los meacutetodos del apartado anterior y a mayores seintroducen las versiones robustas de los meacutetodos de descomposicioacuten de series temporales STL y STREl motivo de su uso en este apartado se debe a que si bien no mostraron los mejores resultados enel estudio de simulacioacuten ahora pueden resultar de utilidad Los meacutetodos robustos pueden generaranomaliacuteas espurias cuando no existen atiacutepicos debido a que resaltan el tamantildeo del residuo de unaobservacioacuten provocando su identificacioacuten como atiacutepico sin esta serlo Sin embargo cuando se producenanomaliacuteas que ejercen un gran peso en la serie como lo sucedido durante el Covid este tipo deestimaciones son de gran intereacutes esta situacioacuten tambieacuten se justificaraacute mediante un ejemplo praacutectico

El primer ejemplo lo extraemos a traveacutes de la serie referente a la estancia media de viajeros de todaslas procedencias en establecimientos hoteleros en Galicia perteneciente al Conjunto 1 En la Figura516 mostramos la representacioacuten de la misma ahora ya mostramos hasta el uacuteltimo dato actualizadoen este caso mayo de 2020

Figura 516 Estancia media de viajeros de todas las procedencias en establecimientos hoteleros enGalicia

Esta serie parece contar con dos atiacutepicos los relacionados con las dos uacuteltimas observaciones de laserie sin embargo vamos a analizar los resultados del graacutefico comparativo

68 CAPIacuteTULO 5 APLICACIOacuteN A DATOS REALES

Figura 517 Resultados para la serie estancia media de viajeros de todas las procedencias en estable-cimientos hoteleros en Galicia del Conjunto 1

La Figura 517 muestra el graacutefico que hemos desarrollado el cual vamos a desgranar ahora paraentender su utilidad Si hubieacutesemos escogido el meacutetodo TRAMO-SEATS hubieacutesemos sentildealado tresobservaciones atiacutepicas una de ellas seriacutea enero de 2003 Sin embargo analizando los datos podemoscomprobar que este dato parece normal y estariacuteamos identificaacutendolo erroacuteneamente como anoacutemalo Dehecho solo TRAMO-SEATS sentildeala esta fecha Lo mismo sucede con otras fechas como octubre delantildeo 2000 sentildealada por solo dos meacutetodos Por otra parte todos los meacutetodos sentildealan los meses deabril y mayo de 2020 las dos uacuteltimas observaciones de la serie que en la Figura 516 mostraban uncomportamiento totalmente discordante al resto del conjunto de datos Es decir el graacutefico permitetrazar una idea concisa al analista de queacute es anoacutemalo en la serie y que pueden ser falsos positivos

Observando el graacutefico podemos tambieacuten extraer una conclusioacuten raacutepida de la posible presenciade valores atiacutepicos en la serie Se muestran dos comportamientos muy marcados El primero estariacuteadeterminado por la serie hasta el antildeo 2020 en el cual la aparicioacuten de atiacutepicos es dispersa pococoncluyente el analista puede dudar de que estas observaciones sean realmente anoacutemalas El segundoson los datos de 2020 dos columnas enteras de color verde una imagen que comunica que en eseintervalo de tiempo estaacute sucediendo algo realmente anoacutemalo

Vamos a utilizar el graacutefico con otra serie para analizar otra de las caracteriacutesticas que muestran elintereacutes de analizar una serie de tiempo a traveacutes de este graacutefico En la Figura 518 se muestra la serie detiempo perteneciente al Conjunto 3 que recoge la evolucioacuten de los contratos iniciales en Galicia Dichaserie cuenta con tres atiacutepicos claros marzo abril y mayo de 2020

52 ANAacuteLISIS GRAacuteFICO 69

Figura 518 Contratos iniciales registrados en Galicia

Haciendo uso del graacutefico comparativo Figura 519 volvemos a obtener un escenario en el queresulta de intereacutes esta herramienta En este caso el meacutetodo compuesto por STR+HDoutliers muestraun comportamiento erraacutetico que le conduce a identificar una gran cantidad de atiacutepicos de modoincorrecto Lo mismo sucede con TRAMO-SEATS que es el uacutenico que sentildeala enero de 2001 comoatiacutepico sin existir motivo en los datos para esta calificacioacuten

Por otra parte este escenario nos permite observar la utilidad de incorporar las versiones robustasSi bien se equivocan en alguacuten caso por ejemplo el meacutetodo STR+HDoutliers(Rob) sentildealando junio de2002 nos permiten calificar marzo de 2020 como atiacutepico algo que los meacutetodos que utilizan las versionesno robustas de los meacutetodos de descomposicioacuten de series temporales STR y STR no logran Todasellas se ponen de acuerdo junto a TRAMO-SEATS para la sentildealizacioacuten de este mes

Ademaacutes dado que estamos trabajando con series temporales los resultados de la graacutefica se muestranen orden cronoloacutegico en vez de por cuaacuten anoacutemala es la observacioacuten como se hace en TRAMO-SEATSo en iForest Esto nos permite entender la graacutefica como un mapa de calor Al analizar la serie siexiste un intervalo de tiempo en el que se han producido situaciones anoacutemalas como por ejemplo eneste caso los meses relacionados al Covid se veraacute reflejado en el graacutefico por una serie de columnascon muchas celdas verdes lo que daraacute a entender de manera raacutepida al analista que en ese intervalode tiempo se han producido situaciones excepcionales De este modo tambieacuten conseguimos corregirel problema de enmascaramiento que pueden sufrir los meacutetodos cuando se suceden varias situacionesatiacutepicas consecutivas

70 CAPIacuteTULO 5 APLICACIOacuteN A DATOS REALES

Figura 519 Resultados para la serie Contratos iniciales registrados en Galicia del Conjunto 3

Capiacutetulo 6

Conclusiones

El IGE cuenta con una ampliacutea base de datos que se utiliza para el estudio del contexto socio-econoacutemico en Galicia Estos datos tienen una base temporal es decir son datos referidos a un intervalode tiempo en la mayoriacutea de los casos esta periodicidad es anual trimestral o mensual La manipulacioacutende los datos puede conllevar a que se introduzcan errores humanos o de medicioacuten que provoquen quese incluyan cifras incorrectas a las bases de datos Estos errores pueden distorsionar las conclusionesde un estudio o conducir haciacutea resultados alejados de la verdadera realidad Es por ello que resultanecesario el incorporar una herramienta de deteccioacuten de valores atiacutepicos al anaacutelisis de las bases dedatos del IGE

Para ello se planteoacute una revisioacuten bibliograacutefica de los principales meacutetodos de deteccioacuten de atiacutepicosen series temporales Esta revisioacuten nos permitioacute conocer la existencia de un amplio abanico de meacuteto-dos disponibles con los cuales empezamos a trabajar para analizar su comportamiento Es aquiacute dondedecidimos descartar una serie de meacutetodos mencionados al final del Apartado 34 debido a que sufuncionamiento y sus resultados correspondiacutean a versiones inferiores de otros meacutetodos que finalmenteadoptamos Este primer estudio nos proporcionoacute los meacutetodos de deteccioacuten de atiacutepicos en series tem-porales que supondriacutean el punto de partida del trabajo X-13ARIMA-SEATS TRAMO-SEATS y lalibreriacutea de R Anomalize

La libreriacutea Anomalize tambieacuten nos sirvioacute de ayuda en el desarrollo de nuestros propios meacutetodos dedeteccioacuten de atiacutepicos para series temporales La idea sobre la que se fundamenta esta libreriacutea es la deaplicar un proceso de descomposicioacuten de series de tiempo a una serie para extraer las componentes dela estacionalidad la tendencia y un residuo para despueacutes aplicar un meacutetodo de deteccioacuten de atiacutepicossobre el residuo Dado que se han producido mejoras a los meacutetodos de descomposicioacuten y deteccioacutenque se utilizan en la libreriacutea Anomalize consideramos que una nueva combinacioacuten podriacutea reflejar unamejora en los resultados

Para comparar todos los meacutetodos de deteccioacuten de atiacutepicos en series temporales los que sirven depunto de partida del trabajo y los desarrollados por nosotros decidimos llevar a cabo un ambiciosoestudio de simulacioacuten El estudio de simulacioacuten recoge diferentes escenarios con la finalidad de repre-sentar la heterogeneidad propia de las series de tiempo referentes a variables sociales y econoacutemicas Losresultados del estudio de simulacioacuten confirman nuestra idea acerca de que una nueva combinacioacuten pue-de suponer una mejora en los resultados debido a que varias de nuestras combinaciones reflejan mejores

71

72 CAPIacuteTULO 6 CONCLUSIONES

resultados que las propuestas en la libreriacutea Anomalize Tambieacuten nos permite observar que nuestraspropuestas compiten en los resultados con un modelo tan desarrollado como TRAMO-SEATS Final-mente nos permiten descartar otros meacutetodos que siendo uacutetiles en otros campos no parecen resultaridoacuteneos para el nuestro

Tras el estudio de simulacioacuten comenzamos a utilizar los meacutetodos que habiacutean mostrado mejoresresultados con los datos proporcionados por el IGE Fue en este momento cuando nos encontramos conuna situacioacuten no contemplada en ninguacuten momento en ninguacuten escenario del estudio de simulacioacuten yen general en ninguacuten momento de lo que podriacutea ser la historia reciente como fue la crisis del Covid19Esta crisis provoca un efecto enorme en los datos del contexto gallego como se recoge a lo largo delCapiacutetulo 5 y supone un nuevo escenario en lo que a deteccioacuten de valores atiacutepicos en series temporalesse refiere

Este nuevo escenario se caracteriza por reflejar durante varios periacuteodos de tiempo consecutivosobservaciones enormemente anoacutemalas y los modelos ven empeorado su comportamiento TRAMO-SEATS y los modelos de descomposicioacuten de series de tiempo STL y STR entienden que lo que seestaacute produciendo es una tendencia decreciente de la serie Por su parte los meacutetodos de deteccioacuten deatiacutepicos HDoutliers y iForest sufren un fenoacutemeno de enmascaramiento en el que son incapaces desentildealizar todos los atiacutepicos Fue aquiacute donde decidimos crear una nueva herramienta para el anaacutelisis

El objetivo con el que creamos esta herramienta de anaacutelisis graacutefico fue el de reducir la incertidumbreque supone el campo de la deteccioacuten de atiacutepicos de un modo sencillo y directo para el analista que lautilice Ademaacutes su disentildeo estaacute pensado para el trabajo con series temporales de modo que si se sucedeun periacuteodo convulso como el actual la graacutefica podraacute ser analizada como un mapa de calor un mapade calor que transmite visualmente la idea de en queacute intervalo de tiempo la serie estaacute experimentandocomportamientos atiacutepicos

Apeacutendice A

Tablas

A1 Tablas de sensibilidad

73

74 APEacuteNDICE A TABLAS

Caso 1 Caso 2 Caso 3 Caso 4

X-13ARIMA-SEATS 0496 0854 0700 0826

TRAMO-SEATS 0657 0928 0805 0851

STL+HDoutliers 0569 0838 0570 0732

STL+GESD 0266 0590 0236 0532

STL+iForest 0636 0885 0636 0790

STL(ROB)+HDoutliers 0562 0803 0678 0712

STL(ROB)+GESD 0637 0876 0746 0754

STL(ROB)+iForest 0640 0878 0747 0786

Twitter+HDoutliers 0471 0735 0597 0620

Twitter+GESD 0306 0590 0429 0434

Twitter+iForest 0529 0801 0652 0660

STR+HDoutliers 0611 0841 0603 0672

STR+GESD 0345 0650 0292 0448

STR+iForest 0674 0885 0679 0721

STR(ROB)+HDoutliers 0542 0812 0638 0658

STR(ROB)+GESD 0381 0685 0458 0558

STR(ROB)+iForest 0623 0862 0699 0714

Cuadro A1 Resultados Escenario 1Sensibilidad AR(1)

A1 TABLAS DE SENSIBILIDAD 75

Caso 1 Caso 2 Caso 3 Caso 4

X-13ARIMA-SEATS 0505 0829 0646 0875

TRAMO-SEATS 0668 0914 0743 0888

STL+HDoutliers 0472 0729 0481 0684

STL+GESD 0217 0457 0148 0428

STL+iForest 0506 0784 0525 0716

STL(ROB)+HDoutliers 0469 0735 0588 0648

STL(ROB)+GESD 0529 0775 0665 0668

STL(ROB)+iForest 0526 0803 0666 0716

Twitter+HDoutliers 0465 0698 0596 0646

Twitter+GESD 0349 0630 0483 0486

Twitter+iForest 0512 0778 0663 0692

STR+HDoutliers 0588 0823 0573 0664

STR+GESD 0298 0602 0247 0449

STR+iForest 0630 0869 0651 0721

STR(ROB)+HDoutliers 0521 0788 0611 0649

STR(ROB)+GESD 0336 0628 0406 0520

STR(ROB)+iForest 0582 0839 0691 0711

Cuadro A2 Resultados Escenario 2 Sensibilidad MA(1)

76 APEacuteNDICE A TABLAS

Caso 1 Caso 2 Caso 3 Caso 4

X-13ARIMA-SEATS 0922 0971 0927 0983

TRAMO-SEATS 0923 0972 0923 0982

STL+HDoutliers 0312 0508 0241 0440

STL+GESD 0089 0230 0051 0152

STL+iForest 0343 0578 0284 0454

STL(ROB)+HDoutliers 0261 0435 0297 0333

STL(ROB)+GESD 0311 0527 0393 0322

STL(ROB)+iForest 0298 0501 0336 0362

Twitter+HDoutliers 0064 0112 0127 0066

Twitter+GESD 0028 0040 0069 0032

Twitter+iForest 0079 0129 0169 0070

STR+HDoutliers 0407 0563 0348 0440

STR+GESD 0204 0367 0109 0230

STR+iForest 0445 0617 0389 0495

STR(ROB)+HDoutliers 0243 0397 0254 0272

STR(ROB)+GESD 0209 0391 0225 0259

STR(ROB)+iForest 0282 0455 0284 0293

Cuadro A3 Resultados Escenario 3 Sensibilidad ARIMA(011)

A1 TABLAS DE SENSIBILIDAD 77

Caso 1 Caso 2 Caso 3 Caso 4

X-13ARIMA-SEATS 0403 0593 0068 0816

TRAMO-SEATS 0542 0707 0072 0814

STL+HDoutliers 0005 0004 0016 0004

STL+GESD 0000 0001 0004 0000

STL+iForest 0003 0003 0015 0005

STL(ROB)+HDoutliers 0007 0007 0037 0004

STL(ROB)+GESD 0009 0021 0099 0029

STL(ROB)+iForest 0006 0008 0036 0005

Twitter+HDoutliers 0001 0000 0001 0008

Twitter+GESD 0006 0009 0012 0023

Twitter+iForest 0001 0000 0005 0018

STR+HDoutliers 0370 0428 0006 0088

STR+GESD 0424 0462 0000 0138

STR+iForest 0418 0479 0004 0103

STR(ROB)+HDoutliers 0028 0019 0011 0076

STR(ROB)+GESD 0064 0063 0051 0140

STR(ROB)+iForest 0022 0014 0010 0027

Cuadro A4 Resultados Escenario 4 Sensibilidad ARIMA(011)x(011)12

78 APEacuteNDICE A TABLAS

Caso 1 Caso 2 Caso 3 Caso 4

X-13ARIMA-SEATS 0266 0629 0177 0574

TRAMO-SEATS 0400 0750 0251 0618

STL+HDoutliers 0247 0477 0291 0130

STL+GESD 0093 0260 0160 0024

STL+iForest 0270 0536 0312 0138

STL(ROB)+HDoutliers 0278 0489 0358 0102

STL(ROB)+GESD 0400 0688 0478 0132

STL(ROB)+iForest 0314 0553 0398 0133

Twitter+HDoutliers 0254 0439 0363 0108

Twitter+GESD 0176 0385 0317 0064

Twitter+iForest 0274 0486 0388 0131

STR+HDoutliers 0664 0895 0240 0760

STR+GESD 0425 0770 0065 0567

STR+iForest 0724 0939 0283 0800

STR(ROB)+HDoutliers 0197 0334 0220 0529

STR(ROB)+GESD 0190 0333 0207 0692

STR(ROB)+iForest 0235 0369 0238 0591

Cuadro A5 Resultados Escenario 5 Sensibilidad ARIMA(101)x(012)12

A1 TABLAS DE SENSIBILIDAD 79

Caso 1 Caso 2 Caso 3 Caso 4

X-13ARIMA-SEATS 0333 0662 0355 0618

TRAMO-SEATS 0460 0767 0480 0656

STL+HDoutliers 0521 0798 0502 0629

STL+GESD 0230 0559 0188 0328

STL+iForest 0565 0836 0572 0651

STL(ROB)+HDoutliers 0519 0788 0605 0601

STL(ROB)+GESD 0541 0828 0676 0561

STL(ROB)+iForest 0566 0843 0668 0648

Twitter+HDoutliers 0246 0423 0362 0212

Twitter+GESD 0104 0232 0187 0102

Twitter+iForest 0284 0456 0398 0230

STR+HDoutliers 0527 0788 0444 0641

STR+GESD 0279 0585 0152 0386

STR+iForest 0600 0825 0499 0685

STR(ROB)+HDoutliers 0407 0674 0497 0550

STR(ROB)+GESD 0277 0527 0352 0404

STR(ROB)+iForest 0462 0735 0573 0582

Cuadro A6 Resultados Escenario 6 Sensibilidad ARIMA(111)x(101)12

80 APEacuteNDICE A TABLAS

Caso 1 Caso 2 Caso 3 Caso 4

X-13ARIMA-SEATS 0299 0638 0335 0632

TRAMO-SEATS 0424 0717 0432 0801

STL+HDoutliers 0432 0705 0397 0626

STL+GESD 0177 0416 0109 0351

STL+iForest 0514 0762 0463 0530

STL(ROB)+HDoutliers 0441 0686 0494 0613

STL(ROB)+GESD 0461 0731 0556 0584

STL(ROB)+iForest 0491 0723 0548 0528

Twitter+HDoutliers 0280 0471 0387 0354

Twitter+GESD 0129 0288 0191 0147

Twitter+iForest 0008 0017 0051 0050

STR+HDoutliers 0456 0700 0467 0568

STR+GESD 0203 0439 0167 0274

STR+iForest 0515 0778 0443 0638

STR(ROB)+HDoutliers 0424 0687 0510 0554

STR(ROB)+GESD 0262 0524 0330 0366

STR(ROB)+iForest 0349 0562 0413 0388

Cuadro A7 Resultados Escenario 7 Sensibilidad ARIMA(112)x(011)12

A1 TABLAS DE SENSIBILIDAD 81

Caso 1 Caso 2 Caso 3 Caso 4

X-13ARIMA-SEATS 0299 0638 0335 0632

TRAMO-SEATS 0424 0717 0432 0801

STL+HDoutliers 0432 0705 0397 0626

STL+GESD 0177 0416 0109 0351

STL+iForest 0485 0738 0428 0665

STL(ROB)+HDoutliers 0441 0686 0494 0613

STL(ROB)+GESD 0461 0731 0556 0584

STL(ROB)+iForest 0494 0755 0566 0678

Twitter+HDoutliers 0280 0471 0387 0354

Twitter+GESD 0129 0288 0191 0147

Twitter+iForest 0306 0509 0430 0359

STR+HDoutliers 0456 0700 0467 0568

STR+GESD 0203 0439 0167 0274

STR+iForest 0497 0772 0507 0602

STR(ROB)+HDoutliers 0424 0687 0510 0554

STR(ROB)+GESD 0262 0524 0330 0366

STR(ROB)+iForest 0465 0755 0577 0590

Cuadro A8 Resultados Escenario 8 Sensibilidad ARIMA(011)x(100)12

82 APEacuteNDICE A TABLAS

A2 Tablas de exceso

Caso 1 Caso 2 Caso 3 Caso 4

X-13ARIMA-SEATS 0078 0077 0066 0042

TRAMO-SEATS 0211 0208 0222 0056

STL+HDoutliers 0788 0829 0805 1534

STL+GESD 0056 0055 0045 0031

STL+iForest 0406 0300 0404 0659

STL(ROB)+HDoutliers 1162 1242 1212 1714

STL(ROB)+GESD 1411 1417 1416 0461

STL(ROB)+iForest 0637 0468 0575 0859

Twitter+HDoutliers 0930 0955 0905 1487

Twitter+GESD 0257 0273 0254 0069

Twitter+iForest 0538 0412 0490 0776

STR+HDoutliers 0759 0810 0759 1464

STR+GESD 0053 0062 0046 0024

STR+iForest 0403 0301 0381 0725

STR(ROB)+HDoutliers 0749 0842 0758 1460

STR(ROB)+GESD 0199 0196 0192 0099

STR(ROB)+iForest 0427 0315 0413 0749

Cuadro A9 Resultados Escenario 1 Exceso AR(1)

A2 TABLAS DE EXCESO 83

Caso 1 Caso 2 Caso 3 Caso 4

X-13ARIMA-SEATS 0054 0058 0066 0058

TRAMO-SEATS 0144 0138 0175 0061

STL+HDoutliers 0695 0772 0759 1472

STL+GESD 0034 0038 0050 0016

STL+iForest 0443 0318 0425 0706

STL(ROB)+HDoutliers 1168 1221 1180 1703

STL(ROB)+GESD 1309 1349 1415 0418

STL(ROB)+iForest 0682 0528 0621 0877

Twitter+HDoutliers 0836 0832 0911 1577

Twitter+GESD 0313 0329 0334 0061

Twitter+iForest 0552 0417 0483 0755

STR+HDoutliers 0798 0885 0694 1541

STR+GESD 0054 0064 0044 0018

STR+iForest 0407 0302 0396 0724

STR(ROB)+HDoutliers 0725 0776 0745 1516

STR(ROB)+GESD 0134 0143 0142 0076

STR(ROB)+iForest 0435 0312 0372 0727

Cuadro A10 Resultados Escenario 2 Exceso MA(1)

84 APEacuteNDICE A TABLAS

Caso 1 Caso 2 Caso 3 Caso 4

X-13ARIMA-SEATS 0106 0060 0101 0070

TRAMO-SEATS 0179 0123 0175 0085

STL+HDoutliers 0638 0635 0686 1376

STL+GESD 0052 0054 0067 0020

STL+iForest 0448 0346 0468 0867

STL(ROB)+HDoutliers 0932 0905 1010 1604

STL(ROB)+GESD 2339 2311 2338 1863

STL(ROB)+iForest 0705 0573 0695 1281

Twitter+HDoutliers 0311 0285 0311 0743

Twitter+GESD 1302 1282 1331 1946

Twitter+iForest 0167 0153 0175 0645

STR+HDoutliers 0672 0703 0623 1364

STR+GESD 0180 0183 0119 0050

STR+iForest 0372 0297 0393 0899

STR(ROB)+HDoutliers 0598 0568 0588 1225

STR(ROB)+GESD 1030 1008 0999 1341

STR(ROB)+iForest 0463 0383 0464 1108

Cuadro A11 Resultados Escenario 3 Exceso ARIMA(011)

A2 TABLAS DE EXCESO 85

Caso 1 Caso 2 Caso 3 Caso 4

X-13ARIMA-SEATS 0132 0120 0062 0274

TRAMO-SEATS 0198 0180 0075 0274

STL+HDoutliers 0832 0823 0837 1337

STL+GESD 0231 0225 0226 0165

STL+iForest 0727 0710 0718 1237

STL(ROB)+HDoutliers 1197 1152 1186 1230

STL(ROB)+GESD 4756 4699 4689 7954

STL(ROB)+iForest 0992 0993 0983 1514

Twitter+HDoutliers 0144 0162 0182 0376

Twitter+GESD 3050 2761 2813 6058

Twitter+iForest 0123 0128 0121 0508

STR+HDoutliers 1108 1135 1027 1454

STR+GESD 1469 1679 0582 4430

STR+iForest 0732 0674 0882 1653

STR(ROB)+HDoutliers 1382 1266 0876 10915

STR(ROB)+GESD 4452 4583 4289 19321

STR(ROB)+iForest 0831 0845 0828 1858

Cuadro A12 Resultados Escenario 4 Exceso ARIMA(011)x(011)12

86 APEacuteNDICE A TABLAS

Caso 1 Caso 2 Caso 3 Caso 4

X-13ARIMA-SEATS 0109 0123 0111 0069

TRAMO-SEATS 0239 0301 0312 0139

STL+HDoutliers 0869 0762 0986 1367

STL+GESD 0170 0170 0198 0244

STL+iForest 0667 0475 0712 1291

STL(ROB)+HDoutliers 1328 1357 1499 1287

STL(ROB)+GESD 2517 2530 2919 5438

STL(ROB)+iForest 0992 0813 0978 1444

Twitter+HDoutliers 1041 0966 1065 1383

Twitter+GESD 0796 0854 0830 2221

Twitter+iForest 0808 0655 0735 1412

STR+HDoutliers 0799 0979 0846 1551

STR+GESD 0101 0087 0083 0029

STR+iForest 0383 0286 0619 0669

STR(ROB)+HDoutliers 0764 0759 0755 1692

STR(ROB)+GESD 1600 1591 1490 8145

STR(ROB)+iForest 0603 0492 0593 0894

Cuadro A13 Resultados Escenario 5 Exceso ARIMA(101)x(012)12

A2 TABLAS DE EXCESO 87

Caso 1 Caso 2 Caso 3 Caso 4

X-13ARIMA-SEATS 0179 0167 0141 0096

TRAMO-SEATS 0307 0299 0297 0127

STL+HDoutliers 0792 0783 0775 1598

STL+GESD 0052 0050 0049 0030

STL+iForest 0452 0306 0459 0748

STL(ROB)+HDoutliers 1193 1207 1269 1697

STL(ROB)+GESD 1290 1324 1270 0437

STL(ROB)+iForest 0708 0531 0670 0952

Twitter+HDoutliers 0690 0698 0676 1157

Twitter+GESD 0266 0257 0225 0523

Twitter+iForest 0538 0416 0459 1063

STR+HDoutliers 0740 0853 0796 1429

STR+GESD 0065 0077 0063 0036

STR+iForest 0432 0311 0493 0750

STR(ROB)+HDoutliers 0749 0799 0717 1477

STR(ROB)+GESD 0317 0291 0254 0167

STR(ROB)+iForest 0502 0373 0463 0839

Cuadro A14 Resultados Escenario 6 Exceso ARIMA(111)x(101)12

88 APEacuteNDICE A TABLAS

Caso 1 Caso 2 Caso 3 Caso 4

X-13ARIMA-SEATS 0147 0138 0115 0081

TRAMO-SEATS 0278 0285 0287 0261

STL+HDoutliers 0788 0815 0776 1392

STL+GESD 0045 0047 0042 0031

STL+iForest 0471 0337 0478 0842

STL(ROB)+HDoutliers 1122 1183 1194 1785

STL(ROB)+GESD 1364 1387 1340 0670

STL(ROB)+iForest 0720 0559 0711 1100

Twitter+HDoutliers 0125 0109 0084 0092

Twitter+GESD 3247 3207 3185 7613

Twitter+iForest 0087 0066 0073 0294

STR+HDoutliers 0854 0807 0773 1430

STR+GESD 0069 0069 0050 0036

STR+iForest 0438 0357 0484 0793

STR(ROB)+HDoutliers 0765 0755 0725 1370

STR(ROB)+GESD 0434 0489 0510 0536

STR(ROB)+iForest 0581 0471 0547 1064

Cuadro A15 Resultados Escenario 7 Exceso ARIMA(112)x(011)12

A2 TABLAS DE EXCESO 89

Caso 1 Caso 2 Caso 3 Caso 4

X-13ARIMA-SEATS 0090 0095 0104 0056

TRAMO-SEATS 0487 0475 0494 0446

STL+HDoutliers 0734 0814 0749 1507

STL+GESD 0068 0059 0052 0025

STL+iForest 0496 0352 0479 0747

STL(ROB)+HDoutliers 1157 1098 1083 1660

STL(ROB)+GESD 1232 1281 1260 0294

STL(ROB)+iForest 0764 0566 0687 0918

Twitter+HDoutliers 0859 0822 0860 1415

Twitter+GESD 0214 0209 0217 0114

Twitter+iForest 0606 0526 0550 1031

STR+HDoutliers 0797 0792 0778 1469

STR+GESD 0048 0059 0042 0017

STR+iForest 0461 0336 0464 0782

STR(ROB)+HDoutliers 0786 0726 0699 1494

STR(ROB)+GESD 0159 0146 0145 0072

STR(ROB)+iForest 0520 0359 0433 0830

Cuadro A16 Resultados Escenario 8 Exceso ARIMA(011)x(100)12

90 APEacuteNDICE A TABLAS

Bibliografiacutea

Abraham B y Box G E P (1979) Bayesian analysis of some outlier problems in time seriesBiometrika 66 (2) 229ndash236

Barnett V y Lewis T (1996) Outliers in statistical data 3rd edition (John Wiley amp Sons Chi-chester) 584 pp [UK pound]5500 ISBN 0-471-93094-6 International Journal of Forecasting 12 (1) 175-176

Bell W (1983) A computer program for detecting outliers in time series Proceedings of the AmericanStatistical Association Business and Economic Statistics Section 634-639

Box G y Jenkins G (1976) Time series analysis forecasting and control En (Vol 134) doi1023072344246

Box G E P y Tiao G C (1975) Intervention analysis with applications to economic and environ-mental problems Journal of the American Statistical Association 70 (349) 70ndash79

Breunig M Kriegel H-P Ng R y Sander J (2000) Lof Identifying density-based local outliersEn (Vol 29 p 93-104) doi 101145342009335388

Chang I Tiao G y Chen C (1988) Estimation of time series parameters in the presence of outliersTechnometrics 30 193-204 doi 10108000401706198810488367

Chang I y Tiao G C (1983) Estimation of time series parameters in the presence of outliersTechnical Report 8 University of Chicago Statistics Research Center 30

Chauvenet W (1963) A manual of spherical and practical astronomy volume 2 474-566Chen C y Liu L-M (1993) Joint estimation of model parameters and outlier effects in time series

Journal of the American Statistical Association 88 (421) 284ndash297Cleveland R B Cleveland W S McRae J E y Terpenning I (1990) STL A seasonal-trend

decomposition procedure based on Loess Journal of Official Statistics 6 Dancho M y Vaughan D (2019) Anomalize Tidy anomaly detection [Manual de software informaacute-

tico]Datacamp (2018) Detect anomalies with anomalize in r httpswwwdatacampcomcommunity

tutorialsdetect-anomalies-anomalize-r (Visitado 2020-06-16)de Lacalle J L (2015) Detection of outliers in time series with r httpsjalobecomtsoutliers

(Visitado 2020-03-16)de Lacalle J L (2019) Detection of outliers in time series [Manual de software informaacutetico] https

cranr-projectorgwebpackagestsoutlierstsoutlierspdfDokumentov A y Hyndman R J (2015) STR A seasonal-trend decomposition procedure based

on Regression

91

92 BIBLIOGRAFIacuteA

Dokumentov A y Hyndman R J (2018) str Str decomposition [Manual de software informaacutetico](httpscranr-projectorgwebpackagesstRindexhtml)

Fraley C y Wilkinson L (2020) Hdoutliers Leland wilkinsonrsquos algorithm for detecting multidimen-sionaloutliers [Manual de software informaacutetico]

Goacutemez V y Maravall A (1997) Programs tramo and seats instructions for the user Mimeo Bancode Espantildea

Goacutemez V y Taguas D (1995) Deteccioacuten y correccioacuten automaacutetica de outliers con tramo Unaaplicacioacuten al ipc de bienes industriales no energeacuteticos

Grubbs F (1950) Sample criteria for testing outlying observations The Annals of MathematicalStatistics 21 doi 101214aoms1177729885

Hawkins D (1980) Identification of outliers London [ua] Chapman and HallHochenbaum J Vallis O y Kejariwal A (2017) Automatic anomaly detection in the cloud via

statistical learningHoerl A y Kennard R (1970) Ridge regression Biased estimation for nonorthogonal problems

Technometrics 8 27-51Hyndman R (2020) Forecasting functions for time series and linear models [Manual de software

informaacutetico] httpscranr-projectorgwebpackagesforecastforecastpdfla Tente A Q Michalek A Palate J y Baeyens R (2020) Rjdemetra Interface to rsquojdemetra+rsquo

seasonal adjustment software [Manual de software informaacutetico]Liu F T Ting K y Zhou Z-H (2009) Isolation forest En (p 413 - 422) doi 101109

ICDM200817Mahdavinejad M S Rezvan M Barekatain M Adibi P Barnaghi P y Sheth A P (2018)

Machine learning for internet of things data analysis a survey Digital Communications andNetworks 4 (3) 161 - 175 doi httpsdoiorg101016jdcan201710002

Moore D y McCabe G (1999) Introduction to the practice of statistics WH FreemanOtto M y Bell W (1990) Two issues in time series outlier detection using indicator variables

Proceedings of the American Statistical Association Business and Economic Statistics Section182-187

Peirce B (1852) Criterion for rejection of doubtful observations The Astronomical Journal 2 161-163 doi 101086100259

Pentildea D (2010) Anaacutelisis de series temporales Alianza EditorialRosner B (1975) On the detection of many outliers Technometrics 17 221-227 doi 101080

00401706197510489305Rosner B (1983) Percentagepoints for a generalized esd many-outier procedure Technometrics 25

165-172 doi 10108000401706198310487848Rousseeuw P y Hubert M (2011) Robust statistics for outlier detection Wiley Interdisc Rew

Data Mining and Knowledge Discovery 1 73-79 doi 101002widm2Shan G (2015) Improved confidence intervals for the youden index

doi 01371journalpone0127272Shiskin J Young A y Musgrave J (1967) The x-11 variant of the census method ii seasonal

adjustment program

BIBLIOGRAFIacuteA 93

Srikanth K S (2017) solitude An implementation of isolation forest [Manual de software informaacutetico](R package version 021 mdash For new features see the rsquoSolitudersquo file (in the package source))

Thompson W (1935) On a criterion for the rejection of observations and the distribution of theratio of deviation to sample standard deviation The Annals of Mathematical Statistics 6 doi101214aoms1177732567

Tibshirani R (1996) Regression shrinkage and selection via the lasso Journal of the Royal StatisticalSociety Series B (Methodological) 58 267-288 doi 101111j2517-61611996tb02080x

Time Series Research Staff (2017) X-13ARIMA-SEATS Reference Manual Center for StatisticalResearch and Methodology

Tsay R S (1986) Time series model specification in the presence of outliers Journal of the AmericanStatistical Association 81 (393) 132ndash141

Tsay R S y Tiao G C (1984) Consistent estimates of autoregressive parameters and extendedsample autocorrelation function for stationary and nonstationary arma models Journal of theAmerican Statistical Association 79 (385) 84ndash96

Tukey J W (1977) Exploratory data analysis Addison-WesleyTwitter Inc (2015) Anomalydetection r package GitHub (httpsgithubcomtwitter

AnomalyDetection)Wilkinson L (2017) Visualizing big data outliers through distributed aggregation IEEE Transactions

on Visualization and Computer Graphics PP 1-1 doi 101109TVCG20172744685Woodward W A Gray H L y Elliott A C (2017) Applied time series analysis with r second

edition Journal of Time Series Analysis 39 618 doi 101111jtsa12273Youden W (1950) Youden wjindex for rating diagnostic tests cancer 3(1) 32-35 Cancer 3 32-5

doi 1010021097-0142(1950)3130CO2-3

  • Resumen
  • Introduccioacuten
  • Modelizacioacuten de series temporales
    • Conceptos baacutesicos
    • Meacutetodos de modelizacioacuten de series temporales
      • X-13ARIMA-SEATS
      • TRAMO-SEATS
      • STL
      • STR
      • Twitter
        • Resumen meacutetodos de modelizacioacuten de series temporales
          • Deteccioacuten de valores atiacutepicos
            • Conceptos baacutesicos
            • Meacutetodos de deteccioacuten de valores atiacutepicos
              • X-13ARIMA-SEATS
              • TRAMO-SEATS
              • GESD
              • Isolation Forest
              • HDoutliers
                • Resumen meacutetodos de deteccioacuten de valores atiacutepicos
                • Meacutetodos de deteccioacuten de valores atiacutepicos en series temporales
                  • Estudio de simulacioacuten
                    • Escenarios
                    • Iacutendice de Youden
                    • Resultados
                    • Conclusiones
                      • Aplicacioacuten a datos reales
                        • Anaacutelisis Series IGE
                        • Anaacutelisis Graacutefico
                          • Conclusiones
                          • Tablas
                            • Tablas de sensibilidad
                            • Tablas de exceso
                              • Bibliografiacutea
Page 6: Trabajo Fin de Máster - USC

vi

Iacutendice general

Resumen ix

1 Introduccioacuten 1

2 Modelizacioacuten de series temporales 5

21 Conceptos baacutesicos 5

22 Meacutetodos de modelizacioacuten de series temporales 8

221 X-13ARIMA-SEATS 8

222 TRAMO-SEATS 8

223 STL 10

224 STR 11

225 Twitter 11

23 Resumen meacutetodos de modelizacioacuten de series temporales 13

3 Deteccioacuten de valores atiacutepicos 15

31 Conceptos baacutesicos 15

32 Meacutetodos de deteccioacuten de valores atiacutepicos 17

321 X-13ARIMA-SEATS 17

322 TRAMO-SEATS 18

323 GESD 19

324 Isolation Forest 20

325 HDoutliers 21

33 Resumen meacutetodos de deteccioacuten de valores atiacutepicos 23

34 Meacutetodos de deteccioacuten de valores atiacutepicos en series temporales 24

4 Estudio de simulacioacuten 27

41 Escenarios 27

42 Iacutendice de Youden 29

43 Resultados 32

44 Conclusiones 41

vii

viii IacuteNDICE GENERAL

5 Aplicacioacuten a datos reales 4351 Anaacutelisis Series IGE 4352 Anaacutelisis Graacutefico 66

6 Conclusiones 71

A Tablas 73A1 Tablas de sensibilidad 73A2 Tablas de exceso 82

Bibliografiacutea 91

Resumen

Resumen en espantildeol

El objetivo de este trabajo es el de realizar un anaacutelisis acerca de la presencia de valores atiacutepicos enlos diferentes conjuntos de datos del Instituto Gallego de Estadiacutestica Para ello realizamos una revisioacutenbibliograacutefica que nos permite conocer los meacutetodos actuales y el recorrido que se produjo hasta llegar alos mismos A traveacutes de esta revisioacuten comprendemos la idea que se esconde detraacutes de la deteccioacuten devalores atiacutepicos en series temporales y somos capaces de proponer nuestros propios meacutetodos

Para comparar el comportamiento de los diferentes meacutetodos realizamos un estudio de simulacioacutenel cual nos sirve para contrastar el buen comportamiento de nuestras propuestas y para descartar otrosmeacutetodos

Finalmente aplicamos los meacutetodos que han reflejado un comportamiento maacutes consistente en elestudio de simulacioacuten y analizamos el efecto del Covid19 en el incremento de valores atiacutepicos en losconjuntos de datos Ademaacutes con el objetivo de reducir la incertidumbre asociada al campo de ladeteccioacuten de valores atiacutepicos introducimos una nueva herramienta graacutefica

English abstract

The aim of this project is to carry out an analysis about the presence of outliers in the differentdata sets of the Galician Institute of Statistics We carried out a bibliographic review that allows us toknow the current methods and the route that took place until we reached them Through this reviewwe understand the idea behind the detection of outliers in time series and we are able to propose ourown methods

To compare the behavior of the different methods we carried out a simulation study which helpsus compare the good behavior of our proposals and to rule out other methods

Finally we applied the methods that have reflected a more consistent behavior in the simulationstudy and analyzed the effect of Covid19 on the increase of outliers in the data sets Furthermore withthe aim of reducing the uncertainty associated with the field of outlier detection we introduced a newgraphical tool

ix

x RESUMEN

Capiacutetulo 1

Introduccioacuten

El Instituto Galego de Estadiacutestica (IGE) es un organismo autoacutenomo de la Xunta de Galicia creadoen el antildeo 1988 cuyo objetivo es el de promover el desarrollo del sistema estadiacutestico de la comunidadautoacutenoma mediante servicios de recopilacioacuten y difusioacuten de la documentacioacuten estadiacutestica disponibledesenvolver bases de datos de intereacutes puacuteblico analizar las necesidades y la evolucioacuten de la demandade estadiacutesticas y asegurar su difusioacuten El IGE se erige por tanto como una de las principales fuentesde informacioacuten de datos de caraacutecter socioeconoacutemico de Galicia y de sus divisiones territoriales

Al igual que el resto de organismos del mismo aacutembito el IGE estaacute experimentando un incrementocontinuo tanto en la generacioacuten como en el almacenamiento de datos Es por esto que se hace devital importancia el incorporar una herramienta que nos permita identificar de un modo automaacuteticoposibles candidatos a valores atiacutepicos dentro de nuestros conjuntos de datos

Un dato atiacutepico o outlier en ingleacutes es una observacioacuten anoacutemala en comparacioacuten con el restode datos contenidos en un determinado conjunto de datos Puede deberse a diversos motivos desdeerrores humanos errores relacionados con la medicioacuten grabacioacuten e introduccioacuten de los datos hastacausas como que el dato procede de una poblacioacuten diferente de la que se pretende estudiar

Existen multitud de definiciones que nos permiten dibujarnos una idea de a queacute nos referimoscuando hablamos de valores atiacutepicos

ldquoUn dato atiacutepico es una observacioacuten que se desviacutea tanto del resto de observaciones como paracrear la sospecha de que fue creada por un mecanismo generador diferenterdquo - Hawkins (1980)

ldquoUn dato atiacutepico es una observacioacuten (o conjunto de observaciones) que son inconsistentes con elresto de datosrdquo - Barnett y Lewis (1996)

ldquoUn outlier es una observacioacuten que se encuentra fuera del patroacuten general de una distribucioacutenrdquo-Moore y McCabe (1999)

ldquoLos datos atiacutepicos pueden ser dependiendo de la circunstancia errores no deseados que puedenafectar negativamente al resultado o valiosas pepitas de informacioacuten inesperadardquo- Rousseeuw yHubert (2011)

Eliminar un dato de una muestra por haberlo considerado atiacutepico puede llevar a perder informacioacutenrelevante debido a una singularidad del mecanismo generador y a su vez incluir un dato atiacutepico en una

1

2 CAPIacuteTULO 1 INTRODUCCIOacuteN

muestra puede confundir los resultados Ambos casos alteran los anaacutelisis posteriores y pueden dirigira conclusiones incorrectas si se llegara a tomar la decisioacuten equivocada Por lo tanto la importanciareside en identificar de manera adecuada queacute datos son atiacutepicos y cuaacuteles no

Esta identificacioacuten seraacute de gran utilidad dado que permitiraacute tanto realizar mejores anaacutelisis comopoder interpretar sucesos relevantes en el contexto socio-econoacutemico gallego

El problema de la deteccioacuten de atiacutepicos es un tema ampliamente tratado en la literatura por loque nuestro trabajo consistiraacute en realizar un estudio comparativo de los meacutetodos maacutes comunes en laactualidad y plantear posibles mejoras

Uno de los criterios a los que le prestaremos mayor atencioacuten en este estudio seraacute a la sensibilidaddel meacutetodo dado que si este es muy sensible e identifica muchos candidatos como atiacutepicos no serviraacute degran ayuda Por otra parte si apenas sentildeala ninguacuten caso seraacute similar a no aplicar ninguna herramientade deteccioacuten

Para estudiar este comportamiento realizaremos un estudio de simulacioacuten en el que a traveacutes devalores atiacutepicos previamente identificados podremos analizar el comportamiento de cada meacutetodoAdemaacutes dado que trabajamos con un gran volumen de datos una caracteriacutestica que se les exigiraacute alos meacutetodos seraacute una raacutepida velocidad de ejecucioacuten

La deteccioacuten de datos atiacutepicos tiene aplicaciones en muchos aacutembitos deteccioacuten de operacionesfraudulentas en tarjetas de creacutedito solicitudes para preacutestamos de clientes potencialmente morososdeteccioacuten de intrusiones en redes de comunicacioacuten monitorizacioacuten de paraacutemetros de fabricacioacuten paradeteccioacuten de producciones defectuosas anomaliacuteas en monitorizaciones meacutedicas anaacutelisis electoraleslimpieza de datos prediccioacuten del tiempo o hasta en astronomiacutea donde un punto anoacutemalo puedeimplicar el descubrimiento de una nueva estrella

En este trabajo nos centraremos en datos reales provenientes de la paacutegina web del IGE recogidosen siete conjuntos

Conjunto 1 Viajeros noches y estancia media en establecimientos hoteleros y de turismo ruralen Espantildea Galicia y sus provincias Datos mensuales Los datos proceden del Instituto Nacio-nal de Estadiacutestica (INE) de la Encuesta de ocupacioacuten hotelera y la Encuesta de ocupacioacuten enalojamientos de turismo rural (httpwwwigeeuigebdtigeapidatos3476)

Conjunto 2 Poblacioacuten de 16 y maacutes antildeos por sexo grupos de edad y relacioacuten con la actividadeconoacutemica en Galicia Datos trimestrales Los datos proceden de la Encuesta de Poblacioacuten Activa(EPA) elaborada conjuntamente entre el INE y el IGE (httpwwwigeeuigebdtigeapidatos6356)

Conjunto 3 Contratos registrados seguacuten su modalidad Datos mensuales Esta informacioacuten proce-de de la Estadiacutestica de contratos registrados elaborada por el Servicio Puacuteblico de Empleo Estatal(SEPE) (httpwwwigeeuigebdtigeapidatos308)

Conjunto 4 Iacutendice de produccioacuten industrial general y por destino econoacutemico de los bienes en Ga-licia (Base 2015) Datos mensuales La informacioacuten procede del Iacutendice de Produccioacuten Industrialoperacioacuten estadiacutestica ejecutada por el INE (httpwwwigeeuigebdtigeapidatos9048)

Conjunto 5 Transacciones inmobiliarias por reacutegimen y tipo de vivienda Nuacutemero valor totaly valor medio Datos trimestrales La fuente de esta informacioacuten es el Ministerio de Fomento y

3

hace referencia a la compraventa de viviendas elevadas a escritura puacuteblica ante notario (httpwwwigeeuigebdtigeapidatos4052)

Conjunto 6 Bajas de demandas de empleo seguacuten geacutenero y duracioacuten de la demanda en Galiciay sus provincias Datos mensuales La fuente de esta informacioacuten es el SEPE y hace referenciaa las bajas que los servicios de empleo puacuteblico tuvieron debido a una colocacioacuten no hacer larenovacioacuten de la demanda en el periodo establecido o por otras causas (httpwwwigeeuigebdtigeapidatos1243)

Conjunto 7 Afiliaciones a la Seguridad Social uacuteltimo diacutea del mes en Galicia y sus provinciasDatos mensuales La informacioacuten procede del Ministerio de Seguridad Social y Migraciones yhace referencia a las personas trabajadoras que estaacuten en alta en la Seguridad Social (httpwwwigeeuigebdtigeapidatos4885)

Los motivos por los que se han escogido estos conjuntos obedece a diversas razones En primerlugar el maacutes importante incluir series en las que existe el conocimiento de que se presentan atiacutepicosA partir de ahiacute se ha conformado un conjunto de series que permitiesen recoger la mayor amalgamade naturalezas posibles que se presentan en las series que trata el IGE mercado laboral turismoconstruccioacuten o industria Seriacutean aacutembitos que se recogen a lo largo de la seleccioacuten de datos realizadaAdemaacutes se han incorporado series con distinta frecuencia de obtencioacuten tanto series mensuales comotrimestrales

En este trabajo se recoge una comparativa de meacutetodos los cuales se pueden englobar bajo dosvisiones de coacutemo abordar la identificacioacuten de anomaliacuteas en series de tiempo Por un lado existen losmeacutetodos cuyo mecanismo se fundamenta en modelos de series temporales que realizan un procesoiterativo para estimar el modelo integrando la posible influencia de observaciones atiacutepicas Por el otrouna visioacuten maacutes reciente se plantea a traveacutes de realizar un proceso de deteccioacuten en dos partes en laprimera se le aplica a la serie de tiempo un meacutetodo de descomposicioacuten para despueacutes aplicar un meacutetodode deteccioacuten de atiacutepicos sobre el residuo

Dado que ambos enfoques comparten un nexo comuacuten como es la modelizacioacuten de la serie de tiempoy la localizacioacuten de atiacutepicos las podemos tratar conjuntamente en dos capiacutetulos el Capiacutetulo 2 y elCapiacutetulo 3

En el Capiacutetulo 2 se estudian las propiedades de modelizacioacuten de cada meacutetodo La importancia deun buen meacutetodo de modelizacioacuten de series temporales reside en que cuanto mejor se consiga extraer elmecanismo generador de la serie de tiempo maacutes resaltaraacuten las observaciones atiacutepicas En el Capiacutetulo 3se describen los meacutetodos de deteccioacuten de atiacutepicos Estos dos capiacutetulos conforman la parte teoacuterica deltrabajo

Para estudiar el comportamiento de los diferentes meacutetodos se plantea un profundo estudio desimulacioacuten en el Capiacutetulo 4 en el que se utiliza el Iacutendice de Youden como herramienta discriminatoriaacerca de queacute meacutetodos ofrecen mejores resultados En el Capiacutetulo 5 se tratan los datos proporcionadospor el IGE a traveacutes de los meacutetodos que han presentado un mejor comportamiento en el estudio desimulacioacuten Para finalizar el Capiacutetulo 6 expone las conclusiones que hemos extraiacutedo a lo largo de larealizacioacuten de este trabajo

4 CAPIacuteTULO 1 INTRODUCCIOacuteN

Capiacutetulo 2

Modelizacioacuten de series temporales

21 Conceptos baacutesicos

En este apartado definiremos los elementos principales que rodean a las series de tiempo Para ellopodemos echar mano de infinidad de manuales dado que las mismas son objeto de estudio en multitudde campos desde las ciencias sociales y econoacutemicas hasta ramas que requieren de un bagaje muchomaacutes matemaacutetico En este trabajo haremos uso de Pentildea (2010) y Woodward Gray y Elliott (2017)

En la estadiacutestica baacutesica estamos acostumbrados a trabajar con una muestra donde las observacio-nes X1 X2 Xn son variables aleatorias independientes e ideacutenticamente distribuidas Sin embargocuando las muestras se extraen en base a instantes de tiempo es muy probable que las observacionesesteacuten correlacionadas entre si Este tipo de muestras con dependencia temporal se denominan series detiempo Es decir una serie de tiempo es una secuencia de observaciones ordenadas cronoloacutegicamente

Este tipo de datos se utilizan en muacuteltiples disciplinas algunos ejemplos podriacutean incluir desde elaacutembito econoacutemico como la evolucioacuten del Producto Interior Bruto (PIB) o del precio del petroacuteleo hastaaacutembitos como la meteorologiacutea midiendo la temperatura de una localidad durante un periacuteodo de tiempoo el aacutembito sanitario siguiendo la evolucioacuten de una enfermedad en un paciente

Uno de los principales inconvenientes a la hora de trabajar con series temporales son los datos atiacute-picos Estos datos atiacutepicos pueden tener dos naturalezas errores no deseados o pepitas de informacioacuten(Rousseeuw y Hubert 2011) Estas pepitas de informacioacuten pueden servirnos por ejemplo para locali-zar sucesos importantes como huelgas medidas de poliacutetica econoacutemica o desastres naturales (Goacutemez yTaguas 1995) Al igual que en el resto de campos de la estadiacutestica que en nuestro conjunto de datos seencuentren valores atiacutepicos puede llevarnos a incurrir en errores de especificacioacuten Como se mencionaen Chang Tiao y Chen (1988) es importante ser capaz de identificar estos sucesos para comprendermejor la estructura subyacente de la serie

Uno de los modelos maacutes comuacutenmente usado y utilizado como punto de partida en el anaacutelisisde series temporales es el modelo ARIMA Los modelos ARIMA ajustan los valores de la serie enbase a las observaciones previas y errores aleatorios con una estructura que le permite incluir tantocomponentes ciacuteclicos como estacionales Siendo Xtt una serie de tiempo un modelo ARIMA seriacuteaaquel que admite una representacioacuten

5

6 CAPIacuteTULO 2 MODELIZACIOacuteN DE SERIES TEMPORALES

φ(B)(1minusB)dXt = c+ θ(B)at

donde Xt es la observacioacuten t de la serie de tiempo B el operador retardo definido por BXt = Xtminus1φ(B) = (1minusφ1(B)minusφ2B

2minusminusφpBp) φ(B) = (1minusθ1Bminusθ2B2minusminusθqBq) cφ1 φ2 φpθ1 θ2 θp

son constantes d es el nuacutemero de diferencias necesarias para eliminar la tendencia de la serie at esruido blanco y p y q los oacuterdenes de los procesos autorregresivos (AR) y de medias moviles (MA)

Con esta representacioacuten del modelo ARIMA se puede deducir raacutepidamente que estos no son maacutes quela mezcla de los dos primeros modelos de series temporales formulados los modelos AR y los modelosMA Ademaacutes si el proceso que genera la serie de tiempo presenta la posibilidad de estar formado porcomponentes de largo periacuteodo temporal se debe hacer uso de los ARIMA estacional muacuteltiplicativoARIMA(pdq)x(PDQ) cuya representacioacuten seriacutea

φ(B)Φ(Bs)(1minusB)d(1minusBs)DXt = c+ θ(B)Θ(Bs)at

En esta nueva formulacioacuten D es el nuacutemero de diferenciaciones estacionales aplicadas para eliminarla componente estacional Φi y Θj las constantes respectivas a la parte estacional para i = 1 2 P yj = 1 2 Q con P igual al orden del proceso AR estacional y Q al orden del proceso MA estacional

Sin embargo la presencia de atiacutepicos puede llevar a un incorrecto ajuste de los paraacutemetros delmodelo debido a que se pueden ver sesgados por el efecto del atiacutepico La mala estimacioacuten de losparaacutemetros nos conduce a diversos errores dado que podemos no diseccionar bien la estructura dela serie como para entender su comportamiento Ademaacutes en el caso de que el atiacutepico se produzcaen la uacuteltima parte de la serie afectariacutea a las estimaciones futuras incurriendo en un error mayor deprediccioacuten

Por ello surgieron meacutetodos como X-13ARIMA-SEATS o TRAMO-SEATS que parten de los mo-delos ARIMA e introducen mejoras como la deteccioacuten y correccioacuten de atiacutepicos Estos meacutetodos fueronampliamente utilizados durante mucho tiempo para la modelizacioacuten de series temporales Sin embargoel desarrollo de la tecnologiacutea provocoacute la creacioacuten del Internet de las Cosas (Mahdavinejad et al 2018)un entorno en el que casi la totalidad de los objetos y personas estaacute conectado a internet dejandohuella de su comportamiento Las caracteriacutesticas de esta red provocaron un incremento enorme en lacreacioacuten y obtencioacuten de datos unas caracteriacutesticas para las cuales no estaban preparados estos meacutetodosdisentildeados para escalar a conjuntos de tamantildeo pequentildeo o mediano

Es aquiacute donde surge un nuevo enfoque para la deteccioacuten de valores atiacutepicos en series de tiempobasado en aplicar un proceso de descomposicioacuten y analizar los residuos Los procesos de descomposicioacutentienen por objetivo diseccionar una serie en tres componentes tendencia estacionalidad y residuo demodo que se pueda establecer un patroacuten de como se comporta En este trabajo el objetivo no es buscarel modelo maacutes preciso sino aquel que consiga trazar mejor la estructura subyacente de la serie de formaque resalte los posibles valores atiacutepicos en su componente residual y es por ello que estos modelosresultan de tanto intereacutes El primer meacutetodo basado en esta idea que recibioacute cierta repercusioacuten fue elpresentado por el equipo de Twitter (Hochenbaum Vallis y Kejariwal 2017) el cual fue maacutes tardeampliado en el paquete Anomalize de R (Dancho y Vaughan 2019)

Esta forma de proceder en dos partes descomposicioacuten maacutes deteccioacuten se debe a la idea de quevisualizar o localizar atiacutepicos en una serie es complicado debido a causas como la estacionalidad o

21 CONCEPTOS BAacuteSICOS 7

tendencia de la serie Aplicarle a la serie un proceso de descomposicioacuten permite extraer estas compo-nentes y resaltar las posibles anomaliacuteas A continuacioacuten en la Figura 21 mostramos un ejemplo deeste procedimiento utilizando uno de los meacutetodos que se emplearaacuten posteriormente en el trabajo STL

Figura 21 A la izquierda la serie referente al Nuacutemero Total de Afiliaciones a la Seguridad Social eluacuteltimo diacutea de mes en Pontevedra perteneciente al Conjunto 7 A la derecha los residuos obtenidos trasaplicarle la descomposicioacuten STL

Como se puede apreciar en la Figura 21 observar alguacuten comportamiento extrantildeo en la serie detiempo es complicado debido a las fluctuaciones que va sufriendo a lo largo de los antildeos Sin embargouna vez aplicado el proceso de descomposicioacuten y eliminado los efectos de estacionalidad y tendenciapodemos ver el efecto de la crisis del Covid-19 apareciendo en los uacuteltimos datos de la serie Esta crisisprovoca que los datos reales de esos meses disten mucho de los esperados lo que se traduce en fuertesincrementos en el tamantildeo del residuo

Lo interesante de estos meacutetodos es que los procesos de descomposicioacuten de series de tiempo soncapaces de analizar multitud de series de caracteriacutesticas muy diferentes y filtrarlas de tal modo que elproblema acabe residiendo en lo que aparentemente es un sencillo problema de deteccioacuten de valoresatiacutepicos en el caso univariante Mientras que los meacutetodos como X-13ARIMA-SEATS o TRAMO-SEATS se encuentran limitados en su disentildeo a trabajar solamente con series con frecuencias mensualeso trimestrales

Sin embargo Wilkinson (2017) resalta que el problema de la deteccioacuten de valores atiacutepicos en elcaso univariante es engantildeosamente sencillo lo cual puede llevarnos a cometer errores en la deteccioacutende atiacutepicos pese a haber realizado una buena descomposicioacuten de la serie Por ello en este trabajo seplantea un capiacutetulo dedicado a analizar las propiedades de diferentes meacutetodos de deteccioacuten

Por tanto en el trabajo coexisten dos mecanismos de deteccioacuten de atiacutepicos en series temporalesPor un lado los meacutetodos de ajuste de series temporales que incorporan la deteccioacuten y correccioacuten deatiacutepicos al modelo de modo automaacutetico Y por el otro aquellos meacutetodos de deteccioacuten de atiacutepicos cuyaidea se centra en aplicar un proceso de descomposicioacuten maacutes anaacutelisis del residuo

En la Seccioacuten 22 se describen los procesos de modelizacioacuten de series temporales utilizados y en elCapiacutetulo 3 se describen los procesos de deteccioacuten de atiacutepicos

8 CAPIacuteTULO 2 MODELIZACIOacuteN DE SERIES TEMPORALES

22 Meacutetodos de modelizacioacuten de series temporales

221 X-13ARIMA-SEATS

El meacutetodo X-13ARIMA-SEATS es la versioacuten actualizada y mejorada del modelo X-11 desarrolladopor Shiskin Young y Musgrave (1967) X-13ARIMA-SEATS fue creado por el Censo de los EstadosUnidos (US Census Bureau) y forma parte de una familia de modelos de ajuste para series temporalesque se han ido desarrollando y estaacuten disentildeados para trabajar con series econoacutemicas estacionales Unaexplicacioacuten completa del meacutetodo y de coacutemo ha de implantarse se puede encontrar en Time SeriesResearch Staff (2017)

Este modelo se basa en la estimacioacuten de lo que sus autores denominan modelos regARIMA Estosson modelos de regresioacuten con errores ARIMA En concreto la media de la serie estaacute descrita por unacombinacioacuten lineal de regresores y la matriz de covarianzas es la de un proceso ARIMA Se incluyenregresores para modelar efectos de calendario como festivos vacaciones o diacutea de la semana Ademaacutestambieacuten se incluyen otro tipo de regresores para modelar el efecto de las anomaliacuteas que se puedanpresentar El modo en que se aborda este campo lo trataremos en profundidad en el Capiacutetulo 3 conel resto de meacutetodos de deteccioacuten

El proceso de ajuste comienza por un pre-ajuste de la serie a traveacutes de eliminar el efecto determiniacutes-tico mediante un modelo de regresioacuten con errores ARIMA En el siguiente paso la serie pre-ajustada sedescompone en tendencia (t) estacionalidad (s) y residuo (i) Esta descomposicioacuten puede ser aditiva(y = t+s+i) multiplicativa (y = tlowastslowasti) log-aditiva (log(y) = log(t)+log(s)+log(i)) o pseudo-aditiva(y = t lowast (s+ iminus 1)) Este paso en el que se aplica el proceso de descomposicioacuten se basa en el uso delalgoritmo X11 que descompone la serie a traveacutes de filtros lineales La serie final ajustada debe estarlibre de estacionalidad y efectos de calendario

X-13ARIMA-SEATS estaacute implementado en la libreriacutea RJDemetra de R en la funcioacuten x13 y lasespecificaciones necesarias para llevar a cabo la deteccioacuten de atiacutepicos se tratan en el Capiacutetulo 3 juntocon la explicacioacuten del proceso de deteccioacuten

222 TRAMO-SEATS

El meacutetodo TRAMO-SEATS (Goacutemez y Maravall 1997) fue disentildeado por el Banco de Espantildea parael anaacutelisis de series de tiempo Esta herramienta estaacute formada por dos mecanismos La parte TRAMO(Time Series Regression with Arima noise Missing Observations and Outliers) y la parte SEATS(Signal Extraction in ARIMA Time Series)

Como se introduce en Goacutemez y Taguas (1995) el programa TRAMO puede ser utilizado inde-pendientemente de SEATS sin embargo SEATS ha sido disentildeado para trabajar conjuntamente conTRAMO Su finalidad es la de realizar un anaacutelisis detallado de series temporales ya que cuenta conmecanismos para realizar tareas de estimacioacuten prediccioacuten interpolacioacuten de modelos de regresioacuten convalores ausentes con errores ARIMA y correccioacuten de valores atiacutepicos El programa incluye variables deregresioacuten para modelizar los diacuteas de calendario que pueden influir en el comportamiento de la serie co-mo puede ser la Pascua y variables de intervencioacuten que permiten corregir el efecto de las observacionesatiacutepicas La idea en la que se basa el modelo es muy similar a la del modelo X-13ARIMA-SEATS

TRAMO elimina de la serie los efectos especiales identifica y elimina automaacuteticamente los efectos

22 MEacuteTODOS DE MODELIZACIOacuteN DE SERIES TEMPORALES 9

de varios tipos de atiacutepicos e interpola las observaciones ausentes Tambieacuten cuenta con un moacuteduloque permite la identificacioacuten automaacutetica de modelos herramienta que imitaron los desarrolladores deX-13ARIMA-SEATS y que en su momento le permitioacute relevar de tareas monoacutetonas a los analistasEste procedimiento de identificacioacuten automaacutetica estaacute basado en estimar primero las raiacuteces unitarias yutilizar despueacutes el Criterio de Informacioacuten Bayesiano (BIC ) para especificar un modelo ARMA a laserie diferenciada

Figura 22 Esquema de funcionamiento de TRAMO-SEATS (Goacutemez y Maravall 1997)

La Figura 22 (Goacutemez y Maravall 1997) muestra como se integran ambas partes TRAMO ySEATS para formar en conjunto el mecanismo completo de modelizacioacuten

SEATS fue disentildeado originalmente para desestacionalizar series temporales El programa descom-pone una serie que sigue un modelo ARIMA en varios componentes tendencia componente estacionalciclo y componente irregular La descomposicioacuten puede ser aditiva o multiplicativa La descomposicioacutenparte de la hipoacutetesis de ortogonalidad de los componentes que a su vez siguen modelos ARIMA Paraidentificar los componentes se requiere que excepto el irregular esteacuten limpios de ruido blanco De estemodo se maximiza la varianza de este uacuteltimo y al contrario la tendencia el componente estacional yel ciclo son lo maacutes estables posibles

El modelo tratado por SEATS es el de una serie integrada lineal con innovaciones gaussianas Estahipoacutetesis puede no ser cierta en muacuteltiples ocasiones pero siempre es necesario extraer un modelo espor ello que SEATS fue disentildeada para ser utilizada de forma conjunta con TRAMO

TRAMO-SEATS estaacute implementado en la libreriacutea RJDemetra de R en la funcioacuten tramoseats y las

10 CAPIacuteTULO 2 MODELIZACIOacuteN DE SERIES TEMPORALES

especificaciones necesarias para llevar a cabo la deteccioacuten de atiacutepicos se tratan en el capiacutetulo 3 juntocon la explicacioacuten del proceso de deteccioacuten

223 STL

STL es un proceso de filtrado para descomponer series de tiempo en tendencia estacionalidad yresiduo cuyo nombre se debe a sus siglas en ingleacutes Seasonal-Trend decomposition based on Loessintroducido por Cleveland Cleveland McRae y Terpenning (1990) El propoacutesito de este meacutetodo fue elde desarrollar un meacutetodo de descomposicioacuten de series de tiempo que cumpliese los siguientes requisitos

1 Disentildeo sencillo y uso inmediato

2 Flexibilidad a la hora de especificar las variaciones en la tendencia y estacionalidad

3 Poder descomponer series de tiempo con valores faltantes

4 Tendencia y estacionalidad robusta de modo que no se vea distorsionada por datos anoacutemalos

5 Raacutepida computacioacuten y faacutecil implementacioacuten incluso para series temporales largas

El procedimiento de STL consiste en una secuencia de operaciones de suavizado realizadas todasellas salvo una por el mismo suavizador loess El mecanismo consiste en dos bucles uno interno yotro externo

Cada vuelta del bucle interno consiste en un suavizado estacional que actualiza dicha componenteseguido de un suavizado de la tendencia que actualiza la componente asociada con la tendencia Porotra parte cada vuelta del bucle externo consiste en aplicarle una serie de pesos robustos al bucleinterno Estos pesos se utilizan en la siguiente vuelta del bucle interno para reducir la influencia de losdatos anoacutemalos

La aplicacioacuten de la estimacioacuten robusta seraacute necesaria cuando exista un conocimiento previo de quelos datos tienen un comportamiento no gaussiano que conduce a una variacioacuten transitoria extrema delo contrario se pueden omitir las iteraciones del bucle externo y STL consistiriacutea solamente en el bucleinterno

A diferencia de otros meacutetodos como TRAMO-SEATS o X-13ARIMA-SEATS STL puede tratarcualquier tipo de estacionalidad en vez de estar atado a estacionalidades mensuales o trimestrales Sucomponente estacional es capaz de cambiar a lo largo del tiempo y dicho cambio puede ser controladopor el usuario Lo mismo sucede con el suavizado de la componente relacionada con la tendencia Unode sus inconvenientes es que no opera si en la serie se encuentran valores faltantes

En R encontramos este meacutetodo bajo la funcioacuten stl a la cual solo habraacute que especificarle unparaacutemetro Dicho paraacutemetro es el relacionado con el suavizado de la componente estacional e indicaal mecanismo el nuacutemero de observaciones consecutivas a utilizar para estimar los valores de dichacomponente Se podriacutea introducir un valor numeacuterico si tenemos alguacuten indicio sobre el posible desarrollode la componente estacional sin embargo dado que vamos a aplicarlo a un gran nuacutemero de series elanaacutelisis individual seriacutea costoso La solucioacuten utilizada en este trabajo pasa por fijar este paraacutemetrocomo perioacutedico lo cual asume que la evolucioacuten de la componente estacional es ideacutentica a lo largo delos antildeos que se desarrolla la serie

22 MEacuteTODOS DE MODELIZACIOacuteN DE SERIES TEMPORALES 11

224 STR

STR es un meacutetodo de descomposicioacuten de series de tiempo presentado por Dokumentov y Hyndman(2015) Sus siglas se deben a su nombre en ingleacutes Seasonal-Trend decomposition procedure based onRegression similar a la idea de STL salvo que ahora en vez de basarse en loess lo hace en regresioacutenEn concreto seguacuten los autores STR es similar a la regresioacuten Ridge (Hoerl y Kennard 1970) y suversioacuten robusta Robust STR (Dokumentov y Hyndman 2015) se podriacutea relacionar con una regresioacutenLASSO (Tibshirani 1996)

La idea de su desarrollo se originoacute debido a que los autores consideran que a pesar de existir variosalgoritmos de descomposicioacuten de series de tiempo existen muchas caracteriacutesticas en ellas que dichosalgoritmos son incapaces de tratar Las principales deficiencias que encuentran son

Incapacidad para proporcionar un modelo estadiacutestico significativo y simple

Incapacidad (o dificultad) para calcular intervalos de confianza

Incapacidad para tener en cuenta regresores

Incapacidad para tener en cuenta estacionalidad fraccionada

Incapacidad para tener en cuenta muacuteltiples estacionalidades

Incapacidad para tener en cuenta estacionalidades complejas y regresores que afecten a los datosde un modo estacional

El objetivo con el que se desarrolloacute STR fue el de corregir estas deficiencias a la par que presentar unmeacutetodo claro geneacuterico simple y robusto si fuera necesario Para solucionar estas deficiencias enfocan ladescomposicioacuten como un problema a resolver a traveacutes de una regresioacuten cuantil o de miacutenimos cuadradosordinarios

De acuerdo a sus desarrolladores STR constituye el meacutetodo de descomposicioacuten de series de tiempomaacutes geneacuterico disponible en el momento de su publicacioacuten Sin embargo matizan una gran desventajaque presenta el meacutetodo y es su ineficiencia o la ralentizacioacuten que sufre el mecanismo a la hora de tratarcasos en los que se utilizan varios componentes o predictores estacionales

Uno de sus desarrolladores Rob J Hyndman es conocido por sus aportaciones en el campo delas series de tiempo y su posterior implantacioacuten en paquetes para el software R como el famosopaquete forecast En este caso tambieacuten ha colaborado en la implantacioacuten de STR con el paquete stR(Dokumentov y Hyndman 2018)

225 Twitter

En Hochenbaum et al (2017) se aborda el problema de deteccioacuten de valores atiacutepicos en series detiempo introduciendo la idea de descomposicioacuten maacutes deteccioacuten como hemos comentado en la introduc-cioacuten de esta seccioacuten El equipo de Twitter plantea en su artiacuteculo utilizar en un primer momento STLcomo meacutetodo de descomposicioacuten para obtener los residuos sin embargo a la hora de trabajar con estemeacutetodo encuentran una serie de inconvenientes Estos inconvenientes estariacutean provocados por ciertasanomaliacuteas espurias producidas en el residuo

12 CAPIacuteTULO 2 MODELIZACIOacuteN DE SERIES TEMPORALES

Para corregir esta situacioacuten optan por utilizar la mediana de la serie de tiempo para representar latendencia ldquoestablerdquo que despueacutes seraacute utilizada para calcular el residuo

De este modo afirman que reemplazando la tendencia con la mediana se eliminan las anomaliacuteasespurias o ilegiacutetimas del residuo Los mismos desarrolladores publicaron un paquete en la plataformaGitHub (Twitter Inc 2015) que nos permitiacutea hacer uso de este mecanismo sin embargo su manteni-miento cesoacute a finales de 2015 y el paquete fue eliminado de la plataforma CRAN en marzo de 2019 Elpaquete Anomalize (Dancho y Vaughan 2019) recoge este mecanismo y seraacute el paquete que utilizaremosen este trabajo para utilizar esta modificacioacuten del meacutetodo STL bajo la funcioacuten decompose_twitter

23 RESUMEN MEacuteTODOS DE MODELIZACIOacuteN DE SERIES TEMPORALES 13

23 Resumen meacutetodos de modelizacioacuten de series temporales

Meacutetodo Ventajas Contras

X-13ARIMA-SEATS(2017)

Capaz de tratar con valores fal-tantesIntegra diversos tipos de descom-posicioacutenRaacutepida velocidad de ejecucioacuten

Disentildeado para trabajar solo conseries mensuales o trimestrales

TRAMO-SEATS(1997) Capaz de tratar con valores fal-tantesIntegra diversos tipos de descom-posicioacutenRaacutepida velocidad de ejecucioacuten

Disentildeado para trabajar solo conseries mensuales o trimestrales

STL(1990) Puede tratar series de cualquierfrecuenciaRaacutepidoCuenta con versioacuten robusta

No admite valores faltantesCarece de flexibilidad cuando elperiacuteodo estacional es largo y seobserva mucho ruido en la serieAuacuten con su versioacuten robusta pue-de verse afectado por la influen-cia de los atiacutepicos

STR(2015) Puede tratar series de cualquierfrecuenciaCuenta con versioacuten robustaAdmite valores faltantesSensible a cambios de estaciona-lidad

No puede seguir cambios bruscosen la tendenciaExtremadamente lento en com-paracioacuten al resto de meacutetodos

Twitter(2017) Puede tratar series de cualquierfrecuenciaElimina anomaliacuteas espuacutereas en lacomponente residualRaacutepido

No admite valores faltantesNo cuenta con versioacuten robusta

Cuadro 21 Resumen de los meacutetodos de modelizacioacuten de series temporales

14 CAPIacuteTULO 2 MODELIZACIOacuteN DE SERIES TEMPORALES

Capiacutetulo 3

Deteccioacuten de valores atiacutepicos

31 Conceptos baacutesicos

El problema que supone en la estadiacutestica la presencia de valores atiacutepicos aparecioacute muy pronto EnHawkins (1980) mencionan que este problema pudo haber surgido ya en los siglos XVIII y XIX enencuestas estadiacutesticas que se realizaban Las primeras decisiones de queacute hacer con ellos se basaron encriterios puramente subjetivos en los que era el propio analista el que decidiacutea descartar una observacioacutensi pareciacutea anoacutemala respecto al resto de los datos

Posteriormente se comenzaron a plantear posibles soluciones para tratar el problema bajo uncriterio La primera de ellas fue la presentada por Peirce (1852) basada en lo que se podriacutea entendercomo un test de razoacuten de verosimilitud donde todos los valores que superasen el umbral determinadopor cσ seriacutean rechazados siendo c una constante a calcular y σ la desviacioacuten tiacutepica de la muestraVarios autores realizaron criacuteticas a este meacutetodo y propusieron su correccioacuten a este criterio una de ellasfue la de Chauvenet (1963) Esta pasaba por calificar a una observacioacuten como atiacutepico si su valor sesituaba fuera del intervalo definido por 1(4n) puntos de la distribucioacuten Normal siendo n el tamantildeode la muestra

En ese momento surgen diversas propuestas no muy relevantes que trataron de abordar dichoproblema hasta que surgioacute la llevada a cabo por Thompson (1935) Su estudio condujo a descubrir ladistribucioacuten nula de un residuo estudentizado

xi minus xs

donde xi es la observacioacuten sospechosa de ser atiacutepica x la media muestral y s la desviacioacuten tiacutepica de lamuestra A partir de esto pudo deducir un procedimiento de deteccioacuten de atiacutepicos que rechazariacutea unaproporcioacuten fija de todos los datos buenos y devolveriacutea una tabla con los valores criacuteticos adecuados

Esta idea supuso el desarrollo del test de Grubbs (1950) el cual utilizando la misma notacioacutenanterior basaba su regla en los momentos muestrales de una normal

G =max1leilen|xi minus x|

s

Grubbs (1950) asocioacute G con una distribucioacuten t con el objetivo de encontrar un maacuteximo y un miacutenimo

15

16 CAPIacuteTULO 3 DETECCIOacuteN DE VALORES ATIacutePICOS

para localizar atiacutepicos Esta idea fue posteriormente ampliada dando lugar al meacutetodo GESD (Rosner1983) el cual se detalla en la siguiente seccioacuten

Posteriormente se presentoacute una de las herramientas maacutes comuacutenmente utilizadas para la identifi-cacioacuten de atiacutepicos el boxplot introducido en Tukey (1977) Sin embargo el objetivo inicial no fue ladeteccioacuten de atiacutepicos sino como un meacutetodo para trazar una idea del intervalo en el que se encuentranla gran parte de nuestros datos Ademaacutes la forma en la que se construye provoca dos grandes incon-venientes No se puede aplicar a distribuciones sesgadas y dado que no incluye el tamantildeo muestral ensu formulacioacuten tenderaacute a etiquetar falsos atiacutepicos cuanto maacutes grande sea la muestra

A la par que se iban presentando estas ideas para la buacutesqueda de valores atiacutepicos en un conjuntode datos se fueron presentando mecanismos enfocados a las series de tiempo

Uno de los primeros aportes al tratamiento de datos atiacutepicos en series de tiempo fue propuestopor G E P Box y Tiao (1975) Sin embargo este meacutetodo solamente permitiacutea modelar el efecto de laobservacioacuten atiacutepica si se conociacutea de antemano el momento de la intervencioacuten por lo que no se podriacuteaconsiderar una herramienta de deteccioacuten sino maacutes bien una herramienta de intervencioacuten

Posteriormente se propusieron diversos meacutetodos para abordar el problema de la estimacioacuten demodelos ARIMA en series bajo esta circunstancia El primero de ellos fue el de Abraham y Box(1979) que se basaba en proponer un enfoque bayesiano para resolver el problema partiendo de ideassimilares a las que se habiacutean propuesto en otros contextos por autores como Tukey (1977) Otro meacutetodoque buscaba resolver tambieacuten el mismo problema fue el propuesto por Chang y Tiao (1983) cuya idease centraba en aplicar un proceso iterativo

Fue en este artiacuteculo (Chang y Tiao 1983) donde se propuso por primera vez un meacutetodo de deteccioacutene identificacioacuten de atiacutepicos Tsay (1986) propuso su versioacuten que se basaba en combinar el procesoiterativo presentado en Chang y Tiao (1983) con la funcioacuten de autocorrelacioacuten muestral extendidadesarrollada en Tsay y Tiao (1984) la cual permite eliminar la necesidad de determinar el orden dediferenciacioacuten para producir una serie estacionaria que modelar

En Chen y Liu (1993) se reconocen los numerosos aportes hechos en los anteriores artiacuteculos citadospero matiza que algunos problemas seguiacutean estando vigentes

a La presencia de atiacutepicos puede resultar en un modelo inapropiado

b Incluso si el modelo es el apropiado los atiacutepicos pueden seguir produciendo sesgo en el paraacutemetroestimado y por tanto afectar a la deteccioacuten del atiacutepico

c Algunos atiacutepicos no van a ser identificados debido a un problema de enmascaramiento

Su objetivo era presentar un meacutetodo que fuese capaz de resolver los problemas b y c de modo quese pudiese generalizar para aplicar a los cuatro tipos de atiacutepicos en series temporales que se habiacutean idointroduciendo Los cuatro tipos son

IO (atiacutepico innovativo) existe un atiacutepico innovativo en el momento t cuando la innovacioacuten en esepunto esteacute directamente provocada por una cantidad desconocida debido a un suceso imprevisto

AO (atiacutepico aditivo) diremos que se produce un atiacutepico aditivo si en el momento t la serie segenera de manera diferente al resto

32 MEacuteTODOS DE DETECCIOacuteN DE VALORES ATIacutePICOS 17

LS (cambio de nivel) existe un cambio de nivel si en el momento t la serie experimenta unincremento de todos sus valores A diferencia del resto tiene un efecto permanente sobre la serieuna vez aparece

TC (cambio temporal) similar al cambio de nivel solo que el efecto no es permanente y decreceexponencialmente con el tiempo

X-13ARIMA-SEATS y TRAMO-SEATS basan su proceso de deteccioacuten de atiacutepicos en meacutetodosinspirados en el artiacuteculo de Chen y Liu (1993) cuya idea se fundamenta en integrar un mecanismoiterativo disentildeado para trabajar con series de tiempo que localiza e integra los atiacutepicos al modelo Porotra parte en la siguiente seccioacuten introducimos los meacutetodos de deteccioacuten de atiacutepicos que acompantildeana los procesos de descomposicioacuten de series de tiempo estos son GESD Isolation Forest y HDoutliersEstos meacutetodos son desarrollos de los mecanismos e ideas tratados al comienzo de esta seccioacuten como elmeacutetodo Grubbs (Grubbs 1950)

32 Meacutetodos de deteccioacuten de valores atiacutepicos

321 X-13ARIMA-SEATS

El anaacutelisis de diagnoacutestico del modelo regARIMA se realiza a traveacutes del anaacutelisis de los residuos delmodelo estimado Para el apartado de anaacutelisis de valores atiacutepicos X-13ARIMA-SEATS se fundamentaen Chang y Tiao (1983) con extensiones y modificaciones tratadas en Bell (1983) y Otto y Bell (1990)donde los valores atiacutepicos pueden ser de tres de los cuatro tipos antes mencionados AO LS y TC

El enfoque que plantea este mecanismo de deteccioacuten es similar a la regresioacuten paso a paso procedi-miento de regresioacuten en el que se construye el modelo a traveacutes de ir antildeadiendo o eliminando variablespredictoras en base a criterios de informacioacuten

En este caso las variables candidatas para la regresioacuten son las AO LS y TC para todos los puntosen los que la deteccioacuten de atiacutepicos se realiza Es decir se calcula el t-estadiacutestico para ver la significa-tividad de cada tipo de atiacutepico en cada instante temporal se busca significatividad entre todos estost-estadiacutesticos y se antildeade la correspondiente variable de regresioacuten (AO LS o TC) al modelo con el finde corregir los efectos que producen estas observaciones atiacutepicas De este modo se identifica e introduceel efecto de un momento atiacutepico en el modelo Mientras se produce el proceso de deteccioacuten de atiacutepicosse utiliza un estimador robusto de la desviacioacuten residual estaacutendar 148lowastla mediana del valor absolutode la desviacioacuten residual

X-13ARIMA-SEATS antildeade dos variaciones a este meacutetodo El meacutetodo addone en el que cada vezque se antildeade al modelo un atiacutepico se lleva a cabo una re-estimacioacuten del modelo y el meacutetodo addallque re-estima el modelo solo cuando un nuacutemero de variables atiacutepicas han sido antildeadidas al modelo

Este meacutetodo estaacute implantado en R a traveacutes de la funcioacuten x13 del paquete RJDemetra Dicha funcioacutenrequiere de un paraacutemetro de especificacioacuten spec en que se concreta el modelo que queremos introducirEste paraacutemetro es el que nos ofrece diversas posibilidades de modelizacioacuten de la serie como se recogeen la Figura 31 entre ellas los efectos de calendario o los atiacutepicos que presente la serie Dado quebuscamos sucesos atiacutepicos en su sentido maacutes amplio vamos a omitir incluir los efectos de calendarioy solamente introducir la deteccioacuten automaacutetica de atiacutepicos Esto provoca que en nuestro trabajo la

18 CAPIacuteTULO 3 DETECCIOacuteN DE VALORES ATIacutePICOS

especificacioacuten que nos interesa y con la que hemos trabajado sea RSA3 La opcioacuten RSA3 permiteajustar automaacuteticamente un modelo ARIMA identificando y corrigiendo las posibles observacionesanoacutemalas El resto de modificaciones que permite introducir el paraacutemetro de especificacioacuten de la funcioacutenx13 se recogen en la Figura 31 Por ejemplo si estuvieacutesemos interesados en modelizar nuestros datosa traveacutes de un modelo ARIMA de liacuteneas aeacutereas observariacuteamos en la Figura 31 que tendriacuteamos queescoger la especificacioacuten RSA0 Si ahora quisieacuteramos antildeadirle a dicho modelo deteccioacuten de atiacutepicostendriacuteamos que cambiar el paraacutemetro de especificacioacuten a RSA1 y si ademaacutes tambieacuten nos interesamodelar los efectos de calendario sobre dicho modelo introduciriacuteamos la especificacioacuten RSA2 El restode especificaciones ya trabajan sobre el ajuste de un modelo ARIMA de un modo automaacutetico la maacutessencilla es la que utilizamos nosotros en este trabajo RSA3 la cual ajusta un modelo ARIMA deforma automaacutetica incluyendo la deteccioacuten de atiacutepicos Las especificaciones RSA4 y RSA5 incorporanrespecto a RSA3 modelizar los efectos de calendario La diferencia entre ellas se encuentra en queRSA4 incluye en el modelo los efectos de calendario a traveacutes de dos variables que representan losdiacuteas laborables y los fines de semana y RSA5 incluye dichos efectos a traveacutes de siete variables cadadiacutea de la semana y ambas incluyen el efecto de la Pascua en el calendario Por uacuteltimo se encuentrala especificacioacuten RSAfull que incluye el ajuste automaacutetico de un modelo ARIMA y de los efectos decalendario e incorpora la deteccioacuten de atiacutepicos Todas estas especificaciones son las que se detallan enla Figura 31 para profundizar maacutes en ellas se puede consultar el manual de la libreriacutea RJDemetra (laTente Michalek Palate y Baeyens 2020)

Figura 31 Paraacutemetro de especificaciones a introducir al modelo X-13ARIMA-SEATS

322 TRAMO-SEATS

El mecanismo de deteccioacuten de atiacutepicos que utiliza el programa TRAMO-SEATS aborda el problemacon la intencioacuten de resolver los problemas b y c introducidos en el inicio del Capiacutetulo 3 dado queentiende que estos no se han resuelto de un modo satisfactorio en Chen y Liu (1993) En Goacutemez yTaguas (1995) explican que aunque este meacutetodo funciona de forma bastante satisfactoria su solucioacutenpresenta una serie de deficiencias

1 Se estima varias veces por maacutexima verosimilitud exacta lo que es costoso

2 No utiliza residuos exactos

3 El algoritmo es excesivamente complicado

4 Las regresiones muacuteltiples no se hacen filtrando los datos y las columnas de la matriz por un filtroexacto como el filtro de Kalman sino que se utiliza un filtro condicional

32 MEacuteTODOS DE DETECCIOacuteN DE VALORES ATIacutePICOS 19

Por tanto se presenta un mecanismo que pretende subsanar estas deficiencias a la par que corregirlos problemas b y c mencionados en Chen y Liu (1993) Ademaacutes si se utiliza de forma secuencial juntocon el procedimiento de especificacioacuten automaacutetica del programa supone un procedimiento alternativoal de Tsay (1986)

Al igual que X-13ARIMA-SEATS TRAMO-SEATS estaacute implementado en la libreriacutea RJDemetra

de R en la funcioacuten tramoseats Dicha funcioacuten tambieacuten requiere de un paraacutemetro de especificacioacutenspec en el que se concreta el modelo que queremos introducir La utilidad y mecanismo sobre el quetrabaja este paraacutemetro es ideacutentico al explicado en la Seccioacuten 321 para el meacutetodo X-13ARIMA-SEATSpor lo que utilizaremos la especificacioacuten RSA3 Esta especificacioacuten incluye el ajuste automaacutetico de unmodelo ARIMA corrigiendo las posibles observaciones atiacutepicas

El resto de posibles especificaciones que se pueden incluir en el modelo se recogen en la Figura32 El significado de esta figura es equivalente al de la Figura 31 dado que ambos modelos TRAMO-SEATS y X-13ARIMA-SEATS estaacuten implementados en la misma libreria RJDemetra y compartenel mismo paraacutemetro de especificacioacuten en la funcioacuten que estima sus modelos en R

Figura 32 Paraacutemetro de especificaciones a introducir al modelo TRAMO-SEATS

323 GESD

Introducido por Rosner (1983) como una mejora al por entonces conocido ESD (Rosner 1975) porsus siglas en ingleacutes Extreme Studentized Deviate A pesar de que ESD contaba con buenas propiedadesante una amplia alternativa de atiacutepicos presentaba una serie de defectos que le conduciacutean a etiquetarmaacutes candidatos a atiacutepicos que el nuacutemero apropiado Esto provocoacute que se quedase obsoleto en favor desu actualizacioacuten GESD General Extreme Studentized Deviate

Los pasos que sigue son los siguientes

1 Decidir un maacuteximo nuacutemero de posibles candidatos a atiacutepicos r La recomendacioacuten es de consi-derar el 20 del tamantildeo muestral

2 Comenzar las iteraciones i = 1

3 Calcular Ri = maxt|ximinusx|s siendo xi una observacioacuten sospechosa de ser anoacutemala x la media

muestral y s la desviacioacuten estaacutendar de la muestra respectivamente

4 Eliminar la observacioacuten que maximice xi minus x

5 Calcular el siguiente valor criacutetico λi =(nminusi)tpnminusi+1radic

(nminus1minus1+t2pnminusiminus1)(nminusi+1)

donde tpnminusi+1 es una distribucioacuten t con n minus i minus 1 grados de libertad y p = 1 minus α2(nminusi+1 siendo

α la probabilidad de cometer errores de tipo I

20 CAPIacuteTULO 3 DETECCIOacuteN DE VALORES ATIacutePICOS

6 Pasar a la siguiente iteracioacuten repetir los pasos 2 a 5 hasta i = r quedando r definido en el paso1

7 El nuacutemero de atiacutepicos detectados se determina al encontrar el mayor i tal que Ri gt λi dondeRi se define en el paso 2 y λi en el paso 5

GESD es principalmente el test de Grubbs (Grubbs 1950) aplicado de forma secuencial sin embargoexisten unas pequentildeas diferencias que premian su comportamiento GESD realiza ajustes del valorcriacutetico en base al nuacutemero de atiacutepicos a ser estudiado algo que el test de Grubbs no hace Ademaacutessi existe efecto de enmascaramiento aplicar el test de Grubbs de forma secuencial produciriacutea unadetencioacuten demasiado temprana del algoritmo de deteccioacuten lo que impediriacutea localizar algunos atiacutepicos

Los estudios de simulacioacuten realizados para estudiar el comportamiento de GESD indican que elmeacutetodo es muy preciso cuando contamos con tamantildeos muestrales n gt 25 por lo que en nuestrotrabajo no tendremos problema Sin embargo debido a que es un meacutetodo iterativo seraacute maacutes costosocomputacionalmente a medida que se incrementen los tamantildeos muestrales y es algo a tener en cuentacomo posible freno al crecimiento futuro del mecanismo de deteccioacuten

En R podemos encontrar la funcioacuten gesd dentro del paquete Anomalize (Dancho y Vaughan 2019)

324 Isolation Forest

Isolation Forest o iForest es el meacutetodo presentado por Liu Ting y Zhou (2009) donde se tratael tema de deteccioacuten de atiacutepicos desde un punto de vista diferente Ese punto de vista se basa en dospropiedades relacionadas con la idea de queacute es un valor atiacutepico son la minoriacutea de un conjunto y tienenunos atributos muy diferentes a los de las observaciones normales Es decir las anomaliacuteas son pocas ydiferentes lo que las hace maacutes propensas a encontrarse aisladas del resto

Por esta razoacuten los autores presentan un meacutetodo basado en construir un aacuterbol que aiacutesle cada ob-servacioacuten de tal modo que los valores atiacutepicos se encontraraacuten en ramas maacutes proacuteximas a la raiacutez y losvalores normales se encontraraacuten en zonas maacutes profundas del aacuterbol Es por ello que iForest (Liu et al2009) se distingue del resto de mecanismos basados en modelos distancias o densidades

Figura 33 Idea sobre la que se sustenta el mecanismo de Isolation Forest

32 MEacuteTODOS DE DETECCIOacuteN DE VALORES ATIacutePICOS 21

En la Figura 33 se puede observar la idea sobre la que se rige este mecanismo Un punto normalxi requiere maacutes particiones para ser aislado Y el opuesto tambieacuten es cierto donde un punto anoacutemalox0 requiere menos particiones para ser aislado Por lo que se trata de calcular la ldquolongitud del caminordquoa ser aislado dado que los valores atiacutepicos tendraacuten caminos maacutes cortos que los de los valores normales

Para definir como se calcula la ldquolongitud del caminordquo es necesario definir primero el aacuterbol deaislamiento Isolation Tree El aacuterbol de aislamiento seriacutea toda la estructura de ramas que trocean elconjunto de datos La longitud del camino h(x) path length de un punto x se mediriacutea por tanto comoel nuacutemero de ramas a atravesar desde la raiacutez del aacuterbol al punto

Es necesario definir una puntuacioacuten de cuaacuten anoacutemala es una observacioacuten score para ello se intro-duce c(n) como la media de h(x) siendo E el operador esperanza dado el tamantildeo de la muestra nDe tal modo que

Cuando E(h(x))rarr c(n) scorerarr 05

Cuando E(h(x))rarr 0 scorerarr 1

Cuando E(h(x))rarr nminus 1 scorerarr 0

Haciendo uso de la puntuacioacuten anoacutemala que recibe cada punto score tenemos que

Si score es cercano a 1 la observacioacuten es atiacutepica

Si la observacioacuten presenta valores de score inferiores a 05 pueden ser calificadas como observa-ciones normales

Si todas las observaciones devuelven un valor score asymp 05 entonces la muestra entera carece deatiacutepicos

En el artiacuteculo fijan como atiacutepicos potenciales observaciones con score ge 06 en este trabajo somosmaacutes estrictos y fijamos el umbral en score ge 075 Esta decisioacuten se toma tras probar diferentes umbralesy observar el comportamiento del meacutetodo en el estudio de simulacioacuten y en los datos reales Otrosumbrales que se barajaron y descartaron por los resultados mostrados fueron score ge 07 por serdemasiado laxo y score ge 08 por ser demasiado estricto

En R existen dos libreriacuteas que implantan dicho meacutetodo una es la implantada por la empresa H20 lacual ha desarrollado el algoritmo HDoutliers utilizado en este trabajo Y la otra es la libreriacutea solitude(Srikanth 2017) la cual hemos usado para el desarrollo de este trabajo

325 HDoutliers

HDoutliers (Wilkinson 2017) es un algoritmo que se puede aplicar en multitud de escenarios posi-bles desde el maacutes sencillo que seriacutea el caso univariante hasta maacutes complejos como el multidimensionalo el espacial La idea sobre la que se desarrolla es la de buscar espacios entre los valores ordenadosmaacutes que en la de buscar valores extremos De los meacutetodos que se centran en la idea de buscar valoresextremos como por ejemplo el test de Grubbs y por tanto GESD el autor hace una criacutetica y es queestos utilizan medidas como la media muestral o la desviacioacuten tiacutepica las cuales no son robustas frentea valores atiacutepicos

22 CAPIacuteTULO 3 DETECCIOacuteN DE VALORES ATIacutePICOS

El concepto anterior se puede explicar de un modo muy sencillo a traveacutes de un ejemplo que se recogeen Wilkinson (2017) En los resultados a un examen al que se presentaron 100 alumnos obtenemos unapuntuacioacuten media de 50 y una desviacioacuten estaacutendar de 5 Si entre todas las notas un alumno obtuvo un100 y la siguiente mejor nota es un 65 se podriacutea sospechar que ese alumno es un genio o un tramposoPor otra parte si la nota perfecta se encuentra en el punto maacutes alto de una serie de notas que difieren5 puntos entre ellas ese alumno ya no seriacutea tan sospechoso Los test claacutesicos de valores atiacutepicos no soncapaces de diferir entre ambas situaciones

Figura 34 El algoritmo de HDoutliers aplicado sobre el ejemplo anterior (Wilkinson 2017)

En la Figura 34 se representa este ejemplo En el caso de la izquierda estariacuteamos en la situacioacutenen la que no se sospecha que se hayan producido trampas por parte de ninguacuten alumno y el meacutetodoHDoutliers no detectariacutea ninguacuten candidato a atiacutepico A la derecha tendriacuteamos la situacioacuten en la quesospechariacuteamos de que existe un alumno brillante o tramposo y el meacutetodo detectariacutea una situacioacutenatiacutepica como se sentildeala con el punto rojo

La solucioacuten de buscar espacios permite identificar valores inusuales tanto en el medio de las dis-tribuciones como en los extremos Para ello HDoutliers calcula la distancia al vecino maacutes cercanoDespueacutes ajusta una distribucioacuten exponencial a la cola superior de las distancias calculadas y calcula elvalor 1minusα siendo α la probabilidad de cometer un error tipo I superior de la funcioacuten de distribucioacutenacumulada Por lo que cada observacioacuten que se encuentre significativamente alejada del resto basadaen este punto de corte se etiquetaraacute como atiacutepica

El autor menciona que este meacutetodo difiere de aquellos que se basan en hacer un ranking de candi-datos a atiacutepicos como podriacutea ser Local Outlier Factor (Breunig Kriegel Ng y Sander 2000) o quelos etiquetan bajo un liacutemite arbitrario como seriacutea el caso de Isolation Forest (Liu et al 2009) dadoque pueden conducir a resultados inconsistentes Para ello lo que hace es asignar una probabilidad ala creencia de que estamos ante un atiacutepico

En R podemos encontrar este meacutetodo en la libreriacutea HDoutliers (Fraley y Wilkinson 2020)

33 RESUMEN MEacuteTODOS DE DETECCIOacuteN DE VALORES ATIacutePICOS 23

33 Resumen meacutetodos de deteccioacuten de valores atiacutepicos

Meacutetodo Ventajas Contras

X-13ARIMA-SEATS(2017)

Califica el tipo de atiacutepicoRaacutepida velocidad de ejecucioacuten

Basado en modelos ARIMA

TRAMO-SEATS(1997) Califica el tipo de atiacutepicoRaacutepida velocidad de ejecucioacutenIdea similar a X-13ARIMA-SEATS pero profundizando maacutesen el desarrollo del mecanismo dedeteccioacuten de atiacutepicos

Basado en modelos ARIMA

GESD(1983) Elimina parte de la incertidum-bre de que se produzca un efectode enmascaramiento

Utiliza medidas como la media ola desviacioacuten tiacutepica medidas quese pueden ver distorsionadas porvalores atiacutepicosEs un proceso iterativo lo queimplica mayor coste computacio-nal a medida que se incrementeel tamantildeo de datos

Isolation Forest(2009) Escalable a conjuntos de gran di-mensioacutenDisentildeo sencillo

El usuario tiene que determinarel umbral de atiacutepico lo cual pue-de ser un inconveniente a veces

HDoutliers(2017) Identifica valores inusuales tantoen el medio de las distribucionescomo en los extremosEscalable a conjuntos de gran di-mensioacutenAlta velocidad de ejecucioacuten

Tendencia a calificar un excesode observaciones como atiacutepicassin serlo

Cuadro 31 Resumen de los meacutetodos de deteccioacuten de atiacutepicos

24 CAPIacuteTULO 3 DETECCIOacuteN DE VALORES ATIacutePICOS

34 Meacutetodos de deteccioacuten de valores atiacutepicos en series tempo-

rales

Dado que se han introducido diversos meacutetodos con diferentes enfoques respecto a la resolucioacuten delproblema de deteccioacuten de atiacutepicos en series de tiempo hemos decidido incluir este apartado al finaldel contenido principalmente teoacuterico del trabajo para asiacute centrar los meacutetodos que se utilizaraacuten en lossiguientes capiacutetulos Este apartado recoge todos los meacutetodos los ya existentes y nuevas propuestasrealizadas por nosotros que se utilizaraacuten en este trabajo

Los meacutetodos existentes son los pertenecientes a las libreriacuteas RJDemetra (la Tente et al 2020) yAnomalize (Dancho y Vaughan 2019) La libreriacutea RJDemetra es la que nos dota de las funcionesnecesarias para utilizar los modelos X-13ARIMA-SEATS y TRAMO-SEATS Mientras que la libreriacuteaAnomalize se ha convertido en uno de los paquetes de referencia en R para el anaacutelisis de valores atiacutepicosen series de tiempo A traveacutes de ella podemos utilizar el meacutetodo tratado en Hochenbaum et al (2017)basado en una combinacioacuten de Twitter+GESD y tambieacuten la otra opcioacuten que proponen a traveacutes decombinar STL+GESD

A partir de la idea desarrollada por autores como Hochenbaum et al (2017) o libreriacuteas comoAnomalize Dancho y Vaughan (2019) proponemos nuevos meacutetodos de deteccioacuten de atiacutepicos paraseries temporales El fundamento bajo el que se sostiene esta propuesta es muy sencillo Estos meca-nismos se fundamentan en aplicarle a la serie de tiempo un proceso de descomposicioacuten para extraer laestacionalidad y la tendencia para posteriormente aplicarle un meacutetodo de deteccioacuten de valores atiacutepicosal residuo Dado que se han propuesto mejoras en ambos campos tanto en los meacutetodos de descompo-sicioacuten de series temporales como en el de deteccioacuten de valores atiacutepicos creemos que su combinacioacutenpodriacutea suponer una mejora a las ya establecidas Teniendo en cuenta que se ha introducido un meacutetodode descomposicioacuten de series temporales STR (Dokumentov y Hyndman 2015) y dos meacutetodos de de-teccioacuten de valores atiacutepicos Isolation Forest (Liu et al 2009) y HDoutliers (Wilkinson 2017) lo que seharaacute seraacute obtener todas las combinaciones posibles a traveacutes de mezclar los procesos de descomposicioacutencon los meacutetodos de deteccioacuten dando lugar a las siguientes combinaciones

STL +iForest

STL +HDoutliers

STL (Robusto) +iForest

STL (Robusto) +HDoutliers

Twitter +iForest

Twitter +HDoutliers

STR + GESD

STR + iForest

STR + HDoutliers

34 MEacuteTODOS DE DETECCIOacuteN DE VALORES ATIacutePICOS EN SERIES TEMPORALES 25

STR (Robusto) + GESD

STR (Robusto) + iForest

STR (Robusto) + HDoutliers

Estos son los nuevos meacutetodos propuestos en el trabajo de los cuales estudiaremos su comporta-miento en el proacuteximo capiacutetulo a traveacutes de un estudio de simulacioacuten junto a los meacutetodos ya existentesX-13ARIMA-SEATS TRAMO-SEATS STL+GESD y Twitter+GESD

Existen otros meacutetodos populares en la deteccioacuten de atiacutepicos para el software R los cuales no se hanincluido en este trabajo debido a que planteaban peores resultados que los finalmente introducidospero que creemos que merecen una mencioacuten debido a que pueden ser de intereacutes para alguien quepretenda profundizar en este campo

El primero de ellos seriacutea el meacutetodo de deteccioacuten de atiacutepicos IQR incluido en la libreriacutea AnomalizeDancho y Vaughan (2019) el cual se ha descartado debido a que sus combinaciones con STL y Twittersuponiacutean una menor precisioacuten que las combinaciones con GESD (Datacamp 2018) Los autores lo hanincluido en dicha libreriacutea debido a que su coste computacional es mucho menor que el de GESD porlo que se puede plantear situaciones en las que sea uacutetil

El segundo seriacutea la funcioacuten tsoutliers del paquete forecast (Hyndman 2020) la cual hemosdescartado por presentar un mecanismo muy similar al que presentariacutea la combinacioacuten STL+IQR

Por uacuteltimo tambieacuten se ha descartado la funcioacuten tso del paquete tsoutliers (de Lacalle 2019)El motivo se debe a que su autor enfoca el proceso de deteccioacuten basaacutendose en las mismas ideas que lasdesarrolladas en los modelos X-13ARIMA-SEATS y TRAMO-SEATS pero comenta que este meacutetodono estaacute capacitado para trabajar con grandes y heterogeacuteneos conjuntos de series temporales comoX-13ARIMA-SEATS o TRAMO-SEATS sino maacutes bien para pequentildeas aplicaciones de un modo semi-automaacutetico (de Lacalle 2015)

26 CAPIacuteTULO 3 DETECCIOacuteN DE VALORES ATIacutePICOS

Capiacutetulo 4

Estudio de simulacioacuten

En este capiacutetulo se realiza un estudio de simulacioacuten con el objetivo de comparar la eficiencia delos diferentes meacutetodos expuestos en el apartado anterior En primer lugar se presenta un resumendel procedimiento seguido para realizar las simulaciones en los diferentes escenarios y el motivo deproponer cada escenario A continuacioacuten se introduce el Iacutendice de Youden medida que nos permitiraacutediscernir queacute meacutetodos presentan mejor comportamiento en el estudio Finalmente se presentan losresultados del estudio y las conclusiones extraiacutedas del mismo

41 Escenarios

El procedimiento para obtener las series simuladas ha sido el siguiente

1 Simular una serie de tiempo sin atiacutepicos

2 A la observacioacuten correspondiente al instante t sumarle el valor w el cual indicaraacute el tamantildeo delatiacutepico

3 Si se quiere introducir maacutes de un atiacutepico repetir los pasos 1 y 2

Se van a proponer ocho escenarios a continuacioacuten pasamos a justificar la eleccioacuten de cada uno deellos Los escenarios 1 2 y 3 son los planteados en Chen y Liu (1993) artiacuteculo utilizado para analizar laeficiencia de los mecanismos de deteccioacuten que inspiran los meacutetodos aplicados en X-13ARIMA-SEATS yTRAMO-SEATS El Escenario 4 plantea el modelo de liacuteneas aeacutereas utilizado ampliamente para datoseconoacutemicos como los que se van a tratar posteriormente Por uacuteltimo los escenarios 5 a 8 proponendiversos modelos que han sido generados a partir de seleccionar una serie del IGE aleatoriamente yaplicarle la funcioacuten autoarima del paquete forecast (Hyndman 2020) A continuacioacuten se recogentodos los escenarios planteados en el Cuadro 41 Los escenarios 1 a 3 se simulan a traveacutes de la funcioacuten deR arimasim mientras que los escenarios 4 a 8 a traveacutes de la funcioacuten simulate del paquete forecast

27

28 CAPIacuteTULO 4 ESTUDIO DE SIMULACIOacuteN

Escenario Modelo Motivo

Escenario 1 AR(1) Propuesto en el estudio de simu-lacioacuten de Chen y Liu (1993)

Escenario 2 MA(1) Propuesto en el estudio de simu-lacioacuten de Chen y Liu (1993)

Escenario 3 ARIMA(011) Propuesto en el estudio de simu-lacioacuten de Chen y Liu (1993)

Escenario 4 ARIMA(011)x(011)12 Modelos de liacuteneas aeacutereas muyutilizado en lo referente a datoseconoacutemicos

Escenario 5 ARIMA(101)x(012)12 Modelo extraiacutedo de aplicar lafuncioacuten autoarima a una seriedel IGE escogida aleatoriamente

Escenario 6 ARIMA(111)x(101)12 Modelo extraiacutedo de aplicar lafuncioacuten autoarima a una seriedel IGE escogida aleatoriamente

Escenario 7 ARIMA(112)x(011)12 Modelo extraiacutedo de aplicar lafuncioacuten autoarima a una seriedel IGE escogida aleatoriamente

Escenario 8 ARIMA(011)x(100)12 Modelo extraiacutedo de aplicar lafuncioacuten autoarima a una seriedel IGE escogida aleatoriamente

Cuadro 41 Resumen de los escenarios propuestos para el estudio de simulacioacuten

42 IacuteNDICE DE YOUDEN 29

En cada escenario se estudian cuatro casos

Caso 1 Serie con 100 observaciones y un atiacutepico en t = 40 el tamantildeo del atiacutepico es w = 35

Caso 2 Serie con 100 observaciones y un atiacutepico en t = 40 el tamantildeo del atiacutepico es w = 45

Caso 3 Serie con 100 observaciones y un atiacutepico en t = 2 el tamantildeo del atiacutepico es w = 4

Caso 4 Serie con 300 observaciones y dos atiacutepicos en t1 = 40 y t2 = 180 el tamantildeo de los atiacutepicoses w1 = 4 y w2 = 5

En el Escenario 4 hubo que modificar los valores del tamantildeo del atiacutepico introducido en cada casodebido a que no se obteniacutean resultados significativos para ninguacuten meacutetodo Por lo que finalmente solopara el Escenario 4 los valores introducidos fueron de w = 55 para el Caso 1 w = 65 para el Caso2 w = 6 para el Caso 1 w1 = 6 y w2 = 7 para el Caso 4

Los Casos 1 y 2 buscan estudiar la sensibilidad del meacutetodo de deteccioacuten dado que en lo uacutenico quese diferencian es en el tamantildeo del atiacutepico El Caso 3 plantea una situacioacuten complicada al encontrarseel atiacutepico al principio de la serie es maacutes difiacutecil detectar ese valor por dos motivos que el meacutetodo notenga todaviacutea la informacioacuten suficiente o que el meacutetodo vea afectada su estimacioacuten por este valor tantemprano El Caso 4 busca estudiar el comportamiento cuando se presenta maacutes de un atiacutepico

42 Iacutendice de Youden

Para comparar los resultados de los diferentes meacutetodos en las simulaciones vamos a utilizar lo queen otros campos como la investigacioacuten meacutedica se denomina test de diagnoacutestico En este tipo de testse compara la realidad con la prediccioacuten del mecanismo para analizar su funcionamiento Estos testde diagnoacutestico se presentan en lo que se denominan matrices de confusioacuten como la presentada en elCuadro 44 La idea de la matriz de confusioacuten es la de comparar las predicciones realizadas con larealidad de tal modo que se pueda observar cuando la prediccioacuten y la realidad coinciden y cuando no

Realidad

Negativo(0) Positivo (1)

PrediccioacutenNegativo(0) Verdadero Negativo (VN) Falso Negativo (FN)

Positivo(1) Falso Positivo (FP) Verdadero Positivo (VP)

Cuadro 42 Matriz de confusioacuten

En nuestro trabajo Negativo (0) representariacutea una observacioacuten normal y Positivo (1) una obser-vacioacuten atiacutepica La diagonal de la matriz estaacute representada por aquellas observaciones en las que larealidad y la prediccioacuten coinciden Los Falsos Negativos (FN) son aquellas observaciones en que el

30 CAPIacuteTULO 4 ESTUDIO DE SIMULACIOacuteN

mecanismo determinoacute que la observacioacuten era normal pero en realidad era atiacutepica Por otra parte losFalsos Positivos (FP) suceden cuando el mecanismo dictamina que la observacioacuten es atiacutepica pero larealidad es que es una observacioacuten normal

Los Falsos Positivos son tambieacuten conocidos como Error Tipo I la probabilidad de aceptar la hipoacute-tesis nula siendo esta falsa Y los Falsos Negativos son conocidos como Error Tipo II la probabilidadde no rechazar la hipoacutetesis nula siendo esta falsa

El iacutendice de Youden (Youden 1950) nacioacute con motivo de poder comparar los resultados de doso maacutes mecanismos de deteccioacuten y asiacute tener la capacidad de discernir cual de ellos tiene una mejorcapacidad discriminatoria Es decir el propoacutesito final del iacutendice es el de resumir la matriz de confusioacutenen un valor que consiga representar el comportamiento del mecanismo de deteccioacuten de tal modo quedos mecanismos se puedan comparar directamente

Este iacutendice considera con la misma importancia tanto los falsos positivos como los falsos negativosUtilizando otro campo de ejemplo la medicina un falso negativo supondriacutea no tratar la enfermedadde un paciente dado que establecemos que estaacute sano cuando la realidad es que estaacute enfermo Por otraparte un falso positivo supondriacutea un coste como podriacutea ser el monetario financiando el tratamiento oel emocional de un paciente que la realidad es que estaacute sano

Trasladando ese ejemplo a nuestro trabajo un falso negativo supondriacutea no calificar como atiacutepicauna observacioacuten que lo es Esto provocariacutea que estariacuteamos asumiendo como normal un comportamientoen el aacutembito socio-econoacutemico gallego que no lo fue estariacuteamos incurriendo en errores en posterioresanaacutelisis o estariacuteamos obviando sucesos relevantes

Los falsos positivos tambieacuten suponen un coste aquiacute cada observacioacuten que el meacutetodo detecte comoatiacutepica supondraacute la intervencioacuten de un analista para tratar de entender queacute ha sucedido Si finalmenteel analista concluye que la observacioacuten no es atiacutepica se habraacute desperdiciado una serie de horas y equipoque podriacutean haber sido invertidos para otro fin De ambos escenarios surgen dos medidas

Sensibilidad V PV P+FN refleja la proporcioacuten de verdaderos positivos sobre el total de positivos

Especifidad V NV N+FP refleja la proporcioacuten de verdaderos negativos sobre el total de negativos

El iacutendice de Youden se construye a partir de ambas medidas del siguiente modo

J = Sensibilidad + Especifidadminus 1 =V P

V P + FN+

V N

V N + FPminus 1

El rango en el que se utiliza este iacutendice es de 0 a 1 donde 1 representariacutea que el mecanismo escapaz de diferenciar perfectamente las observaciones atiacutepicas de las normales y 0 todo lo contrario

Sin embargo teoacutericamente este rango puede variar de minus1 a 1 (Shan G 2015) los valores menoresque cero no se suelen contemplar dado que no tienen una interpretacioacuten significativa En nuestrotrabajo sucede esta situacioacuten en la que se presentan mecanismos con valores negativos y si bien deforma general esto no tiene explicacioacuten en otros campos en este estudio si

Explicaacutendolo a traveacutes de lo que podriacutea ser un posible resultado de un mecanismo de deteccioacuten

42 IacuteNDICE DE YOUDEN 31

Realidad

Negativo(0) Positivo(1)

PrediccioacutenNegativo(0) 96 1

Positivo(1) 3 0

Cuadro 43 Ejemplo de posible resultado de un mecanismo de deteccioacuten en el que el iacutendice de Youdenseriacutea negativo

En el ejemplo del Cuadro 42 se analiza una serie de tiempo con 100 observaciones entre las cualesse encuentra un valor atiacutepico El mecanismo de deteccioacuten habriacutea detectado 3 posibles atiacutepicos peroninguno de ellos es el atiacutepico real Si calculamos el iacutendice de Youden obtenemos

J =0

0 + 1+

96

96 + 3minus 1 = minus003

El resultado es negativo debido a que el mecanismo de deteccioacuten nos situacutea en una posicioacuten peorque no clasificar nada como atiacutepico Por lo que si 1 refleja que el mecanismo es capaz de diferenciarperfectamente las dos clases y 0 que el mecanismo no nos ayuda en absoluto a diferenciar entre ellasun valor menor que 0 en nuestro trabajo supondriacutea que el mecanismo seriacutea peor que no clasificar nadadado que nos infunde un mayor error sobre la realidad

Un resultado de cero implicariacutea que el mecanismo no es uacutetil ya que no es capaz de diferenciar entrelo que es atiacutepico y lo que no En el Cuadro 43 se recoge un posible resultado que conduciriacutea a estasituacioacuten Este ejemplo recoge una situacioacuten en la que en una serie de tiempo de 100 observaciones seencuentran 5 valores atiacutepicos sin embargo el meacutetodo no es capaz de detectar ninguna de ellas

Realidad

Negativo(0) Positivo(1)

PrediccioacutenNegativo(0) 95 5

Positivo(1) 0 0

Cuadro 44 Ejemplo de posible resultado de un mecanismo de deteccioacuten en el que el iacutendice de Youdenseriacutea cero

J =0

0 + 5+

95

95 + 0minus 1 = 0

Finalmente el resultado perfecto implicariacutea que el mecanismo de deteccioacuten es capaz de diferenciarde forma precisa aquello que es atiacutepico de lo que no lo es En el Cuadro 44 se recoge un ejemplo de

32 CAPIacuteTULO 4 ESTUDIO DE SIMULACIOacuteN

esta situacioacuten En este ejemplo se plantea una serie de tiempo que cuenta con 100 observaciones delas cuales 5 son atiacutepicas igual que en el ejemplo anterior sin embargo el meacutetodo ahora es capaz dedetectar cada una de ellas sin incurrir en Falsos Positivos ni Falsos Negativos

Realidad

Negativo(0) Positivo(1)

PrediccioacutenNegativo(0) 95 0

Positivo(1) 0 5

Cuadro 45 Ejemplo de posible resultado de un mecanismo de deteccioacuten en el que el iacutendice de Youdenseriacutea uno

J =5

0 + 5+

95

95 + 0minus 1 = 1

Podemos observar como los valores fuera de la diagonal de la matriz aquellos que representan losFalsos Negativos y Falsos Positivos son cero En la diagonal de la matriz se encuentran los resultadosque muestran que el mecanismo ha conseguido identificar de forma perfecta aquellas observacionesque son atiacutepicas Esta seriacutea la situacioacuten ideal la cual representariacutea que el mecanismo de deteccioacuten deatiacutepicos funciona de forma idoacutenea

43 Resultados

A continuacioacuten se presentan los resultados para los ocho escenarios introducidos recogidos en elCuadro 41 Al introducir una gran cantidad de meacutetodos escenarios y casos el anaacutelisis de los resultadosse presenta confuso por lo que se decidioacute introducir un coacutedigo de color para resaltar los tres mejores ytres peores resultados en cada caso Los mejores resultados se asocian al color verde siendo el verde maacutesintenso el mejor resultado y decayendo gradualmente la intensidad del color seguacuten empeora Por otraparte los peores resultados estaacuten asociados al color rojo siendo el rojo maacutes intenso el peor resultadoy decayendo la intensidad seguacuten el resultado mejora

Se pensoacute en introducir un gradiente de color por cada caso de modo que fuese variando de mejora peor Finalmente se descartoacute debido a que su contribucioacuten a la comprensioacuten de los resultados eramenor que la idea finalmente escogida de resaltar los tres mejores y los tres peores resultados

Los resultados obtenidos para el iacutendice de Youden se muestran a continuacioacuten A mayores en elanexo se han incluido tablas referentes a los resultados que han presentado los distintos meacutetodos enbase a otras dos medidas que tambieacuten han resultado de utilidad a la hora de escoger los mecanismosadecuados La primera de esas medidas es la sensibilidad la cual hemos definido en este apartado yla otra es el exceso la cual se define como la media de detecciones incorrectas por simulacioacuten y cuyosresultados estaacuten incluidos en el anexo correspondiente

43 RESULTADOS 33

Caso 1 Caso 2 Caso 3 Caso 4

X-13ARIMA-SEATS 0495 0853 0699 0490

TRAMO-SEATS 0655 0926 0803 0494

STL+HDoutliers 0561 0830 0562 0727

STL+GESD 0265 0589 0236 0531

STL+iForest 0632 0882 0632 0788

STL(ROB)+HDoutliers 0550 0790 0666 0707

STL(ROB)+GESD 0623 0862 0732 0752

STL(ROB)+iForest 0634 0873 0741 0748

Twitter+HDoutliers 0462 0725 0588 0616

Twitter+GESD 0303 0587 0426 0433

Twitter+iForest 0524 0797 0647 0657

STR+Hdoutliers 0603 0833 0595 0667

STR+GESD 0344 0649 0292 0448

STR+iForest 0670 0882 0675 0719

STR(ROB)+Hdoutliers 0534 0803 0630 0654

STR(ROB)+GESD 0379 0683 0456 0557

STR(ROB)+iForest 0619 0859 0695 0711

Cuadro 46 Resultados Escenario 1Iacutendice de Youden AR(1)

En el Cuadro 46 se recogen los resultados al Escenario 1 escenario en el que se simula un AR(1)igual al realizado por Chen y Liu (1993) Los resultados muestran que en los casos 1 2 y 3 TRAMO-SEATS ejerce un papel superior al resto buen comportamiento que desaparece en el Caso 4 casoen el que se introducen dos atiacutepicos Si analizamos conjuntamente los resultados de los cuatro casospodriacuteamos decir que los meacutetodos que reflejan un mejor comportamiento global en el escenario seriacuteanSTR+iForest y STL(Rob)+iForest

34 CAPIacuteTULO 4 ESTUDIO DE SIMULACIOacuteN

Caso 1 Caso 2 Caso 3 Caso 4

X-13ARIMA-SEATS 0504 0828 0645 0494

TRAMO-SEATS 0667 0913 0741 0494

STL+HDoutliers 0465 0721 0473 0680

STL+GESD 0217 0457 0147 0428

STL+iForest 0502 0781 0521 0713

STL(ROB)+HDoutliers 0457 0723 0576 0642

STL(ROB)+GESD 0516 0761 0651 0667

STL(ROB)+iForest 0519 0798 0660 0713

Twitter+HDoutliers 0457 0690 0587 0640

Twitter+GESD 0346 0627 0480 0486

Twitter+iForest 0506 0774 0658 0689

STR+HDoutliers 0580 0814 0566 0658

STR+GESD 0297 0601 0247 0449

STR+iForest 0626 0866 0647 0719

STR(ROB)+HDoutliers 0514 0780 0603 0644

STR(ROB)+GESD 0335 0627 0405 0520

STR(ROB)+iForest 0578 0836 0687 0709

Cuadro 47 Resultados Escenario 2 Iacutendice de Youden MA(1)

En el Cuadro 47 se recogen los resultados al Escenario 2 escenario en el que se simula un MA(1)igual al realizado por Chen y Liu (1993) Los resultados que se observan son similares a los extraiacutedos delEscenario 1 TRAMO-SEATS es claramente superior en los casos 1 2 y 3 pero su buen comportamientodesaparece ante el Caso 4 Por otra parte STR+iForest presenta un comportamiento maacutes homogeacuteneoencontraacutendose en tres de los cuatro casos entre los tres mejores resultados Lo mismo sucede con suversioacuten robusta En esta ocasioacuten la combinacioacuten STL+iForest solamente se encuentra entre las mejoresen el Caso 4

43 RESULTADOS 35

Caso 1 Caso 2 Caso 3 Caso 4

X-13ARIMA-SEATS 0921 0970 0926 0500

TRAMO-SEATS 0921 0971 0921 0500

STL+HDoutliers 0306 0502 0234 0435

STL+GESD 0088 0229 0050 0152

STL+iForest 0338 0575 0279 0451

STL(ROB)+HDoutliers 0252 0426 0287 0328

STL(ROB)+GESD 0287 0504 0369 0316

STL(ROB)+iForest 0291 0495 0329 0358

Twitter+HDoutliers 0061 0109 0124 0064

Twitter+GESD 0015 0027 0056 0025

Twitter+iForest 0077 0127 0167 0068

STR+HDoutliers 0400 0556 0342 0436

STR+GESD 0202 0365 0108 0230

STR+iForest 0441 0614 0385 0492

STR(ROB)+HDoutliers 0237 0391 0248 0268

STR(ROB)+GESD 0199 0381 0215 0254

STR(ROB)+iForest 0277 0451 0279 0289

Cuadro 48 Resultados Escenario 3 Iacutendice de Youden ARIMA(011)

En el Cuadro 48 se recogen los resultados al Escenario 3 escenario en el que se simula un ARI-MA(011) igual al realizado por Chen y Liu (1993) En este escenario existe una hegemoniacutea de X-13ARIMA-SEATS y TRAMO-SEATS los cuales presentan resultados superiores a los de cualquierotro meacutetodo La combinacioacuten STR+iForest es el tercer meacutetodo que a pesar de la diferencia con losotros dos presenta mejores resultados

36 CAPIacuteTULO 4 ESTUDIO DE SIMULACIOacuteN

Caso 1 Caso 2 Caso 3 Caso 4

X-13ARIMA-SEATS 0402 0592 0067 0480

TRAMO-SEATS 0540 0705 0071 0481

STL+HDoutliers -0003 -0004 0008 0000

STL+GESD -0002 -0001 0002 -0001

STL+iForest -0004 -0004 0008 0001

STL(ROB)+HDoutliers -0005 -0005 0025 0000

STL(ROB)+GESD -0039 -0026 0052 0002

STL(ROB)+iForest 0004 -0002 0026 0000

Twitter+HDoutliers 0000 -0002 -0001 0007

Twitter+GESD -0025 -0019 -0016 0003

Twitter+iForest 0000 -0001 0004 0016

STR+HDoutliers 0359 0417 -0004 0083

STR+GESD 0409 0445 -0006 0124

STR+iForest 0411 0472 -0005 0097

STR(ROB)+HDoutliers 0014 0006 0002 0039

STR(ROB)+GESD 0019 0017 0008 0075

STR(ROB)+iForest 0014 0005 0002 0021

Cuadro 49 Resultados Escenario 4 Iacutendice de Youden ARIMA(011)x(011)12

En el Cuadro 49 se recogen los resultados al Escenario 4 escenario en el que se simula el modelo deliacuteneas aeacutereas (G Box y Jenkins 1976) Este modelo es famoso por su uso en series socio-econoacutemicasPor ello cabriacutea esperar un buen comportamiento de los modelos disentildeados para este fin X-13ARIMA-SEATS y TRAMO-SEATS El resto de combinaciones presentan resultados poco consistentes

43 RESULTADOS 37

Caso 1 Caso 2 Caso 3 Caso 4

X-13ARIMA-SEATS 0265 0628 0176 0409

TRAMO-SEATS 0398 0747 0248 0432

STL+HDoutliers 0238 0469 0281 0125

STL+GESD 0091 0258 0158 0024

STL+iForest 0263 0531 0305 0134

STL(ROB)+HDoutliers 0265 0475 0343 0097

STL(ROB)+GESD 0375 0662 0452 0114

STL(ROB)+iForest 0304 0545 0388 0128

Twitter+HDoutliers 0243 0429 0352 0103

Twitter+GESD 0168 0376 0309 0057

Twitter+iForest 0266 0479 0381 0126

STR+HDoutliers 0656 0885 0231 0755

STR+GESD 0424 0769 0064 0567

STR+iForest 0720 0936 0277 0798

STR(ROB)+HDoutliers 0189 0326 0212 0523

STR(ROB)+GESD 0174 0317 0192 0665

STR(ROB)+iForest 0229 0364 0232 0588

Cuadro 410 Resultados Escenario 5 Iacutendice de Youden ARIMA(101)x(012)12

En el Cuadro 410 se recogen los resultados al Escenario 5 escenario en el que se simula un modeloARIMA (101)x(012)12 a partir de aplicarle la funcioacuten autoarima a una serie del IGE escogidaaleatoriamente En este escenario predomina la descomposicioacuten STR ya que son las combinacionesjunto a los tres meacutetodos de deteccioacuten de atiacutepicos GESD iForest y HDoutliers los meacutetodos quepresentan mejores resultados En concreto la combinacioacuten STR+iForest supone la combinacioacuten maacutesinteresante para este escenario

38 CAPIacuteTULO 4 ESTUDIO DE SIMULACIOacuteN

Caso 1 Caso 2 Caso 3 Caso 4

X-13ARIMA-SEATS 0331 0659 0354 0425

TRAMO-SEATS 0457 0764 0477 0438

STL+HDoutliers 0513 0790 0494 0624

STL+GESD 0229 0558 0188 0328

STL+iForest 0560 0833 0567 0648

STL(ROB)+HDoutliers 0507 0776 0592 0595

STL(ROB)+GESD 0528 0815 0663 0560

STL(ROB)+iForest 0559 0838 0661 0645

Twitter+HDoutliers 0239 0416 0355 0208

Twitter+GESD 0101 0229 0185 0100

Twitter+iForest 0279 0452 0383 0227

STR+HDoutliers 0520 0779 0436 0636

STR+GESD 0278 0584 0151 0385

STR+iForest 0596 0822 0494 0682

STR(ROB)+HDoutliers 0399 0666 0490 0545

STR(ROB)+GESD 0274 0524 0349 0404

STR(ROB)+iForest 0457 0731 0568 0579

Cuadro 411 Resultados Escenario 6 Iacutendice de Youden ARIMA(111)x(101)12

En el Cuadro 411 se recogen los resultados al Escenario 6 escenario en el que se simula un modeloARIMA (111)x(101)12 a partir de aplicarle la funcioacuten autoarima a una serie del IGE escogidaaleatoriamente En este escenario los meacutetodos que muestran unos mejores resultados son STR+iForesty STL+iForest Tambieacuten muestra un buen comportamiento el meacutetodo STL(Rob)+GESD basado enla combinacioacuten de la versioacuten robusta de la descomposicioacuten STL y el meacutetodo de deteccioacuten de atiacutepicosGESD

43 RESULTADOS 39

Caso 1 Caso 2 Caso 3 Caso 4

X-13ARIMA-SEATS 0332 0673 0347 0422

TRAMO-SEATS 0426 0765 0425 0453

STL+HDoutliers 0451 0693 0414 0503

STL+GESD 0180 0438 0142 0219

STL+iForest 0509 0759 0458 0527

STL(ROB)+HDoutliers 0416 0655 0468 0489

STL(ROB)+GESD 0452 0702 0549 0457

STL(ROB)+iForest 0484 0717 0541 0525

Twitter+HDoutliers 0009 0018 0037 0037

Twitter+GESD -0024 -0014 0011 0010

Twitter+iForest 0007 0016 0050 0050

STR+HDoutliers 0469 0719 0369 0582

STR+GESD 0228 0495 0122 0329

STR+iForest 0511 0774 0438 0635

STR(ROB)+HDoutliers 0282 0495 0347 0330

STR(ROB)+GESD 0224 0432 0301 0285

STR(ROB)+iForest 0343 0557 0407 0385

Cuadro 412 Resultados Escenario 7 Iacutendice de Youden ARIMA(112)x(011)12

En el Cuadro 412 se recogen los resultados al Escenario 7 escenario en el que se simula un modeloARIMA (112)x(011)12 a partir de aplicarle la funcioacuten autoarima a una serie del IGE escogidaaleatoriamente En este escenario los meacutetodos que muestran unos mejores resultados vuelven a serSTL+iForest STR+iForest y cercano a ellos STL(Rob)+iForest El resto de resultados no muestranninguacuten meacutetodo estable para los cuatro casos

40 CAPIacuteTULO 4 ESTUDIO DE SIMULACIOacuteN

Caso 1 Caso 2 Caso 3 Caso 4

X-13ARIMA-SEATS 0298 0636 0334 0434

TRAMO-SEATS 0419 0712 0427 0481

STL+HDoutliers 0425 0697 0389 0620

STL+GESD 0176 0415 0108 0351

STL+iForest 0480 0734 0423 0662

STL(ROB)+HDoutliers 0429 0675 0483 0607

STL(ROB)+GESD 0449 0718 0543 0584

STL(ROB)+iForest 0486 0749 0559 0675

Twitter+HDoutliers 0271 0463 0378 0350

Twitter+GESD 0127 0286 0189 0147

Twitter+iForest 0300 0504 0424 0356

STR+HDoutliers 0448 0692 0459 0564

STR+GESD 0203 0438 0167 0274

STR+iForest 0492 0769 0502 0600

STR(ROB)+Hdoutliers 0416 0680 0503 0548

STR(ROB)+GESD 0260 0523 0329 0366

STR(ROB)+iForest 0460 0751 0573 0587

Cuadro 413 Resultados Escenario 8 Iacutendice de Youden ARIMA(011)x(100)12

En el Cuadro 413 se recogen los resultados al Escenario 8 escenario en el que se simula un mode-lo ARIMA(011)x(100)12 a partir de aplicarle la funcioacuten autoarima a una serie del IGE escogidaaleatoriamente Los resultados maacutes consistentes para los cuatro casos estaacuten formados por las combina-ciones de STR+iForest la misma combinacioacuten pero con la versioacuten robusta de la descomposicioacuten STRSTR(Rob)+iForest y la combinacioacuten STL+iForest y tambieacuten su versioacuten robusta STL (Rob)+iForest

44 CONCLUSIONES 41

44 Conclusiones

Los resultados de las simulaciones muestran dos realidades Por un lado nos encontramos con losresultados asociados a los escenarios 1 2 3 y 4 En estos escenarios prevalece el comportamientode TRAMO-SEATS por encima de todos los meacutetodos sin lugar a duda incluso tambieacuten podriacuteamosincluir a X-13ARIMA-SEATS aquiacute Cabe recordar que ambos parten de las mismas ideas pero esTRAMO-SEATS el que implanta una serie de mejoras a los meacutetodos de deteccioacuten de atiacutepicos en losque se inspiran ambos esto se trata en el Capiacutetulo 3 Por otra parte en los escenarios 5 6 7 y 8 ya noexiste tal hegemoniacutea de TRAMO-SEATS frente al resto de meacutetodos de hecho nos encontramos unosresultados bastante maacutes variados

Entre los meacutetodos de descomposicioacuten (STLTwitter y STR) el que presenta mejores resultados enlas simulaciones es STR En todos los escenarios presenta resultados que lo posicionan entre los tresprimeros Esto nos da una idea de que estamos ante un meacutetodo flexible capaz de entender la estructurasubyacente de series de tiempo muy diversas y adecuar una respuesta realista del mecanismo generadorSus buenos resultados son seguidos muy de cerca por la descomposicioacuten STL Este es un resultado queconcuerda con lo esperado debido a que siendo los dos meacutetodos similares plantean la misma idea perola ejecutan de distinta forma STR fue creado con el objetivo de suponer una mejora a STL

En lo que respecta a los meacutetodos de deteccioacuten GESD HDoutliers y iForest podemos extraerconclusiones acerca del comportamiento de cada uno

GESD es un buen meacutetodo de identificacioacuten de atiacutepicos Obtiene buenos resultados faacutecil deaplicar y es sencillo entender su mecanismo algo muy uacutetil para personas que quieran realizaro transmitir un estudio sin ahondar profundamente en materia Por otra parte sus buenosresultados en la deteccioacuten correcta de atiacutepicos se ven eclipsados por su tendencia a clasificaraltos valores de observaciones como anoacutemalas incorrectamente Si estamos realizando un anaacutelisisindividual esto podriacutea no ser un problema dado que se podriacutea intervenir modificando alguno desus paraacutemetros y conseguir mejores resultados Sin embargo en este trabajo buscamos un meacutetodoque nos sirva como filtro para analizar multitud de series con la menor intervencioacuten posible porlo que descartamos dicho mecanismo

HDoutliers supone una mejora a GESD Muestra mejor comportamiento en todas las combina-ciones con los meacutetodos de descomposicioacuten GESD solo consigue igualar o superar ligeramentesus resultados incurriendo en calificar una gran cantidad de observaciones como atiacutepicas lo queprovoca un incremento en el nuacutemero de observaciones calificadas erroacuteneamente esto se puede veren las tablas de exceso introducidas en el anexo Sin embargo pese a suponer una mejora noes el meacutetodo que presenta mejores resultados

Isolation Forest o iForest es el meacutetodo de deteccioacuten maacutes consistente a lo largo de los escenariosy para cada meacutetodo de descomposicioacuten Consigue un equilibrio entre buenos valores de deteccioacutencorrecta y bajas tasas de atiacutepicos sentildealados incorrectamente justo lo que se busca en un meacutetodode deteccioacuten de atiacutepicos La idea de aacuterbol bajo la que se desarrolla su mecanismo es faacutecil decomprender cada observacioacuten recibe una puntuacioacuten entre 0 y 1 de cuaacuten anoacutemala es esto permiteflexibilizar la decisioacuten del analista con el umbral en el que fija un valor como atiacutepico En Liu et

42 CAPIacuteTULO 4 ESTUDIO DE SIMULACIOacuteN

al (2009) califican como observaciones sospechosas de ser atiacutepicas aquellas cuya puntuacioacuten seamayor a 06 en este trabajo somos maacutes estrictos y fijamos un umbral superior 075 Ademaacutessu disentildeo le permite escalar a conjuntos de gran tamantildeo y dimensioacuten (big data) por lo que nosupone un freno ante situaciones futuras

Parece interesante tambieacuten recordar que los mecanismos que emplean los meacutetodos X-13ARIMA-SEATS y TRAMO-SEATS fueron analizados en estudios que planteaban simulaciones como las quese realizan en los escenarios 1 2 y 3 Ademaacutes tambieacuten cabe esperar un buen comportamiento que seespera de ellos en un modelo tan comuacuten como el de liacuteneas aacutereas (Escenario 4) Sin embargo cuando seaplican fuera de estos escenarios en modelos maacutes complejos solamente TRAMO-SEATS consigue noquedarse atraacutes

La simulacioacuten nos permite descartar la descomposicioacuten Twitter la cual estaacute quizaacutes maacutes enfocadaa datos de alta frecuencia datos que se producen en frecuencias de tiempo mucho maacutes pequentildeascomo minutos en vez de datos mensuales como los planteados en el estudio de simulacioacuten por lo querefleja peores resultados en escenarios de este aacutembito Tambieacuten nos permite descartar el meacutetodo X-13ARIMA-SEATS dado que supone una idea similar pero menos desarrollada en lo que a deteccioacuten deatiacutepicos se refiere a TRAMO-SEATS Finalmente el meacutetodo GESD tambieacuten es descartado debido asus resultados en los que muestra un comportamiento inferior frente a HDoutliers meacutetodo que suponeuna mejora a la idea sobre la que se basa GESD

Por lo que se concluye que los meacutetodos maacutes adecuados para la continuacioacuten del trabajo son elmodelo TRAMO-SEATS las descomposiciones de series temporales STL y STR y los meacutetodos dedeteccioacuten de atiacutepicos HDoutliers y iForest lo que conforman los siguientes mecanismos de deteccioacutende atiacutepicos

TRAMO-SEATS

STL+HDoutliers

STL+iForest

STR+HDoutliers

STR+iForest

Capiacutetulo 5

Aplicacioacuten a datos reales

En este capiacutetulo se aplican los meacutetodos que han mostrado unos mejores resultados en el estudiode simulacioacuten a las bases de datos del IGE comentadas en Capiacutetulo 1 Estos meacutetodos son TRAMO-SEATS STL+HDoutliers STL+iForest STR+HDoutliers y STL+iForest De este modo podemosanalizar el comportamiento de los meacutetodos con datos reales y extraer nuevas conclusiones que nosurgiacutean en el estudio de simulacioacuten Esto se debe a que si bien el estudio de simulacioacuten planteaba unadiversidad de escenarios amplia nunca seraacuten suficientes para recoger la multitud de naturalezas quecaracteriza a las series socio-econoacutemicas

El anaacutelisis de las datos del IGE se haraacute en dos niveles Un primer nivel mostraraacute el comportamientoglobal del conjunto mediante cuatro medidas el total de atiacutepicos detectados por cada meacutetodo en elconjunto el maacuteximo nuacutemero de atiacutepicos que detecta el meacutetodo en una serie del conjunto el nuacutemero deseries que no presentan atiacutepicos y la media de atiacutepicos detectados por cada meacutetodo El segundo nivelmostraraacute un anaacutelisis maacutes especiacutefico donde se analizaraacute el comportamiento de los meacutetodos respecto auna serie escogida del conjunto

Para finalizar el capiacutetulo introducimos una herramienta graacutefica disentildeada con el objetivo de eliminarla mayor incertidumbre posible que acompantildea a un campo como el de la deteccioacuten de valores atiacutepicosy analizamos su comportamiento

51 Anaacutelisis Series IGE

Los conjuntos utilizados para este trabajo han pasado primero por un proceso de filtrado en el quese han eliminado todas las series que presentan menos de 24 observaciones o maacutes de 24 ceros entre susobservaciones De este modo conseguimos quedarnos con series que recogen la informacioacuten suficientepara trabajar con ellas

A continuacioacuten se muestra el total de series perteneciente a cada conjunto

43

44 CAPIacuteTULO 5 APLICACIOacuteN A DATOS REALES

Conjunto 1 Conjunto 2 Conjunto 3 Conjunto 4 Conjunto 5 Conjunto 6 Conjunto 7

Pre-filtrado 108 72 55 42 162 165 55

Post-filtrado 84 60 50 42 90 165 47

Cuadro 51 Nuacutemero de series de tiempo perteneciente a cada conjunto antes y despueacutes del proceso defiltrado

Ademaacutes con el objetivo de capturar la influencia del Covid19 sobre las series de tiempo se procedea dividir el estudio en dos partes La primera analiza las series con datos hasta 2019 si el conjuntopresenta datos de frecuencia mensual esta fecha seraacute diciembre de 2019 por otra parte si el conjuntopresenta datos de frecuencia trimestral esta fecha seraacute el cuarto trimestre de 2019 La segunda analizalas series incluyendo el uacuteltimo dato actualizado el cual variacutea dependiendo del conjunto Los conjuntoscon datos trimestrales incluyen hasta el primer trimestre del 2020 mientras que los conjuntos condatos mensuales incluyen como uacuteltima actualizacioacuten fechas comprendidas entre abril y junio de 2020por lo que dicha fecha se concretaraacute en el momento que se analiza dicho conjunto Respecto a la fechade inicio de las series variacutea dependiendo del conjunto por lo que tambieacuten se especificaraacute en el iniciodel anaacutelisis del mismo

Para medir la influencia del Covid lo que se haraacute seraacute calcular la tasa de variacioacuten del total deatiacutepicos detectados entre ambos escenarios las series hasta 2019 y las series actualizadas al uacuteltimodato existente de 2020 la cual calcularemos como

Tasa de variacioacuten =

(Total atiacutepicos serie completaTotal atiacutepicos serie hasta 2019

minus 1

)lowast 100

Conjunto 1 (httpwwwigeeuigebdtigeapidatos3476)

Series de datos mensuales que contienen la informacioacuten de los viajeros noches y estancia media enestablecimientos hoteleros y de turismo rural en Espantildea Galicia y sus provincias Los datos de esteconjunto comienzan en enero de 1999 y finalizan en mayo de 2020

51 ANAacuteLISIS SERIES IGE 45

TRAMO -

SEATS

STL +

HDoutliers

STL +

iForest

STR +

HDoutliers

STR +

iForest

Atiacutepicos detectados 327 176 111 136 142

Max nuacutemero atip serie 17 11 3 8 4

Series con 0 atiacutepicos 13 20 11 23 3

Media de atiacutepicos detec 389 210 132 162 169

Cuadro 52 Resultados para el Conjunto 1 con datos hasta diciembre de 2019

Los resultados del Cuadro 52 se producen para un total de 18816 observaciones que muestra elconjunto con datos hasta diciembre de 2019 Ahora vamos a estudiar los resultados de forma quecada serie esteacute formada por el uacuteltimo dato actualizado y a realizar una comparacioacuten entre ambosescenarios En esta serie el uacuteltimo dato actualizado es mayo de 2020 lo que conforma un total de19172 observaciones

TRAMO -

SEATS

STL +

HDoutliers

STL +

iForest

STR +

HDoutliers

STR +

iForest

Atiacutepicos detectados 457 243 170 264 204

Max nuacutemero atip serie 17 11 4 15 5

Series con 0 atiacutepicos 1 6 1 10 3

Media de atiacutepicos detec 544 289 202 314 243

Cuadro 53 Resultados para el Conjunto 1 con datos hasta mayo de 2020

46 CAPIacuteTULO 5 APLICACIOacuteN A DATOS REALES

TRAMO -

SEATS

STL +

HDoutliers

STL +

iForest

STR +

HDoutliers

STR +

iForest

Hasta 2019 327 176 111 136 142

Hasta mayo 2020 457 243 170 264 204

Tasa de variacioacuten 3976 3807 5315 9412 4366

Cuadro 54 Total de atiacutepicos detectados por cada meacutetodo hasta diciembre de 2019 y abril 2020 y tasade variacioacuten que produce el efecto del Covid en el Conjunto 1

En el Cuadro 54 podemos ver como el efecto del Covid sobre el conjunto es muy notorio algoque cabriacutea esperar dado que estamos tratando series relacionadas con el Turismo en Galicia uno delos sectores maacutes afectados por la crisis del Covid El Cuadro 53 incorpora datos hasta mayo 2020lo que supone solamente un crecimiento del 189 del total de datos Sin embargo el crecimientoque experimenta el total de atiacutepicos detectado es muy superior en el caso maacutes suave representa uncrecimiento de maacutes del 38 llegando a suponer para alguacuten meacutetodo el 94

A continuacioacuten vamos a analizar un caso concreto de una serie del conjunto Hemos escogido laserie que hace referencia al nuacutemero de viajeros residentes en Espantildea hospedados en establecimientosde turismo rural en Espantildea El motivo de su eleccioacuten es que es la serie que provoca un mayor nuacutemerode atiacutepicos en el Cuadro 52 un total de 17 observaciones atiacutepicas sentildealadas por el meacutetodo TRAMO-SEATS

Figura 51 Serie de tiempo referente al nuacutemero de viajeros residentes en Espantildea hospedados en esta-blecimientos de turismo rural en Espantildea

La Figura 51 recoge la serie de tiempo referente al nuacutemero de viajeros residentes en Espantildea hos-

51 ANAacuteLISIS SERIES IGE 47

pedados en establecimientos de turismo rural en Espantildea La liacutenea vertical roja representa el comienzodel antildeo 2020 Observando dicha figura y centraacutendonos en la serie hasta 2019 nos encontramos con unaserie con mucha volatilidad debido al fuerte caraacutecter estacional que posee un sector como el turismoy con una ligera tendencia creciente que se estanca ligeramente en los antildeos posteriores a la crisis eco-noacutemica de 2011 para despueacutes continuar en aumento Sin embargo no parece que se encuentren valoresatiacutepicos en dicha serie La combinacioacuten STR+HDoutliers tambieacuten sentildeala un elevado nivel de atiacutepicosseis en total que se reduce con STR+iForest a tres posibles atiacutepicos Finalmente STL+HDoutliers ySTL+iForest coinciden en sentildealar un atiacutepico agosto de 2019

Si ahora observamos los resultados para la serie completa podemos comprobar que los resultadoscambian bruscamente con la introduccioacuten de cuatro nuevos datos enero febrero marzo y abril de2020 Ahora el meacutetodo TRAMO-SEATS sentildeala cuatro fechas de las que solo dos coinciden con lassentildealadas anteriormente Las combinaciones STL+HDoutliers y STL+iForest mantienen como atiacutepicoagosto de 2019 y antildeaden febrero marzo y abril 2020 y marzo y abril 2020 respectivamente Y ahorason las combinaciones STR+HDoutliers y STR+iForest las que sentildealan uacutenicamente agosto de 2019

Es interesante observar el comportamiento de los cinco meacutetodos en esta serie TRAMO-SEATS ylas combinaciones basadas en el proceso de descomposicioacuten STR soliacutean ser las que mejores resultadospresentaban sin embargo en este ejemplo son los meacutetodos basados en la descomposicioacuten STL que sibien presentaron buenos resultados en la simulacioacuten tendiacutean a ir por detraacutes de TRAMO-SEATS y losmeacutetodos basados en la descomposicioacuten STR los que presenta un comportamiento maacutes acorde con loque sucede en la serie De hecho son los meacutetodos basados en la descomposicioacuten STL los uacutenicos quesentildealan como atiacutepica la observacioacuten de abril 2020 la cual es la uacutenica que tiene un valor de 0 y esclaramente atiacutepica

La Figura 52 representa los atiacutepicos detectados por el meacutetodo STL+HDoutliers el cual es el meacutetodoque mejor comportamiento muestra para esta serie

Figura 52 Serie de tiempo referente al nuacutemero de viajeros residentes en Espantildea hospedados en esta-blecimientos de turismo rural en Espantildea analizada por el meacutetodo STL+HDoutliers

En la Figura 53 se muestran los resultados para la misma serie por el resto de meacutetodos utilizadosSTL+iForest STR+HDoutliers STR+iForest y TRAMO-SEATS

48 CAPIacuteTULO 5 APLICACIOacuteN A DATOS REALES

Figura 53 Serie de tiempo referente al nuacutemero de viajeros residentes en Espantildea hospedados en esta-blecimientos de turismo rural en Espantildea analizada por STL+iForest STR+HDoutliers STR+iForesty TRAMO-SEATS

Conjunto 2 (httpwwwigeeuigebdtigeapidatos6356)

Series de datos trimestrales acerca de la poblacioacuten de 16 y maacutes antildeos desglosados por sexo gruposde edad y relacioacuten con la actividad econoacutemica en Galicia Los datos de este conjunto comienzan en elprimer trimestre de 1996 y finalizan en el primer trimestre de 2020

TRAMO -

SEATS

STL +

HDoutliers

STL +

iForest

STR +

HDoutliers

STR +

iForest

Atiacutepicos detectados 56 70 61 62 66

Max nuacutemero atip serie 5 6 3 5 3

Series con 0 atiacutepicos 28 29 18 26 14

Media de atiacutepicos detec 093 117 102 103 110

Cuadro 55 Resultados para el Conjunto 2 con datos hasta el cuarto trimestre de 2019

Los resultados del Cuadro 55 se producen para un total de 5760 observaciones que muestra elconjunto con datos hasta el cuarto trimestre de 2019 Ahora vamos a estudiar los resultados de formaque cada serie esteacute formada por el uacuteltimo dato actualizado y a comparar ambos escenarios En estaserie el uacuteltimo dato actualizado es el primer trimestre de 2020 lo que conforma un total de 5820

51 ANAacuteLISIS SERIES IGE 49

observaciones

TRAMO -

SEATS

STL +

HDoutliers

STL +

iForest

STR +

HDoutliers

STR +

iForest

Atiacutepicos detectados 54 107 62 68 66

Max nuacutemero atip serie 5 45 3 4 3

Series con 0 atiacutepicos 28 30 15 20 12

Media de atiacutepicos detec 090 178 103 113 110

Cuadro 56 Resultados para el Conjunto 2 con datos hasta el primer trimestre de 2020

TRAMO -

SEATS

STL +

HDoutliers

STL +

iForest

STR +

HDoutliers

STR +

iForest

Hasta 2019 56 70 61 62 66

Hasta mayo 2020 54 107 62 68 66

Tasa de variacioacuten -357 5286 164 968 000

Cuadro 57 Total de atiacutepicos detectados por cada meacutetodo hasta el cuarto trimestre de 2019 y primertrimestre de 2020 y tasa de variacioacuten que produce el efecto del Covid en el Conjunto 2

En el Cuadro 57 podemos ver como el efecto del Covid sobre el conjunto es mucho menor que enlos datos del Conjunto 1 Esto se debe a la naturaleza trimestral de los datos por lo que situando lainfluencia del Covid en el contexto gallego a finales de marzo de 2020 su impacto es maacutes suave sobrelos datos Seriacutea interesante en el futuro ver que sucede con este conjunto una vez se antildeadan los datosdel segundo trimestre

A continuacioacuten vamos a analizar un caso concreto de una serie del conjunto Hemos escogido laserie que recoge los datos de hombres mayores de 55 antildeos y que forman parte de la poblacioacuten ocupada

En la Figura 54 se muestra la serie de tiempo referente a los hombres mayores de 55 antildeos queforma parte de la poblacioacuten ocupada La recta vertical roja diferencia los dos escenarios que estudiamosla serie hasta el cuarto trimestre de 2019 y la serie hasta el primer trimestre de 2020-

50 CAPIacuteTULO 5 APLICACIOacuteN A DATOS REALES

Figura 54 Serie de tiempo referente hombres mayores de 55 antildeos y que forman parte de la poblacioacutenocupada

El uacutenico dato que las diferencia el primer trimestre de 2020 sigue con lo que cabriacutea esperar Y losmeacutetodos de deteccioacuten de atiacutepicos concuerdan con lo que observamos no existen atiacutepicos ni antes nidespueacutes excepto en un caso Ahora son los meacutetodos basados en el proceso de descomposicioacuten STL losque sentildealan una fecha que parece discrepar con la realidad

En la serie con valores hasta 2019 son ambas combinaciones STL+HDoutliers y STL+iForestlas que sentildealan como posible atiacutepico julio 2013 Si nos trasladamos a la serie completa uacutenicamenteSTL+iForest sigue manteniendo ese posible atiacutepico mientras que STL+HDoutliers lo corrige Esta si-tuacioacuten en las que solo un meacutetodo sentildeala una fecha nos lleva a dudar de que realmente esta observacioacutensea atiacutepica

A continuacioacuten mostramos la serie referente a los hombres mayores de 55 antildeos y que forman partede la poblacioacuten ocupada analizada por el uacutenico meacutetodo que detecta atiacutepicos para la serie completaSTL+iForest

Figura 55 Serie de tiempo referente hombres mayores de 55 antildeos y que forman parte de la poblacioacutenocupada analizada por STL+iForest

51 ANAacuteLISIS SERIES IGE 51

Conjunto 3 (httpwwwigeeuigebdtigeapidatos308)

Series de datos mensuales acerca de contratos registrados seguacuten la modalidad del contrato Losdatos de este conjunto comienzan en enero de 1999 y finalizan en mayo de 2020

TRAMO -

SEATS

STL +

HDoutliers

STL +

iForest

STR +

HDoutliers

STR +

iForest

Atiacutepicos detectados 193 126 98 146 98

Max nuacutemero atip serie 9 14 5 10 4

Series con 0 atiacutepicos 5 9 1 7 2

Media de atiacutepicos detec 386 252 196 292 196

Cuadro 58 Resultados para el Conjunto 3 con datos hasta diciembre 2019

El Cuadro 58 recoge los resultados que se producen para un total de 12600 observaciones quemuestra el Conjunto 3 con datos hasta diciembre de 2019 Ahora vamos a estudiar los resultados deforma que cada serie esteacute conformada por el uacuteltimo dato actualizado y a realizar una comparativaentre ambas En esta serie el uacuteltimo dato actualizado es mayo de 2020 lo que conforma un total de12850 observaciones

TRAMO -

SEATS

STL +

HDoutliers

STL +

iForest

STR +

HDoutliers

STR +

iForest

Atiacutepicos detectados 242 144 107 153 121

Max nuacutemero atip serie 13 8 5 10 4

Series con 0 atiacutepicos 1 6 0 7 1

Media de atiacutepicos detec 484 288 214 306 242

Cuadro 59 Resultados para el Conjunto 3 con datos hasta mayo de 2020

52 CAPIacuteTULO 5 APLICACIOacuteN A DATOS REALES

TRAMO -

SEATS

STL +

HDoutliers

STL +

iForest

STR +

HDoutliers

STR +

iForest

Hasta 2019 193 126 98 146 98

Hasta mayo 2020 242 144 107 153 121

Tasa de variacioacuten 2539 1429 918 479 2350

Cuadro 510 Total de atiacutepicos detectados por cada meacutetodo hasta diciembre de 2019 y mayo de 2020y tasa de variacioacuten que produce el efecto del Covid en el Conjunto 3

En el Cuadro 510 podemos ver como el efecto del Covid sobre el conjunto es similar al que sepresentaba en los datos del Conjunto 1 Este conjunto vuelve a recoger datos de caraacutecter mensual porlo que la influencia de los meses de 2020 vuelven a reflejar un gran peso en los resultados Sin embargolas tasas de variacioacuten no son tan grandes como las que se produciacutean en el Conjunto 1 Esto podriacuteadeberse a que mientras el sector turiacutestico se redujo a cero en el mercado laboral se llevaron a cabopoliacuteticas contra la destruccioacuten masiva de empleo Estos resultados lo que hacen es aflorar que se haproducido un efecto en el conjunto de datos y que podriacutea ser de intereacutes para despueacutes desarrollar unestudio en profundidad

A continuacioacuten vamos a analizar la serie referente a las contrataciones eventuales por circunstanciasde la produccioacuten para la provincia de Ourense diferenciando a traveacutes de una recta roja vertical los dosescenarios analizados los datos hasta diciembre 2019 y los datos hasta mayo de 2020

Figura 56 Serie de tiempo referente a las contrataciones eventuales por circunstancias de la produccioacutenpara la provincia de Ourense

El meacutetodo TRAMO-SEATS sentildeala tres fechas atiacutepicas en ambas ocasiones en la serie hasta 2019

51 ANAacuteLISIS SERIES IGE 53

y hasta mayo de 2020 sin embargo ninguna de ellas es comuacuten Probablemente esto se deba al compor-tamiento que podemos apreciar en la Figura 56 donde se observa la caiacuteda que produce en la serie losmeses de marzo abril y mayo de 2020 La introduccioacuten de estos datos reajusta las prioridades sobrequeacute es un atiacutepico en la serie para TRAMO-SEATS de forma que pasa de identificar octubre 2001abril 2002 y enero 2012 a sentildealar como fechas atiacutepicas octubre 2007 y marzo y abril de 2020

Este suceso tambieacuten se presenta en el resto de meacutetodos STL+HDoutliers pasa de no identificarninguacuten dato en la serie hasta 2019 a sentildealar abril del 2002 y febrero abril y mayo de 2020 Otro meacutetodoque experimenta esta situacioacuten es STR+iForest que pasa de no calificar ninguna observacioacuten atiacutepicaa sentildealar abril y mayo en 2019 y en 2020 STL+iForest sentildeala dos y tres atiacutepicos en cada caso en laserie hasta 2019 sentildeala el mes de julio en 2018 y 2019 mientras que en la serie completa sentildeala losmeses de febrero abril y mayo de 2020 Por uacuteltimo STR+HDoutliers sentildeala como atiacutepico abril del2002 en la serie acortada observacioacuten que ya no es detectada al incluir la serie completa donde sentildealalos meses de abril y mayo para los antildeos 2019 y 2020 igual aquiacute que STR+iForest

Estos resultados conducen hacia un punto comuacuten mientras que en la serie recortada en 2019 noparece haber mucho acuerdo sobre los atiacutepicos o si existen atiacutepicos en la serie completa todos losmeacutetodos se ponen de acuerdo en que las situaciones de abril y mayo de 2020 son anoacutemalas Estosresultados se muestran en la Figura 57

Figura 57 Serie de tiempo referente a las contrataciones eventuales por circunstancias de la produccioacutenpara la provincia de Ourense sentildealizando las anomaliacuteas comunes a los cinco meacutetodos

Conjunto 4 (httpwwwigeeuigebdtigeapidatos9048)

Series de datos mensuales referidas al Iacutendice de produccioacuten industrial general y por destino eco-noacutemico de los bienes en Espantildea y Galicia Los distintos destinos econoacutemico son bienes de consumoduraderos y no duraderos bienes de equipo bienes intermedios y energiacutea Los datos del conjuntocomienzan en enero de 2002 y finalizan en mayo de 2020

54 CAPIacuteTULO 5 APLICACIOacuteN A DATOS REALES

TRAMO -

SEATS

STL +

HDoutliers

STL +

iForest

STR +

HDoutliers

STR +

iForest

Atiacutepicos detectados 288 129 73 212 64

Max nuacutemero atip serie 24 11 3 102 3

Series con 0 atiacutepicos 9 5 3 6 2

Media de atiacutepicos detec 686 307 174 505 152

Cuadro 511 Resultados para el Conjunto 4 con datos hasta diciembre de 2019

El Cuadro 511 recoge los resultados que se producen para un total de 8904 observaciones quemuestra el conjunto con datos hasta diciembre de 2019 Ahora vamos a estudiar los resultados deforma que cada serie esteacute conformada por el uacuteltimo dato actualizado y a analizar los cambios que seproducen entre ambos escenarios En este conjunto el uacuteltimo dato actualizado es mayo de 2020 lo queconforma un total de 9114 observaciones

TRAMO -

SEATS

STL +

HDoutliers

STL +

iForest

STR +

HDoutliers

STR +

iForest

Atiacutepicos detectados 282 92 78 144 79

Max nuacutemero atip serie 24 5 3 50 3

Series con 0 atiacutepicos 4 5 1 2 1

Media de atiacutepicos detec 672 219 186 343 189

Cuadro 512 Resultados para el Conjunto 4 con datos hasta mayo de 2020

51 ANAacuteLISIS SERIES IGE 55

TRAMO -

SEATS

STL +

HDoutliers

STL +

iForest

STR +

HDoutliers

STR +

iForest

Hasta 2019 288 129 73 212 64

Hasta mayo 2020 282 92 78 144 79

Tasa de variacioacuten -208 -2868 685 -3208 2344

Cuadro 513 Total de atiacutepicos detectados por cada meacutetodo hasta diciembre de 2019 y mayo de 2020y tasa de variacioacuten que produce el efecto del Covid en el Conjunto 4

En el Cuadro 513 podemos ver el efecto del Covid sobre el conjunto sin embargo en esta ocasioacuten nopodemos ver una direccioacuten clara Los meacutetodos difieren y mientras unos meacutetodos muestran crecimientosen el nuacutemero de atiacutepicos detectados para el conjunto otros decrecen y muestran ahora menos atiacutepicosSin embargo esto no implica que el efecto del Covid sobre el conjunto sea menor que por ejemplo en elConjunto 3 Las variaciones entre las series las que incluyen datos de 2020 y las que no son notoriaslo cual implica que el efecto existe

A continuacioacuten vamos a analizar la serie referente a la produccioacuten industrial destinada a bienesintermedios de Galicia diferenciando a traveacutes de una recta vertical roja los dos escenarios los datoshasta diciembre de 2019 y la serie hasta mayo 2020

Figura 58 Serie de tiempo referente a la produccioacuten industrial destinada a bienes intermedios deGalicia

El comportamiento que muestran los meacutetodos con esta serie nos ayuda a plasmar una idea quedesarrollaremos maacutes adelante en el siguiente apartado Si observamos los datos para la serie recortada

56 CAPIacuteTULO 5 APLICACIOacuteN A DATOS REALES

en diciembre de 2019 obtenemos que salvo TRAMO-SEATS que no detecta ninguacuten atiacutepico los otroscuatro meacutetodos concuerdan en dos fechas marzo y julio de 2008 Por otra parte en la serie completacinco meacutetodos sentildealan abril 2020 y cuatro sentildealan marzo de 2008 Estos dos atiacutepicos abril de 2020 ymarzo de 2008 los representamos en la Figura 59

Analizando la Figura 59 el atiacutepico sentildealado en marzo de 2008 parece dudoso sin embargo siprofundizamos en los datos observamos que esta fecha rompe una clara tendencia creciente respecto alos meses de marzo de antildeos anteriores

Este suceso en el que varios meacutetodos coinciden en identificar una fecha proveen al analista de unaseguridad a la hora de calificar una observacioacuten como anoacutemala Este concepto de seguridad eliminandola incertidumbre asociada al campo de la deteccioacuten de valores atiacutepicos seraacute desarrollado maacutes adelante

Figura 59 Serie de tiempo referente a la produccioacuten industrial destinada a bienes intermedios deGalicia con los dos atiacutepicos

Conjunto 5 (httpwwwigeeuigebdtigeapidatos4052)

Series de datos trimestrales de nuacutemero de transacciones inmobiliarias por reacutegimen (Libre Protegiday Total de viviendas) y tipo de vivienda (Nuevas segunda mano y total de viviendas) Las medidas enlas que se toman los datos son por nuacutemero de viviendas su valor total (en miles de euros) o su valormedio (en euros) Los datos se presentan a nivel Espantildea Galicia y las provincias gallegas Los datosse recogen entre el primer trimestre de 2004 hasta el primer trimestre de 2020

51 ANAacuteLISIS SERIES IGE 57

TRAMO -

SEATS

STL +

HDoutliers

STL +

iForest

STR +

HDoutliers

STR +

iForest

Atiacutepicos detectados 184 122 105 94 97

Max nuacutemero atip serie 7 8 2 6 2

Series con 0 atiacutepicos 13 41 12 47 11

Media de atiacutepicos detec 204 136 117 104 107

Cuadro 514 Resultados para el Conjunto 5 con datos hasta el cuarto trimestre de 2019

Los resultados que recoge el Cuadro 514 se producen para un total de 5760 observaciones que mues-tra el Conjunto 5 con datos hasta el cuarto trimestre de 2019 Ahora vamos a estudiar los resultadosde forma que cada serie esteacute conformada por el uacuteltimo dato actualizado y a realizar una comparacioacutenentre ambos escenarios En esta serie el uacuteltimo dato actualizado es el primer trimestre de 2020 lo queconforma un total de 5850 observaciones

TRAMO -

SEATS

STL +

HDoutliers

STL +

iForest

STR +

HDoutliers

STR +

iForest

Atiacutepicos detectados 184 106 108 90 93

Max nuacutemero atip serie 9 8 2 5 3

Series con 0 atiacutepicos 12 42 11 43 13

Media de atiacutepicos detec 204 118 120 100 103

Cuadro 515 Resultados para el Conjunto 5 con datos hasta el primer trimestre de 2020

58 CAPIacuteTULO 5 APLICACIOacuteN A DATOS REALES

TRAMO -

SEATS

STL +

HDoutliers

STL +

iForest

STR +

HDoutliers

STR +

iForest

Hasta 2019 184 122 105 94 97

Hasta mayo 2020 184 106 108 90 93

Tasa de variacioacuten 000 -1311 286 -426 -412

Cuadro 516 Total de atiacutepicos detectados por cada meacutetodo hasta cuarto trimestre de 2019 y primertrimestre de 2020 y tasa de variacioacuten que produce el efecto del Covid en el Conjunto 5

En el Cuadro 516 podemos ver que el efecto del Covid sobre las series trimestrales vuelve a sermuy pequentildeo similar a las conclusiones obtenidas para el Conjunto 2 Si comparamos las tablas 514y 515 podemos similitudes en los resultados para las diferentes medidas que se toman Por ejemplo sinos fijamos en la fila que mide el nuacutemero de series que son identificadas con cero atiacutepicos los meacutetodosapenas difieren en sus resultados Lo mismo sucede con la media de atiacutepicos detectados en cada serieEstos resultados sostienen la idea de que el Covid repercutioacute en menor medida en las series trimestralesen el primer trimestre del antildeo y es de intereacutes realizar este mismo estudio una vez se incorporen losdatos del segundo trimestre

A continuacioacuten vamos a analizar la serie referente al nuacutemero de viviendas transmitidas de segundamano en reacutegimen libre para la provincia de Lugo diferenciando los dos escenarios analizados a traveacutesde una recta vertical roja los datos hasta el cuarto trimestre de 2019 y los datos incluyendo el primertrimestre de 2020

Figura 510 Serie de tiempo referente al nuacutemero de viviendas transmitidas de segunda mano en reacutegimenlibre para la provincia de Lugo

51 ANAacuteLISIS SERIES IGE 59

Observando la Figura 510 parece que el dato incluido referente al primer trimestre de 2020 su-pone una caiacuteda una situacioacuten anoacutemala sin embargo si observamos la evolucioacuten histoacuterica de la seriepodemos comprobar que solamente en dos ocasiones se han mostrado valores superiores en este pri-mer trimestre Para ambos escenarios la serie hasta 2019 y la serie completa uacutenicamente un meacutetododetecta atiacutepicos TRAMO-SEATS que sentildeala en ambas ocasiones octubre de 2010 y 2012 El resto demeacutetodos concuerdan en que la serie no presenta en ninguacuten caso ninguna situacioacuten anoacutemala

La Figura 511 muestra las dos fechas que sentildeala como atiacutepicas el meacutetodo TRAMO-SEATS cuartotrimestre de 2010 y 2012 que si bien reflejan un pico en los espacios temporales en los que se producenno parecen ser atiacutepicas respecto a la serie completa

Figura 511 Serie de tiempo referente al nuacutemero de viviendas transmitidas de segunda mano en reacutegimenlibre para la provincia de Lugo

Conjunto 6 (httpwwwigeeuigebdtigeapidatos1243)

Series de datos mensuales referentes a las bajas de demandas de empleo seguacuten geacutenero y duracioacutende la demanda en Galicia y sus provincias Los datos de la serie se recogen desde enero de 2009 hastajunio de 2020

60 CAPIacuteTULO 5 APLICACIOacuteN A DATOS REALES

TRAMO -

SEATS

STL +

HDoutliers

STL +

iForest

STR +

HDoutliers

STR +

iForest

Atiacutepicos detectados 154 271 228 288 228

Max nuacutemero atip serie 7 11 4 7 3

Series con 0 atiacutepicos 85 44 16 40 12

Media de atiacutepicos detec 093 164 138 174 138

Cuadro 517 Resultados para el Conjunto 6 con datos hasta diciembre de 2019

Los resultados del Cuadro 517 se producen para un total de 21780 observaciones que muestra elconjunto con datos hasta diciembre de 2019 Ahora vamos a estudiar los resultados de forma que cadaserie esteacute conformada por el uacuteltimo dato actualizado y a comparar ambas situaciones En esta serie eluacuteltimo dato actualizado es junio de 2020 lo que conforma un total de 22770 observaciones

TRAMO -

SEATS

STL +

HDoutliers

STL +

iForest

STR +

HDoutliers

STR +

iForest

Atiacutepicos detectados 484 502 336 504 334

Max nuacutemero atip serie 9 12 4 11 4

Series con 0 atiacutepicos 1 10 3 15 5

Media de atiacutepicos detec 293 304 204 305 202

Cuadro 518 Resultados para el Conjunto 6 con datos hasta junio de 2020

51 ANAacuteLISIS SERIES IGE 61

TRAMO -

SEATS

STL +

HDoutliers

STL +

iForest

STR +

HDoutliers

STR +

iForest

Hasta 2019 154 271 228 288 228

Hasta mayo 2020 484 502 336 504 334

Tasa de variacioacuten 21429 8524 4737 7500 4649

Cuadro 519 Total de atiacutepicos detectados por cada meacutetodo hasta diciembre de 2019 y junio de 2020 ytasa de variacioacuten que produce el efecto del Covid en el Conjunto 6

En el Cuadro 519 podemos ver el efecto que supone la primera mitad del antildeo 2020 en la aparicioacutende valores atiacutepicos en este conjunto El incremento en el nuacutemero de datos a analizar no llega a serdel 5 pero esa miacutenima cantidad de datos nuevos dispara las fechas anoacutemalas que se suceden en lasseries En el Cuadro 518 se puede observar que apenas existen series sin atiacutepicos independientementedel meacutetodo que seleccionemos algo todaviacutea maacutes sorprendente si recordamos que este es el conjuntoque posee maacutes series un total de 165 series

A continuacioacuten analizamos un caso concreto utilizando la serie referente a las bajas de la demandade empleo en mujeres con una duracioacuten de la demanda entre 12 y 18 meses en Ourense La rectavertical roja indica el inicio del antildeo 2020 sirviendo asiacute para indicar la diferencia entre los dos escenariosanalizados en los Cuadros 517 y 518

Figura 512 Serie de tiempo referente a las bajas de la demanda de empleo en mujeres con una duracioacutende la demanda entre 12 y 18 meses en Ourense

Esta serie es de intereacutes por diversos motivos El primero es que posee claros atiacutepicos en ambos

62 CAPIacuteTULO 5 APLICACIOacuteN A DATOS REALES

escenarios En la serie con duracioacuten hasta 2019 se puede observar un valor cercano al inicio de 2014con claro aspecto de ser atiacutepico La serie con todos los datos muestra el atiacutepico anterior pero tambieacutennuevos valores con claro comportamiento discordante al resto de la serie

Para la serie recortada cinco meacutetodos coinciden en sus resultados julio de 2013 es atiacutepico uacutenica-mente TRAMO-SEATS difiere el cual no sentildeala ninguacuten atiacutepico en la serie Si ahora nos trasladamosa la serie completa TRAMO-SEATS sentildeala marzo de 2020 como atiacutepico mientras que el resto demeacutetodos vuelven a concordar sentildealando julio de 2013 y febrero de 2020 En la Figura 513 se muestrala serie sentildealizando dichos atiacutepicos julio de 2013 y febrero y marzo de 2020

Figura 513 Serie de tiempo referente a las bajas de la demanda de empleo en mujeres con una duracioacutende la demanda entre 12 y 18 meses en Ourense con los atiacutepicos identificados

Si observamos los datos de la serie podemos calificar todas estas fechas como atiacutepicas julio 2013febrero 2020 y marzo 2020 Sin embargo ninguacuten meacutetodo ha calificado los meses de abril mayo yjunio de 2020 siendo claramente atiacutepicos Estamos frente a una situacioacuten completamente inusual unasituacioacuten que se produce en multitud de series del IGE y es la secuencia de varias observacionesconsecutivas muy atiacutepicas que ejercen un gran peso en la serie

Este gran peso provoca que los meacutetodos no consigan analizar correctamente este escenario Losmodelos de series temporales como TRAMO-SEATS interpretan que se estaacute produciendo un cambiode nivel permanente en la serie mencionado en el Capiacutetulo 3 como Level Shift (LS) y modelizan laserie como tal Los procesos de descomposicioacuten de series temporales utilizados STL y STR entiendenlo que estaacute sucediendo como un cambio en la tendencia es decir en su proceso de extraccioacuten de laestacionalidad y la tendencia estiman una tendencia decreciente en la serie Y por uacuteltimo los meacutetodosde deteccioacuten de valores atiacutepicos HDoutliers y iForest sufren un grave problema de enmascaramientoLa idea del mecanismo de iForest reside en buscar valores aislados mientras que la de HDoutliers sefundamenta en buscar espacios entre los valores ordenados estas dos ideas son consistentes con la ideade la buacutesqueda de atiacutepicos sin embargo ven disminuida su eficiencia ante una situacioacuten tan atiacutepica quepermanece durante varias observaciones consecutivas llevando a provocar que observaciones atiacutepicaspuedan pasar desapercibidas para el mecanismo

51 ANAacuteLISIS SERIES IGE 63

Conjunto 7 (httpwwwigeeuigebdtigeapidatos4885)

Series de datos mensuales referentes a las afiliaciones a la seguridad social el uacuteltimo diacutea de mes enGalicia y sus provincias por regiacutemenes Los datos comienzan en enero de 1990 y finalizan en mayo de2020

TRAMO -

SEATS

STL +

HDoutliers

STL +

iForest

STR +

HDoutliers

STR +

iForest

Atiacutepicos detectados 288 96 118 136 121

Max nuacutemero atip serie 24 8 5 10 5

Series con 0 atiacutepicos 4 10 0 4 0

Media de atiacutepicos detec 613 204 251 289 257

Cuadro 520 Resultados para el Conjunto 7 con datos hasta diciembre de 2019

El Cuadro 520 muestra los resultado que se producen para un total de 16920 observaciones quemuestra el conjunto con datos hasta diciembre de 2019 Ahora vamos a estudiar los resultados de formaque cada serie esteacute conformada por el uacuteltimo dato actualizado y comparar ambas situaciones En estaserie el uacuteltimo dato actualizado es junio de 2020 lo que conforma un total de 17155 observaciones

TRAMO -

SEATS

STL +

HDoutliers

STL +

iForest

STR +

HDoutliers

STR +

iForest

Atiacutepicos detectados 333 179 128 118 136

Max nuacutemero atip serie 24 14 5 11 6

Series con 0 atiacutepicos 0 6 0 3 0

Media de atiacutepicos detec 709 380 272 251 289

Cuadro 521 Resultados para el Conjunto 7 con datos hasta mayo de 2020

64 CAPIacuteTULO 5 APLICACIOacuteN A DATOS REALES

TRAMO -

SEATS

STL +

HDoutliers

STL +

iForest

STR +

HDoutliers

STR +

iForest

Hasta 2019 288 96 118 136 121

Hasta mayo 2020 333 179 128 118 136

Tasa de variacioacuten 1563 8646 847 -1324 1240

Cuadro 522 Total de atiacutepicos detectados por cada meacutetodo hasta diciembre de 2019 y mayo de 2020y tasa de variacioacuten que produce el efecto del Covid en el Conjunto 7

En el Cuadro 522 podemos ver que el efecto que supone la primera mitad del antildeo 2020 en laaparicioacuten de valores atiacutepicos en este conjunto La variacioacuten que supone en el nuacutemero de valores detec-tados como anoacutemalos es considerable todaviacutea maacutes si lo comparamos con la variacioacuten de nuevos datosintroducidos en el anaacutelisis los cuales han aumentado solamente un 138 De este modo podemosafirmar que la presencia del Covid ha provocado un gran impacto en el incremento del nuacutemero deobservaciones atiacutepicas de los conjuntos que presentan datos de frecuencia mensual

A continuacioacuten analizamos un caso concreto utilizando la serie referente a las afiliaciones a laseguridad social en reacutegimen mar para la provincia de Lugo La Figura 514 muestra la representacioacutengraacutefica de dicha serie indicando mediante una recta vertical roja el inicio del 2020

Figura 514 Serie de tiempo referente a las afiliaciones a la seguridad social en reacutegimen mar para laprovincia de Lugo

El motivo de seleccionar esta serie reside en una idea que se va desarrollando a lo largo de todoeste apartado y que da lugar a la herramienta que se introduce en el siguiente Las series socio-econoacutemicas son complejas dado que se ven afectadas por multitud de factores externos que condicionansu desarrollo Este caraacutecter uacutenico de cada serie maacutes los resultados obtenidos a lo largo del trabajo

51 ANAacuteLISIS SERIES IGE 65

nos conduce a la conclusioacuten de que no existe un meacutetodo de deteccioacuten de atiacutepicos con una capacidadde clasificacioacuten superior al resto

Los resultados para esta serie son diversos Por ejemplo la combinacioacuten STR+HDoutliers muestrahasta ocho atiacutepicos para la serie delimitada en el antildeo 2019 sin embargo al introducir la serie completaesta cifra se reduce solamente a dos Sucede lo contrario con la combinacioacuten STL+HDoutliers quesi bien en la serie recortada califica dos observaciones en la completa sentildeala un total de siete Porsu parte TRAMO-SEATS identifica un total de siete atiacutepicos Sin embargo todos los meacutetodos dedeteccioacuten sentildealan dos fechas como atiacutepicas en los dos casos agosto de 2006 y junio de 2008 como serepresenta en la Figura 515 Esto dota al estudio de confianza si todos los mecanismos sospechan dedos fechas deberaacute haber un motivo de peso algo ha sucedido en la serie para que todos concuerdenEsta idea dio lugar al desarrollo de la herramienta que se introduce en el siguiente apartado

Figura 515 Serie de tiempo referente a las afiliaciones a la seguridad social en reacutegimen mar parala provincia de Lugo identificando los atiacutepicos sentildealados de forma comuacuten por los cinco meacutetodos dedeteccioacuten

Por uacuteltimo el Cuadro 523 recoge el total de atiacutepicos detectados por cada meacutetodo en los dosescenarios con los que se ha trabajado en este capiacutetulo El primer escenario incluye datos hasta lauacuteltima fecha de 2019 si las series son mensuales este dato es el correspondiente a diciembre de 2019si son series trimestrales el uacuteltimo dato seraacute el cuarto trimestre de 2019 En el Cuadro 523 se recogede modo general para todos los conjuntos bajo el teacutermino ldquodatos hasta 2019rdquo El segundo escenariorecoge los datos hasta su uacuteltima actualizacioacuten aquiacute existe un mayor abanico de fechas como vimos alo largo de todo este capiacutetulo Los conjuntos con datos de frecuencia trimestral presentan su uacuteltimodato en el primer trimestre de 2020 por su parte los conjuntos de datos mensuales variacutean su uacuteltimaactualizacioacuten entre los meses de abril mayo o junio de 2020 En el Cuadro 523 se recoge de modogeneral para todos ellos bajo el teacutermino ldquodatos hasta 2020rdquo

66 CAPIacuteTULO 5 APLICACIOacuteN A DATOS REALES

TRAMO -SEATS

STL +HDoutliers

STL +iForest

STR +HDoutliers

STR +iForest

Tiempo de ejecucioacuten (2019) 1332 24 1782 7234 8805Tiempo de ejecucioacuten (2020) 1503 21 2042 8043 10764Atiacutepicos detectados (2019) 1490 990 794 1074 816Atiacutepicos detectados (2020) 2036 1373 989 1341 1033

Tasa de variacioacuten 3664 3869 2456 2486 2659

Cuadro 523 Tiempo de ejecucioacuten (en segundos) y total de atiacutepicos detectados por cada meacutetodo hastael uacuteltimo dato de 2019 y hasta uacuteltima actualizacioacuten de 2020 y tasa de variacioacuten que produce el efectodel Covid en los siete conjuntos de datos

El Cuadro 523 nos permite concluir que el efecto global del Covid ha supuesto un incremento enel nuacutemero de observaciones atiacutepicas puesto que todos los meacutetodos experimentan una tasa de variacioacutenpositiva sobre sus cifras de valores atiacutepicos detectados Las cifras de tasas de variacioacuten que se muestranen el Cuadro 523 sorprenden todaviacutea maacutes si analizamos el incremento en el nuacutemero de observacionesanalizadas El escenario que analiza el conjunto de datos hasta 2019 presentan un total de 90540observaciones mientras que el escenario que incluye hasta el uacuteltimo dato actualizado recoge un totalde 92731 Es decir el nuacutemero total de datos analizados se ha incrementado en poco maacutes del 2 sinembargo la tasa de variacioacuten maacutes pequentildea muestra un incremento del maacutes del 24 del nuacutemero deatiacutepicos que se presentan en el conjunto de datos

Otra medida que incluye el Cuadro 523 es el tiempo que tarda en analizar los siete conjuntosde datos cada meacutetodo recogida bajo el nombre de ldquotiempo de ejecucioacutenrdquo A traveacutes de ella podemosobservar que la diferencia entre el tiempo de ejecucioacuten es pequentildea pero existe por lo que muestra quela presencia de atiacutepicos dificulta la modelizacioacuten de la series temporales Tambieacuten podemos comprobarcomo todos los meacutetodos presentan buenas cifras en este medida los que peores resultados muestranson los meacutetodos que utilizan la descomposicioacuten STR la cual ya mencionamos su posible problemade lentitud en el Capiacutetulo 2 Por uacuteltimo es sorprendente la combinacioacuten de STL+HDoutliers que escapaz de analizar las 538 en un tiempo inferior a los tres segundos en ambos casos

52 Anaacutelisis Graacutefico

El campo de la deteccioacuten de valores atiacutepicos estaacute caracterizado por una constante incertidumbrePartiendo del inicio del trabajo ni siquiera existe una definicioacuten exacta de queacute es un valor atiacutepicosino maacutes bien se trazan definiciones en base a ideas de lo que se espera que sea un valor atiacutepico enun conjunto de datos Es por ello que dependiendo de los escenarios y las complejidades asociadas auna serie unos meacutetodos resulten maacutes efectivos que otros Este es el motivo por el que surgioacute la ideade crear una herramienta de anaacutelisis graacutefico para el estudio de series de tiempo

El objetivo de esta herramienta es la de dotar al analista de un mecanismo sencillo de implantarque le permita trazar una idea de los posibles atiacutepicos con los que podriacutea contar la serie Para ello seha creado una funcioacuten en R que solo necesita introducir la serie de tiempo para devolver el graacutefico

52 ANAacuteLISIS GRAacuteFICO 67

Ademaacutes dado que esta herramienta estaacute disentildeada especiacuteficamente para trabajar con series de tiemposu representacioacuten dariacutea lugar a lo que podriacutea denominarse un mapa de calor para zonas atiacutepicas estose muestra maacutes adelante mediante ejemplos

Esta herramienta estaacute compuesta por los meacutetodos que han mostrado mejores resultados en el estudiode simulacioacuten Cada meacutetodo ocupa una fila mostrando a lo largo de ella sus atiacutepicos sentildealados y cadacolumna es una fecha detectada por un meacutetodo De tal modo que si una fecha es detectada por todoslos meacutetodos mostraraacute una columna verde y seraacute sospecha clara de que esa fecha es atiacutepica Por otraparte si una fecha es detectada por solo un meacutetodo mostraraacute solo de color verde la celda asociada aese meacutetodo y no seraacute sentildeal tan evidente de situacioacuten atiacutepica

Para la composicioacuten del graacutefico se utilizan los meacutetodos del apartado anterior y a mayores seintroducen las versiones robustas de los meacutetodos de descomposicioacuten de series temporales STL y STREl motivo de su uso en este apartado se debe a que si bien no mostraron los mejores resultados enel estudio de simulacioacuten ahora pueden resultar de utilidad Los meacutetodos robustos pueden generaranomaliacuteas espurias cuando no existen atiacutepicos debido a que resaltan el tamantildeo del residuo de unaobservacioacuten provocando su identificacioacuten como atiacutepico sin esta serlo Sin embargo cuando se producenanomaliacuteas que ejercen un gran peso en la serie como lo sucedido durante el Covid este tipo deestimaciones son de gran intereacutes esta situacioacuten tambieacuten se justificaraacute mediante un ejemplo praacutectico

El primer ejemplo lo extraemos a traveacutes de la serie referente a la estancia media de viajeros de todaslas procedencias en establecimientos hoteleros en Galicia perteneciente al Conjunto 1 En la Figura516 mostramos la representacioacuten de la misma ahora ya mostramos hasta el uacuteltimo dato actualizadoen este caso mayo de 2020

Figura 516 Estancia media de viajeros de todas las procedencias en establecimientos hoteleros enGalicia

Esta serie parece contar con dos atiacutepicos los relacionados con las dos uacuteltimas observaciones de laserie sin embargo vamos a analizar los resultados del graacutefico comparativo

68 CAPIacuteTULO 5 APLICACIOacuteN A DATOS REALES

Figura 517 Resultados para la serie estancia media de viajeros de todas las procedencias en estable-cimientos hoteleros en Galicia del Conjunto 1

La Figura 517 muestra el graacutefico que hemos desarrollado el cual vamos a desgranar ahora paraentender su utilidad Si hubieacutesemos escogido el meacutetodo TRAMO-SEATS hubieacutesemos sentildealado tresobservaciones atiacutepicas una de ellas seriacutea enero de 2003 Sin embargo analizando los datos podemoscomprobar que este dato parece normal y estariacuteamos identificaacutendolo erroacuteneamente como anoacutemalo Dehecho solo TRAMO-SEATS sentildeala esta fecha Lo mismo sucede con otras fechas como octubre delantildeo 2000 sentildealada por solo dos meacutetodos Por otra parte todos los meacutetodos sentildealan los meses deabril y mayo de 2020 las dos uacuteltimas observaciones de la serie que en la Figura 516 mostraban uncomportamiento totalmente discordante al resto del conjunto de datos Es decir el graacutefico permitetrazar una idea concisa al analista de queacute es anoacutemalo en la serie y que pueden ser falsos positivos

Observando el graacutefico podemos tambieacuten extraer una conclusioacuten raacutepida de la posible presenciade valores atiacutepicos en la serie Se muestran dos comportamientos muy marcados El primero estariacuteadeterminado por la serie hasta el antildeo 2020 en el cual la aparicioacuten de atiacutepicos es dispersa pococoncluyente el analista puede dudar de que estas observaciones sean realmente anoacutemalas El segundoson los datos de 2020 dos columnas enteras de color verde una imagen que comunica que en eseintervalo de tiempo estaacute sucediendo algo realmente anoacutemalo

Vamos a utilizar el graacutefico con otra serie para analizar otra de las caracteriacutesticas que muestran elintereacutes de analizar una serie de tiempo a traveacutes de este graacutefico En la Figura 518 se muestra la serie detiempo perteneciente al Conjunto 3 que recoge la evolucioacuten de los contratos iniciales en Galicia Dichaserie cuenta con tres atiacutepicos claros marzo abril y mayo de 2020

52 ANAacuteLISIS GRAacuteFICO 69

Figura 518 Contratos iniciales registrados en Galicia

Haciendo uso del graacutefico comparativo Figura 519 volvemos a obtener un escenario en el queresulta de intereacutes esta herramienta En este caso el meacutetodo compuesto por STR+HDoutliers muestraun comportamiento erraacutetico que le conduce a identificar una gran cantidad de atiacutepicos de modoincorrecto Lo mismo sucede con TRAMO-SEATS que es el uacutenico que sentildeala enero de 2001 comoatiacutepico sin existir motivo en los datos para esta calificacioacuten

Por otra parte este escenario nos permite observar la utilidad de incorporar las versiones robustasSi bien se equivocan en alguacuten caso por ejemplo el meacutetodo STR+HDoutliers(Rob) sentildealando junio de2002 nos permiten calificar marzo de 2020 como atiacutepico algo que los meacutetodos que utilizan las versionesno robustas de los meacutetodos de descomposicioacuten de series temporales STR y STR no logran Todasellas se ponen de acuerdo junto a TRAMO-SEATS para la sentildealizacioacuten de este mes

Ademaacutes dado que estamos trabajando con series temporales los resultados de la graacutefica se muestranen orden cronoloacutegico en vez de por cuaacuten anoacutemala es la observacioacuten como se hace en TRAMO-SEATSo en iForest Esto nos permite entender la graacutefica como un mapa de calor Al analizar la serie siexiste un intervalo de tiempo en el que se han producido situaciones anoacutemalas como por ejemplo eneste caso los meses relacionados al Covid se veraacute reflejado en el graacutefico por una serie de columnascon muchas celdas verdes lo que daraacute a entender de manera raacutepida al analista que en ese intervalode tiempo se han producido situaciones excepcionales De este modo tambieacuten conseguimos corregirel problema de enmascaramiento que pueden sufrir los meacutetodos cuando se suceden varias situacionesatiacutepicas consecutivas

70 CAPIacuteTULO 5 APLICACIOacuteN A DATOS REALES

Figura 519 Resultados para la serie Contratos iniciales registrados en Galicia del Conjunto 3

Capiacutetulo 6

Conclusiones

El IGE cuenta con una ampliacutea base de datos que se utiliza para el estudio del contexto socio-econoacutemico en Galicia Estos datos tienen una base temporal es decir son datos referidos a un intervalode tiempo en la mayoriacutea de los casos esta periodicidad es anual trimestral o mensual La manipulacioacutende los datos puede conllevar a que se introduzcan errores humanos o de medicioacuten que provoquen quese incluyan cifras incorrectas a las bases de datos Estos errores pueden distorsionar las conclusionesde un estudio o conducir haciacutea resultados alejados de la verdadera realidad Es por ello que resultanecesario el incorporar una herramienta de deteccioacuten de valores atiacutepicos al anaacutelisis de las bases dedatos del IGE

Para ello se planteoacute una revisioacuten bibliograacutefica de los principales meacutetodos de deteccioacuten de atiacutepicosen series temporales Esta revisioacuten nos permitioacute conocer la existencia de un amplio abanico de meacuteto-dos disponibles con los cuales empezamos a trabajar para analizar su comportamiento Es aquiacute dondedecidimos descartar una serie de meacutetodos mencionados al final del Apartado 34 debido a que sufuncionamiento y sus resultados correspondiacutean a versiones inferiores de otros meacutetodos que finalmenteadoptamos Este primer estudio nos proporcionoacute los meacutetodos de deteccioacuten de atiacutepicos en series tem-porales que supondriacutean el punto de partida del trabajo X-13ARIMA-SEATS TRAMO-SEATS y lalibreriacutea de R Anomalize

La libreriacutea Anomalize tambieacuten nos sirvioacute de ayuda en el desarrollo de nuestros propios meacutetodos dedeteccioacuten de atiacutepicos para series temporales La idea sobre la que se fundamenta esta libreriacutea es la deaplicar un proceso de descomposicioacuten de series de tiempo a una serie para extraer las componentes dela estacionalidad la tendencia y un residuo para despueacutes aplicar un meacutetodo de deteccioacuten de atiacutepicossobre el residuo Dado que se han producido mejoras a los meacutetodos de descomposicioacuten y deteccioacutenque se utilizan en la libreriacutea Anomalize consideramos que una nueva combinacioacuten podriacutea reflejar unamejora en los resultados

Para comparar todos los meacutetodos de deteccioacuten de atiacutepicos en series temporales los que sirven depunto de partida del trabajo y los desarrollados por nosotros decidimos llevar a cabo un ambiciosoestudio de simulacioacuten El estudio de simulacioacuten recoge diferentes escenarios con la finalidad de repre-sentar la heterogeneidad propia de las series de tiempo referentes a variables sociales y econoacutemicas Losresultados del estudio de simulacioacuten confirman nuestra idea acerca de que una nueva combinacioacuten pue-de suponer una mejora en los resultados debido a que varias de nuestras combinaciones reflejan mejores

71

72 CAPIacuteTULO 6 CONCLUSIONES

resultados que las propuestas en la libreriacutea Anomalize Tambieacuten nos permite observar que nuestraspropuestas compiten en los resultados con un modelo tan desarrollado como TRAMO-SEATS Final-mente nos permiten descartar otros meacutetodos que siendo uacutetiles en otros campos no parecen resultaridoacuteneos para el nuestro

Tras el estudio de simulacioacuten comenzamos a utilizar los meacutetodos que habiacutean mostrado mejoresresultados con los datos proporcionados por el IGE Fue en este momento cuando nos encontramos conuna situacioacuten no contemplada en ninguacuten momento en ninguacuten escenario del estudio de simulacioacuten yen general en ninguacuten momento de lo que podriacutea ser la historia reciente como fue la crisis del Covid19Esta crisis provoca un efecto enorme en los datos del contexto gallego como se recoge a lo largo delCapiacutetulo 5 y supone un nuevo escenario en lo que a deteccioacuten de valores atiacutepicos en series temporalesse refiere

Este nuevo escenario se caracteriza por reflejar durante varios periacuteodos de tiempo consecutivosobservaciones enormemente anoacutemalas y los modelos ven empeorado su comportamiento TRAMO-SEATS y los modelos de descomposicioacuten de series de tiempo STL y STR entienden que lo que seestaacute produciendo es una tendencia decreciente de la serie Por su parte los meacutetodos de deteccioacuten deatiacutepicos HDoutliers y iForest sufren un fenoacutemeno de enmascaramiento en el que son incapaces desentildealizar todos los atiacutepicos Fue aquiacute donde decidimos crear una nueva herramienta para el anaacutelisis

El objetivo con el que creamos esta herramienta de anaacutelisis graacutefico fue el de reducir la incertidumbreque supone el campo de la deteccioacuten de atiacutepicos de un modo sencillo y directo para el analista que lautilice Ademaacutes su disentildeo estaacute pensado para el trabajo con series temporales de modo que si se sucedeun periacuteodo convulso como el actual la graacutefica podraacute ser analizada como un mapa de calor un mapade calor que transmite visualmente la idea de en queacute intervalo de tiempo la serie estaacute experimentandocomportamientos atiacutepicos

Apeacutendice A

Tablas

A1 Tablas de sensibilidad

73

74 APEacuteNDICE A TABLAS

Caso 1 Caso 2 Caso 3 Caso 4

X-13ARIMA-SEATS 0496 0854 0700 0826

TRAMO-SEATS 0657 0928 0805 0851

STL+HDoutliers 0569 0838 0570 0732

STL+GESD 0266 0590 0236 0532

STL+iForest 0636 0885 0636 0790

STL(ROB)+HDoutliers 0562 0803 0678 0712

STL(ROB)+GESD 0637 0876 0746 0754

STL(ROB)+iForest 0640 0878 0747 0786

Twitter+HDoutliers 0471 0735 0597 0620

Twitter+GESD 0306 0590 0429 0434

Twitter+iForest 0529 0801 0652 0660

STR+HDoutliers 0611 0841 0603 0672

STR+GESD 0345 0650 0292 0448

STR+iForest 0674 0885 0679 0721

STR(ROB)+HDoutliers 0542 0812 0638 0658

STR(ROB)+GESD 0381 0685 0458 0558

STR(ROB)+iForest 0623 0862 0699 0714

Cuadro A1 Resultados Escenario 1Sensibilidad AR(1)

A1 TABLAS DE SENSIBILIDAD 75

Caso 1 Caso 2 Caso 3 Caso 4

X-13ARIMA-SEATS 0505 0829 0646 0875

TRAMO-SEATS 0668 0914 0743 0888

STL+HDoutliers 0472 0729 0481 0684

STL+GESD 0217 0457 0148 0428

STL+iForest 0506 0784 0525 0716

STL(ROB)+HDoutliers 0469 0735 0588 0648

STL(ROB)+GESD 0529 0775 0665 0668

STL(ROB)+iForest 0526 0803 0666 0716

Twitter+HDoutliers 0465 0698 0596 0646

Twitter+GESD 0349 0630 0483 0486

Twitter+iForest 0512 0778 0663 0692

STR+HDoutliers 0588 0823 0573 0664

STR+GESD 0298 0602 0247 0449

STR+iForest 0630 0869 0651 0721

STR(ROB)+HDoutliers 0521 0788 0611 0649

STR(ROB)+GESD 0336 0628 0406 0520

STR(ROB)+iForest 0582 0839 0691 0711

Cuadro A2 Resultados Escenario 2 Sensibilidad MA(1)

76 APEacuteNDICE A TABLAS

Caso 1 Caso 2 Caso 3 Caso 4

X-13ARIMA-SEATS 0922 0971 0927 0983

TRAMO-SEATS 0923 0972 0923 0982

STL+HDoutliers 0312 0508 0241 0440

STL+GESD 0089 0230 0051 0152

STL+iForest 0343 0578 0284 0454

STL(ROB)+HDoutliers 0261 0435 0297 0333

STL(ROB)+GESD 0311 0527 0393 0322

STL(ROB)+iForest 0298 0501 0336 0362

Twitter+HDoutliers 0064 0112 0127 0066

Twitter+GESD 0028 0040 0069 0032

Twitter+iForest 0079 0129 0169 0070

STR+HDoutliers 0407 0563 0348 0440

STR+GESD 0204 0367 0109 0230

STR+iForest 0445 0617 0389 0495

STR(ROB)+HDoutliers 0243 0397 0254 0272

STR(ROB)+GESD 0209 0391 0225 0259

STR(ROB)+iForest 0282 0455 0284 0293

Cuadro A3 Resultados Escenario 3 Sensibilidad ARIMA(011)

A1 TABLAS DE SENSIBILIDAD 77

Caso 1 Caso 2 Caso 3 Caso 4

X-13ARIMA-SEATS 0403 0593 0068 0816

TRAMO-SEATS 0542 0707 0072 0814

STL+HDoutliers 0005 0004 0016 0004

STL+GESD 0000 0001 0004 0000

STL+iForest 0003 0003 0015 0005

STL(ROB)+HDoutliers 0007 0007 0037 0004

STL(ROB)+GESD 0009 0021 0099 0029

STL(ROB)+iForest 0006 0008 0036 0005

Twitter+HDoutliers 0001 0000 0001 0008

Twitter+GESD 0006 0009 0012 0023

Twitter+iForest 0001 0000 0005 0018

STR+HDoutliers 0370 0428 0006 0088

STR+GESD 0424 0462 0000 0138

STR+iForest 0418 0479 0004 0103

STR(ROB)+HDoutliers 0028 0019 0011 0076

STR(ROB)+GESD 0064 0063 0051 0140

STR(ROB)+iForest 0022 0014 0010 0027

Cuadro A4 Resultados Escenario 4 Sensibilidad ARIMA(011)x(011)12

78 APEacuteNDICE A TABLAS

Caso 1 Caso 2 Caso 3 Caso 4

X-13ARIMA-SEATS 0266 0629 0177 0574

TRAMO-SEATS 0400 0750 0251 0618

STL+HDoutliers 0247 0477 0291 0130

STL+GESD 0093 0260 0160 0024

STL+iForest 0270 0536 0312 0138

STL(ROB)+HDoutliers 0278 0489 0358 0102

STL(ROB)+GESD 0400 0688 0478 0132

STL(ROB)+iForest 0314 0553 0398 0133

Twitter+HDoutliers 0254 0439 0363 0108

Twitter+GESD 0176 0385 0317 0064

Twitter+iForest 0274 0486 0388 0131

STR+HDoutliers 0664 0895 0240 0760

STR+GESD 0425 0770 0065 0567

STR+iForest 0724 0939 0283 0800

STR(ROB)+HDoutliers 0197 0334 0220 0529

STR(ROB)+GESD 0190 0333 0207 0692

STR(ROB)+iForest 0235 0369 0238 0591

Cuadro A5 Resultados Escenario 5 Sensibilidad ARIMA(101)x(012)12

A1 TABLAS DE SENSIBILIDAD 79

Caso 1 Caso 2 Caso 3 Caso 4

X-13ARIMA-SEATS 0333 0662 0355 0618

TRAMO-SEATS 0460 0767 0480 0656

STL+HDoutliers 0521 0798 0502 0629

STL+GESD 0230 0559 0188 0328

STL+iForest 0565 0836 0572 0651

STL(ROB)+HDoutliers 0519 0788 0605 0601

STL(ROB)+GESD 0541 0828 0676 0561

STL(ROB)+iForest 0566 0843 0668 0648

Twitter+HDoutliers 0246 0423 0362 0212

Twitter+GESD 0104 0232 0187 0102

Twitter+iForest 0284 0456 0398 0230

STR+HDoutliers 0527 0788 0444 0641

STR+GESD 0279 0585 0152 0386

STR+iForest 0600 0825 0499 0685

STR(ROB)+HDoutliers 0407 0674 0497 0550

STR(ROB)+GESD 0277 0527 0352 0404

STR(ROB)+iForest 0462 0735 0573 0582

Cuadro A6 Resultados Escenario 6 Sensibilidad ARIMA(111)x(101)12

80 APEacuteNDICE A TABLAS

Caso 1 Caso 2 Caso 3 Caso 4

X-13ARIMA-SEATS 0299 0638 0335 0632

TRAMO-SEATS 0424 0717 0432 0801

STL+HDoutliers 0432 0705 0397 0626

STL+GESD 0177 0416 0109 0351

STL+iForest 0514 0762 0463 0530

STL(ROB)+HDoutliers 0441 0686 0494 0613

STL(ROB)+GESD 0461 0731 0556 0584

STL(ROB)+iForest 0491 0723 0548 0528

Twitter+HDoutliers 0280 0471 0387 0354

Twitter+GESD 0129 0288 0191 0147

Twitter+iForest 0008 0017 0051 0050

STR+HDoutliers 0456 0700 0467 0568

STR+GESD 0203 0439 0167 0274

STR+iForest 0515 0778 0443 0638

STR(ROB)+HDoutliers 0424 0687 0510 0554

STR(ROB)+GESD 0262 0524 0330 0366

STR(ROB)+iForest 0349 0562 0413 0388

Cuadro A7 Resultados Escenario 7 Sensibilidad ARIMA(112)x(011)12

A1 TABLAS DE SENSIBILIDAD 81

Caso 1 Caso 2 Caso 3 Caso 4

X-13ARIMA-SEATS 0299 0638 0335 0632

TRAMO-SEATS 0424 0717 0432 0801

STL+HDoutliers 0432 0705 0397 0626

STL+GESD 0177 0416 0109 0351

STL+iForest 0485 0738 0428 0665

STL(ROB)+HDoutliers 0441 0686 0494 0613

STL(ROB)+GESD 0461 0731 0556 0584

STL(ROB)+iForest 0494 0755 0566 0678

Twitter+HDoutliers 0280 0471 0387 0354

Twitter+GESD 0129 0288 0191 0147

Twitter+iForest 0306 0509 0430 0359

STR+HDoutliers 0456 0700 0467 0568

STR+GESD 0203 0439 0167 0274

STR+iForest 0497 0772 0507 0602

STR(ROB)+HDoutliers 0424 0687 0510 0554

STR(ROB)+GESD 0262 0524 0330 0366

STR(ROB)+iForest 0465 0755 0577 0590

Cuadro A8 Resultados Escenario 8 Sensibilidad ARIMA(011)x(100)12

82 APEacuteNDICE A TABLAS

A2 Tablas de exceso

Caso 1 Caso 2 Caso 3 Caso 4

X-13ARIMA-SEATS 0078 0077 0066 0042

TRAMO-SEATS 0211 0208 0222 0056

STL+HDoutliers 0788 0829 0805 1534

STL+GESD 0056 0055 0045 0031

STL+iForest 0406 0300 0404 0659

STL(ROB)+HDoutliers 1162 1242 1212 1714

STL(ROB)+GESD 1411 1417 1416 0461

STL(ROB)+iForest 0637 0468 0575 0859

Twitter+HDoutliers 0930 0955 0905 1487

Twitter+GESD 0257 0273 0254 0069

Twitter+iForest 0538 0412 0490 0776

STR+HDoutliers 0759 0810 0759 1464

STR+GESD 0053 0062 0046 0024

STR+iForest 0403 0301 0381 0725

STR(ROB)+HDoutliers 0749 0842 0758 1460

STR(ROB)+GESD 0199 0196 0192 0099

STR(ROB)+iForest 0427 0315 0413 0749

Cuadro A9 Resultados Escenario 1 Exceso AR(1)

A2 TABLAS DE EXCESO 83

Caso 1 Caso 2 Caso 3 Caso 4

X-13ARIMA-SEATS 0054 0058 0066 0058

TRAMO-SEATS 0144 0138 0175 0061

STL+HDoutliers 0695 0772 0759 1472

STL+GESD 0034 0038 0050 0016

STL+iForest 0443 0318 0425 0706

STL(ROB)+HDoutliers 1168 1221 1180 1703

STL(ROB)+GESD 1309 1349 1415 0418

STL(ROB)+iForest 0682 0528 0621 0877

Twitter+HDoutliers 0836 0832 0911 1577

Twitter+GESD 0313 0329 0334 0061

Twitter+iForest 0552 0417 0483 0755

STR+HDoutliers 0798 0885 0694 1541

STR+GESD 0054 0064 0044 0018

STR+iForest 0407 0302 0396 0724

STR(ROB)+HDoutliers 0725 0776 0745 1516

STR(ROB)+GESD 0134 0143 0142 0076

STR(ROB)+iForest 0435 0312 0372 0727

Cuadro A10 Resultados Escenario 2 Exceso MA(1)

84 APEacuteNDICE A TABLAS

Caso 1 Caso 2 Caso 3 Caso 4

X-13ARIMA-SEATS 0106 0060 0101 0070

TRAMO-SEATS 0179 0123 0175 0085

STL+HDoutliers 0638 0635 0686 1376

STL+GESD 0052 0054 0067 0020

STL+iForest 0448 0346 0468 0867

STL(ROB)+HDoutliers 0932 0905 1010 1604

STL(ROB)+GESD 2339 2311 2338 1863

STL(ROB)+iForest 0705 0573 0695 1281

Twitter+HDoutliers 0311 0285 0311 0743

Twitter+GESD 1302 1282 1331 1946

Twitter+iForest 0167 0153 0175 0645

STR+HDoutliers 0672 0703 0623 1364

STR+GESD 0180 0183 0119 0050

STR+iForest 0372 0297 0393 0899

STR(ROB)+HDoutliers 0598 0568 0588 1225

STR(ROB)+GESD 1030 1008 0999 1341

STR(ROB)+iForest 0463 0383 0464 1108

Cuadro A11 Resultados Escenario 3 Exceso ARIMA(011)

A2 TABLAS DE EXCESO 85

Caso 1 Caso 2 Caso 3 Caso 4

X-13ARIMA-SEATS 0132 0120 0062 0274

TRAMO-SEATS 0198 0180 0075 0274

STL+HDoutliers 0832 0823 0837 1337

STL+GESD 0231 0225 0226 0165

STL+iForest 0727 0710 0718 1237

STL(ROB)+HDoutliers 1197 1152 1186 1230

STL(ROB)+GESD 4756 4699 4689 7954

STL(ROB)+iForest 0992 0993 0983 1514

Twitter+HDoutliers 0144 0162 0182 0376

Twitter+GESD 3050 2761 2813 6058

Twitter+iForest 0123 0128 0121 0508

STR+HDoutliers 1108 1135 1027 1454

STR+GESD 1469 1679 0582 4430

STR+iForest 0732 0674 0882 1653

STR(ROB)+HDoutliers 1382 1266 0876 10915

STR(ROB)+GESD 4452 4583 4289 19321

STR(ROB)+iForest 0831 0845 0828 1858

Cuadro A12 Resultados Escenario 4 Exceso ARIMA(011)x(011)12

86 APEacuteNDICE A TABLAS

Caso 1 Caso 2 Caso 3 Caso 4

X-13ARIMA-SEATS 0109 0123 0111 0069

TRAMO-SEATS 0239 0301 0312 0139

STL+HDoutliers 0869 0762 0986 1367

STL+GESD 0170 0170 0198 0244

STL+iForest 0667 0475 0712 1291

STL(ROB)+HDoutliers 1328 1357 1499 1287

STL(ROB)+GESD 2517 2530 2919 5438

STL(ROB)+iForest 0992 0813 0978 1444

Twitter+HDoutliers 1041 0966 1065 1383

Twitter+GESD 0796 0854 0830 2221

Twitter+iForest 0808 0655 0735 1412

STR+HDoutliers 0799 0979 0846 1551

STR+GESD 0101 0087 0083 0029

STR+iForest 0383 0286 0619 0669

STR(ROB)+HDoutliers 0764 0759 0755 1692

STR(ROB)+GESD 1600 1591 1490 8145

STR(ROB)+iForest 0603 0492 0593 0894

Cuadro A13 Resultados Escenario 5 Exceso ARIMA(101)x(012)12

A2 TABLAS DE EXCESO 87

Caso 1 Caso 2 Caso 3 Caso 4

X-13ARIMA-SEATS 0179 0167 0141 0096

TRAMO-SEATS 0307 0299 0297 0127

STL+HDoutliers 0792 0783 0775 1598

STL+GESD 0052 0050 0049 0030

STL+iForest 0452 0306 0459 0748

STL(ROB)+HDoutliers 1193 1207 1269 1697

STL(ROB)+GESD 1290 1324 1270 0437

STL(ROB)+iForest 0708 0531 0670 0952

Twitter+HDoutliers 0690 0698 0676 1157

Twitter+GESD 0266 0257 0225 0523

Twitter+iForest 0538 0416 0459 1063

STR+HDoutliers 0740 0853 0796 1429

STR+GESD 0065 0077 0063 0036

STR+iForest 0432 0311 0493 0750

STR(ROB)+HDoutliers 0749 0799 0717 1477

STR(ROB)+GESD 0317 0291 0254 0167

STR(ROB)+iForest 0502 0373 0463 0839

Cuadro A14 Resultados Escenario 6 Exceso ARIMA(111)x(101)12

88 APEacuteNDICE A TABLAS

Caso 1 Caso 2 Caso 3 Caso 4

X-13ARIMA-SEATS 0147 0138 0115 0081

TRAMO-SEATS 0278 0285 0287 0261

STL+HDoutliers 0788 0815 0776 1392

STL+GESD 0045 0047 0042 0031

STL+iForest 0471 0337 0478 0842

STL(ROB)+HDoutliers 1122 1183 1194 1785

STL(ROB)+GESD 1364 1387 1340 0670

STL(ROB)+iForest 0720 0559 0711 1100

Twitter+HDoutliers 0125 0109 0084 0092

Twitter+GESD 3247 3207 3185 7613

Twitter+iForest 0087 0066 0073 0294

STR+HDoutliers 0854 0807 0773 1430

STR+GESD 0069 0069 0050 0036

STR+iForest 0438 0357 0484 0793

STR(ROB)+HDoutliers 0765 0755 0725 1370

STR(ROB)+GESD 0434 0489 0510 0536

STR(ROB)+iForest 0581 0471 0547 1064

Cuadro A15 Resultados Escenario 7 Exceso ARIMA(112)x(011)12

A2 TABLAS DE EXCESO 89

Caso 1 Caso 2 Caso 3 Caso 4

X-13ARIMA-SEATS 0090 0095 0104 0056

TRAMO-SEATS 0487 0475 0494 0446

STL+HDoutliers 0734 0814 0749 1507

STL+GESD 0068 0059 0052 0025

STL+iForest 0496 0352 0479 0747

STL(ROB)+HDoutliers 1157 1098 1083 1660

STL(ROB)+GESD 1232 1281 1260 0294

STL(ROB)+iForest 0764 0566 0687 0918

Twitter+HDoutliers 0859 0822 0860 1415

Twitter+GESD 0214 0209 0217 0114

Twitter+iForest 0606 0526 0550 1031

STR+HDoutliers 0797 0792 0778 1469

STR+GESD 0048 0059 0042 0017

STR+iForest 0461 0336 0464 0782

STR(ROB)+HDoutliers 0786 0726 0699 1494

STR(ROB)+GESD 0159 0146 0145 0072

STR(ROB)+iForest 0520 0359 0433 0830

Cuadro A16 Resultados Escenario 8 Exceso ARIMA(011)x(100)12

90 APEacuteNDICE A TABLAS

Bibliografiacutea

Abraham B y Box G E P (1979) Bayesian analysis of some outlier problems in time seriesBiometrika 66 (2) 229ndash236

Barnett V y Lewis T (1996) Outliers in statistical data 3rd edition (John Wiley amp Sons Chi-chester) 584 pp [UK pound]5500 ISBN 0-471-93094-6 International Journal of Forecasting 12 (1) 175-176

Bell W (1983) A computer program for detecting outliers in time series Proceedings of the AmericanStatistical Association Business and Economic Statistics Section 634-639

Box G y Jenkins G (1976) Time series analysis forecasting and control En (Vol 134) doi1023072344246

Box G E P y Tiao G C (1975) Intervention analysis with applications to economic and environ-mental problems Journal of the American Statistical Association 70 (349) 70ndash79

Breunig M Kriegel H-P Ng R y Sander J (2000) Lof Identifying density-based local outliersEn (Vol 29 p 93-104) doi 101145342009335388

Chang I Tiao G y Chen C (1988) Estimation of time series parameters in the presence of outliersTechnometrics 30 193-204 doi 10108000401706198810488367

Chang I y Tiao G C (1983) Estimation of time series parameters in the presence of outliersTechnical Report 8 University of Chicago Statistics Research Center 30

Chauvenet W (1963) A manual of spherical and practical astronomy volume 2 474-566Chen C y Liu L-M (1993) Joint estimation of model parameters and outlier effects in time series

Journal of the American Statistical Association 88 (421) 284ndash297Cleveland R B Cleveland W S McRae J E y Terpenning I (1990) STL A seasonal-trend

decomposition procedure based on Loess Journal of Official Statistics 6 Dancho M y Vaughan D (2019) Anomalize Tidy anomaly detection [Manual de software informaacute-

tico]Datacamp (2018) Detect anomalies with anomalize in r httpswwwdatacampcomcommunity

tutorialsdetect-anomalies-anomalize-r (Visitado 2020-06-16)de Lacalle J L (2015) Detection of outliers in time series with r httpsjalobecomtsoutliers

(Visitado 2020-03-16)de Lacalle J L (2019) Detection of outliers in time series [Manual de software informaacutetico] https

cranr-projectorgwebpackagestsoutlierstsoutlierspdfDokumentov A y Hyndman R J (2015) STR A seasonal-trend decomposition procedure based

on Regression

91

92 BIBLIOGRAFIacuteA

Dokumentov A y Hyndman R J (2018) str Str decomposition [Manual de software informaacutetico](httpscranr-projectorgwebpackagesstRindexhtml)

Fraley C y Wilkinson L (2020) Hdoutliers Leland wilkinsonrsquos algorithm for detecting multidimen-sionaloutliers [Manual de software informaacutetico]

Goacutemez V y Maravall A (1997) Programs tramo and seats instructions for the user Mimeo Bancode Espantildea

Goacutemez V y Taguas D (1995) Deteccioacuten y correccioacuten automaacutetica de outliers con tramo Unaaplicacioacuten al ipc de bienes industriales no energeacuteticos

Grubbs F (1950) Sample criteria for testing outlying observations The Annals of MathematicalStatistics 21 doi 101214aoms1177729885

Hawkins D (1980) Identification of outliers London [ua] Chapman and HallHochenbaum J Vallis O y Kejariwal A (2017) Automatic anomaly detection in the cloud via

statistical learningHoerl A y Kennard R (1970) Ridge regression Biased estimation for nonorthogonal problems

Technometrics 8 27-51Hyndman R (2020) Forecasting functions for time series and linear models [Manual de software

informaacutetico] httpscranr-projectorgwebpackagesforecastforecastpdfla Tente A Q Michalek A Palate J y Baeyens R (2020) Rjdemetra Interface to rsquojdemetra+rsquo

seasonal adjustment software [Manual de software informaacutetico]Liu F T Ting K y Zhou Z-H (2009) Isolation forest En (p 413 - 422) doi 101109

ICDM200817Mahdavinejad M S Rezvan M Barekatain M Adibi P Barnaghi P y Sheth A P (2018)

Machine learning for internet of things data analysis a survey Digital Communications andNetworks 4 (3) 161 - 175 doi httpsdoiorg101016jdcan201710002

Moore D y McCabe G (1999) Introduction to the practice of statistics WH FreemanOtto M y Bell W (1990) Two issues in time series outlier detection using indicator variables

Proceedings of the American Statistical Association Business and Economic Statistics Section182-187

Peirce B (1852) Criterion for rejection of doubtful observations The Astronomical Journal 2 161-163 doi 101086100259

Pentildea D (2010) Anaacutelisis de series temporales Alianza EditorialRosner B (1975) On the detection of many outliers Technometrics 17 221-227 doi 101080

00401706197510489305Rosner B (1983) Percentagepoints for a generalized esd many-outier procedure Technometrics 25

165-172 doi 10108000401706198310487848Rousseeuw P y Hubert M (2011) Robust statistics for outlier detection Wiley Interdisc Rew

Data Mining and Knowledge Discovery 1 73-79 doi 101002widm2Shan G (2015) Improved confidence intervals for the youden index

doi 01371journalpone0127272Shiskin J Young A y Musgrave J (1967) The x-11 variant of the census method ii seasonal

adjustment program

BIBLIOGRAFIacuteA 93

Srikanth K S (2017) solitude An implementation of isolation forest [Manual de software informaacutetico](R package version 021 mdash For new features see the rsquoSolitudersquo file (in the package source))

Thompson W (1935) On a criterion for the rejection of observations and the distribution of theratio of deviation to sample standard deviation The Annals of Mathematical Statistics 6 doi101214aoms1177732567

Tibshirani R (1996) Regression shrinkage and selection via the lasso Journal of the Royal StatisticalSociety Series B (Methodological) 58 267-288 doi 101111j2517-61611996tb02080x

Time Series Research Staff (2017) X-13ARIMA-SEATS Reference Manual Center for StatisticalResearch and Methodology

Tsay R S (1986) Time series model specification in the presence of outliers Journal of the AmericanStatistical Association 81 (393) 132ndash141

Tsay R S y Tiao G C (1984) Consistent estimates of autoregressive parameters and extendedsample autocorrelation function for stationary and nonstationary arma models Journal of theAmerican Statistical Association 79 (385) 84ndash96

Tukey J W (1977) Exploratory data analysis Addison-WesleyTwitter Inc (2015) Anomalydetection r package GitHub (httpsgithubcomtwitter

AnomalyDetection)Wilkinson L (2017) Visualizing big data outliers through distributed aggregation IEEE Transactions

on Visualization and Computer Graphics PP 1-1 doi 101109TVCG20172744685Woodward W A Gray H L y Elliott A C (2017) Applied time series analysis with r second

edition Journal of Time Series Analysis 39 618 doi 101111jtsa12273Youden W (1950) Youden wjindex for rating diagnostic tests cancer 3(1) 32-35 Cancer 3 32-5

doi 1010021097-0142(1950)3130CO2-3

  • Resumen
  • Introduccioacuten
  • Modelizacioacuten de series temporales
    • Conceptos baacutesicos
    • Meacutetodos de modelizacioacuten de series temporales
      • X-13ARIMA-SEATS
      • TRAMO-SEATS
      • STL
      • STR
      • Twitter
        • Resumen meacutetodos de modelizacioacuten de series temporales
          • Deteccioacuten de valores atiacutepicos
            • Conceptos baacutesicos
            • Meacutetodos de deteccioacuten de valores atiacutepicos
              • X-13ARIMA-SEATS
              • TRAMO-SEATS
              • GESD
              • Isolation Forest
              • HDoutliers
                • Resumen meacutetodos de deteccioacuten de valores atiacutepicos
                • Meacutetodos de deteccioacuten de valores atiacutepicos en series temporales
                  • Estudio de simulacioacuten
                    • Escenarios
                    • Iacutendice de Youden
                    • Resultados
                    • Conclusiones
                      • Aplicacioacuten a datos reales
                        • Anaacutelisis Series IGE
                        • Anaacutelisis Graacutefico
                          • Conclusiones
                          • Tablas
                            • Tablas de sensibilidad
                            • Tablas de exceso
                              • Bibliografiacutea
Page 7: Trabajo Fin de Máster - USC

Iacutendice general

Resumen ix

1 Introduccioacuten 1

2 Modelizacioacuten de series temporales 5

21 Conceptos baacutesicos 5

22 Meacutetodos de modelizacioacuten de series temporales 8

221 X-13ARIMA-SEATS 8

222 TRAMO-SEATS 8

223 STL 10

224 STR 11

225 Twitter 11

23 Resumen meacutetodos de modelizacioacuten de series temporales 13

3 Deteccioacuten de valores atiacutepicos 15

31 Conceptos baacutesicos 15

32 Meacutetodos de deteccioacuten de valores atiacutepicos 17

321 X-13ARIMA-SEATS 17

322 TRAMO-SEATS 18

323 GESD 19

324 Isolation Forest 20

325 HDoutliers 21

33 Resumen meacutetodos de deteccioacuten de valores atiacutepicos 23

34 Meacutetodos de deteccioacuten de valores atiacutepicos en series temporales 24

4 Estudio de simulacioacuten 27

41 Escenarios 27

42 Iacutendice de Youden 29

43 Resultados 32

44 Conclusiones 41

vii

viii IacuteNDICE GENERAL

5 Aplicacioacuten a datos reales 4351 Anaacutelisis Series IGE 4352 Anaacutelisis Graacutefico 66

6 Conclusiones 71

A Tablas 73A1 Tablas de sensibilidad 73A2 Tablas de exceso 82

Bibliografiacutea 91

Resumen

Resumen en espantildeol

El objetivo de este trabajo es el de realizar un anaacutelisis acerca de la presencia de valores atiacutepicos enlos diferentes conjuntos de datos del Instituto Gallego de Estadiacutestica Para ello realizamos una revisioacutenbibliograacutefica que nos permite conocer los meacutetodos actuales y el recorrido que se produjo hasta llegar alos mismos A traveacutes de esta revisioacuten comprendemos la idea que se esconde detraacutes de la deteccioacuten devalores atiacutepicos en series temporales y somos capaces de proponer nuestros propios meacutetodos

Para comparar el comportamiento de los diferentes meacutetodos realizamos un estudio de simulacioacutenel cual nos sirve para contrastar el buen comportamiento de nuestras propuestas y para descartar otrosmeacutetodos

Finalmente aplicamos los meacutetodos que han reflejado un comportamiento maacutes consistente en elestudio de simulacioacuten y analizamos el efecto del Covid19 en el incremento de valores atiacutepicos en losconjuntos de datos Ademaacutes con el objetivo de reducir la incertidumbre asociada al campo de ladeteccioacuten de valores atiacutepicos introducimos una nueva herramienta graacutefica

English abstract

The aim of this project is to carry out an analysis about the presence of outliers in the differentdata sets of the Galician Institute of Statistics We carried out a bibliographic review that allows us toknow the current methods and the route that took place until we reached them Through this reviewwe understand the idea behind the detection of outliers in time series and we are able to propose ourown methods

To compare the behavior of the different methods we carried out a simulation study which helpsus compare the good behavior of our proposals and to rule out other methods

Finally we applied the methods that have reflected a more consistent behavior in the simulationstudy and analyzed the effect of Covid19 on the increase of outliers in the data sets Furthermore withthe aim of reducing the uncertainty associated with the field of outlier detection we introduced a newgraphical tool

ix

x RESUMEN

Capiacutetulo 1

Introduccioacuten

El Instituto Galego de Estadiacutestica (IGE) es un organismo autoacutenomo de la Xunta de Galicia creadoen el antildeo 1988 cuyo objetivo es el de promover el desarrollo del sistema estadiacutestico de la comunidadautoacutenoma mediante servicios de recopilacioacuten y difusioacuten de la documentacioacuten estadiacutestica disponibledesenvolver bases de datos de intereacutes puacuteblico analizar las necesidades y la evolucioacuten de la demandade estadiacutesticas y asegurar su difusioacuten El IGE se erige por tanto como una de las principales fuentesde informacioacuten de datos de caraacutecter socioeconoacutemico de Galicia y de sus divisiones territoriales

Al igual que el resto de organismos del mismo aacutembito el IGE estaacute experimentando un incrementocontinuo tanto en la generacioacuten como en el almacenamiento de datos Es por esto que se hace devital importancia el incorporar una herramienta que nos permita identificar de un modo automaacuteticoposibles candidatos a valores atiacutepicos dentro de nuestros conjuntos de datos

Un dato atiacutepico o outlier en ingleacutes es una observacioacuten anoacutemala en comparacioacuten con el restode datos contenidos en un determinado conjunto de datos Puede deberse a diversos motivos desdeerrores humanos errores relacionados con la medicioacuten grabacioacuten e introduccioacuten de los datos hastacausas como que el dato procede de una poblacioacuten diferente de la que se pretende estudiar

Existen multitud de definiciones que nos permiten dibujarnos una idea de a queacute nos referimoscuando hablamos de valores atiacutepicos

ldquoUn dato atiacutepico es una observacioacuten que se desviacutea tanto del resto de observaciones como paracrear la sospecha de que fue creada por un mecanismo generador diferenterdquo - Hawkins (1980)

ldquoUn dato atiacutepico es una observacioacuten (o conjunto de observaciones) que son inconsistentes con elresto de datosrdquo - Barnett y Lewis (1996)

ldquoUn outlier es una observacioacuten que se encuentra fuera del patroacuten general de una distribucioacutenrdquo-Moore y McCabe (1999)

ldquoLos datos atiacutepicos pueden ser dependiendo de la circunstancia errores no deseados que puedenafectar negativamente al resultado o valiosas pepitas de informacioacuten inesperadardquo- Rousseeuw yHubert (2011)

Eliminar un dato de una muestra por haberlo considerado atiacutepico puede llevar a perder informacioacutenrelevante debido a una singularidad del mecanismo generador y a su vez incluir un dato atiacutepico en una

1

2 CAPIacuteTULO 1 INTRODUCCIOacuteN

muestra puede confundir los resultados Ambos casos alteran los anaacutelisis posteriores y pueden dirigira conclusiones incorrectas si se llegara a tomar la decisioacuten equivocada Por lo tanto la importanciareside en identificar de manera adecuada queacute datos son atiacutepicos y cuaacuteles no

Esta identificacioacuten seraacute de gran utilidad dado que permitiraacute tanto realizar mejores anaacutelisis comopoder interpretar sucesos relevantes en el contexto socio-econoacutemico gallego

El problema de la deteccioacuten de atiacutepicos es un tema ampliamente tratado en la literatura por loque nuestro trabajo consistiraacute en realizar un estudio comparativo de los meacutetodos maacutes comunes en laactualidad y plantear posibles mejoras

Uno de los criterios a los que le prestaremos mayor atencioacuten en este estudio seraacute a la sensibilidaddel meacutetodo dado que si este es muy sensible e identifica muchos candidatos como atiacutepicos no serviraacute degran ayuda Por otra parte si apenas sentildeala ninguacuten caso seraacute similar a no aplicar ninguna herramientade deteccioacuten

Para estudiar este comportamiento realizaremos un estudio de simulacioacuten en el que a traveacutes devalores atiacutepicos previamente identificados podremos analizar el comportamiento de cada meacutetodoAdemaacutes dado que trabajamos con un gran volumen de datos una caracteriacutestica que se les exigiraacute alos meacutetodos seraacute una raacutepida velocidad de ejecucioacuten

La deteccioacuten de datos atiacutepicos tiene aplicaciones en muchos aacutembitos deteccioacuten de operacionesfraudulentas en tarjetas de creacutedito solicitudes para preacutestamos de clientes potencialmente morososdeteccioacuten de intrusiones en redes de comunicacioacuten monitorizacioacuten de paraacutemetros de fabricacioacuten paradeteccioacuten de producciones defectuosas anomaliacuteas en monitorizaciones meacutedicas anaacutelisis electoraleslimpieza de datos prediccioacuten del tiempo o hasta en astronomiacutea donde un punto anoacutemalo puedeimplicar el descubrimiento de una nueva estrella

En este trabajo nos centraremos en datos reales provenientes de la paacutegina web del IGE recogidosen siete conjuntos

Conjunto 1 Viajeros noches y estancia media en establecimientos hoteleros y de turismo ruralen Espantildea Galicia y sus provincias Datos mensuales Los datos proceden del Instituto Nacio-nal de Estadiacutestica (INE) de la Encuesta de ocupacioacuten hotelera y la Encuesta de ocupacioacuten enalojamientos de turismo rural (httpwwwigeeuigebdtigeapidatos3476)

Conjunto 2 Poblacioacuten de 16 y maacutes antildeos por sexo grupos de edad y relacioacuten con la actividadeconoacutemica en Galicia Datos trimestrales Los datos proceden de la Encuesta de Poblacioacuten Activa(EPA) elaborada conjuntamente entre el INE y el IGE (httpwwwigeeuigebdtigeapidatos6356)

Conjunto 3 Contratos registrados seguacuten su modalidad Datos mensuales Esta informacioacuten proce-de de la Estadiacutestica de contratos registrados elaborada por el Servicio Puacuteblico de Empleo Estatal(SEPE) (httpwwwigeeuigebdtigeapidatos308)

Conjunto 4 Iacutendice de produccioacuten industrial general y por destino econoacutemico de los bienes en Ga-licia (Base 2015) Datos mensuales La informacioacuten procede del Iacutendice de Produccioacuten Industrialoperacioacuten estadiacutestica ejecutada por el INE (httpwwwigeeuigebdtigeapidatos9048)

Conjunto 5 Transacciones inmobiliarias por reacutegimen y tipo de vivienda Nuacutemero valor totaly valor medio Datos trimestrales La fuente de esta informacioacuten es el Ministerio de Fomento y

3

hace referencia a la compraventa de viviendas elevadas a escritura puacuteblica ante notario (httpwwwigeeuigebdtigeapidatos4052)

Conjunto 6 Bajas de demandas de empleo seguacuten geacutenero y duracioacuten de la demanda en Galiciay sus provincias Datos mensuales La fuente de esta informacioacuten es el SEPE y hace referenciaa las bajas que los servicios de empleo puacuteblico tuvieron debido a una colocacioacuten no hacer larenovacioacuten de la demanda en el periodo establecido o por otras causas (httpwwwigeeuigebdtigeapidatos1243)

Conjunto 7 Afiliaciones a la Seguridad Social uacuteltimo diacutea del mes en Galicia y sus provinciasDatos mensuales La informacioacuten procede del Ministerio de Seguridad Social y Migraciones yhace referencia a las personas trabajadoras que estaacuten en alta en la Seguridad Social (httpwwwigeeuigebdtigeapidatos4885)

Los motivos por los que se han escogido estos conjuntos obedece a diversas razones En primerlugar el maacutes importante incluir series en las que existe el conocimiento de que se presentan atiacutepicosA partir de ahiacute se ha conformado un conjunto de series que permitiesen recoger la mayor amalgamade naturalezas posibles que se presentan en las series que trata el IGE mercado laboral turismoconstruccioacuten o industria Seriacutean aacutembitos que se recogen a lo largo de la seleccioacuten de datos realizadaAdemaacutes se han incorporado series con distinta frecuencia de obtencioacuten tanto series mensuales comotrimestrales

En este trabajo se recoge una comparativa de meacutetodos los cuales se pueden englobar bajo dosvisiones de coacutemo abordar la identificacioacuten de anomaliacuteas en series de tiempo Por un lado existen losmeacutetodos cuyo mecanismo se fundamenta en modelos de series temporales que realizan un procesoiterativo para estimar el modelo integrando la posible influencia de observaciones atiacutepicas Por el otrouna visioacuten maacutes reciente se plantea a traveacutes de realizar un proceso de deteccioacuten en dos partes en laprimera se le aplica a la serie de tiempo un meacutetodo de descomposicioacuten para despueacutes aplicar un meacutetodode deteccioacuten de atiacutepicos sobre el residuo

Dado que ambos enfoques comparten un nexo comuacuten como es la modelizacioacuten de la serie de tiempoy la localizacioacuten de atiacutepicos las podemos tratar conjuntamente en dos capiacutetulos el Capiacutetulo 2 y elCapiacutetulo 3

En el Capiacutetulo 2 se estudian las propiedades de modelizacioacuten de cada meacutetodo La importancia deun buen meacutetodo de modelizacioacuten de series temporales reside en que cuanto mejor se consiga extraer elmecanismo generador de la serie de tiempo maacutes resaltaraacuten las observaciones atiacutepicas En el Capiacutetulo 3se describen los meacutetodos de deteccioacuten de atiacutepicos Estos dos capiacutetulos conforman la parte teoacuterica deltrabajo

Para estudiar el comportamiento de los diferentes meacutetodos se plantea un profundo estudio desimulacioacuten en el Capiacutetulo 4 en el que se utiliza el Iacutendice de Youden como herramienta discriminatoriaacerca de queacute meacutetodos ofrecen mejores resultados En el Capiacutetulo 5 se tratan los datos proporcionadospor el IGE a traveacutes de los meacutetodos que han presentado un mejor comportamiento en el estudio desimulacioacuten Para finalizar el Capiacutetulo 6 expone las conclusiones que hemos extraiacutedo a lo largo de larealizacioacuten de este trabajo

4 CAPIacuteTULO 1 INTRODUCCIOacuteN

Capiacutetulo 2

Modelizacioacuten de series temporales

21 Conceptos baacutesicos

En este apartado definiremos los elementos principales que rodean a las series de tiempo Para ellopodemos echar mano de infinidad de manuales dado que las mismas son objeto de estudio en multitudde campos desde las ciencias sociales y econoacutemicas hasta ramas que requieren de un bagaje muchomaacutes matemaacutetico En este trabajo haremos uso de Pentildea (2010) y Woodward Gray y Elliott (2017)

En la estadiacutestica baacutesica estamos acostumbrados a trabajar con una muestra donde las observacio-nes X1 X2 Xn son variables aleatorias independientes e ideacutenticamente distribuidas Sin embargocuando las muestras se extraen en base a instantes de tiempo es muy probable que las observacionesesteacuten correlacionadas entre si Este tipo de muestras con dependencia temporal se denominan series detiempo Es decir una serie de tiempo es una secuencia de observaciones ordenadas cronoloacutegicamente

Este tipo de datos se utilizan en muacuteltiples disciplinas algunos ejemplos podriacutean incluir desde elaacutembito econoacutemico como la evolucioacuten del Producto Interior Bruto (PIB) o del precio del petroacuteleo hastaaacutembitos como la meteorologiacutea midiendo la temperatura de una localidad durante un periacuteodo de tiempoo el aacutembito sanitario siguiendo la evolucioacuten de una enfermedad en un paciente

Uno de los principales inconvenientes a la hora de trabajar con series temporales son los datos atiacute-picos Estos datos atiacutepicos pueden tener dos naturalezas errores no deseados o pepitas de informacioacuten(Rousseeuw y Hubert 2011) Estas pepitas de informacioacuten pueden servirnos por ejemplo para locali-zar sucesos importantes como huelgas medidas de poliacutetica econoacutemica o desastres naturales (Goacutemez yTaguas 1995) Al igual que en el resto de campos de la estadiacutestica que en nuestro conjunto de datos seencuentren valores atiacutepicos puede llevarnos a incurrir en errores de especificacioacuten Como se mencionaen Chang Tiao y Chen (1988) es importante ser capaz de identificar estos sucesos para comprendermejor la estructura subyacente de la serie

Uno de los modelos maacutes comuacutenmente usado y utilizado como punto de partida en el anaacutelisisde series temporales es el modelo ARIMA Los modelos ARIMA ajustan los valores de la serie enbase a las observaciones previas y errores aleatorios con una estructura que le permite incluir tantocomponentes ciacuteclicos como estacionales Siendo Xtt una serie de tiempo un modelo ARIMA seriacuteaaquel que admite una representacioacuten

5

6 CAPIacuteTULO 2 MODELIZACIOacuteN DE SERIES TEMPORALES

φ(B)(1minusB)dXt = c+ θ(B)at

donde Xt es la observacioacuten t de la serie de tiempo B el operador retardo definido por BXt = Xtminus1φ(B) = (1minusφ1(B)minusφ2B

2minusminusφpBp) φ(B) = (1minusθ1Bminusθ2B2minusminusθqBq) cφ1 φ2 φpθ1 θ2 θp

son constantes d es el nuacutemero de diferencias necesarias para eliminar la tendencia de la serie at esruido blanco y p y q los oacuterdenes de los procesos autorregresivos (AR) y de medias moviles (MA)

Con esta representacioacuten del modelo ARIMA se puede deducir raacutepidamente que estos no son maacutes quela mezcla de los dos primeros modelos de series temporales formulados los modelos AR y los modelosMA Ademaacutes si el proceso que genera la serie de tiempo presenta la posibilidad de estar formado porcomponentes de largo periacuteodo temporal se debe hacer uso de los ARIMA estacional muacuteltiplicativoARIMA(pdq)x(PDQ) cuya representacioacuten seriacutea

φ(B)Φ(Bs)(1minusB)d(1minusBs)DXt = c+ θ(B)Θ(Bs)at

En esta nueva formulacioacuten D es el nuacutemero de diferenciaciones estacionales aplicadas para eliminarla componente estacional Φi y Θj las constantes respectivas a la parte estacional para i = 1 2 P yj = 1 2 Q con P igual al orden del proceso AR estacional y Q al orden del proceso MA estacional

Sin embargo la presencia de atiacutepicos puede llevar a un incorrecto ajuste de los paraacutemetros delmodelo debido a que se pueden ver sesgados por el efecto del atiacutepico La mala estimacioacuten de losparaacutemetros nos conduce a diversos errores dado que podemos no diseccionar bien la estructura dela serie como para entender su comportamiento Ademaacutes en el caso de que el atiacutepico se produzcaen la uacuteltima parte de la serie afectariacutea a las estimaciones futuras incurriendo en un error mayor deprediccioacuten

Por ello surgieron meacutetodos como X-13ARIMA-SEATS o TRAMO-SEATS que parten de los mo-delos ARIMA e introducen mejoras como la deteccioacuten y correccioacuten de atiacutepicos Estos meacutetodos fueronampliamente utilizados durante mucho tiempo para la modelizacioacuten de series temporales Sin embargoel desarrollo de la tecnologiacutea provocoacute la creacioacuten del Internet de las Cosas (Mahdavinejad et al 2018)un entorno en el que casi la totalidad de los objetos y personas estaacute conectado a internet dejandohuella de su comportamiento Las caracteriacutesticas de esta red provocaron un incremento enorme en lacreacioacuten y obtencioacuten de datos unas caracteriacutesticas para las cuales no estaban preparados estos meacutetodosdisentildeados para escalar a conjuntos de tamantildeo pequentildeo o mediano

Es aquiacute donde surge un nuevo enfoque para la deteccioacuten de valores atiacutepicos en series de tiempobasado en aplicar un proceso de descomposicioacuten y analizar los residuos Los procesos de descomposicioacutentienen por objetivo diseccionar una serie en tres componentes tendencia estacionalidad y residuo demodo que se pueda establecer un patroacuten de como se comporta En este trabajo el objetivo no es buscarel modelo maacutes preciso sino aquel que consiga trazar mejor la estructura subyacente de la serie de formaque resalte los posibles valores atiacutepicos en su componente residual y es por ello que estos modelosresultan de tanto intereacutes El primer meacutetodo basado en esta idea que recibioacute cierta repercusioacuten fue elpresentado por el equipo de Twitter (Hochenbaum Vallis y Kejariwal 2017) el cual fue maacutes tardeampliado en el paquete Anomalize de R (Dancho y Vaughan 2019)

Esta forma de proceder en dos partes descomposicioacuten maacutes deteccioacuten se debe a la idea de quevisualizar o localizar atiacutepicos en una serie es complicado debido a causas como la estacionalidad o

21 CONCEPTOS BAacuteSICOS 7

tendencia de la serie Aplicarle a la serie un proceso de descomposicioacuten permite extraer estas compo-nentes y resaltar las posibles anomaliacuteas A continuacioacuten en la Figura 21 mostramos un ejemplo deeste procedimiento utilizando uno de los meacutetodos que se emplearaacuten posteriormente en el trabajo STL

Figura 21 A la izquierda la serie referente al Nuacutemero Total de Afiliaciones a la Seguridad Social eluacuteltimo diacutea de mes en Pontevedra perteneciente al Conjunto 7 A la derecha los residuos obtenidos trasaplicarle la descomposicioacuten STL

Como se puede apreciar en la Figura 21 observar alguacuten comportamiento extrantildeo en la serie detiempo es complicado debido a las fluctuaciones que va sufriendo a lo largo de los antildeos Sin embargouna vez aplicado el proceso de descomposicioacuten y eliminado los efectos de estacionalidad y tendenciapodemos ver el efecto de la crisis del Covid-19 apareciendo en los uacuteltimos datos de la serie Esta crisisprovoca que los datos reales de esos meses disten mucho de los esperados lo que se traduce en fuertesincrementos en el tamantildeo del residuo

Lo interesante de estos meacutetodos es que los procesos de descomposicioacuten de series de tiempo soncapaces de analizar multitud de series de caracteriacutesticas muy diferentes y filtrarlas de tal modo que elproblema acabe residiendo en lo que aparentemente es un sencillo problema de deteccioacuten de valoresatiacutepicos en el caso univariante Mientras que los meacutetodos como X-13ARIMA-SEATS o TRAMO-SEATS se encuentran limitados en su disentildeo a trabajar solamente con series con frecuencias mensualeso trimestrales

Sin embargo Wilkinson (2017) resalta que el problema de la deteccioacuten de valores atiacutepicos en elcaso univariante es engantildeosamente sencillo lo cual puede llevarnos a cometer errores en la deteccioacutende atiacutepicos pese a haber realizado una buena descomposicioacuten de la serie Por ello en este trabajo seplantea un capiacutetulo dedicado a analizar las propiedades de diferentes meacutetodos de deteccioacuten

Por tanto en el trabajo coexisten dos mecanismos de deteccioacuten de atiacutepicos en series temporalesPor un lado los meacutetodos de ajuste de series temporales que incorporan la deteccioacuten y correccioacuten deatiacutepicos al modelo de modo automaacutetico Y por el otro aquellos meacutetodos de deteccioacuten de atiacutepicos cuyaidea se centra en aplicar un proceso de descomposicioacuten maacutes anaacutelisis del residuo

En la Seccioacuten 22 se describen los procesos de modelizacioacuten de series temporales utilizados y en elCapiacutetulo 3 se describen los procesos de deteccioacuten de atiacutepicos

8 CAPIacuteTULO 2 MODELIZACIOacuteN DE SERIES TEMPORALES

22 Meacutetodos de modelizacioacuten de series temporales

221 X-13ARIMA-SEATS

El meacutetodo X-13ARIMA-SEATS es la versioacuten actualizada y mejorada del modelo X-11 desarrolladopor Shiskin Young y Musgrave (1967) X-13ARIMA-SEATS fue creado por el Censo de los EstadosUnidos (US Census Bureau) y forma parte de una familia de modelos de ajuste para series temporalesque se han ido desarrollando y estaacuten disentildeados para trabajar con series econoacutemicas estacionales Unaexplicacioacuten completa del meacutetodo y de coacutemo ha de implantarse se puede encontrar en Time SeriesResearch Staff (2017)

Este modelo se basa en la estimacioacuten de lo que sus autores denominan modelos regARIMA Estosson modelos de regresioacuten con errores ARIMA En concreto la media de la serie estaacute descrita por unacombinacioacuten lineal de regresores y la matriz de covarianzas es la de un proceso ARIMA Se incluyenregresores para modelar efectos de calendario como festivos vacaciones o diacutea de la semana Ademaacutestambieacuten se incluyen otro tipo de regresores para modelar el efecto de las anomaliacuteas que se puedanpresentar El modo en que se aborda este campo lo trataremos en profundidad en el Capiacutetulo 3 conel resto de meacutetodos de deteccioacuten

El proceso de ajuste comienza por un pre-ajuste de la serie a traveacutes de eliminar el efecto determiniacutes-tico mediante un modelo de regresioacuten con errores ARIMA En el siguiente paso la serie pre-ajustada sedescompone en tendencia (t) estacionalidad (s) y residuo (i) Esta descomposicioacuten puede ser aditiva(y = t+s+i) multiplicativa (y = tlowastslowasti) log-aditiva (log(y) = log(t)+log(s)+log(i)) o pseudo-aditiva(y = t lowast (s+ iminus 1)) Este paso en el que se aplica el proceso de descomposicioacuten se basa en el uso delalgoritmo X11 que descompone la serie a traveacutes de filtros lineales La serie final ajustada debe estarlibre de estacionalidad y efectos de calendario

X-13ARIMA-SEATS estaacute implementado en la libreriacutea RJDemetra de R en la funcioacuten x13 y lasespecificaciones necesarias para llevar a cabo la deteccioacuten de atiacutepicos se tratan en el Capiacutetulo 3 juntocon la explicacioacuten del proceso de deteccioacuten

222 TRAMO-SEATS

El meacutetodo TRAMO-SEATS (Goacutemez y Maravall 1997) fue disentildeado por el Banco de Espantildea parael anaacutelisis de series de tiempo Esta herramienta estaacute formada por dos mecanismos La parte TRAMO(Time Series Regression with Arima noise Missing Observations and Outliers) y la parte SEATS(Signal Extraction in ARIMA Time Series)

Como se introduce en Goacutemez y Taguas (1995) el programa TRAMO puede ser utilizado inde-pendientemente de SEATS sin embargo SEATS ha sido disentildeado para trabajar conjuntamente conTRAMO Su finalidad es la de realizar un anaacutelisis detallado de series temporales ya que cuenta conmecanismos para realizar tareas de estimacioacuten prediccioacuten interpolacioacuten de modelos de regresioacuten convalores ausentes con errores ARIMA y correccioacuten de valores atiacutepicos El programa incluye variables deregresioacuten para modelizar los diacuteas de calendario que pueden influir en el comportamiento de la serie co-mo puede ser la Pascua y variables de intervencioacuten que permiten corregir el efecto de las observacionesatiacutepicas La idea en la que se basa el modelo es muy similar a la del modelo X-13ARIMA-SEATS

TRAMO elimina de la serie los efectos especiales identifica y elimina automaacuteticamente los efectos

22 MEacuteTODOS DE MODELIZACIOacuteN DE SERIES TEMPORALES 9

de varios tipos de atiacutepicos e interpola las observaciones ausentes Tambieacuten cuenta con un moacuteduloque permite la identificacioacuten automaacutetica de modelos herramienta que imitaron los desarrolladores deX-13ARIMA-SEATS y que en su momento le permitioacute relevar de tareas monoacutetonas a los analistasEste procedimiento de identificacioacuten automaacutetica estaacute basado en estimar primero las raiacuteces unitarias yutilizar despueacutes el Criterio de Informacioacuten Bayesiano (BIC ) para especificar un modelo ARMA a laserie diferenciada

Figura 22 Esquema de funcionamiento de TRAMO-SEATS (Goacutemez y Maravall 1997)

La Figura 22 (Goacutemez y Maravall 1997) muestra como se integran ambas partes TRAMO ySEATS para formar en conjunto el mecanismo completo de modelizacioacuten

SEATS fue disentildeado originalmente para desestacionalizar series temporales El programa descom-pone una serie que sigue un modelo ARIMA en varios componentes tendencia componente estacionalciclo y componente irregular La descomposicioacuten puede ser aditiva o multiplicativa La descomposicioacutenparte de la hipoacutetesis de ortogonalidad de los componentes que a su vez siguen modelos ARIMA Paraidentificar los componentes se requiere que excepto el irregular esteacuten limpios de ruido blanco De estemodo se maximiza la varianza de este uacuteltimo y al contrario la tendencia el componente estacional yel ciclo son lo maacutes estables posibles

El modelo tratado por SEATS es el de una serie integrada lineal con innovaciones gaussianas Estahipoacutetesis puede no ser cierta en muacuteltiples ocasiones pero siempre es necesario extraer un modelo espor ello que SEATS fue disentildeada para ser utilizada de forma conjunta con TRAMO

TRAMO-SEATS estaacute implementado en la libreriacutea RJDemetra de R en la funcioacuten tramoseats y las

10 CAPIacuteTULO 2 MODELIZACIOacuteN DE SERIES TEMPORALES

especificaciones necesarias para llevar a cabo la deteccioacuten de atiacutepicos se tratan en el capiacutetulo 3 juntocon la explicacioacuten del proceso de deteccioacuten

223 STL

STL es un proceso de filtrado para descomponer series de tiempo en tendencia estacionalidad yresiduo cuyo nombre se debe a sus siglas en ingleacutes Seasonal-Trend decomposition based on Loessintroducido por Cleveland Cleveland McRae y Terpenning (1990) El propoacutesito de este meacutetodo fue elde desarrollar un meacutetodo de descomposicioacuten de series de tiempo que cumpliese los siguientes requisitos

1 Disentildeo sencillo y uso inmediato

2 Flexibilidad a la hora de especificar las variaciones en la tendencia y estacionalidad

3 Poder descomponer series de tiempo con valores faltantes

4 Tendencia y estacionalidad robusta de modo que no se vea distorsionada por datos anoacutemalos

5 Raacutepida computacioacuten y faacutecil implementacioacuten incluso para series temporales largas

El procedimiento de STL consiste en una secuencia de operaciones de suavizado realizadas todasellas salvo una por el mismo suavizador loess El mecanismo consiste en dos bucles uno interno yotro externo

Cada vuelta del bucle interno consiste en un suavizado estacional que actualiza dicha componenteseguido de un suavizado de la tendencia que actualiza la componente asociada con la tendencia Porotra parte cada vuelta del bucle externo consiste en aplicarle una serie de pesos robustos al bucleinterno Estos pesos se utilizan en la siguiente vuelta del bucle interno para reducir la influencia de losdatos anoacutemalos

La aplicacioacuten de la estimacioacuten robusta seraacute necesaria cuando exista un conocimiento previo de quelos datos tienen un comportamiento no gaussiano que conduce a una variacioacuten transitoria extrema delo contrario se pueden omitir las iteraciones del bucle externo y STL consistiriacutea solamente en el bucleinterno

A diferencia de otros meacutetodos como TRAMO-SEATS o X-13ARIMA-SEATS STL puede tratarcualquier tipo de estacionalidad en vez de estar atado a estacionalidades mensuales o trimestrales Sucomponente estacional es capaz de cambiar a lo largo del tiempo y dicho cambio puede ser controladopor el usuario Lo mismo sucede con el suavizado de la componente relacionada con la tendencia Unode sus inconvenientes es que no opera si en la serie se encuentran valores faltantes

En R encontramos este meacutetodo bajo la funcioacuten stl a la cual solo habraacute que especificarle unparaacutemetro Dicho paraacutemetro es el relacionado con el suavizado de la componente estacional e indicaal mecanismo el nuacutemero de observaciones consecutivas a utilizar para estimar los valores de dichacomponente Se podriacutea introducir un valor numeacuterico si tenemos alguacuten indicio sobre el posible desarrollode la componente estacional sin embargo dado que vamos a aplicarlo a un gran nuacutemero de series elanaacutelisis individual seriacutea costoso La solucioacuten utilizada en este trabajo pasa por fijar este paraacutemetrocomo perioacutedico lo cual asume que la evolucioacuten de la componente estacional es ideacutentica a lo largo delos antildeos que se desarrolla la serie

22 MEacuteTODOS DE MODELIZACIOacuteN DE SERIES TEMPORALES 11

224 STR

STR es un meacutetodo de descomposicioacuten de series de tiempo presentado por Dokumentov y Hyndman(2015) Sus siglas se deben a su nombre en ingleacutes Seasonal-Trend decomposition procedure based onRegression similar a la idea de STL salvo que ahora en vez de basarse en loess lo hace en regresioacutenEn concreto seguacuten los autores STR es similar a la regresioacuten Ridge (Hoerl y Kennard 1970) y suversioacuten robusta Robust STR (Dokumentov y Hyndman 2015) se podriacutea relacionar con una regresioacutenLASSO (Tibshirani 1996)

La idea de su desarrollo se originoacute debido a que los autores consideran que a pesar de existir variosalgoritmos de descomposicioacuten de series de tiempo existen muchas caracteriacutesticas en ellas que dichosalgoritmos son incapaces de tratar Las principales deficiencias que encuentran son

Incapacidad para proporcionar un modelo estadiacutestico significativo y simple

Incapacidad (o dificultad) para calcular intervalos de confianza

Incapacidad para tener en cuenta regresores

Incapacidad para tener en cuenta estacionalidad fraccionada

Incapacidad para tener en cuenta muacuteltiples estacionalidades

Incapacidad para tener en cuenta estacionalidades complejas y regresores que afecten a los datosde un modo estacional

El objetivo con el que se desarrolloacute STR fue el de corregir estas deficiencias a la par que presentar unmeacutetodo claro geneacuterico simple y robusto si fuera necesario Para solucionar estas deficiencias enfocan ladescomposicioacuten como un problema a resolver a traveacutes de una regresioacuten cuantil o de miacutenimos cuadradosordinarios

De acuerdo a sus desarrolladores STR constituye el meacutetodo de descomposicioacuten de series de tiempomaacutes geneacuterico disponible en el momento de su publicacioacuten Sin embargo matizan una gran desventajaque presenta el meacutetodo y es su ineficiencia o la ralentizacioacuten que sufre el mecanismo a la hora de tratarcasos en los que se utilizan varios componentes o predictores estacionales

Uno de sus desarrolladores Rob J Hyndman es conocido por sus aportaciones en el campo delas series de tiempo y su posterior implantacioacuten en paquetes para el software R como el famosopaquete forecast En este caso tambieacuten ha colaborado en la implantacioacuten de STR con el paquete stR(Dokumentov y Hyndman 2018)

225 Twitter

En Hochenbaum et al (2017) se aborda el problema de deteccioacuten de valores atiacutepicos en series detiempo introduciendo la idea de descomposicioacuten maacutes deteccioacuten como hemos comentado en la introduc-cioacuten de esta seccioacuten El equipo de Twitter plantea en su artiacuteculo utilizar en un primer momento STLcomo meacutetodo de descomposicioacuten para obtener los residuos sin embargo a la hora de trabajar con estemeacutetodo encuentran una serie de inconvenientes Estos inconvenientes estariacutean provocados por ciertasanomaliacuteas espurias producidas en el residuo

12 CAPIacuteTULO 2 MODELIZACIOacuteN DE SERIES TEMPORALES

Para corregir esta situacioacuten optan por utilizar la mediana de la serie de tiempo para representar latendencia ldquoestablerdquo que despueacutes seraacute utilizada para calcular el residuo

De este modo afirman que reemplazando la tendencia con la mediana se eliminan las anomaliacuteasespurias o ilegiacutetimas del residuo Los mismos desarrolladores publicaron un paquete en la plataformaGitHub (Twitter Inc 2015) que nos permitiacutea hacer uso de este mecanismo sin embargo su manteni-miento cesoacute a finales de 2015 y el paquete fue eliminado de la plataforma CRAN en marzo de 2019 Elpaquete Anomalize (Dancho y Vaughan 2019) recoge este mecanismo y seraacute el paquete que utilizaremosen este trabajo para utilizar esta modificacioacuten del meacutetodo STL bajo la funcioacuten decompose_twitter

23 RESUMEN MEacuteTODOS DE MODELIZACIOacuteN DE SERIES TEMPORALES 13

23 Resumen meacutetodos de modelizacioacuten de series temporales

Meacutetodo Ventajas Contras

X-13ARIMA-SEATS(2017)

Capaz de tratar con valores fal-tantesIntegra diversos tipos de descom-posicioacutenRaacutepida velocidad de ejecucioacuten

Disentildeado para trabajar solo conseries mensuales o trimestrales

TRAMO-SEATS(1997) Capaz de tratar con valores fal-tantesIntegra diversos tipos de descom-posicioacutenRaacutepida velocidad de ejecucioacuten

Disentildeado para trabajar solo conseries mensuales o trimestrales

STL(1990) Puede tratar series de cualquierfrecuenciaRaacutepidoCuenta con versioacuten robusta

No admite valores faltantesCarece de flexibilidad cuando elperiacuteodo estacional es largo y seobserva mucho ruido en la serieAuacuten con su versioacuten robusta pue-de verse afectado por la influen-cia de los atiacutepicos

STR(2015) Puede tratar series de cualquierfrecuenciaCuenta con versioacuten robustaAdmite valores faltantesSensible a cambios de estaciona-lidad

No puede seguir cambios bruscosen la tendenciaExtremadamente lento en com-paracioacuten al resto de meacutetodos

Twitter(2017) Puede tratar series de cualquierfrecuenciaElimina anomaliacuteas espuacutereas en lacomponente residualRaacutepido

No admite valores faltantesNo cuenta con versioacuten robusta

Cuadro 21 Resumen de los meacutetodos de modelizacioacuten de series temporales

14 CAPIacuteTULO 2 MODELIZACIOacuteN DE SERIES TEMPORALES

Capiacutetulo 3

Deteccioacuten de valores atiacutepicos

31 Conceptos baacutesicos

El problema que supone en la estadiacutestica la presencia de valores atiacutepicos aparecioacute muy pronto EnHawkins (1980) mencionan que este problema pudo haber surgido ya en los siglos XVIII y XIX enencuestas estadiacutesticas que se realizaban Las primeras decisiones de queacute hacer con ellos se basaron encriterios puramente subjetivos en los que era el propio analista el que decidiacutea descartar una observacioacutensi pareciacutea anoacutemala respecto al resto de los datos

Posteriormente se comenzaron a plantear posibles soluciones para tratar el problema bajo uncriterio La primera de ellas fue la presentada por Peirce (1852) basada en lo que se podriacutea entendercomo un test de razoacuten de verosimilitud donde todos los valores que superasen el umbral determinadopor cσ seriacutean rechazados siendo c una constante a calcular y σ la desviacioacuten tiacutepica de la muestraVarios autores realizaron criacuteticas a este meacutetodo y propusieron su correccioacuten a este criterio una de ellasfue la de Chauvenet (1963) Esta pasaba por calificar a una observacioacuten como atiacutepico si su valor sesituaba fuera del intervalo definido por 1(4n) puntos de la distribucioacuten Normal siendo n el tamantildeode la muestra

En ese momento surgen diversas propuestas no muy relevantes que trataron de abordar dichoproblema hasta que surgioacute la llevada a cabo por Thompson (1935) Su estudio condujo a descubrir ladistribucioacuten nula de un residuo estudentizado

xi minus xs

donde xi es la observacioacuten sospechosa de ser atiacutepica x la media muestral y s la desviacioacuten tiacutepica de lamuestra A partir de esto pudo deducir un procedimiento de deteccioacuten de atiacutepicos que rechazariacutea unaproporcioacuten fija de todos los datos buenos y devolveriacutea una tabla con los valores criacuteticos adecuados

Esta idea supuso el desarrollo del test de Grubbs (1950) el cual utilizando la misma notacioacutenanterior basaba su regla en los momentos muestrales de una normal

G =max1leilen|xi minus x|

s

Grubbs (1950) asocioacute G con una distribucioacuten t con el objetivo de encontrar un maacuteximo y un miacutenimo

15

16 CAPIacuteTULO 3 DETECCIOacuteN DE VALORES ATIacutePICOS

para localizar atiacutepicos Esta idea fue posteriormente ampliada dando lugar al meacutetodo GESD (Rosner1983) el cual se detalla en la siguiente seccioacuten

Posteriormente se presentoacute una de las herramientas maacutes comuacutenmente utilizadas para la identifi-cacioacuten de atiacutepicos el boxplot introducido en Tukey (1977) Sin embargo el objetivo inicial no fue ladeteccioacuten de atiacutepicos sino como un meacutetodo para trazar una idea del intervalo en el que se encuentranla gran parte de nuestros datos Ademaacutes la forma en la que se construye provoca dos grandes incon-venientes No se puede aplicar a distribuciones sesgadas y dado que no incluye el tamantildeo muestral ensu formulacioacuten tenderaacute a etiquetar falsos atiacutepicos cuanto maacutes grande sea la muestra

A la par que se iban presentando estas ideas para la buacutesqueda de valores atiacutepicos en un conjuntode datos se fueron presentando mecanismos enfocados a las series de tiempo

Uno de los primeros aportes al tratamiento de datos atiacutepicos en series de tiempo fue propuestopor G E P Box y Tiao (1975) Sin embargo este meacutetodo solamente permitiacutea modelar el efecto de laobservacioacuten atiacutepica si se conociacutea de antemano el momento de la intervencioacuten por lo que no se podriacuteaconsiderar una herramienta de deteccioacuten sino maacutes bien una herramienta de intervencioacuten

Posteriormente se propusieron diversos meacutetodos para abordar el problema de la estimacioacuten demodelos ARIMA en series bajo esta circunstancia El primero de ellos fue el de Abraham y Box(1979) que se basaba en proponer un enfoque bayesiano para resolver el problema partiendo de ideassimilares a las que se habiacutean propuesto en otros contextos por autores como Tukey (1977) Otro meacutetodoque buscaba resolver tambieacuten el mismo problema fue el propuesto por Chang y Tiao (1983) cuya idease centraba en aplicar un proceso iterativo

Fue en este artiacuteculo (Chang y Tiao 1983) donde se propuso por primera vez un meacutetodo de deteccioacutene identificacioacuten de atiacutepicos Tsay (1986) propuso su versioacuten que se basaba en combinar el procesoiterativo presentado en Chang y Tiao (1983) con la funcioacuten de autocorrelacioacuten muestral extendidadesarrollada en Tsay y Tiao (1984) la cual permite eliminar la necesidad de determinar el orden dediferenciacioacuten para producir una serie estacionaria que modelar

En Chen y Liu (1993) se reconocen los numerosos aportes hechos en los anteriores artiacuteculos citadospero matiza que algunos problemas seguiacutean estando vigentes

a La presencia de atiacutepicos puede resultar en un modelo inapropiado

b Incluso si el modelo es el apropiado los atiacutepicos pueden seguir produciendo sesgo en el paraacutemetroestimado y por tanto afectar a la deteccioacuten del atiacutepico

c Algunos atiacutepicos no van a ser identificados debido a un problema de enmascaramiento

Su objetivo era presentar un meacutetodo que fuese capaz de resolver los problemas b y c de modo quese pudiese generalizar para aplicar a los cuatro tipos de atiacutepicos en series temporales que se habiacutean idointroduciendo Los cuatro tipos son

IO (atiacutepico innovativo) existe un atiacutepico innovativo en el momento t cuando la innovacioacuten en esepunto esteacute directamente provocada por una cantidad desconocida debido a un suceso imprevisto

AO (atiacutepico aditivo) diremos que se produce un atiacutepico aditivo si en el momento t la serie segenera de manera diferente al resto

32 MEacuteTODOS DE DETECCIOacuteN DE VALORES ATIacutePICOS 17

LS (cambio de nivel) existe un cambio de nivel si en el momento t la serie experimenta unincremento de todos sus valores A diferencia del resto tiene un efecto permanente sobre la serieuna vez aparece

TC (cambio temporal) similar al cambio de nivel solo que el efecto no es permanente y decreceexponencialmente con el tiempo

X-13ARIMA-SEATS y TRAMO-SEATS basan su proceso de deteccioacuten de atiacutepicos en meacutetodosinspirados en el artiacuteculo de Chen y Liu (1993) cuya idea se fundamenta en integrar un mecanismoiterativo disentildeado para trabajar con series de tiempo que localiza e integra los atiacutepicos al modelo Porotra parte en la siguiente seccioacuten introducimos los meacutetodos de deteccioacuten de atiacutepicos que acompantildeana los procesos de descomposicioacuten de series de tiempo estos son GESD Isolation Forest y HDoutliersEstos meacutetodos son desarrollos de los mecanismos e ideas tratados al comienzo de esta seccioacuten como elmeacutetodo Grubbs (Grubbs 1950)

32 Meacutetodos de deteccioacuten de valores atiacutepicos

321 X-13ARIMA-SEATS

El anaacutelisis de diagnoacutestico del modelo regARIMA se realiza a traveacutes del anaacutelisis de los residuos delmodelo estimado Para el apartado de anaacutelisis de valores atiacutepicos X-13ARIMA-SEATS se fundamentaen Chang y Tiao (1983) con extensiones y modificaciones tratadas en Bell (1983) y Otto y Bell (1990)donde los valores atiacutepicos pueden ser de tres de los cuatro tipos antes mencionados AO LS y TC

El enfoque que plantea este mecanismo de deteccioacuten es similar a la regresioacuten paso a paso procedi-miento de regresioacuten en el que se construye el modelo a traveacutes de ir antildeadiendo o eliminando variablespredictoras en base a criterios de informacioacuten

En este caso las variables candidatas para la regresioacuten son las AO LS y TC para todos los puntosen los que la deteccioacuten de atiacutepicos se realiza Es decir se calcula el t-estadiacutestico para ver la significa-tividad de cada tipo de atiacutepico en cada instante temporal se busca significatividad entre todos estost-estadiacutesticos y se antildeade la correspondiente variable de regresioacuten (AO LS o TC) al modelo con el finde corregir los efectos que producen estas observaciones atiacutepicas De este modo se identifica e introduceel efecto de un momento atiacutepico en el modelo Mientras se produce el proceso de deteccioacuten de atiacutepicosse utiliza un estimador robusto de la desviacioacuten residual estaacutendar 148lowastla mediana del valor absolutode la desviacioacuten residual

X-13ARIMA-SEATS antildeade dos variaciones a este meacutetodo El meacutetodo addone en el que cada vezque se antildeade al modelo un atiacutepico se lleva a cabo una re-estimacioacuten del modelo y el meacutetodo addallque re-estima el modelo solo cuando un nuacutemero de variables atiacutepicas han sido antildeadidas al modelo

Este meacutetodo estaacute implantado en R a traveacutes de la funcioacuten x13 del paquete RJDemetra Dicha funcioacutenrequiere de un paraacutemetro de especificacioacuten spec en que se concreta el modelo que queremos introducirEste paraacutemetro es el que nos ofrece diversas posibilidades de modelizacioacuten de la serie como se recogeen la Figura 31 entre ellas los efectos de calendario o los atiacutepicos que presente la serie Dado quebuscamos sucesos atiacutepicos en su sentido maacutes amplio vamos a omitir incluir los efectos de calendarioy solamente introducir la deteccioacuten automaacutetica de atiacutepicos Esto provoca que en nuestro trabajo la

18 CAPIacuteTULO 3 DETECCIOacuteN DE VALORES ATIacutePICOS

especificacioacuten que nos interesa y con la que hemos trabajado sea RSA3 La opcioacuten RSA3 permiteajustar automaacuteticamente un modelo ARIMA identificando y corrigiendo las posibles observacionesanoacutemalas El resto de modificaciones que permite introducir el paraacutemetro de especificacioacuten de la funcioacutenx13 se recogen en la Figura 31 Por ejemplo si estuvieacutesemos interesados en modelizar nuestros datosa traveacutes de un modelo ARIMA de liacuteneas aeacutereas observariacuteamos en la Figura 31 que tendriacuteamos queescoger la especificacioacuten RSA0 Si ahora quisieacuteramos antildeadirle a dicho modelo deteccioacuten de atiacutepicostendriacuteamos que cambiar el paraacutemetro de especificacioacuten a RSA1 y si ademaacutes tambieacuten nos interesamodelar los efectos de calendario sobre dicho modelo introduciriacuteamos la especificacioacuten RSA2 El restode especificaciones ya trabajan sobre el ajuste de un modelo ARIMA de un modo automaacutetico la maacutessencilla es la que utilizamos nosotros en este trabajo RSA3 la cual ajusta un modelo ARIMA deforma automaacutetica incluyendo la deteccioacuten de atiacutepicos Las especificaciones RSA4 y RSA5 incorporanrespecto a RSA3 modelizar los efectos de calendario La diferencia entre ellas se encuentra en queRSA4 incluye en el modelo los efectos de calendario a traveacutes de dos variables que representan losdiacuteas laborables y los fines de semana y RSA5 incluye dichos efectos a traveacutes de siete variables cadadiacutea de la semana y ambas incluyen el efecto de la Pascua en el calendario Por uacuteltimo se encuentrala especificacioacuten RSAfull que incluye el ajuste automaacutetico de un modelo ARIMA y de los efectos decalendario e incorpora la deteccioacuten de atiacutepicos Todas estas especificaciones son las que se detallan enla Figura 31 para profundizar maacutes en ellas se puede consultar el manual de la libreriacutea RJDemetra (laTente Michalek Palate y Baeyens 2020)

Figura 31 Paraacutemetro de especificaciones a introducir al modelo X-13ARIMA-SEATS

322 TRAMO-SEATS

El mecanismo de deteccioacuten de atiacutepicos que utiliza el programa TRAMO-SEATS aborda el problemacon la intencioacuten de resolver los problemas b y c introducidos en el inicio del Capiacutetulo 3 dado queentiende que estos no se han resuelto de un modo satisfactorio en Chen y Liu (1993) En Goacutemez yTaguas (1995) explican que aunque este meacutetodo funciona de forma bastante satisfactoria su solucioacutenpresenta una serie de deficiencias

1 Se estima varias veces por maacutexima verosimilitud exacta lo que es costoso

2 No utiliza residuos exactos

3 El algoritmo es excesivamente complicado

4 Las regresiones muacuteltiples no se hacen filtrando los datos y las columnas de la matriz por un filtroexacto como el filtro de Kalman sino que se utiliza un filtro condicional

32 MEacuteTODOS DE DETECCIOacuteN DE VALORES ATIacutePICOS 19

Por tanto se presenta un mecanismo que pretende subsanar estas deficiencias a la par que corregirlos problemas b y c mencionados en Chen y Liu (1993) Ademaacutes si se utiliza de forma secuencial juntocon el procedimiento de especificacioacuten automaacutetica del programa supone un procedimiento alternativoal de Tsay (1986)

Al igual que X-13ARIMA-SEATS TRAMO-SEATS estaacute implementado en la libreriacutea RJDemetra

de R en la funcioacuten tramoseats Dicha funcioacuten tambieacuten requiere de un paraacutemetro de especificacioacutenspec en el que se concreta el modelo que queremos introducir La utilidad y mecanismo sobre el quetrabaja este paraacutemetro es ideacutentico al explicado en la Seccioacuten 321 para el meacutetodo X-13ARIMA-SEATSpor lo que utilizaremos la especificacioacuten RSA3 Esta especificacioacuten incluye el ajuste automaacutetico de unmodelo ARIMA corrigiendo las posibles observaciones atiacutepicas

El resto de posibles especificaciones que se pueden incluir en el modelo se recogen en la Figura32 El significado de esta figura es equivalente al de la Figura 31 dado que ambos modelos TRAMO-SEATS y X-13ARIMA-SEATS estaacuten implementados en la misma libreria RJDemetra y compartenel mismo paraacutemetro de especificacioacuten en la funcioacuten que estima sus modelos en R

Figura 32 Paraacutemetro de especificaciones a introducir al modelo TRAMO-SEATS

323 GESD

Introducido por Rosner (1983) como una mejora al por entonces conocido ESD (Rosner 1975) porsus siglas en ingleacutes Extreme Studentized Deviate A pesar de que ESD contaba con buenas propiedadesante una amplia alternativa de atiacutepicos presentaba una serie de defectos que le conduciacutean a etiquetarmaacutes candidatos a atiacutepicos que el nuacutemero apropiado Esto provocoacute que se quedase obsoleto en favor desu actualizacioacuten GESD General Extreme Studentized Deviate

Los pasos que sigue son los siguientes

1 Decidir un maacuteximo nuacutemero de posibles candidatos a atiacutepicos r La recomendacioacuten es de consi-derar el 20 del tamantildeo muestral

2 Comenzar las iteraciones i = 1

3 Calcular Ri = maxt|ximinusx|s siendo xi una observacioacuten sospechosa de ser anoacutemala x la media

muestral y s la desviacioacuten estaacutendar de la muestra respectivamente

4 Eliminar la observacioacuten que maximice xi minus x

5 Calcular el siguiente valor criacutetico λi =(nminusi)tpnminusi+1radic

(nminus1minus1+t2pnminusiminus1)(nminusi+1)

donde tpnminusi+1 es una distribucioacuten t con n minus i minus 1 grados de libertad y p = 1 minus α2(nminusi+1 siendo

α la probabilidad de cometer errores de tipo I

20 CAPIacuteTULO 3 DETECCIOacuteN DE VALORES ATIacutePICOS

6 Pasar a la siguiente iteracioacuten repetir los pasos 2 a 5 hasta i = r quedando r definido en el paso1

7 El nuacutemero de atiacutepicos detectados se determina al encontrar el mayor i tal que Ri gt λi dondeRi se define en el paso 2 y λi en el paso 5

GESD es principalmente el test de Grubbs (Grubbs 1950) aplicado de forma secuencial sin embargoexisten unas pequentildeas diferencias que premian su comportamiento GESD realiza ajustes del valorcriacutetico en base al nuacutemero de atiacutepicos a ser estudiado algo que el test de Grubbs no hace Ademaacutessi existe efecto de enmascaramiento aplicar el test de Grubbs de forma secuencial produciriacutea unadetencioacuten demasiado temprana del algoritmo de deteccioacuten lo que impediriacutea localizar algunos atiacutepicos

Los estudios de simulacioacuten realizados para estudiar el comportamiento de GESD indican que elmeacutetodo es muy preciso cuando contamos con tamantildeos muestrales n gt 25 por lo que en nuestrotrabajo no tendremos problema Sin embargo debido a que es un meacutetodo iterativo seraacute maacutes costosocomputacionalmente a medida que se incrementen los tamantildeos muestrales y es algo a tener en cuentacomo posible freno al crecimiento futuro del mecanismo de deteccioacuten

En R podemos encontrar la funcioacuten gesd dentro del paquete Anomalize (Dancho y Vaughan 2019)

324 Isolation Forest

Isolation Forest o iForest es el meacutetodo presentado por Liu Ting y Zhou (2009) donde se tratael tema de deteccioacuten de atiacutepicos desde un punto de vista diferente Ese punto de vista se basa en dospropiedades relacionadas con la idea de queacute es un valor atiacutepico son la minoriacutea de un conjunto y tienenunos atributos muy diferentes a los de las observaciones normales Es decir las anomaliacuteas son pocas ydiferentes lo que las hace maacutes propensas a encontrarse aisladas del resto

Por esta razoacuten los autores presentan un meacutetodo basado en construir un aacuterbol que aiacutesle cada ob-servacioacuten de tal modo que los valores atiacutepicos se encontraraacuten en ramas maacutes proacuteximas a la raiacutez y losvalores normales se encontraraacuten en zonas maacutes profundas del aacuterbol Es por ello que iForest (Liu et al2009) se distingue del resto de mecanismos basados en modelos distancias o densidades

Figura 33 Idea sobre la que se sustenta el mecanismo de Isolation Forest

32 MEacuteTODOS DE DETECCIOacuteN DE VALORES ATIacutePICOS 21

En la Figura 33 se puede observar la idea sobre la que se rige este mecanismo Un punto normalxi requiere maacutes particiones para ser aislado Y el opuesto tambieacuten es cierto donde un punto anoacutemalox0 requiere menos particiones para ser aislado Por lo que se trata de calcular la ldquolongitud del caminordquoa ser aislado dado que los valores atiacutepicos tendraacuten caminos maacutes cortos que los de los valores normales

Para definir como se calcula la ldquolongitud del caminordquo es necesario definir primero el aacuterbol deaislamiento Isolation Tree El aacuterbol de aislamiento seriacutea toda la estructura de ramas que trocean elconjunto de datos La longitud del camino h(x) path length de un punto x se mediriacutea por tanto comoel nuacutemero de ramas a atravesar desde la raiacutez del aacuterbol al punto

Es necesario definir una puntuacioacuten de cuaacuten anoacutemala es una observacioacuten score para ello se intro-duce c(n) como la media de h(x) siendo E el operador esperanza dado el tamantildeo de la muestra nDe tal modo que

Cuando E(h(x))rarr c(n) scorerarr 05

Cuando E(h(x))rarr 0 scorerarr 1

Cuando E(h(x))rarr nminus 1 scorerarr 0

Haciendo uso de la puntuacioacuten anoacutemala que recibe cada punto score tenemos que

Si score es cercano a 1 la observacioacuten es atiacutepica

Si la observacioacuten presenta valores de score inferiores a 05 pueden ser calificadas como observa-ciones normales

Si todas las observaciones devuelven un valor score asymp 05 entonces la muestra entera carece deatiacutepicos

En el artiacuteculo fijan como atiacutepicos potenciales observaciones con score ge 06 en este trabajo somosmaacutes estrictos y fijamos el umbral en score ge 075 Esta decisioacuten se toma tras probar diferentes umbralesy observar el comportamiento del meacutetodo en el estudio de simulacioacuten y en los datos reales Otrosumbrales que se barajaron y descartaron por los resultados mostrados fueron score ge 07 por serdemasiado laxo y score ge 08 por ser demasiado estricto

En R existen dos libreriacuteas que implantan dicho meacutetodo una es la implantada por la empresa H20 lacual ha desarrollado el algoritmo HDoutliers utilizado en este trabajo Y la otra es la libreriacutea solitude(Srikanth 2017) la cual hemos usado para el desarrollo de este trabajo

325 HDoutliers

HDoutliers (Wilkinson 2017) es un algoritmo que se puede aplicar en multitud de escenarios posi-bles desde el maacutes sencillo que seriacutea el caso univariante hasta maacutes complejos como el multidimensionalo el espacial La idea sobre la que se desarrolla es la de buscar espacios entre los valores ordenadosmaacutes que en la de buscar valores extremos De los meacutetodos que se centran en la idea de buscar valoresextremos como por ejemplo el test de Grubbs y por tanto GESD el autor hace una criacutetica y es queestos utilizan medidas como la media muestral o la desviacioacuten tiacutepica las cuales no son robustas frentea valores atiacutepicos

22 CAPIacuteTULO 3 DETECCIOacuteN DE VALORES ATIacutePICOS

El concepto anterior se puede explicar de un modo muy sencillo a traveacutes de un ejemplo que se recogeen Wilkinson (2017) En los resultados a un examen al que se presentaron 100 alumnos obtenemos unapuntuacioacuten media de 50 y una desviacioacuten estaacutendar de 5 Si entre todas las notas un alumno obtuvo un100 y la siguiente mejor nota es un 65 se podriacutea sospechar que ese alumno es un genio o un tramposoPor otra parte si la nota perfecta se encuentra en el punto maacutes alto de una serie de notas que difieren5 puntos entre ellas ese alumno ya no seriacutea tan sospechoso Los test claacutesicos de valores atiacutepicos no soncapaces de diferir entre ambas situaciones

Figura 34 El algoritmo de HDoutliers aplicado sobre el ejemplo anterior (Wilkinson 2017)

En la Figura 34 se representa este ejemplo En el caso de la izquierda estariacuteamos en la situacioacutenen la que no se sospecha que se hayan producido trampas por parte de ninguacuten alumno y el meacutetodoHDoutliers no detectariacutea ninguacuten candidato a atiacutepico A la derecha tendriacuteamos la situacioacuten en la quesospechariacuteamos de que existe un alumno brillante o tramposo y el meacutetodo detectariacutea una situacioacutenatiacutepica como se sentildeala con el punto rojo

La solucioacuten de buscar espacios permite identificar valores inusuales tanto en el medio de las dis-tribuciones como en los extremos Para ello HDoutliers calcula la distancia al vecino maacutes cercanoDespueacutes ajusta una distribucioacuten exponencial a la cola superior de las distancias calculadas y calcula elvalor 1minusα siendo α la probabilidad de cometer un error tipo I superior de la funcioacuten de distribucioacutenacumulada Por lo que cada observacioacuten que se encuentre significativamente alejada del resto basadaen este punto de corte se etiquetaraacute como atiacutepica

El autor menciona que este meacutetodo difiere de aquellos que se basan en hacer un ranking de candi-datos a atiacutepicos como podriacutea ser Local Outlier Factor (Breunig Kriegel Ng y Sander 2000) o quelos etiquetan bajo un liacutemite arbitrario como seriacutea el caso de Isolation Forest (Liu et al 2009) dadoque pueden conducir a resultados inconsistentes Para ello lo que hace es asignar una probabilidad ala creencia de que estamos ante un atiacutepico

En R podemos encontrar este meacutetodo en la libreriacutea HDoutliers (Fraley y Wilkinson 2020)

33 RESUMEN MEacuteTODOS DE DETECCIOacuteN DE VALORES ATIacutePICOS 23

33 Resumen meacutetodos de deteccioacuten de valores atiacutepicos

Meacutetodo Ventajas Contras

X-13ARIMA-SEATS(2017)

Califica el tipo de atiacutepicoRaacutepida velocidad de ejecucioacuten

Basado en modelos ARIMA

TRAMO-SEATS(1997) Califica el tipo de atiacutepicoRaacutepida velocidad de ejecucioacutenIdea similar a X-13ARIMA-SEATS pero profundizando maacutesen el desarrollo del mecanismo dedeteccioacuten de atiacutepicos

Basado en modelos ARIMA

GESD(1983) Elimina parte de la incertidum-bre de que se produzca un efectode enmascaramiento

Utiliza medidas como la media ola desviacioacuten tiacutepica medidas quese pueden ver distorsionadas porvalores atiacutepicosEs un proceso iterativo lo queimplica mayor coste computacio-nal a medida que se incrementeel tamantildeo de datos

Isolation Forest(2009) Escalable a conjuntos de gran di-mensioacutenDisentildeo sencillo

El usuario tiene que determinarel umbral de atiacutepico lo cual pue-de ser un inconveniente a veces

HDoutliers(2017) Identifica valores inusuales tantoen el medio de las distribucionescomo en los extremosEscalable a conjuntos de gran di-mensioacutenAlta velocidad de ejecucioacuten

Tendencia a calificar un excesode observaciones como atiacutepicassin serlo

Cuadro 31 Resumen de los meacutetodos de deteccioacuten de atiacutepicos

24 CAPIacuteTULO 3 DETECCIOacuteN DE VALORES ATIacutePICOS

34 Meacutetodos de deteccioacuten de valores atiacutepicos en series tempo-

rales

Dado que se han introducido diversos meacutetodos con diferentes enfoques respecto a la resolucioacuten delproblema de deteccioacuten de atiacutepicos en series de tiempo hemos decidido incluir este apartado al finaldel contenido principalmente teoacuterico del trabajo para asiacute centrar los meacutetodos que se utilizaraacuten en lossiguientes capiacutetulos Este apartado recoge todos los meacutetodos los ya existentes y nuevas propuestasrealizadas por nosotros que se utilizaraacuten en este trabajo

Los meacutetodos existentes son los pertenecientes a las libreriacuteas RJDemetra (la Tente et al 2020) yAnomalize (Dancho y Vaughan 2019) La libreriacutea RJDemetra es la que nos dota de las funcionesnecesarias para utilizar los modelos X-13ARIMA-SEATS y TRAMO-SEATS Mientras que la libreriacuteaAnomalize se ha convertido en uno de los paquetes de referencia en R para el anaacutelisis de valores atiacutepicosen series de tiempo A traveacutes de ella podemos utilizar el meacutetodo tratado en Hochenbaum et al (2017)basado en una combinacioacuten de Twitter+GESD y tambieacuten la otra opcioacuten que proponen a traveacutes decombinar STL+GESD

A partir de la idea desarrollada por autores como Hochenbaum et al (2017) o libreriacuteas comoAnomalize Dancho y Vaughan (2019) proponemos nuevos meacutetodos de deteccioacuten de atiacutepicos paraseries temporales El fundamento bajo el que se sostiene esta propuesta es muy sencillo Estos meca-nismos se fundamentan en aplicarle a la serie de tiempo un proceso de descomposicioacuten para extraer laestacionalidad y la tendencia para posteriormente aplicarle un meacutetodo de deteccioacuten de valores atiacutepicosal residuo Dado que se han propuesto mejoras en ambos campos tanto en los meacutetodos de descompo-sicioacuten de series temporales como en el de deteccioacuten de valores atiacutepicos creemos que su combinacioacutenpodriacutea suponer una mejora a las ya establecidas Teniendo en cuenta que se ha introducido un meacutetodode descomposicioacuten de series temporales STR (Dokumentov y Hyndman 2015) y dos meacutetodos de de-teccioacuten de valores atiacutepicos Isolation Forest (Liu et al 2009) y HDoutliers (Wilkinson 2017) lo que seharaacute seraacute obtener todas las combinaciones posibles a traveacutes de mezclar los procesos de descomposicioacutencon los meacutetodos de deteccioacuten dando lugar a las siguientes combinaciones

STL +iForest

STL +HDoutliers

STL (Robusto) +iForest

STL (Robusto) +HDoutliers

Twitter +iForest

Twitter +HDoutliers

STR + GESD

STR + iForest

STR + HDoutliers

34 MEacuteTODOS DE DETECCIOacuteN DE VALORES ATIacutePICOS EN SERIES TEMPORALES 25

STR (Robusto) + GESD

STR (Robusto) + iForest

STR (Robusto) + HDoutliers

Estos son los nuevos meacutetodos propuestos en el trabajo de los cuales estudiaremos su comporta-miento en el proacuteximo capiacutetulo a traveacutes de un estudio de simulacioacuten junto a los meacutetodos ya existentesX-13ARIMA-SEATS TRAMO-SEATS STL+GESD y Twitter+GESD

Existen otros meacutetodos populares en la deteccioacuten de atiacutepicos para el software R los cuales no se hanincluido en este trabajo debido a que planteaban peores resultados que los finalmente introducidospero que creemos que merecen una mencioacuten debido a que pueden ser de intereacutes para alguien quepretenda profundizar en este campo

El primero de ellos seriacutea el meacutetodo de deteccioacuten de atiacutepicos IQR incluido en la libreriacutea AnomalizeDancho y Vaughan (2019) el cual se ha descartado debido a que sus combinaciones con STL y Twittersuponiacutean una menor precisioacuten que las combinaciones con GESD (Datacamp 2018) Los autores lo hanincluido en dicha libreriacutea debido a que su coste computacional es mucho menor que el de GESD porlo que se puede plantear situaciones en las que sea uacutetil

El segundo seriacutea la funcioacuten tsoutliers del paquete forecast (Hyndman 2020) la cual hemosdescartado por presentar un mecanismo muy similar al que presentariacutea la combinacioacuten STL+IQR

Por uacuteltimo tambieacuten se ha descartado la funcioacuten tso del paquete tsoutliers (de Lacalle 2019)El motivo se debe a que su autor enfoca el proceso de deteccioacuten basaacutendose en las mismas ideas que lasdesarrolladas en los modelos X-13ARIMA-SEATS y TRAMO-SEATS pero comenta que este meacutetodono estaacute capacitado para trabajar con grandes y heterogeacuteneos conjuntos de series temporales comoX-13ARIMA-SEATS o TRAMO-SEATS sino maacutes bien para pequentildeas aplicaciones de un modo semi-automaacutetico (de Lacalle 2015)

26 CAPIacuteTULO 3 DETECCIOacuteN DE VALORES ATIacutePICOS

Capiacutetulo 4

Estudio de simulacioacuten

En este capiacutetulo se realiza un estudio de simulacioacuten con el objetivo de comparar la eficiencia delos diferentes meacutetodos expuestos en el apartado anterior En primer lugar se presenta un resumendel procedimiento seguido para realizar las simulaciones en los diferentes escenarios y el motivo deproponer cada escenario A continuacioacuten se introduce el Iacutendice de Youden medida que nos permitiraacutediscernir queacute meacutetodos presentan mejor comportamiento en el estudio Finalmente se presentan losresultados del estudio y las conclusiones extraiacutedas del mismo

41 Escenarios

El procedimiento para obtener las series simuladas ha sido el siguiente

1 Simular una serie de tiempo sin atiacutepicos

2 A la observacioacuten correspondiente al instante t sumarle el valor w el cual indicaraacute el tamantildeo delatiacutepico

3 Si se quiere introducir maacutes de un atiacutepico repetir los pasos 1 y 2

Se van a proponer ocho escenarios a continuacioacuten pasamos a justificar la eleccioacuten de cada uno deellos Los escenarios 1 2 y 3 son los planteados en Chen y Liu (1993) artiacuteculo utilizado para analizar laeficiencia de los mecanismos de deteccioacuten que inspiran los meacutetodos aplicados en X-13ARIMA-SEATS yTRAMO-SEATS El Escenario 4 plantea el modelo de liacuteneas aeacutereas utilizado ampliamente para datoseconoacutemicos como los que se van a tratar posteriormente Por uacuteltimo los escenarios 5 a 8 proponendiversos modelos que han sido generados a partir de seleccionar una serie del IGE aleatoriamente yaplicarle la funcioacuten autoarima del paquete forecast (Hyndman 2020) A continuacioacuten se recogentodos los escenarios planteados en el Cuadro 41 Los escenarios 1 a 3 se simulan a traveacutes de la funcioacuten deR arimasim mientras que los escenarios 4 a 8 a traveacutes de la funcioacuten simulate del paquete forecast

27

28 CAPIacuteTULO 4 ESTUDIO DE SIMULACIOacuteN

Escenario Modelo Motivo

Escenario 1 AR(1) Propuesto en el estudio de simu-lacioacuten de Chen y Liu (1993)

Escenario 2 MA(1) Propuesto en el estudio de simu-lacioacuten de Chen y Liu (1993)

Escenario 3 ARIMA(011) Propuesto en el estudio de simu-lacioacuten de Chen y Liu (1993)

Escenario 4 ARIMA(011)x(011)12 Modelos de liacuteneas aeacutereas muyutilizado en lo referente a datoseconoacutemicos

Escenario 5 ARIMA(101)x(012)12 Modelo extraiacutedo de aplicar lafuncioacuten autoarima a una seriedel IGE escogida aleatoriamente

Escenario 6 ARIMA(111)x(101)12 Modelo extraiacutedo de aplicar lafuncioacuten autoarima a una seriedel IGE escogida aleatoriamente

Escenario 7 ARIMA(112)x(011)12 Modelo extraiacutedo de aplicar lafuncioacuten autoarima a una seriedel IGE escogida aleatoriamente

Escenario 8 ARIMA(011)x(100)12 Modelo extraiacutedo de aplicar lafuncioacuten autoarima a una seriedel IGE escogida aleatoriamente

Cuadro 41 Resumen de los escenarios propuestos para el estudio de simulacioacuten

42 IacuteNDICE DE YOUDEN 29

En cada escenario se estudian cuatro casos

Caso 1 Serie con 100 observaciones y un atiacutepico en t = 40 el tamantildeo del atiacutepico es w = 35

Caso 2 Serie con 100 observaciones y un atiacutepico en t = 40 el tamantildeo del atiacutepico es w = 45

Caso 3 Serie con 100 observaciones y un atiacutepico en t = 2 el tamantildeo del atiacutepico es w = 4

Caso 4 Serie con 300 observaciones y dos atiacutepicos en t1 = 40 y t2 = 180 el tamantildeo de los atiacutepicoses w1 = 4 y w2 = 5

En el Escenario 4 hubo que modificar los valores del tamantildeo del atiacutepico introducido en cada casodebido a que no se obteniacutean resultados significativos para ninguacuten meacutetodo Por lo que finalmente solopara el Escenario 4 los valores introducidos fueron de w = 55 para el Caso 1 w = 65 para el Caso2 w = 6 para el Caso 1 w1 = 6 y w2 = 7 para el Caso 4

Los Casos 1 y 2 buscan estudiar la sensibilidad del meacutetodo de deteccioacuten dado que en lo uacutenico quese diferencian es en el tamantildeo del atiacutepico El Caso 3 plantea una situacioacuten complicada al encontrarseel atiacutepico al principio de la serie es maacutes difiacutecil detectar ese valor por dos motivos que el meacutetodo notenga todaviacutea la informacioacuten suficiente o que el meacutetodo vea afectada su estimacioacuten por este valor tantemprano El Caso 4 busca estudiar el comportamiento cuando se presenta maacutes de un atiacutepico

42 Iacutendice de Youden

Para comparar los resultados de los diferentes meacutetodos en las simulaciones vamos a utilizar lo queen otros campos como la investigacioacuten meacutedica se denomina test de diagnoacutestico En este tipo de testse compara la realidad con la prediccioacuten del mecanismo para analizar su funcionamiento Estos testde diagnoacutestico se presentan en lo que se denominan matrices de confusioacuten como la presentada en elCuadro 44 La idea de la matriz de confusioacuten es la de comparar las predicciones realizadas con larealidad de tal modo que se pueda observar cuando la prediccioacuten y la realidad coinciden y cuando no

Realidad

Negativo(0) Positivo (1)

PrediccioacutenNegativo(0) Verdadero Negativo (VN) Falso Negativo (FN)

Positivo(1) Falso Positivo (FP) Verdadero Positivo (VP)

Cuadro 42 Matriz de confusioacuten

En nuestro trabajo Negativo (0) representariacutea una observacioacuten normal y Positivo (1) una obser-vacioacuten atiacutepica La diagonal de la matriz estaacute representada por aquellas observaciones en las que larealidad y la prediccioacuten coinciden Los Falsos Negativos (FN) son aquellas observaciones en que el

30 CAPIacuteTULO 4 ESTUDIO DE SIMULACIOacuteN

mecanismo determinoacute que la observacioacuten era normal pero en realidad era atiacutepica Por otra parte losFalsos Positivos (FP) suceden cuando el mecanismo dictamina que la observacioacuten es atiacutepica pero larealidad es que es una observacioacuten normal

Los Falsos Positivos son tambieacuten conocidos como Error Tipo I la probabilidad de aceptar la hipoacute-tesis nula siendo esta falsa Y los Falsos Negativos son conocidos como Error Tipo II la probabilidadde no rechazar la hipoacutetesis nula siendo esta falsa

El iacutendice de Youden (Youden 1950) nacioacute con motivo de poder comparar los resultados de doso maacutes mecanismos de deteccioacuten y asiacute tener la capacidad de discernir cual de ellos tiene una mejorcapacidad discriminatoria Es decir el propoacutesito final del iacutendice es el de resumir la matriz de confusioacutenen un valor que consiga representar el comportamiento del mecanismo de deteccioacuten de tal modo quedos mecanismos se puedan comparar directamente

Este iacutendice considera con la misma importancia tanto los falsos positivos como los falsos negativosUtilizando otro campo de ejemplo la medicina un falso negativo supondriacutea no tratar la enfermedadde un paciente dado que establecemos que estaacute sano cuando la realidad es que estaacute enfermo Por otraparte un falso positivo supondriacutea un coste como podriacutea ser el monetario financiando el tratamiento oel emocional de un paciente que la realidad es que estaacute sano

Trasladando ese ejemplo a nuestro trabajo un falso negativo supondriacutea no calificar como atiacutepicauna observacioacuten que lo es Esto provocariacutea que estariacuteamos asumiendo como normal un comportamientoen el aacutembito socio-econoacutemico gallego que no lo fue estariacuteamos incurriendo en errores en posterioresanaacutelisis o estariacuteamos obviando sucesos relevantes

Los falsos positivos tambieacuten suponen un coste aquiacute cada observacioacuten que el meacutetodo detecte comoatiacutepica supondraacute la intervencioacuten de un analista para tratar de entender queacute ha sucedido Si finalmenteel analista concluye que la observacioacuten no es atiacutepica se habraacute desperdiciado una serie de horas y equipoque podriacutean haber sido invertidos para otro fin De ambos escenarios surgen dos medidas

Sensibilidad V PV P+FN refleja la proporcioacuten de verdaderos positivos sobre el total de positivos

Especifidad V NV N+FP refleja la proporcioacuten de verdaderos negativos sobre el total de negativos

El iacutendice de Youden se construye a partir de ambas medidas del siguiente modo

J = Sensibilidad + Especifidadminus 1 =V P

V P + FN+

V N

V N + FPminus 1

El rango en el que se utiliza este iacutendice es de 0 a 1 donde 1 representariacutea que el mecanismo escapaz de diferenciar perfectamente las observaciones atiacutepicas de las normales y 0 todo lo contrario

Sin embargo teoacutericamente este rango puede variar de minus1 a 1 (Shan G 2015) los valores menoresque cero no se suelen contemplar dado que no tienen una interpretacioacuten significativa En nuestrotrabajo sucede esta situacioacuten en la que se presentan mecanismos con valores negativos y si bien deforma general esto no tiene explicacioacuten en otros campos en este estudio si

Explicaacutendolo a traveacutes de lo que podriacutea ser un posible resultado de un mecanismo de deteccioacuten

42 IacuteNDICE DE YOUDEN 31

Realidad

Negativo(0) Positivo(1)

PrediccioacutenNegativo(0) 96 1

Positivo(1) 3 0

Cuadro 43 Ejemplo de posible resultado de un mecanismo de deteccioacuten en el que el iacutendice de Youdenseriacutea negativo

En el ejemplo del Cuadro 42 se analiza una serie de tiempo con 100 observaciones entre las cualesse encuentra un valor atiacutepico El mecanismo de deteccioacuten habriacutea detectado 3 posibles atiacutepicos peroninguno de ellos es el atiacutepico real Si calculamos el iacutendice de Youden obtenemos

J =0

0 + 1+

96

96 + 3minus 1 = minus003

El resultado es negativo debido a que el mecanismo de deteccioacuten nos situacutea en una posicioacuten peorque no clasificar nada como atiacutepico Por lo que si 1 refleja que el mecanismo es capaz de diferenciarperfectamente las dos clases y 0 que el mecanismo no nos ayuda en absoluto a diferenciar entre ellasun valor menor que 0 en nuestro trabajo supondriacutea que el mecanismo seriacutea peor que no clasificar nadadado que nos infunde un mayor error sobre la realidad

Un resultado de cero implicariacutea que el mecanismo no es uacutetil ya que no es capaz de diferenciar entrelo que es atiacutepico y lo que no En el Cuadro 43 se recoge un posible resultado que conduciriacutea a estasituacioacuten Este ejemplo recoge una situacioacuten en la que en una serie de tiempo de 100 observaciones seencuentran 5 valores atiacutepicos sin embargo el meacutetodo no es capaz de detectar ninguna de ellas

Realidad

Negativo(0) Positivo(1)

PrediccioacutenNegativo(0) 95 5

Positivo(1) 0 0

Cuadro 44 Ejemplo de posible resultado de un mecanismo de deteccioacuten en el que el iacutendice de Youdenseriacutea cero

J =0

0 + 5+

95

95 + 0minus 1 = 0

Finalmente el resultado perfecto implicariacutea que el mecanismo de deteccioacuten es capaz de diferenciarde forma precisa aquello que es atiacutepico de lo que no lo es En el Cuadro 44 se recoge un ejemplo de

32 CAPIacuteTULO 4 ESTUDIO DE SIMULACIOacuteN

esta situacioacuten En este ejemplo se plantea una serie de tiempo que cuenta con 100 observaciones delas cuales 5 son atiacutepicas igual que en el ejemplo anterior sin embargo el meacutetodo ahora es capaz dedetectar cada una de ellas sin incurrir en Falsos Positivos ni Falsos Negativos

Realidad

Negativo(0) Positivo(1)

PrediccioacutenNegativo(0) 95 0

Positivo(1) 0 5

Cuadro 45 Ejemplo de posible resultado de un mecanismo de deteccioacuten en el que el iacutendice de Youdenseriacutea uno

J =5

0 + 5+

95

95 + 0minus 1 = 1

Podemos observar como los valores fuera de la diagonal de la matriz aquellos que representan losFalsos Negativos y Falsos Positivos son cero En la diagonal de la matriz se encuentran los resultadosque muestran que el mecanismo ha conseguido identificar de forma perfecta aquellas observacionesque son atiacutepicas Esta seriacutea la situacioacuten ideal la cual representariacutea que el mecanismo de deteccioacuten deatiacutepicos funciona de forma idoacutenea

43 Resultados

A continuacioacuten se presentan los resultados para los ocho escenarios introducidos recogidos en elCuadro 41 Al introducir una gran cantidad de meacutetodos escenarios y casos el anaacutelisis de los resultadosse presenta confuso por lo que se decidioacute introducir un coacutedigo de color para resaltar los tres mejores ytres peores resultados en cada caso Los mejores resultados se asocian al color verde siendo el verde maacutesintenso el mejor resultado y decayendo gradualmente la intensidad del color seguacuten empeora Por otraparte los peores resultados estaacuten asociados al color rojo siendo el rojo maacutes intenso el peor resultadoy decayendo la intensidad seguacuten el resultado mejora

Se pensoacute en introducir un gradiente de color por cada caso de modo que fuese variando de mejora peor Finalmente se descartoacute debido a que su contribucioacuten a la comprensioacuten de los resultados eramenor que la idea finalmente escogida de resaltar los tres mejores y los tres peores resultados

Los resultados obtenidos para el iacutendice de Youden se muestran a continuacioacuten A mayores en elanexo se han incluido tablas referentes a los resultados que han presentado los distintos meacutetodos enbase a otras dos medidas que tambieacuten han resultado de utilidad a la hora de escoger los mecanismosadecuados La primera de esas medidas es la sensibilidad la cual hemos definido en este apartado yla otra es el exceso la cual se define como la media de detecciones incorrectas por simulacioacuten y cuyosresultados estaacuten incluidos en el anexo correspondiente

43 RESULTADOS 33

Caso 1 Caso 2 Caso 3 Caso 4

X-13ARIMA-SEATS 0495 0853 0699 0490

TRAMO-SEATS 0655 0926 0803 0494

STL+HDoutliers 0561 0830 0562 0727

STL+GESD 0265 0589 0236 0531

STL+iForest 0632 0882 0632 0788

STL(ROB)+HDoutliers 0550 0790 0666 0707

STL(ROB)+GESD 0623 0862 0732 0752

STL(ROB)+iForest 0634 0873 0741 0748

Twitter+HDoutliers 0462 0725 0588 0616

Twitter+GESD 0303 0587 0426 0433

Twitter+iForest 0524 0797 0647 0657

STR+Hdoutliers 0603 0833 0595 0667

STR+GESD 0344 0649 0292 0448

STR+iForest 0670 0882 0675 0719

STR(ROB)+Hdoutliers 0534 0803 0630 0654

STR(ROB)+GESD 0379 0683 0456 0557

STR(ROB)+iForest 0619 0859 0695 0711

Cuadro 46 Resultados Escenario 1Iacutendice de Youden AR(1)

En el Cuadro 46 se recogen los resultados al Escenario 1 escenario en el que se simula un AR(1)igual al realizado por Chen y Liu (1993) Los resultados muestran que en los casos 1 2 y 3 TRAMO-SEATS ejerce un papel superior al resto buen comportamiento que desaparece en el Caso 4 casoen el que se introducen dos atiacutepicos Si analizamos conjuntamente los resultados de los cuatro casospodriacuteamos decir que los meacutetodos que reflejan un mejor comportamiento global en el escenario seriacuteanSTR+iForest y STL(Rob)+iForest

34 CAPIacuteTULO 4 ESTUDIO DE SIMULACIOacuteN

Caso 1 Caso 2 Caso 3 Caso 4

X-13ARIMA-SEATS 0504 0828 0645 0494

TRAMO-SEATS 0667 0913 0741 0494

STL+HDoutliers 0465 0721 0473 0680

STL+GESD 0217 0457 0147 0428

STL+iForest 0502 0781 0521 0713

STL(ROB)+HDoutliers 0457 0723 0576 0642

STL(ROB)+GESD 0516 0761 0651 0667

STL(ROB)+iForest 0519 0798 0660 0713

Twitter+HDoutliers 0457 0690 0587 0640

Twitter+GESD 0346 0627 0480 0486

Twitter+iForest 0506 0774 0658 0689

STR+HDoutliers 0580 0814 0566 0658

STR+GESD 0297 0601 0247 0449

STR+iForest 0626 0866 0647 0719

STR(ROB)+HDoutliers 0514 0780 0603 0644

STR(ROB)+GESD 0335 0627 0405 0520

STR(ROB)+iForest 0578 0836 0687 0709

Cuadro 47 Resultados Escenario 2 Iacutendice de Youden MA(1)

En el Cuadro 47 se recogen los resultados al Escenario 2 escenario en el que se simula un MA(1)igual al realizado por Chen y Liu (1993) Los resultados que se observan son similares a los extraiacutedos delEscenario 1 TRAMO-SEATS es claramente superior en los casos 1 2 y 3 pero su buen comportamientodesaparece ante el Caso 4 Por otra parte STR+iForest presenta un comportamiento maacutes homogeacuteneoencontraacutendose en tres de los cuatro casos entre los tres mejores resultados Lo mismo sucede con suversioacuten robusta En esta ocasioacuten la combinacioacuten STL+iForest solamente se encuentra entre las mejoresen el Caso 4

43 RESULTADOS 35

Caso 1 Caso 2 Caso 3 Caso 4

X-13ARIMA-SEATS 0921 0970 0926 0500

TRAMO-SEATS 0921 0971 0921 0500

STL+HDoutliers 0306 0502 0234 0435

STL+GESD 0088 0229 0050 0152

STL+iForest 0338 0575 0279 0451

STL(ROB)+HDoutliers 0252 0426 0287 0328

STL(ROB)+GESD 0287 0504 0369 0316

STL(ROB)+iForest 0291 0495 0329 0358

Twitter+HDoutliers 0061 0109 0124 0064

Twitter+GESD 0015 0027 0056 0025

Twitter+iForest 0077 0127 0167 0068

STR+HDoutliers 0400 0556 0342 0436

STR+GESD 0202 0365 0108 0230

STR+iForest 0441 0614 0385 0492

STR(ROB)+HDoutliers 0237 0391 0248 0268

STR(ROB)+GESD 0199 0381 0215 0254

STR(ROB)+iForest 0277 0451 0279 0289

Cuadro 48 Resultados Escenario 3 Iacutendice de Youden ARIMA(011)

En el Cuadro 48 se recogen los resultados al Escenario 3 escenario en el que se simula un ARI-MA(011) igual al realizado por Chen y Liu (1993) En este escenario existe una hegemoniacutea de X-13ARIMA-SEATS y TRAMO-SEATS los cuales presentan resultados superiores a los de cualquierotro meacutetodo La combinacioacuten STR+iForest es el tercer meacutetodo que a pesar de la diferencia con losotros dos presenta mejores resultados

36 CAPIacuteTULO 4 ESTUDIO DE SIMULACIOacuteN

Caso 1 Caso 2 Caso 3 Caso 4

X-13ARIMA-SEATS 0402 0592 0067 0480

TRAMO-SEATS 0540 0705 0071 0481

STL+HDoutliers -0003 -0004 0008 0000

STL+GESD -0002 -0001 0002 -0001

STL+iForest -0004 -0004 0008 0001

STL(ROB)+HDoutliers -0005 -0005 0025 0000

STL(ROB)+GESD -0039 -0026 0052 0002

STL(ROB)+iForest 0004 -0002 0026 0000

Twitter+HDoutliers 0000 -0002 -0001 0007

Twitter+GESD -0025 -0019 -0016 0003

Twitter+iForest 0000 -0001 0004 0016

STR+HDoutliers 0359 0417 -0004 0083

STR+GESD 0409 0445 -0006 0124

STR+iForest 0411 0472 -0005 0097

STR(ROB)+HDoutliers 0014 0006 0002 0039

STR(ROB)+GESD 0019 0017 0008 0075

STR(ROB)+iForest 0014 0005 0002 0021

Cuadro 49 Resultados Escenario 4 Iacutendice de Youden ARIMA(011)x(011)12

En el Cuadro 49 se recogen los resultados al Escenario 4 escenario en el que se simula el modelo deliacuteneas aeacutereas (G Box y Jenkins 1976) Este modelo es famoso por su uso en series socio-econoacutemicasPor ello cabriacutea esperar un buen comportamiento de los modelos disentildeados para este fin X-13ARIMA-SEATS y TRAMO-SEATS El resto de combinaciones presentan resultados poco consistentes

43 RESULTADOS 37

Caso 1 Caso 2 Caso 3 Caso 4

X-13ARIMA-SEATS 0265 0628 0176 0409

TRAMO-SEATS 0398 0747 0248 0432

STL+HDoutliers 0238 0469 0281 0125

STL+GESD 0091 0258 0158 0024

STL+iForest 0263 0531 0305 0134

STL(ROB)+HDoutliers 0265 0475 0343 0097

STL(ROB)+GESD 0375 0662 0452 0114

STL(ROB)+iForest 0304 0545 0388 0128

Twitter+HDoutliers 0243 0429 0352 0103

Twitter+GESD 0168 0376 0309 0057

Twitter+iForest 0266 0479 0381 0126

STR+HDoutliers 0656 0885 0231 0755

STR+GESD 0424 0769 0064 0567

STR+iForest 0720 0936 0277 0798

STR(ROB)+HDoutliers 0189 0326 0212 0523

STR(ROB)+GESD 0174 0317 0192 0665

STR(ROB)+iForest 0229 0364 0232 0588

Cuadro 410 Resultados Escenario 5 Iacutendice de Youden ARIMA(101)x(012)12

En el Cuadro 410 se recogen los resultados al Escenario 5 escenario en el que se simula un modeloARIMA (101)x(012)12 a partir de aplicarle la funcioacuten autoarima a una serie del IGE escogidaaleatoriamente En este escenario predomina la descomposicioacuten STR ya que son las combinacionesjunto a los tres meacutetodos de deteccioacuten de atiacutepicos GESD iForest y HDoutliers los meacutetodos quepresentan mejores resultados En concreto la combinacioacuten STR+iForest supone la combinacioacuten maacutesinteresante para este escenario

38 CAPIacuteTULO 4 ESTUDIO DE SIMULACIOacuteN

Caso 1 Caso 2 Caso 3 Caso 4

X-13ARIMA-SEATS 0331 0659 0354 0425

TRAMO-SEATS 0457 0764 0477 0438

STL+HDoutliers 0513 0790 0494 0624

STL+GESD 0229 0558 0188 0328

STL+iForest 0560 0833 0567 0648

STL(ROB)+HDoutliers 0507 0776 0592 0595

STL(ROB)+GESD 0528 0815 0663 0560

STL(ROB)+iForest 0559 0838 0661 0645

Twitter+HDoutliers 0239 0416 0355 0208

Twitter+GESD 0101 0229 0185 0100

Twitter+iForest 0279 0452 0383 0227

STR+HDoutliers 0520 0779 0436 0636

STR+GESD 0278 0584 0151 0385

STR+iForest 0596 0822 0494 0682

STR(ROB)+HDoutliers 0399 0666 0490 0545

STR(ROB)+GESD 0274 0524 0349 0404

STR(ROB)+iForest 0457 0731 0568 0579

Cuadro 411 Resultados Escenario 6 Iacutendice de Youden ARIMA(111)x(101)12

En el Cuadro 411 se recogen los resultados al Escenario 6 escenario en el que se simula un modeloARIMA (111)x(101)12 a partir de aplicarle la funcioacuten autoarima a una serie del IGE escogidaaleatoriamente En este escenario los meacutetodos que muestran unos mejores resultados son STR+iForesty STL+iForest Tambieacuten muestra un buen comportamiento el meacutetodo STL(Rob)+GESD basado enla combinacioacuten de la versioacuten robusta de la descomposicioacuten STL y el meacutetodo de deteccioacuten de atiacutepicosGESD

43 RESULTADOS 39

Caso 1 Caso 2 Caso 3 Caso 4

X-13ARIMA-SEATS 0332 0673 0347 0422

TRAMO-SEATS 0426 0765 0425 0453

STL+HDoutliers 0451 0693 0414 0503

STL+GESD 0180 0438 0142 0219

STL+iForest 0509 0759 0458 0527

STL(ROB)+HDoutliers 0416 0655 0468 0489

STL(ROB)+GESD 0452 0702 0549 0457

STL(ROB)+iForest 0484 0717 0541 0525

Twitter+HDoutliers 0009 0018 0037 0037

Twitter+GESD -0024 -0014 0011 0010

Twitter+iForest 0007 0016 0050 0050

STR+HDoutliers 0469 0719 0369 0582

STR+GESD 0228 0495 0122 0329

STR+iForest 0511 0774 0438 0635

STR(ROB)+HDoutliers 0282 0495 0347 0330

STR(ROB)+GESD 0224 0432 0301 0285

STR(ROB)+iForest 0343 0557 0407 0385

Cuadro 412 Resultados Escenario 7 Iacutendice de Youden ARIMA(112)x(011)12

En el Cuadro 412 se recogen los resultados al Escenario 7 escenario en el que se simula un modeloARIMA (112)x(011)12 a partir de aplicarle la funcioacuten autoarima a una serie del IGE escogidaaleatoriamente En este escenario los meacutetodos que muestran unos mejores resultados vuelven a serSTL+iForest STR+iForest y cercano a ellos STL(Rob)+iForest El resto de resultados no muestranninguacuten meacutetodo estable para los cuatro casos

40 CAPIacuteTULO 4 ESTUDIO DE SIMULACIOacuteN

Caso 1 Caso 2 Caso 3 Caso 4

X-13ARIMA-SEATS 0298 0636 0334 0434

TRAMO-SEATS 0419 0712 0427 0481

STL+HDoutliers 0425 0697 0389 0620

STL+GESD 0176 0415 0108 0351

STL+iForest 0480 0734 0423 0662

STL(ROB)+HDoutliers 0429 0675 0483 0607

STL(ROB)+GESD 0449 0718 0543 0584

STL(ROB)+iForest 0486 0749 0559 0675

Twitter+HDoutliers 0271 0463 0378 0350

Twitter+GESD 0127 0286 0189 0147

Twitter+iForest 0300 0504 0424 0356

STR+HDoutliers 0448 0692 0459 0564

STR+GESD 0203 0438 0167 0274

STR+iForest 0492 0769 0502 0600

STR(ROB)+Hdoutliers 0416 0680 0503 0548

STR(ROB)+GESD 0260 0523 0329 0366

STR(ROB)+iForest 0460 0751 0573 0587

Cuadro 413 Resultados Escenario 8 Iacutendice de Youden ARIMA(011)x(100)12

En el Cuadro 413 se recogen los resultados al Escenario 8 escenario en el que se simula un mode-lo ARIMA(011)x(100)12 a partir de aplicarle la funcioacuten autoarima a una serie del IGE escogidaaleatoriamente Los resultados maacutes consistentes para los cuatro casos estaacuten formados por las combina-ciones de STR+iForest la misma combinacioacuten pero con la versioacuten robusta de la descomposicioacuten STRSTR(Rob)+iForest y la combinacioacuten STL+iForest y tambieacuten su versioacuten robusta STL (Rob)+iForest

44 CONCLUSIONES 41

44 Conclusiones

Los resultados de las simulaciones muestran dos realidades Por un lado nos encontramos con losresultados asociados a los escenarios 1 2 3 y 4 En estos escenarios prevalece el comportamientode TRAMO-SEATS por encima de todos los meacutetodos sin lugar a duda incluso tambieacuten podriacuteamosincluir a X-13ARIMA-SEATS aquiacute Cabe recordar que ambos parten de las mismas ideas pero esTRAMO-SEATS el que implanta una serie de mejoras a los meacutetodos de deteccioacuten de atiacutepicos en losque se inspiran ambos esto se trata en el Capiacutetulo 3 Por otra parte en los escenarios 5 6 7 y 8 ya noexiste tal hegemoniacutea de TRAMO-SEATS frente al resto de meacutetodos de hecho nos encontramos unosresultados bastante maacutes variados

Entre los meacutetodos de descomposicioacuten (STLTwitter y STR) el que presenta mejores resultados enlas simulaciones es STR En todos los escenarios presenta resultados que lo posicionan entre los tresprimeros Esto nos da una idea de que estamos ante un meacutetodo flexible capaz de entender la estructurasubyacente de series de tiempo muy diversas y adecuar una respuesta realista del mecanismo generadorSus buenos resultados son seguidos muy de cerca por la descomposicioacuten STL Este es un resultado queconcuerda con lo esperado debido a que siendo los dos meacutetodos similares plantean la misma idea perola ejecutan de distinta forma STR fue creado con el objetivo de suponer una mejora a STL

En lo que respecta a los meacutetodos de deteccioacuten GESD HDoutliers y iForest podemos extraerconclusiones acerca del comportamiento de cada uno

GESD es un buen meacutetodo de identificacioacuten de atiacutepicos Obtiene buenos resultados faacutecil deaplicar y es sencillo entender su mecanismo algo muy uacutetil para personas que quieran realizaro transmitir un estudio sin ahondar profundamente en materia Por otra parte sus buenosresultados en la deteccioacuten correcta de atiacutepicos se ven eclipsados por su tendencia a clasificaraltos valores de observaciones como anoacutemalas incorrectamente Si estamos realizando un anaacutelisisindividual esto podriacutea no ser un problema dado que se podriacutea intervenir modificando alguno desus paraacutemetros y conseguir mejores resultados Sin embargo en este trabajo buscamos un meacutetodoque nos sirva como filtro para analizar multitud de series con la menor intervencioacuten posible porlo que descartamos dicho mecanismo

HDoutliers supone una mejora a GESD Muestra mejor comportamiento en todas las combina-ciones con los meacutetodos de descomposicioacuten GESD solo consigue igualar o superar ligeramentesus resultados incurriendo en calificar una gran cantidad de observaciones como atiacutepicas lo queprovoca un incremento en el nuacutemero de observaciones calificadas erroacuteneamente esto se puede veren las tablas de exceso introducidas en el anexo Sin embargo pese a suponer una mejora noes el meacutetodo que presenta mejores resultados

Isolation Forest o iForest es el meacutetodo de deteccioacuten maacutes consistente a lo largo de los escenariosy para cada meacutetodo de descomposicioacuten Consigue un equilibrio entre buenos valores de deteccioacutencorrecta y bajas tasas de atiacutepicos sentildealados incorrectamente justo lo que se busca en un meacutetodode deteccioacuten de atiacutepicos La idea de aacuterbol bajo la que se desarrolla su mecanismo es faacutecil decomprender cada observacioacuten recibe una puntuacioacuten entre 0 y 1 de cuaacuten anoacutemala es esto permiteflexibilizar la decisioacuten del analista con el umbral en el que fija un valor como atiacutepico En Liu et

42 CAPIacuteTULO 4 ESTUDIO DE SIMULACIOacuteN

al (2009) califican como observaciones sospechosas de ser atiacutepicas aquellas cuya puntuacioacuten seamayor a 06 en este trabajo somos maacutes estrictos y fijamos un umbral superior 075 Ademaacutessu disentildeo le permite escalar a conjuntos de gran tamantildeo y dimensioacuten (big data) por lo que nosupone un freno ante situaciones futuras

Parece interesante tambieacuten recordar que los mecanismos que emplean los meacutetodos X-13ARIMA-SEATS y TRAMO-SEATS fueron analizados en estudios que planteaban simulaciones como las quese realizan en los escenarios 1 2 y 3 Ademaacutes tambieacuten cabe esperar un buen comportamiento que seespera de ellos en un modelo tan comuacuten como el de liacuteneas aacutereas (Escenario 4) Sin embargo cuando seaplican fuera de estos escenarios en modelos maacutes complejos solamente TRAMO-SEATS consigue noquedarse atraacutes

La simulacioacuten nos permite descartar la descomposicioacuten Twitter la cual estaacute quizaacutes maacutes enfocadaa datos de alta frecuencia datos que se producen en frecuencias de tiempo mucho maacutes pequentildeascomo minutos en vez de datos mensuales como los planteados en el estudio de simulacioacuten por lo querefleja peores resultados en escenarios de este aacutembito Tambieacuten nos permite descartar el meacutetodo X-13ARIMA-SEATS dado que supone una idea similar pero menos desarrollada en lo que a deteccioacuten deatiacutepicos se refiere a TRAMO-SEATS Finalmente el meacutetodo GESD tambieacuten es descartado debido asus resultados en los que muestra un comportamiento inferior frente a HDoutliers meacutetodo que suponeuna mejora a la idea sobre la que se basa GESD

Por lo que se concluye que los meacutetodos maacutes adecuados para la continuacioacuten del trabajo son elmodelo TRAMO-SEATS las descomposiciones de series temporales STL y STR y los meacutetodos dedeteccioacuten de atiacutepicos HDoutliers y iForest lo que conforman los siguientes mecanismos de deteccioacutende atiacutepicos

TRAMO-SEATS

STL+HDoutliers

STL+iForest

STR+HDoutliers

STR+iForest

Capiacutetulo 5

Aplicacioacuten a datos reales

En este capiacutetulo se aplican los meacutetodos que han mostrado unos mejores resultados en el estudiode simulacioacuten a las bases de datos del IGE comentadas en Capiacutetulo 1 Estos meacutetodos son TRAMO-SEATS STL+HDoutliers STL+iForest STR+HDoutliers y STL+iForest De este modo podemosanalizar el comportamiento de los meacutetodos con datos reales y extraer nuevas conclusiones que nosurgiacutean en el estudio de simulacioacuten Esto se debe a que si bien el estudio de simulacioacuten planteaba unadiversidad de escenarios amplia nunca seraacuten suficientes para recoger la multitud de naturalezas quecaracteriza a las series socio-econoacutemicas

El anaacutelisis de las datos del IGE se haraacute en dos niveles Un primer nivel mostraraacute el comportamientoglobal del conjunto mediante cuatro medidas el total de atiacutepicos detectados por cada meacutetodo en elconjunto el maacuteximo nuacutemero de atiacutepicos que detecta el meacutetodo en una serie del conjunto el nuacutemero deseries que no presentan atiacutepicos y la media de atiacutepicos detectados por cada meacutetodo El segundo nivelmostraraacute un anaacutelisis maacutes especiacutefico donde se analizaraacute el comportamiento de los meacutetodos respecto auna serie escogida del conjunto

Para finalizar el capiacutetulo introducimos una herramienta graacutefica disentildeada con el objetivo de eliminarla mayor incertidumbre posible que acompantildea a un campo como el de la deteccioacuten de valores atiacutepicosy analizamos su comportamiento

51 Anaacutelisis Series IGE

Los conjuntos utilizados para este trabajo han pasado primero por un proceso de filtrado en el quese han eliminado todas las series que presentan menos de 24 observaciones o maacutes de 24 ceros entre susobservaciones De este modo conseguimos quedarnos con series que recogen la informacioacuten suficientepara trabajar con ellas

A continuacioacuten se muestra el total de series perteneciente a cada conjunto

43

44 CAPIacuteTULO 5 APLICACIOacuteN A DATOS REALES

Conjunto 1 Conjunto 2 Conjunto 3 Conjunto 4 Conjunto 5 Conjunto 6 Conjunto 7

Pre-filtrado 108 72 55 42 162 165 55

Post-filtrado 84 60 50 42 90 165 47

Cuadro 51 Nuacutemero de series de tiempo perteneciente a cada conjunto antes y despueacutes del proceso defiltrado

Ademaacutes con el objetivo de capturar la influencia del Covid19 sobre las series de tiempo se procedea dividir el estudio en dos partes La primera analiza las series con datos hasta 2019 si el conjuntopresenta datos de frecuencia mensual esta fecha seraacute diciembre de 2019 por otra parte si el conjuntopresenta datos de frecuencia trimestral esta fecha seraacute el cuarto trimestre de 2019 La segunda analizalas series incluyendo el uacuteltimo dato actualizado el cual variacutea dependiendo del conjunto Los conjuntoscon datos trimestrales incluyen hasta el primer trimestre del 2020 mientras que los conjuntos condatos mensuales incluyen como uacuteltima actualizacioacuten fechas comprendidas entre abril y junio de 2020por lo que dicha fecha se concretaraacute en el momento que se analiza dicho conjunto Respecto a la fechade inicio de las series variacutea dependiendo del conjunto por lo que tambieacuten se especificaraacute en el iniciodel anaacutelisis del mismo

Para medir la influencia del Covid lo que se haraacute seraacute calcular la tasa de variacioacuten del total deatiacutepicos detectados entre ambos escenarios las series hasta 2019 y las series actualizadas al uacuteltimodato existente de 2020 la cual calcularemos como

Tasa de variacioacuten =

(Total atiacutepicos serie completaTotal atiacutepicos serie hasta 2019

minus 1

)lowast 100

Conjunto 1 (httpwwwigeeuigebdtigeapidatos3476)

Series de datos mensuales que contienen la informacioacuten de los viajeros noches y estancia media enestablecimientos hoteleros y de turismo rural en Espantildea Galicia y sus provincias Los datos de esteconjunto comienzan en enero de 1999 y finalizan en mayo de 2020

51 ANAacuteLISIS SERIES IGE 45

TRAMO -

SEATS

STL +

HDoutliers

STL +

iForest

STR +

HDoutliers

STR +

iForest

Atiacutepicos detectados 327 176 111 136 142

Max nuacutemero atip serie 17 11 3 8 4

Series con 0 atiacutepicos 13 20 11 23 3

Media de atiacutepicos detec 389 210 132 162 169

Cuadro 52 Resultados para el Conjunto 1 con datos hasta diciembre de 2019

Los resultados del Cuadro 52 se producen para un total de 18816 observaciones que muestra elconjunto con datos hasta diciembre de 2019 Ahora vamos a estudiar los resultados de forma quecada serie esteacute formada por el uacuteltimo dato actualizado y a realizar una comparacioacuten entre ambosescenarios En esta serie el uacuteltimo dato actualizado es mayo de 2020 lo que conforma un total de19172 observaciones

TRAMO -

SEATS

STL +

HDoutliers

STL +

iForest

STR +

HDoutliers

STR +

iForest

Atiacutepicos detectados 457 243 170 264 204

Max nuacutemero atip serie 17 11 4 15 5

Series con 0 atiacutepicos 1 6 1 10 3

Media de atiacutepicos detec 544 289 202 314 243

Cuadro 53 Resultados para el Conjunto 1 con datos hasta mayo de 2020

46 CAPIacuteTULO 5 APLICACIOacuteN A DATOS REALES

TRAMO -

SEATS

STL +

HDoutliers

STL +

iForest

STR +

HDoutliers

STR +

iForest

Hasta 2019 327 176 111 136 142

Hasta mayo 2020 457 243 170 264 204

Tasa de variacioacuten 3976 3807 5315 9412 4366

Cuadro 54 Total de atiacutepicos detectados por cada meacutetodo hasta diciembre de 2019 y abril 2020 y tasade variacioacuten que produce el efecto del Covid en el Conjunto 1

En el Cuadro 54 podemos ver como el efecto del Covid sobre el conjunto es muy notorio algoque cabriacutea esperar dado que estamos tratando series relacionadas con el Turismo en Galicia uno delos sectores maacutes afectados por la crisis del Covid El Cuadro 53 incorpora datos hasta mayo 2020lo que supone solamente un crecimiento del 189 del total de datos Sin embargo el crecimientoque experimenta el total de atiacutepicos detectado es muy superior en el caso maacutes suave representa uncrecimiento de maacutes del 38 llegando a suponer para alguacuten meacutetodo el 94

A continuacioacuten vamos a analizar un caso concreto de una serie del conjunto Hemos escogido laserie que hace referencia al nuacutemero de viajeros residentes en Espantildea hospedados en establecimientosde turismo rural en Espantildea El motivo de su eleccioacuten es que es la serie que provoca un mayor nuacutemerode atiacutepicos en el Cuadro 52 un total de 17 observaciones atiacutepicas sentildealadas por el meacutetodo TRAMO-SEATS

Figura 51 Serie de tiempo referente al nuacutemero de viajeros residentes en Espantildea hospedados en esta-blecimientos de turismo rural en Espantildea

La Figura 51 recoge la serie de tiempo referente al nuacutemero de viajeros residentes en Espantildea hos-

51 ANAacuteLISIS SERIES IGE 47

pedados en establecimientos de turismo rural en Espantildea La liacutenea vertical roja representa el comienzodel antildeo 2020 Observando dicha figura y centraacutendonos en la serie hasta 2019 nos encontramos con unaserie con mucha volatilidad debido al fuerte caraacutecter estacional que posee un sector como el turismoy con una ligera tendencia creciente que se estanca ligeramente en los antildeos posteriores a la crisis eco-noacutemica de 2011 para despueacutes continuar en aumento Sin embargo no parece que se encuentren valoresatiacutepicos en dicha serie La combinacioacuten STR+HDoutliers tambieacuten sentildeala un elevado nivel de atiacutepicosseis en total que se reduce con STR+iForest a tres posibles atiacutepicos Finalmente STL+HDoutliers ySTL+iForest coinciden en sentildealar un atiacutepico agosto de 2019

Si ahora observamos los resultados para la serie completa podemos comprobar que los resultadoscambian bruscamente con la introduccioacuten de cuatro nuevos datos enero febrero marzo y abril de2020 Ahora el meacutetodo TRAMO-SEATS sentildeala cuatro fechas de las que solo dos coinciden con lassentildealadas anteriormente Las combinaciones STL+HDoutliers y STL+iForest mantienen como atiacutepicoagosto de 2019 y antildeaden febrero marzo y abril 2020 y marzo y abril 2020 respectivamente Y ahorason las combinaciones STR+HDoutliers y STR+iForest las que sentildealan uacutenicamente agosto de 2019

Es interesante observar el comportamiento de los cinco meacutetodos en esta serie TRAMO-SEATS ylas combinaciones basadas en el proceso de descomposicioacuten STR soliacutean ser las que mejores resultadospresentaban sin embargo en este ejemplo son los meacutetodos basados en la descomposicioacuten STL que sibien presentaron buenos resultados en la simulacioacuten tendiacutean a ir por detraacutes de TRAMO-SEATS y losmeacutetodos basados en la descomposicioacuten STR los que presenta un comportamiento maacutes acorde con loque sucede en la serie De hecho son los meacutetodos basados en la descomposicioacuten STL los uacutenicos quesentildealan como atiacutepica la observacioacuten de abril 2020 la cual es la uacutenica que tiene un valor de 0 y esclaramente atiacutepica

La Figura 52 representa los atiacutepicos detectados por el meacutetodo STL+HDoutliers el cual es el meacutetodoque mejor comportamiento muestra para esta serie

Figura 52 Serie de tiempo referente al nuacutemero de viajeros residentes en Espantildea hospedados en esta-blecimientos de turismo rural en Espantildea analizada por el meacutetodo STL+HDoutliers

En la Figura 53 se muestran los resultados para la misma serie por el resto de meacutetodos utilizadosSTL+iForest STR+HDoutliers STR+iForest y TRAMO-SEATS

48 CAPIacuteTULO 5 APLICACIOacuteN A DATOS REALES

Figura 53 Serie de tiempo referente al nuacutemero de viajeros residentes en Espantildea hospedados en esta-blecimientos de turismo rural en Espantildea analizada por STL+iForest STR+HDoutliers STR+iForesty TRAMO-SEATS

Conjunto 2 (httpwwwigeeuigebdtigeapidatos6356)

Series de datos trimestrales acerca de la poblacioacuten de 16 y maacutes antildeos desglosados por sexo gruposde edad y relacioacuten con la actividad econoacutemica en Galicia Los datos de este conjunto comienzan en elprimer trimestre de 1996 y finalizan en el primer trimestre de 2020

TRAMO -

SEATS

STL +

HDoutliers

STL +

iForest

STR +

HDoutliers

STR +

iForest

Atiacutepicos detectados 56 70 61 62 66

Max nuacutemero atip serie 5 6 3 5 3

Series con 0 atiacutepicos 28 29 18 26 14

Media de atiacutepicos detec 093 117 102 103 110

Cuadro 55 Resultados para el Conjunto 2 con datos hasta el cuarto trimestre de 2019

Los resultados del Cuadro 55 se producen para un total de 5760 observaciones que muestra elconjunto con datos hasta el cuarto trimestre de 2019 Ahora vamos a estudiar los resultados de formaque cada serie esteacute formada por el uacuteltimo dato actualizado y a comparar ambos escenarios En estaserie el uacuteltimo dato actualizado es el primer trimestre de 2020 lo que conforma un total de 5820

51 ANAacuteLISIS SERIES IGE 49

observaciones

TRAMO -

SEATS

STL +

HDoutliers

STL +

iForest

STR +

HDoutliers

STR +

iForest

Atiacutepicos detectados 54 107 62 68 66

Max nuacutemero atip serie 5 45 3 4 3

Series con 0 atiacutepicos 28 30 15 20 12

Media de atiacutepicos detec 090 178 103 113 110

Cuadro 56 Resultados para el Conjunto 2 con datos hasta el primer trimestre de 2020

TRAMO -

SEATS

STL +

HDoutliers

STL +

iForest

STR +

HDoutliers

STR +

iForest

Hasta 2019 56 70 61 62 66

Hasta mayo 2020 54 107 62 68 66

Tasa de variacioacuten -357 5286 164 968 000

Cuadro 57 Total de atiacutepicos detectados por cada meacutetodo hasta el cuarto trimestre de 2019 y primertrimestre de 2020 y tasa de variacioacuten que produce el efecto del Covid en el Conjunto 2

En el Cuadro 57 podemos ver como el efecto del Covid sobre el conjunto es mucho menor que enlos datos del Conjunto 1 Esto se debe a la naturaleza trimestral de los datos por lo que situando lainfluencia del Covid en el contexto gallego a finales de marzo de 2020 su impacto es maacutes suave sobrelos datos Seriacutea interesante en el futuro ver que sucede con este conjunto una vez se antildeadan los datosdel segundo trimestre

A continuacioacuten vamos a analizar un caso concreto de una serie del conjunto Hemos escogido laserie que recoge los datos de hombres mayores de 55 antildeos y que forman parte de la poblacioacuten ocupada

En la Figura 54 se muestra la serie de tiempo referente a los hombres mayores de 55 antildeos queforma parte de la poblacioacuten ocupada La recta vertical roja diferencia los dos escenarios que estudiamosla serie hasta el cuarto trimestre de 2019 y la serie hasta el primer trimestre de 2020-

50 CAPIacuteTULO 5 APLICACIOacuteN A DATOS REALES

Figura 54 Serie de tiempo referente hombres mayores de 55 antildeos y que forman parte de la poblacioacutenocupada

El uacutenico dato que las diferencia el primer trimestre de 2020 sigue con lo que cabriacutea esperar Y losmeacutetodos de deteccioacuten de atiacutepicos concuerdan con lo que observamos no existen atiacutepicos ni antes nidespueacutes excepto en un caso Ahora son los meacutetodos basados en el proceso de descomposicioacuten STL losque sentildealan una fecha que parece discrepar con la realidad

En la serie con valores hasta 2019 son ambas combinaciones STL+HDoutliers y STL+iForestlas que sentildealan como posible atiacutepico julio 2013 Si nos trasladamos a la serie completa uacutenicamenteSTL+iForest sigue manteniendo ese posible atiacutepico mientras que STL+HDoutliers lo corrige Esta si-tuacioacuten en las que solo un meacutetodo sentildeala una fecha nos lleva a dudar de que realmente esta observacioacutensea atiacutepica

A continuacioacuten mostramos la serie referente a los hombres mayores de 55 antildeos y que forman partede la poblacioacuten ocupada analizada por el uacutenico meacutetodo que detecta atiacutepicos para la serie completaSTL+iForest

Figura 55 Serie de tiempo referente hombres mayores de 55 antildeos y que forman parte de la poblacioacutenocupada analizada por STL+iForest

51 ANAacuteLISIS SERIES IGE 51

Conjunto 3 (httpwwwigeeuigebdtigeapidatos308)

Series de datos mensuales acerca de contratos registrados seguacuten la modalidad del contrato Losdatos de este conjunto comienzan en enero de 1999 y finalizan en mayo de 2020

TRAMO -

SEATS

STL +

HDoutliers

STL +

iForest

STR +

HDoutliers

STR +

iForest

Atiacutepicos detectados 193 126 98 146 98

Max nuacutemero atip serie 9 14 5 10 4

Series con 0 atiacutepicos 5 9 1 7 2

Media de atiacutepicos detec 386 252 196 292 196

Cuadro 58 Resultados para el Conjunto 3 con datos hasta diciembre 2019

El Cuadro 58 recoge los resultados que se producen para un total de 12600 observaciones quemuestra el Conjunto 3 con datos hasta diciembre de 2019 Ahora vamos a estudiar los resultados deforma que cada serie esteacute conformada por el uacuteltimo dato actualizado y a realizar una comparativaentre ambas En esta serie el uacuteltimo dato actualizado es mayo de 2020 lo que conforma un total de12850 observaciones

TRAMO -

SEATS

STL +

HDoutliers

STL +

iForest

STR +

HDoutliers

STR +

iForest

Atiacutepicos detectados 242 144 107 153 121

Max nuacutemero atip serie 13 8 5 10 4

Series con 0 atiacutepicos 1 6 0 7 1

Media de atiacutepicos detec 484 288 214 306 242

Cuadro 59 Resultados para el Conjunto 3 con datos hasta mayo de 2020

52 CAPIacuteTULO 5 APLICACIOacuteN A DATOS REALES

TRAMO -

SEATS

STL +

HDoutliers

STL +

iForest

STR +

HDoutliers

STR +

iForest

Hasta 2019 193 126 98 146 98

Hasta mayo 2020 242 144 107 153 121

Tasa de variacioacuten 2539 1429 918 479 2350

Cuadro 510 Total de atiacutepicos detectados por cada meacutetodo hasta diciembre de 2019 y mayo de 2020y tasa de variacioacuten que produce el efecto del Covid en el Conjunto 3

En el Cuadro 510 podemos ver como el efecto del Covid sobre el conjunto es similar al que sepresentaba en los datos del Conjunto 1 Este conjunto vuelve a recoger datos de caraacutecter mensual porlo que la influencia de los meses de 2020 vuelven a reflejar un gran peso en los resultados Sin embargolas tasas de variacioacuten no son tan grandes como las que se produciacutean en el Conjunto 1 Esto podriacuteadeberse a que mientras el sector turiacutestico se redujo a cero en el mercado laboral se llevaron a cabopoliacuteticas contra la destruccioacuten masiva de empleo Estos resultados lo que hacen es aflorar que se haproducido un efecto en el conjunto de datos y que podriacutea ser de intereacutes para despueacutes desarrollar unestudio en profundidad

A continuacioacuten vamos a analizar la serie referente a las contrataciones eventuales por circunstanciasde la produccioacuten para la provincia de Ourense diferenciando a traveacutes de una recta roja vertical los dosescenarios analizados los datos hasta diciembre 2019 y los datos hasta mayo de 2020

Figura 56 Serie de tiempo referente a las contrataciones eventuales por circunstancias de la produccioacutenpara la provincia de Ourense

El meacutetodo TRAMO-SEATS sentildeala tres fechas atiacutepicas en ambas ocasiones en la serie hasta 2019

51 ANAacuteLISIS SERIES IGE 53

y hasta mayo de 2020 sin embargo ninguna de ellas es comuacuten Probablemente esto se deba al compor-tamiento que podemos apreciar en la Figura 56 donde se observa la caiacuteda que produce en la serie losmeses de marzo abril y mayo de 2020 La introduccioacuten de estos datos reajusta las prioridades sobrequeacute es un atiacutepico en la serie para TRAMO-SEATS de forma que pasa de identificar octubre 2001abril 2002 y enero 2012 a sentildealar como fechas atiacutepicas octubre 2007 y marzo y abril de 2020

Este suceso tambieacuten se presenta en el resto de meacutetodos STL+HDoutliers pasa de no identificarninguacuten dato en la serie hasta 2019 a sentildealar abril del 2002 y febrero abril y mayo de 2020 Otro meacutetodoque experimenta esta situacioacuten es STR+iForest que pasa de no calificar ninguna observacioacuten atiacutepicaa sentildealar abril y mayo en 2019 y en 2020 STL+iForest sentildeala dos y tres atiacutepicos en cada caso en laserie hasta 2019 sentildeala el mes de julio en 2018 y 2019 mientras que en la serie completa sentildeala losmeses de febrero abril y mayo de 2020 Por uacuteltimo STR+HDoutliers sentildeala como atiacutepico abril del2002 en la serie acortada observacioacuten que ya no es detectada al incluir la serie completa donde sentildealalos meses de abril y mayo para los antildeos 2019 y 2020 igual aquiacute que STR+iForest

Estos resultados conducen hacia un punto comuacuten mientras que en la serie recortada en 2019 noparece haber mucho acuerdo sobre los atiacutepicos o si existen atiacutepicos en la serie completa todos losmeacutetodos se ponen de acuerdo en que las situaciones de abril y mayo de 2020 son anoacutemalas Estosresultados se muestran en la Figura 57

Figura 57 Serie de tiempo referente a las contrataciones eventuales por circunstancias de la produccioacutenpara la provincia de Ourense sentildealizando las anomaliacuteas comunes a los cinco meacutetodos

Conjunto 4 (httpwwwigeeuigebdtigeapidatos9048)

Series de datos mensuales referidas al Iacutendice de produccioacuten industrial general y por destino eco-noacutemico de los bienes en Espantildea y Galicia Los distintos destinos econoacutemico son bienes de consumoduraderos y no duraderos bienes de equipo bienes intermedios y energiacutea Los datos del conjuntocomienzan en enero de 2002 y finalizan en mayo de 2020

54 CAPIacuteTULO 5 APLICACIOacuteN A DATOS REALES

TRAMO -

SEATS

STL +

HDoutliers

STL +

iForest

STR +

HDoutliers

STR +

iForest

Atiacutepicos detectados 288 129 73 212 64

Max nuacutemero atip serie 24 11 3 102 3

Series con 0 atiacutepicos 9 5 3 6 2

Media de atiacutepicos detec 686 307 174 505 152

Cuadro 511 Resultados para el Conjunto 4 con datos hasta diciembre de 2019

El Cuadro 511 recoge los resultados que se producen para un total de 8904 observaciones quemuestra el conjunto con datos hasta diciembre de 2019 Ahora vamos a estudiar los resultados deforma que cada serie esteacute conformada por el uacuteltimo dato actualizado y a analizar los cambios que seproducen entre ambos escenarios En este conjunto el uacuteltimo dato actualizado es mayo de 2020 lo queconforma un total de 9114 observaciones

TRAMO -

SEATS

STL +

HDoutliers

STL +

iForest

STR +

HDoutliers

STR +

iForest

Atiacutepicos detectados 282 92 78 144 79

Max nuacutemero atip serie 24 5 3 50 3

Series con 0 atiacutepicos 4 5 1 2 1

Media de atiacutepicos detec 672 219 186 343 189

Cuadro 512 Resultados para el Conjunto 4 con datos hasta mayo de 2020

51 ANAacuteLISIS SERIES IGE 55

TRAMO -

SEATS

STL +

HDoutliers

STL +

iForest

STR +

HDoutliers

STR +

iForest

Hasta 2019 288 129 73 212 64

Hasta mayo 2020 282 92 78 144 79

Tasa de variacioacuten -208 -2868 685 -3208 2344

Cuadro 513 Total de atiacutepicos detectados por cada meacutetodo hasta diciembre de 2019 y mayo de 2020y tasa de variacioacuten que produce el efecto del Covid en el Conjunto 4

En el Cuadro 513 podemos ver el efecto del Covid sobre el conjunto sin embargo en esta ocasioacuten nopodemos ver una direccioacuten clara Los meacutetodos difieren y mientras unos meacutetodos muestran crecimientosen el nuacutemero de atiacutepicos detectados para el conjunto otros decrecen y muestran ahora menos atiacutepicosSin embargo esto no implica que el efecto del Covid sobre el conjunto sea menor que por ejemplo en elConjunto 3 Las variaciones entre las series las que incluyen datos de 2020 y las que no son notoriaslo cual implica que el efecto existe

A continuacioacuten vamos a analizar la serie referente a la produccioacuten industrial destinada a bienesintermedios de Galicia diferenciando a traveacutes de una recta vertical roja los dos escenarios los datoshasta diciembre de 2019 y la serie hasta mayo 2020

Figura 58 Serie de tiempo referente a la produccioacuten industrial destinada a bienes intermedios deGalicia

El comportamiento que muestran los meacutetodos con esta serie nos ayuda a plasmar una idea quedesarrollaremos maacutes adelante en el siguiente apartado Si observamos los datos para la serie recortada

56 CAPIacuteTULO 5 APLICACIOacuteN A DATOS REALES

en diciembre de 2019 obtenemos que salvo TRAMO-SEATS que no detecta ninguacuten atiacutepico los otroscuatro meacutetodos concuerdan en dos fechas marzo y julio de 2008 Por otra parte en la serie completacinco meacutetodos sentildealan abril 2020 y cuatro sentildealan marzo de 2008 Estos dos atiacutepicos abril de 2020 ymarzo de 2008 los representamos en la Figura 59

Analizando la Figura 59 el atiacutepico sentildealado en marzo de 2008 parece dudoso sin embargo siprofundizamos en los datos observamos que esta fecha rompe una clara tendencia creciente respecto alos meses de marzo de antildeos anteriores

Este suceso en el que varios meacutetodos coinciden en identificar una fecha proveen al analista de unaseguridad a la hora de calificar una observacioacuten como anoacutemala Este concepto de seguridad eliminandola incertidumbre asociada al campo de la deteccioacuten de valores atiacutepicos seraacute desarrollado maacutes adelante

Figura 59 Serie de tiempo referente a la produccioacuten industrial destinada a bienes intermedios deGalicia con los dos atiacutepicos

Conjunto 5 (httpwwwigeeuigebdtigeapidatos4052)

Series de datos trimestrales de nuacutemero de transacciones inmobiliarias por reacutegimen (Libre Protegiday Total de viviendas) y tipo de vivienda (Nuevas segunda mano y total de viviendas) Las medidas enlas que se toman los datos son por nuacutemero de viviendas su valor total (en miles de euros) o su valormedio (en euros) Los datos se presentan a nivel Espantildea Galicia y las provincias gallegas Los datosse recogen entre el primer trimestre de 2004 hasta el primer trimestre de 2020

51 ANAacuteLISIS SERIES IGE 57

TRAMO -

SEATS

STL +

HDoutliers

STL +

iForest

STR +

HDoutliers

STR +

iForest

Atiacutepicos detectados 184 122 105 94 97

Max nuacutemero atip serie 7 8 2 6 2

Series con 0 atiacutepicos 13 41 12 47 11

Media de atiacutepicos detec 204 136 117 104 107

Cuadro 514 Resultados para el Conjunto 5 con datos hasta el cuarto trimestre de 2019

Los resultados que recoge el Cuadro 514 se producen para un total de 5760 observaciones que mues-tra el Conjunto 5 con datos hasta el cuarto trimestre de 2019 Ahora vamos a estudiar los resultadosde forma que cada serie esteacute conformada por el uacuteltimo dato actualizado y a realizar una comparacioacutenentre ambos escenarios En esta serie el uacuteltimo dato actualizado es el primer trimestre de 2020 lo queconforma un total de 5850 observaciones

TRAMO -

SEATS

STL +

HDoutliers

STL +

iForest

STR +

HDoutliers

STR +

iForest

Atiacutepicos detectados 184 106 108 90 93

Max nuacutemero atip serie 9 8 2 5 3

Series con 0 atiacutepicos 12 42 11 43 13

Media de atiacutepicos detec 204 118 120 100 103

Cuadro 515 Resultados para el Conjunto 5 con datos hasta el primer trimestre de 2020

58 CAPIacuteTULO 5 APLICACIOacuteN A DATOS REALES

TRAMO -

SEATS

STL +

HDoutliers

STL +

iForest

STR +

HDoutliers

STR +

iForest

Hasta 2019 184 122 105 94 97

Hasta mayo 2020 184 106 108 90 93

Tasa de variacioacuten 000 -1311 286 -426 -412

Cuadro 516 Total de atiacutepicos detectados por cada meacutetodo hasta cuarto trimestre de 2019 y primertrimestre de 2020 y tasa de variacioacuten que produce el efecto del Covid en el Conjunto 5

En el Cuadro 516 podemos ver que el efecto del Covid sobre las series trimestrales vuelve a sermuy pequentildeo similar a las conclusiones obtenidas para el Conjunto 2 Si comparamos las tablas 514y 515 podemos similitudes en los resultados para las diferentes medidas que se toman Por ejemplo sinos fijamos en la fila que mide el nuacutemero de series que son identificadas con cero atiacutepicos los meacutetodosapenas difieren en sus resultados Lo mismo sucede con la media de atiacutepicos detectados en cada serieEstos resultados sostienen la idea de que el Covid repercutioacute en menor medida en las series trimestralesen el primer trimestre del antildeo y es de intereacutes realizar este mismo estudio una vez se incorporen losdatos del segundo trimestre

A continuacioacuten vamos a analizar la serie referente al nuacutemero de viviendas transmitidas de segundamano en reacutegimen libre para la provincia de Lugo diferenciando los dos escenarios analizados a traveacutesde una recta vertical roja los datos hasta el cuarto trimestre de 2019 y los datos incluyendo el primertrimestre de 2020

Figura 510 Serie de tiempo referente al nuacutemero de viviendas transmitidas de segunda mano en reacutegimenlibre para la provincia de Lugo

51 ANAacuteLISIS SERIES IGE 59

Observando la Figura 510 parece que el dato incluido referente al primer trimestre de 2020 su-pone una caiacuteda una situacioacuten anoacutemala sin embargo si observamos la evolucioacuten histoacuterica de la seriepodemos comprobar que solamente en dos ocasiones se han mostrado valores superiores en este pri-mer trimestre Para ambos escenarios la serie hasta 2019 y la serie completa uacutenicamente un meacutetododetecta atiacutepicos TRAMO-SEATS que sentildeala en ambas ocasiones octubre de 2010 y 2012 El resto demeacutetodos concuerdan en que la serie no presenta en ninguacuten caso ninguna situacioacuten anoacutemala

La Figura 511 muestra las dos fechas que sentildeala como atiacutepicas el meacutetodo TRAMO-SEATS cuartotrimestre de 2010 y 2012 que si bien reflejan un pico en los espacios temporales en los que se producenno parecen ser atiacutepicas respecto a la serie completa

Figura 511 Serie de tiempo referente al nuacutemero de viviendas transmitidas de segunda mano en reacutegimenlibre para la provincia de Lugo

Conjunto 6 (httpwwwigeeuigebdtigeapidatos1243)

Series de datos mensuales referentes a las bajas de demandas de empleo seguacuten geacutenero y duracioacutende la demanda en Galicia y sus provincias Los datos de la serie se recogen desde enero de 2009 hastajunio de 2020

60 CAPIacuteTULO 5 APLICACIOacuteN A DATOS REALES

TRAMO -

SEATS

STL +

HDoutliers

STL +

iForest

STR +

HDoutliers

STR +

iForest

Atiacutepicos detectados 154 271 228 288 228

Max nuacutemero atip serie 7 11 4 7 3

Series con 0 atiacutepicos 85 44 16 40 12

Media de atiacutepicos detec 093 164 138 174 138

Cuadro 517 Resultados para el Conjunto 6 con datos hasta diciembre de 2019

Los resultados del Cuadro 517 se producen para un total de 21780 observaciones que muestra elconjunto con datos hasta diciembre de 2019 Ahora vamos a estudiar los resultados de forma que cadaserie esteacute conformada por el uacuteltimo dato actualizado y a comparar ambas situaciones En esta serie eluacuteltimo dato actualizado es junio de 2020 lo que conforma un total de 22770 observaciones

TRAMO -

SEATS

STL +

HDoutliers

STL +

iForest

STR +

HDoutliers

STR +

iForest

Atiacutepicos detectados 484 502 336 504 334

Max nuacutemero atip serie 9 12 4 11 4

Series con 0 atiacutepicos 1 10 3 15 5

Media de atiacutepicos detec 293 304 204 305 202

Cuadro 518 Resultados para el Conjunto 6 con datos hasta junio de 2020

51 ANAacuteLISIS SERIES IGE 61

TRAMO -

SEATS

STL +

HDoutliers

STL +

iForest

STR +

HDoutliers

STR +

iForest

Hasta 2019 154 271 228 288 228

Hasta mayo 2020 484 502 336 504 334

Tasa de variacioacuten 21429 8524 4737 7500 4649

Cuadro 519 Total de atiacutepicos detectados por cada meacutetodo hasta diciembre de 2019 y junio de 2020 ytasa de variacioacuten que produce el efecto del Covid en el Conjunto 6

En el Cuadro 519 podemos ver el efecto que supone la primera mitad del antildeo 2020 en la aparicioacutende valores atiacutepicos en este conjunto El incremento en el nuacutemero de datos a analizar no llega a serdel 5 pero esa miacutenima cantidad de datos nuevos dispara las fechas anoacutemalas que se suceden en lasseries En el Cuadro 518 se puede observar que apenas existen series sin atiacutepicos independientementedel meacutetodo que seleccionemos algo todaviacutea maacutes sorprendente si recordamos que este es el conjuntoque posee maacutes series un total de 165 series

A continuacioacuten analizamos un caso concreto utilizando la serie referente a las bajas de la demandade empleo en mujeres con una duracioacuten de la demanda entre 12 y 18 meses en Ourense La rectavertical roja indica el inicio del antildeo 2020 sirviendo asiacute para indicar la diferencia entre los dos escenariosanalizados en los Cuadros 517 y 518

Figura 512 Serie de tiempo referente a las bajas de la demanda de empleo en mujeres con una duracioacutende la demanda entre 12 y 18 meses en Ourense

Esta serie es de intereacutes por diversos motivos El primero es que posee claros atiacutepicos en ambos

62 CAPIacuteTULO 5 APLICACIOacuteN A DATOS REALES

escenarios En la serie con duracioacuten hasta 2019 se puede observar un valor cercano al inicio de 2014con claro aspecto de ser atiacutepico La serie con todos los datos muestra el atiacutepico anterior pero tambieacutennuevos valores con claro comportamiento discordante al resto de la serie

Para la serie recortada cinco meacutetodos coinciden en sus resultados julio de 2013 es atiacutepico uacutenica-mente TRAMO-SEATS difiere el cual no sentildeala ninguacuten atiacutepico en la serie Si ahora nos trasladamosa la serie completa TRAMO-SEATS sentildeala marzo de 2020 como atiacutepico mientras que el resto demeacutetodos vuelven a concordar sentildealando julio de 2013 y febrero de 2020 En la Figura 513 se muestrala serie sentildealizando dichos atiacutepicos julio de 2013 y febrero y marzo de 2020

Figura 513 Serie de tiempo referente a las bajas de la demanda de empleo en mujeres con una duracioacutende la demanda entre 12 y 18 meses en Ourense con los atiacutepicos identificados

Si observamos los datos de la serie podemos calificar todas estas fechas como atiacutepicas julio 2013febrero 2020 y marzo 2020 Sin embargo ninguacuten meacutetodo ha calificado los meses de abril mayo yjunio de 2020 siendo claramente atiacutepicos Estamos frente a una situacioacuten completamente inusual unasituacioacuten que se produce en multitud de series del IGE y es la secuencia de varias observacionesconsecutivas muy atiacutepicas que ejercen un gran peso en la serie

Este gran peso provoca que los meacutetodos no consigan analizar correctamente este escenario Losmodelos de series temporales como TRAMO-SEATS interpretan que se estaacute produciendo un cambiode nivel permanente en la serie mencionado en el Capiacutetulo 3 como Level Shift (LS) y modelizan laserie como tal Los procesos de descomposicioacuten de series temporales utilizados STL y STR entiendenlo que estaacute sucediendo como un cambio en la tendencia es decir en su proceso de extraccioacuten de laestacionalidad y la tendencia estiman una tendencia decreciente en la serie Y por uacuteltimo los meacutetodosde deteccioacuten de valores atiacutepicos HDoutliers y iForest sufren un grave problema de enmascaramientoLa idea del mecanismo de iForest reside en buscar valores aislados mientras que la de HDoutliers sefundamenta en buscar espacios entre los valores ordenados estas dos ideas son consistentes con la ideade la buacutesqueda de atiacutepicos sin embargo ven disminuida su eficiencia ante una situacioacuten tan atiacutepica quepermanece durante varias observaciones consecutivas llevando a provocar que observaciones atiacutepicaspuedan pasar desapercibidas para el mecanismo

51 ANAacuteLISIS SERIES IGE 63

Conjunto 7 (httpwwwigeeuigebdtigeapidatos4885)

Series de datos mensuales referentes a las afiliaciones a la seguridad social el uacuteltimo diacutea de mes enGalicia y sus provincias por regiacutemenes Los datos comienzan en enero de 1990 y finalizan en mayo de2020

TRAMO -

SEATS

STL +

HDoutliers

STL +

iForest

STR +

HDoutliers

STR +

iForest

Atiacutepicos detectados 288 96 118 136 121

Max nuacutemero atip serie 24 8 5 10 5

Series con 0 atiacutepicos 4 10 0 4 0

Media de atiacutepicos detec 613 204 251 289 257

Cuadro 520 Resultados para el Conjunto 7 con datos hasta diciembre de 2019

El Cuadro 520 muestra los resultado que se producen para un total de 16920 observaciones quemuestra el conjunto con datos hasta diciembre de 2019 Ahora vamos a estudiar los resultados de formaque cada serie esteacute conformada por el uacuteltimo dato actualizado y comparar ambas situaciones En estaserie el uacuteltimo dato actualizado es junio de 2020 lo que conforma un total de 17155 observaciones

TRAMO -

SEATS

STL +

HDoutliers

STL +

iForest

STR +

HDoutliers

STR +

iForest

Atiacutepicos detectados 333 179 128 118 136

Max nuacutemero atip serie 24 14 5 11 6

Series con 0 atiacutepicos 0 6 0 3 0

Media de atiacutepicos detec 709 380 272 251 289

Cuadro 521 Resultados para el Conjunto 7 con datos hasta mayo de 2020

64 CAPIacuteTULO 5 APLICACIOacuteN A DATOS REALES

TRAMO -

SEATS

STL +

HDoutliers

STL +

iForest

STR +

HDoutliers

STR +

iForest

Hasta 2019 288 96 118 136 121

Hasta mayo 2020 333 179 128 118 136

Tasa de variacioacuten 1563 8646 847 -1324 1240

Cuadro 522 Total de atiacutepicos detectados por cada meacutetodo hasta diciembre de 2019 y mayo de 2020y tasa de variacioacuten que produce el efecto del Covid en el Conjunto 7

En el Cuadro 522 podemos ver que el efecto que supone la primera mitad del antildeo 2020 en laaparicioacuten de valores atiacutepicos en este conjunto La variacioacuten que supone en el nuacutemero de valores detec-tados como anoacutemalos es considerable todaviacutea maacutes si lo comparamos con la variacioacuten de nuevos datosintroducidos en el anaacutelisis los cuales han aumentado solamente un 138 De este modo podemosafirmar que la presencia del Covid ha provocado un gran impacto en el incremento del nuacutemero deobservaciones atiacutepicas de los conjuntos que presentan datos de frecuencia mensual

A continuacioacuten analizamos un caso concreto utilizando la serie referente a las afiliaciones a laseguridad social en reacutegimen mar para la provincia de Lugo La Figura 514 muestra la representacioacutengraacutefica de dicha serie indicando mediante una recta vertical roja el inicio del 2020

Figura 514 Serie de tiempo referente a las afiliaciones a la seguridad social en reacutegimen mar para laprovincia de Lugo

El motivo de seleccionar esta serie reside en una idea que se va desarrollando a lo largo de todoeste apartado y que da lugar a la herramienta que se introduce en el siguiente Las series socio-econoacutemicas son complejas dado que se ven afectadas por multitud de factores externos que condicionansu desarrollo Este caraacutecter uacutenico de cada serie maacutes los resultados obtenidos a lo largo del trabajo

51 ANAacuteLISIS SERIES IGE 65

nos conduce a la conclusioacuten de que no existe un meacutetodo de deteccioacuten de atiacutepicos con una capacidadde clasificacioacuten superior al resto

Los resultados para esta serie son diversos Por ejemplo la combinacioacuten STR+HDoutliers muestrahasta ocho atiacutepicos para la serie delimitada en el antildeo 2019 sin embargo al introducir la serie completaesta cifra se reduce solamente a dos Sucede lo contrario con la combinacioacuten STL+HDoutliers quesi bien en la serie recortada califica dos observaciones en la completa sentildeala un total de siete Porsu parte TRAMO-SEATS identifica un total de siete atiacutepicos Sin embargo todos los meacutetodos dedeteccioacuten sentildealan dos fechas como atiacutepicas en los dos casos agosto de 2006 y junio de 2008 como serepresenta en la Figura 515 Esto dota al estudio de confianza si todos los mecanismos sospechan dedos fechas deberaacute haber un motivo de peso algo ha sucedido en la serie para que todos concuerdenEsta idea dio lugar al desarrollo de la herramienta que se introduce en el siguiente apartado

Figura 515 Serie de tiempo referente a las afiliaciones a la seguridad social en reacutegimen mar parala provincia de Lugo identificando los atiacutepicos sentildealados de forma comuacuten por los cinco meacutetodos dedeteccioacuten

Por uacuteltimo el Cuadro 523 recoge el total de atiacutepicos detectados por cada meacutetodo en los dosescenarios con los que se ha trabajado en este capiacutetulo El primer escenario incluye datos hasta lauacuteltima fecha de 2019 si las series son mensuales este dato es el correspondiente a diciembre de 2019si son series trimestrales el uacuteltimo dato seraacute el cuarto trimestre de 2019 En el Cuadro 523 se recogede modo general para todos los conjuntos bajo el teacutermino ldquodatos hasta 2019rdquo El segundo escenariorecoge los datos hasta su uacuteltima actualizacioacuten aquiacute existe un mayor abanico de fechas como vimos alo largo de todo este capiacutetulo Los conjuntos con datos de frecuencia trimestral presentan su uacuteltimodato en el primer trimestre de 2020 por su parte los conjuntos de datos mensuales variacutean su uacuteltimaactualizacioacuten entre los meses de abril mayo o junio de 2020 En el Cuadro 523 se recoge de modogeneral para todos ellos bajo el teacutermino ldquodatos hasta 2020rdquo

66 CAPIacuteTULO 5 APLICACIOacuteN A DATOS REALES

TRAMO -SEATS

STL +HDoutliers

STL +iForest

STR +HDoutliers

STR +iForest

Tiempo de ejecucioacuten (2019) 1332 24 1782 7234 8805Tiempo de ejecucioacuten (2020) 1503 21 2042 8043 10764Atiacutepicos detectados (2019) 1490 990 794 1074 816Atiacutepicos detectados (2020) 2036 1373 989 1341 1033

Tasa de variacioacuten 3664 3869 2456 2486 2659

Cuadro 523 Tiempo de ejecucioacuten (en segundos) y total de atiacutepicos detectados por cada meacutetodo hastael uacuteltimo dato de 2019 y hasta uacuteltima actualizacioacuten de 2020 y tasa de variacioacuten que produce el efectodel Covid en los siete conjuntos de datos

El Cuadro 523 nos permite concluir que el efecto global del Covid ha supuesto un incremento enel nuacutemero de observaciones atiacutepicas puesto que todos los meacutetodos experimentan una tasa de variacioacutenpositiva sobre sus cifras de valores atiacutepicos detectados Las cifras de tasas de variacioacuten que se muestranen el Cuadro 523 sorprenden todaviacutea maacutes si analizamos el incremento en el nuacutemero de observacionesanalizadas El escenario que analiza el conjunto de datos hasta 2019 presentan un total de 90540observaciones mientras que el escenario que incluye hasta el uacuteltimo dato actualizado recoge un totalde 92731 Es decir el nuacutemero total de datos analizados se ha incrementado en poco maacutes del 2 sinembargo la tasa de variacioacuten maacutes pequentildea muestra un incremento del maacutes del 24 del nuacutemero deatiacutepicos que se presentan en el conjunto de datos

Otra medida que incluye el Cuadro 523 es el tiempo que tarda en analizar los siete conjuntosde datos cada meacutetodo recogida bajo el nombre de ldquotiempo de ejecucioacutenrdquo A traveacutes de ella podemosobservar que la diferencia entre el tiempo de ejecucioacuten es pequentildea pero existe por lo que muestra quela presencia de atiacutepicos dificulta la modelizacioacuten de la series temporales Tambieacuten podemos comprobarcomo todos los meacutetodos presentan buenas cifras en este medida los que peores resultados muestranson los meacutetodos que utilizan la descomposicioacuten STR la cual ya mencionamos su posible problemade lentitud en el Capiacutetulo 2 Por uacuteltimo es sorprendente la combinacioacuten de STL+HDoutliers que escapaz de analizar las 538 en un tiempo inferior a los tres segundos en ambos casos

52 Anaacutelisis Graacutefico

El campo de la deteccioacuten de valores atiacutepicos estaacute caracterizado por una constante incertidumbrePartiendo del inicio del trabajo ni siquiera existe una definicioacuten exacta de queacute es un valor atiacutepicosino maacutes bien se trazan definiciones en base a ideas de lo que se espera que sea un valor atiacutepico enun conjunto de datos Es por ello que dependiendo de los escenarios y las complejidades asociadas auna serie unos meacutetodos resulten maacutes efectivos que otros Este es el motivo por el que surgioacute la ideade crear una herramienta de anaacutelisis graacutefico para el estudio de series de tiempo

El objetivo de esta herramienta es la de dotar al analista de un mecanismo sencillo de implantarque le permita trazar una idea de los posibles atiacutepicos con los que podriacutea contar la serie Para ello seha creado una funcioacuten en R que solo necesita introducir la serie de tiempo para devolver el graacutefico

52 ANAacuteLISIS GRAacuteFICO 67

Ademaacutes dado que esta herramienta estaacute disentildeada especiacuteficamente para trabajar con series de tiemposu representacioacuten dariacutea lugar a lo que podriacutea denominarse un mapa de calor para zonas atiacutepicas estose muestra maacutes adelante mediante ejemplos

Esta herramienta estaacute compuesta por los meacutetodos que han mostrado mejores resultados en el estudiode simulacioacuten Cada meacutetodo ocupa una fila mostrando a lo largo de ella sus atiacutepicos sentildealados y cadacolumna es una fecha detectada por un meacutetodo De tal modo que si una fecha es detectada por todoslos meacutetodos mostraraacute una columna verde y seraacute sospecha clara de que esa fecha es atiacutepica Por otraparte si una fecha es detectada por solo un meacutetodo mostraraacute solo de color verde la celda asociada aese meacutetodo y no seraacute sentildeal tan evidente de situacioacuten atiacutepica

Para la composicioacuten del graacutefico se utilizan los meacutetodos del apartado anterior y a mayores seintroducen las versiones robustas de los meacutetodos de descomposicioacuten de series temporales STL y STREl motivo de su uso en este apartado se debe a que si bien no mostraron los mejores resultados enel estudio de simulacioacuten ahora pueden resultar de utilidad Los meacutetodos robustos pueden generaranomaliacuteas espurias cuando no existen atiacutepicos debido a que resaltan el tamantildeo del residuo de unaobservacioacuten provocando su identificacioacuten como atiacutepico sin esta serlo Sin embargo cuando se producenanomaliacuteas que ejercen un gran peso en la serie como lo sucedido durante el Covid este tipo deestimaciones son de gran intereacutes esta situacioacuten tambieacuten se justificaraacute mediante un ejemplo praacutectico

El primer ejemplo lo extraemos a traveacutes de la serie referente a la estancia media de viajeros de todaslas procedencias en establecimientos hoteleros en Galicia perteneciente al Conjunto 1 En la Figura516 mostramos la representacioacuten de la misma ahora ya mostramos hasta el uacuteltimo dato actualizadoen este caso mayo de 2020

Figura 516 Estancia media de viajeros de todas las procedencias en establecimientos hoteleros enGalicia

Esta serie parece contar con dos atiacutepicos los relacionados con las dos uacuteltimas observaciones de laserie sin embargo vamos a analizar los resultados del graacutefico comparativo

68 CAPIacuteTULO 5 APLICACIOacuteN A DATOS REALES

Figura 517 Resultados para la serie estancia media de viajeros de todas las procedencias en estable-cimientos hoteleros en Galicia del Conjunto 1

La Figura 517 muestra el graacutefico que hemos desarrollado el cual vamos a desgranar ahora paraentender su utilidad Si hubieacutesemos escogido el meacutetodo TRAMO-SEATS hubieacutesemos sentildealado tresobservaciones atiacutepicas una de ellas seriacutea enero de 2003 Sin embargo analizando los datos podemoscomprobar que este dato parece normal y estariacuteamos identificaacutendolo erroacuteneamente como anoacutemalo Dehecho solo TRAMO-SEATS sentildeala esta fecha Lo mismo sucede con otras fechas como octubre delantildeo 2000 sentildealada por solo dos meacutetodos Por otra parte todos los meacutetodos sentildealan los meses deabril y mayo de 2020 las dos uacuteltimas observaciones de la serie que en la Figura 516 mostraban uncomportamiento totalmente discordante al resto del conjunto de datos Es decir el graacutefico permitetrazar una idea concisa al analista de queacute es anoacutemalo en la serie y que pueden ser falsos positivos

Observando el graacutefico podemos tambieacuten extraer una conclusioacuten raacutepida de la posible presenciade valores atiacutepicos en la serie Se muestran dos comportamientos muy marcados El primero estariacuteadeterminado por la serie hasta el antildeo 2020 en el cual la aparicioacuten de atiacutepicos es dispersa pococoncluyente el analista puede dudar de que estas observaciones sean realmente anoacutemalas El segundoson los datos de 2020 dos columnas enteras de color verde una imagen que comunica que en eseintervalo de tiempo estaacute sucediendo algo realmente anoacutemalo

Vamos a utilizar el graacutefico con otra serie para analizar otra de las caracteriacutesticas que muestran elintereacutes de analizar una serie de tiempo a traveacutes de este graacutefico En la Figura 518 se muestra la serie detiempo perteneciente al Conjunto 3 que recoge la evolucioacuten de los contratos iniciales en Galicia Dichaserie cuenta con tres atiacutepicos claros marzo abril y mayo de 2020

52 ANAacuteLISIS GRAacuteFICO 69

Figura 518 Contratos iniciales registrados en Galicia

Haciendo uso del graacutefico comparativo Figura 519 volvemos a obtener un escenario en el queresulta de intereacutes esta herramienta En este caso el meacutetodo compuesto por STR+HDoutliers muestraun comportamiento erraacutetico que le conduce a identificar una gran cantidad de atiacutepicos de modoincorrecto Lo mismo sucede con TRAMO-SEATS que es el uacutenico que sentildeala enero de 2001 comoatiacutepico sin existir motivo en los datos para esta calificacioacuten

Por otra parte este escenario nos permite observar la utilidad de incorporar las versiones robustasSi bien se equivocan en alguacuten caso por ejemplo el meacutetodo STR+HDoutliers(Rob) sentildealando junio de2002 nos permiten calificar marzo de 2020 como atiacutepico algo que los meacutetodos que utilizan las versionesno robustas de los meacutetodos de descomposicioacuten de series temporales STR y STR no logran Todasellas se ponen de acuerdo junto a TRAMO-SEATS para la sentildealizacioacuten de este mes

Ademaacutes dado que estamos trabajando con series temporales los resultados de la graacutefica se muestranen orden cronoloacutegico en vez de por cuaacuten anoacutemala es la observacioacuten como se hace en TRAMO-SEATSo en iForest Esto nos permite entender la graacutefica como un mapa de calor Al analizar la serie siexiste un intervalo de tiempo en el que se han producido situaciones anoacutemalas como por ejemplo eneste caso los meses relacionados al Covid se veraacute reflejado en el graacutefico por una serie de columnascon muchas celdas verdes lo que daraacute a entender de manera raacutepida al analista que en ese intervalode tiempo se han producido situaciones excepcionales De este modo tambieacuten conseguimos corregirel problema de enmascaramiento que pueden sufrir los meacutetodos cuando se suceden varias situacionesatiacutepicas consecutivas

70 CAPIacuteTULO 5 APLICACIOacuteN A DATOS REALES

Figura 519 Resultados para la serie Contratos iniciales registrados en Galicia del Conjunto 3

Capiacutetulo 6

Conclusiones

El IGE cuenta con una ampliacutea base de datos que se utiliza para el estudio del contexto socio-econoacutemico en Galicia Estos datos tienen una base temporal es decir son datos referidos a un intervalode tiempo en la mayoriacutea de los casos esta periodicidad es anual trimestral o mensual La manipulacioacutende los datos puede conllevar a que se introduzcan errores humanos o de medicioacuten que provoquen quese incluyan cifras incorrectas a las bases de datos Estos errores pueden distorsionar las conclusionesde un estudio o conducir haciacutea resultados alejados de la verdadera realidad Es por ello que resultanecesario el incorporar una herramienta de deteccioacuten de valores atiacutepicos al anaacutelisis de las bases dedatos del IGE

Para ello se planteoacute una revisioacuten bibliograacutefica de los principales meacutetodos de deteccioacuten de atiacutepicosen series temporales Esta revisioacuten nos permitioacute conocer la existencia de un amplio abanico de meacuteto-dos disponibles con los cuales empezamos a trabajar para analizar su comportamiento Es aquiacute dondedecidimos descartar una serie de meacutetodos mencionados al final del Apartado 34 debido a que sufuncionamiento y sus resultados correspondiacutean a versiones inferiores de otros meacutetodos que finalmenteadoptamos Este primer estudio nos proporcionoacute los meacutetodos de deteccioacuten de atiacutepicos en series tem-porales que supondriacutean el punto de partida del trabajo X-13ARIMA-SEATS TRAMO-SEATS y lalibreriacutea de R Anomalize

La libreriacutea Anomalize tambieacuten nos sirvioacute de ayuda en el desarrollo de nuestros propios meacutetodos dedeteccioacuten de atiacutepicos para series temporales La idea sobre la que se fundamenta esta libreriacutea es la deaplicar un proceso de descomposicioacuten de series de tiempo a una serie para extraer las componentes dela estacionalidad la tendencia y un residuo para despueacutes aplicar un meacutetodo de deteccioacuten de atiacutepicossobre el residuo Dado que se han producido mejoras a los meacutetodos de descomposicioacuten y deteccioacutenque se utilizan en la libreriacutea Anomalize consideramos que una nueva combinacioacuten podriacutea reflejar unamejora en los resultados

Para comparar todos los meacutetodos de deteccioacuten de atiacutepicos en series temporales los que sirven depunto de partida del trabajo y los desarrollados por nosotros decidimos llevar a cabo un ambiciosoestudio de simulacioacuten El estudio de simulacioacuten recoge diferentes escenarios con la finalidad de repre-sentar la heterogeneidad propia de las series de tiempo referentes a variables sociales y econoacutemicas Losresultados del estudio de simulacioacuten confirman nuestra idea acerca de que una nueva combinacioacuten pue-de suponer una mejora en los resultados debido a que varias de nuestras combinaciones reflejan mejores

71

72 CAPIacuteTULO 6 CONCLUSIONES

resultados que las propuestas en la libreriacutea Anomalize Tambieacuten nos permite observar que nuestraspropuestas compiten en los resultados con un modelo tan desarrollado como TRAMO-SEATS Final-mente nos permiten descartar otros meacutetodos que siendo uacutetiles en otros campos no parecen resultaridoacuteneos para el nuestro

Tras el estudio de simulacioacuten comenzamos a utilizar los meacutetodos que habiacutean mostrado mejoresresultados con los datos proporcionados por el IGE Fue en este momento cuando nos encontramos conuna situacioacuten no contemplada en ninguacuten momento en ninguacuten escenario del estudio de simulacioacuten yen general en ninguacuten momento de lo que podriacutea ser la historia reciente como fue la crisis del Covid19Esta crisis provoca un efecto enorme en los datos del contexto gallego como se recoge a lo largo delCapiacutetulo 5 y supone un nuevo escenario en lo que a deteccioacuten de valores atiacutepicos en series temporalesse refiere

Este nuevo escenario se caracteriza por reflejar durante varios periacuteodos de tiempo consecutivosobservaciones enormemente anoacutemalas y los modelos ven empeorado su comportamiento TRAMO-SEATS y los modelos de descomposicioacuten de series de tiempo STL y STR entienden que lo que seestaacute produciendo es una tendencia decreciente de la serie Por su parte los meacutetodos de deteccioacuten deatiacutepicos HDoutliers y iForest sufren un fenoacutemeno de enmascaramiento en el que son incapaces desentildealizar todos los atiacutepicos Fue aquiacute donde decidimos crear una nueva herramienta para el anaacutelisis

El objetivo con el que creamos esta herramienta de anaacutelisis graacutefico fue el de reducir la incertidumbreque supone el campo de la deteccioacuten de atiacutepicos de un modo sencillo y directo para el analista que lautilice Ademaacutes su disentildeo estaacute pensado para el trabajo con series temporales de modo que si se sucedeun periacuteodo convulso como el actual la graacutefica podraacute ser analizada como un mapa de calor un mapade calor que transmite visualmente la idea de en queacute intervalo de tiempo la serie estaacute experimentandocomportamientos atiacutepicos

Apeacutendice A

Tablas

A1 Tablas de sensibilidad

73

74 APEacuteNDICE A TABLAS

Caso 1 Caso 2 Caso 3 Caso 4

X-13ARIMA-SEATS 0496 0854 0700 0826

TRAMO-SEATS 0657 0928 0805 0851

STL+HDoutliers 0569 0838 0570 0732

STL+GESD 0266 0590 0236 0532

STL+iForest 0636 0885 0636 0790

STL(ROB)+HDoutliers 0562 0803 0678 0712

STL(ROB)+GESD 0637 0876 0746 0754

STL(ROB)+iForest 0640 0878 0747 0786

Twitter+HDoutliers 0471 0735 0597 0620

Twitter+GESD 0306 0590 0429 0434

Twitter+iForest 0529 0801 0652 0660

STR+HDoutliers 0611 0841 0603 0672

STR+GESD 0345 0650 0292 0448

STR+iForest 0674 0885 0679 0721

STR(ROB)+HDoutliers 0542 0812 0638 0658

STR(ROB)+GESD 0381 0685 0458 0558

STR(ROB)+iForest 0623 0862 0699 0714

Cuadro A1 Resultados Escenario 1Sensibilidad AR(1)

A1 TABLAS DE SENSIBILIDAD 75

Caso 1 Caso 2 Caso 3 Caso 4

X-13ARIMA-SEATS 0505 0829 0646 0875

TRAMO-SEATS 0668 0914 0743 0888

STL+HDoutliers 0472 0729 0481 0684

STL+GESD 0217 0457 0148 0428

STL+iForest 0506 0784 0525 0716

STL(ROB)+HDoutliers 0469 0735 0588 0648

STL(ROB)+GESD 0529 0775 0665 0668

STL(ROB)+iForest 0526 0803 0666 0716

Twitter+HDoutliers 0465 0698 0596 0646

Twitter+GESD 0349 0630 0483 0486

Twitter+iForest 0512 0778 0663 0692

STR+HDoutliers 0588 0823 0573 0664

STR+GESD 0298 0602 0247 0449

STR+iForest 0630 0869 0651 0721

STR(ROB)+HDoutliers 0521 0788 0611 0649

STR(ROB)+GESD 0336 0628 0406 0520

STR(ROB)+iForest 0582 0839 0691 0711

Cuadro A2 Resultados Escenario 2 Sensibilidad MA(1)

76 APEacuteNDICE A TABLAS

Caso 1 Caso 2 Caso 3 Caso 4

X-13ARIMA-SEATS 0922 0971 0927 0983

TRAMO-SEATS 0923 0972 0923 0982

STL+HDoutliers 0312 0508 0241 0440

STL+GESD 0089 0230 0051 0152

STL+iForest 0343 0578 0284 0454

STL(ROB)+HDoutliers 0261 0435 0297 0333

STL(ROB)+GESD 0311 0527 0393 0322

STL(ROB)+iForest 0298 0501 0336 0362

Twitter+HDoutliers 0064 0112 0127 0066

Twitter+GESD 0028 0040 0069 0032

Twitter+iForest 0079 0129 0169 0070

STR+HDoutliers 0407 0563 0348 0440

STR+GESD 0204 0367 0109 0230

STR+iForest 0445 0617 0389 0495

STR(ROB)+HDoutliers 0243 0397 0254 0272

STR(ROB)+GESD 0209 0391 0225 0259

STR(ROB)+iForest 0282 0455 0284 0293

Cuadro A3 Resultados Escenario 3 Sensibilidad ARIMA(011)

A1 TABLAS DE SENSIBILIDAD 77

Caso 1 Caso 2 Caso 3 Caso 4

X-13ARIMA-SEATS 0403 0593 0068 0816

TRAMO-SEATS 0542 0707 0072 0814

STL+HDoutliers 0005 0004 0016 0004

STL+GESD 0000 0001 0004 0000

STL+iForest 0003 0003 0015 0005

STL(ROB)+HDoutliers 0007 0007 0037 0004

STL(ROB)+GESD 0009 0021 0099 0029

STL(ROB)+iForest 0006 0008 0036 0005

Twitter+HDoutliers 0001 0000 0001 0008

Twitter+GESD 0006 0009 0012 0023

Twitter+iForest 0001 0000 0005 0018

STR+HDoutliers 0370 0428 0006 0088

STR+GESD 0424 0462 0000 0138

STR+iForest 0418 0479 0004 0103

STR(ROB)+HDoutliers 0028 0019 0011 0076

STR(ROB)+GESD 0064 0063 0051 0140

STR(ROB)+iForest 0022 0014 0010 0027

Cuadro A4 Resultados Escenario 4 Sensibilidad ARIMA(011)x(011)12

78 APEacuteNDICE A TABLAS

Caso 1 Caso 2 Caso 3 Caso 4

X-13ARIMA-SEATS 0266 0629 0177 0574

TRAMO-SEATS 0400 0750 0251 0618

STL+HDoutliers 0247 0477 0291 0130

STL+GESD 0093 0260 0160 0024

STL+iForest 0270 0536 0312 0138

STL(ROB)+HDoutliers 0278 0489 0358 0102

STL(ROB)+GESD 0400 0688 0478 0132

STL(ROB)+iForest 0314 0553 0398 0133

Twitter+HDoutliers 0254 0439 0363 0108

Twitter+GESD 0176 0385 0317 0064

Twitter+iForest 0274 0486 0388 0131

STR+HDoutliers 0664 0895 0240 0760

STR+GESD 0425 0770 0065 0567

STR+iForest 0724 0939 0283 0800

STR(ROB)+HDoutliers 0197 0334 0220 0529

STR(ROB)+GESD 0190 0333 0207 0692

STR(ROB)+iForest 0235 0369 0238 0591

Cuadro A5 Resultados Escenario 5 Sensibilidad ARIMA(101)x(012)12

A1 TABLAS DE SENSIBILIDAD 79

Caso 1 Caso 2 Caso 3 Caso 4

X-13ARIMA-SEATS 0333 0662 0355 0618

TRAMO-SEATS 0460 0767 0480 0656

STL+HDoutliers 0521 0798 0502 0629

STL+GESD 0230 0559 0188 0328

STL+iForest 0565 0836 0572 0651

STL(ROB)+HDoutliers 0519 0788 0605 0601

STL(ROB)+GESD 0541 0828 0676 0561

STL(ROB)+iForest 0566 0843 0668 0648

Twitter+HDoutliers 0246 0423 0362 0212

Twitter+GESD 0104 0232 0187 0102

Twitter+iForest 0284 0456 0398 0230

STR+HDoutliers 0527 0788 0444 0641

STR+GESD 0279 0585 0152 0386

STR+iForest 0600 0825 0499 0685

STR(ROB)+HDoutliers 0407 0674 0497 0550

STR(ROB)+GESD 0277 0527 0352 0404

STR(ROB)+iForest 0462 0735 0573 0582

Cuadro A6 Resultados Escenario 6 Sensibilidad ARIMA(111)x(101)12

80 APEacuteNDICE A TABLAS

Caso 1 Caso 2 Caso 3 Caso 4

X-13ARIMA-SEATS 0299 0638 0335 0632

TRAMO-SEATS 0424 0717 0432 0801

STL+HDoutliers 0432 0705 0397 0626

STL+GESD 0177 0416 0109 0351

STL+iForest 0514 0762 0463 0530

STL(ROB)+HDoutliers 0441 0686 0494 0613

STL(ROB)+GESD 0461 0731 0556 0584

STL(ROB)+iForest 0491 0723 0548 0528

Twitter+HDoutliers 0280 0471 0387 0354

Twitter+GESD 0129 0288 0191 0147

Twitter+iForest 0008 0017 0051 0050

STR+HDoutliers 0456 0700 0467 0568

STR+GESD 0203 0439 0167 0274

STR+iForest 0515 0778 0443 0638

STR(ROB)+HDoutliers 0424 0687 0510 0554

STR(ROB)+GESD 0262 0524 0330 0366

STR(ROB)+iForest 0349 0562 0413 0388

Cuadro A7 Resultados Escenario 7 Sensibilidad ARIMA(112)x(011)12

A1 TABLAS DE SENSIBILIDAD 81

Caso 1 Caso 2 Caso 3 Caso 4

X-13ARIMA-SEATS 0299 0638 0335 0632

TRAMO-SEATS 0424 0717 0432 0801

STL+HDoutliers 0432 0705 0397 0626

STL+GESD 0177 0416 0109 0351

STL+iForest 0485 0738 0428 0665

STL(ROB)+HDoutliers 0441 0686 0494 0613

STL(ROB)+GESD 0461 0731 0556 0584

STL(ROB)+iForest 0494 0755 0566 0678

Twitter+HDoutliers 0280 0471 0387 0354

Twitter+GESD 0129 0288 0191 0147

Twitter+iForest 0306 0509 0430 0359

STR+HDoutliers 0456 0700 0467 0568

STR+GESD 0203 0439 0167 0274

STR+iForest 0497 0772 0507 0602

STR(ROB)+HDoutliers 0424 0687 0510 0554

STR(ROB)+GESD 0262 0524 0330 0366

STR(ROB)+iForest 0465 0755 0577 0590

Cuadro A8 Resultados Escenario 8 Sensibilidad ARIMA(011)x(100)12

82 APEacuteNDICE A TABLAS

A2 Tablas de exceso

Caso 1 Caso 2 Caso 3 Caso 4

X-13ARIMA-SEATS 0078 0077 0066 0042

TRAMO-SEATS 0211 0208 0222 0056

STL+HDoutliers 0788 0829 0805 1534

STL+GESD 0056 0055 0045 0031

STL+iForest 0406 0300 0404 0659

STL(ROB)+HDoutliers 1162 1242 1212 1714

STL(ROB)+GESD 1411 1417 1416 0461

STL(ROB)+iForest 0637 0468 0575 0859

Twitter+HDoutliers 0930 0955 0905 1487

Twitter+GESD 0257 0273 0254 0069

Twitter+iForest 0538 0412 0490 0776

STR+HDoutliers 0759 0810 0759 1464

STR+GESD 0053 0062 0046 0024

STR+iForest 0403 0301 0381 0725

STR(ROB)+HDoutliers 0749 0842 0758 1460

STR(ROB)+GESD 0199 0196 0192 0099

STR(ROB)+iForest 0427 0315 0413 0749

Cuadro A9 Resultados Escenario 1 Exceso AR(1)

A2 TABLAS DE EXCESO 83

Caso 1 Caso 2 Caso 3 Caso 4

X-13ARIMA-SEATS 0054 0058 0066 0058

TRAMO-SEATS 0144 0138 0175 0061

STL+HDoutliers 0695 0772 0759 1472

STL+GESD 0034 0038 0050 0016

STL+iForest 0443 0318 0425 0706

STL(ROB)+HDoutliers 1168 1221 1180 1703

STL(ROB)+GESD 1309 1349 1415 0418

STL(ROB)+iForest 0682 0528 0621 0877

Twitter+HDoutliers 0836 0832 0911 1577

Twitter+GESD 0313 0329 0334 0061

Twitter+iForest 0552 0417 0483 0755

STR+HDoutliers 0798 0885 0694 1541

STR+GESD 0054 0064 0044 0018

STR+iForest 0407 0302 0396 0724

STR(ROB)+HDoutliers 0725 0776 0745 1516

STR(ROB)+GESD 0134 0143 0142 0076

STR(ROB)+iForest 0435 0312 0372 0727

Cuadro A10 Resultados Escenario 2 Exceso MA(1)

84 APEacuteNDICE A TABLAS

Caso 1 Caso 2 Caso 3 Caso 4

X-13ARIMA-SEATS 0106 0060 0101 0070

TRAMO-SEATS 0179 0123 0175 0085

STL+HDoutliers 0638 0635 0686 1376

STL+GESD 0052 0054 0067 0020

STL+iForest 0448 0346 0468 0867

STL(ROB)+HDoutliers 0932 0905 1010 1604

STL(ROB)+GESD 2339 2311 2338 1863

STL(ROB)+iForest 0705 0573 0695 1281

Twitter+HDoutliers 0311 0285 0311 0743

Twitter+GESD 1302 1282 1331 1946

Twitter+iForest 0167 0153 0175 0645

STR+HDoutliers 0672 0703 0623 1364

STR+GESD 0180 0183 0119 0050

STR+iForest 0372 0297 0393 0899

STR(ROB)+HDoutliers 0598 0568 0588 1225

STR(ROB)+GESD 1030 1008 0999 1341

STR(ROB)+iForest 0463 0383 0464 1108

Cuadro A11 Resultados Escenario 3 Exceso ARIMA(011)

A2 TABLAS DE EXCESO 85

Caso 1 Caso 2 Caso 3 Caso 4

X-13ARIMA-SEATS 0132 0120 0062 0274

TRAMO-SEATS 0198 0180 0075 0274

STL+HDoutliers 0832 0823 0837 1337

STL+GESD 0231 0225 0226 0165

STL+iForest 0727 0710 0718 1237

STL(ROB)+HDoutliers 1197 1152 1186 1230

STL(ROB)+GESD 4756 4699 4689 7954

STL(ROB)+iForest 0992 0993 0983 1514

Twitter+HDoutliers 0144 0162 0182 0376

Twitter+GESD 3050 2761 2813 6058

Twitter+iForest 0123 0128 0121 0508

STR+HDoutliers 1108 1135 1027 1454

STR+GESD 1469 1679 0582 4430

STR+iForest 0732 0674 0882 1653

STR(ROB)+HDoutliers 1382 1266 0876 10915

STR(ROB)+GESD 4452 4583 4289 19321

STR(ROB)+iForest 0831 0845 0828 1858

Cuadro A12 Resultados Escenario 4 Exceso ARIMA(011)x(011)12

86 APEacuteNDICE A TABLAS

Caso 1 Caso 2 Caso 3 Caso 4

X-13ARIMA-SEATS 0109 0123 0111 0069

TRAMO-SEATS 0239 0301 0312 0139

STL+HDoutliers 0869 0762 0986 1367

STL+GESD 0170 0170 0198 0244

STL+iForest 0667 0475 0712 1291

STL(ROB)+HDoutliers 1328 1357 1499 1287

STL(ROB)+GESD 2517 2530 2919 5438

STL(ROB)+iForest 0992 0813 0978 1444

Twitter+HDoutliers 1041 0966 1065 1383

Twitter+GESD 0796 0854 0830 2221

Twitter+iForest 0808 0655 0735 1412

STR+HDoutliers 0799 0979 0846 1551

STR+GESD 0101 0087 0083 0029

STR+iForest 0383 0286 0619 0669

STR(ROB)+HDoutliers 0764 0759 0755 1692

STR(ROB)+GESD 1600 1591 1490 8145

STR(ROB)+iForest 0603 0492 0593 0894

Cuadro A13 Resultados Escenario 5 Exceso ARIMA(101)x(012)12

A2 TABLAS DE EXCESO 87

Caso 1 Caso 2 Caso 3 Caso 4

X-13ARIMA-SEATS 0179 0167 0141 0096

TRAMO-SEATS 0307 0299 0297 0127

STL+HDoutliers 0792 0783 0775 1598

STL+GESD 0052 0050 0049 0030

STL+iForest 0452 0306 0459 0748

STL(ROB)+HDoutliers 1193 1207 1269 1697

STL(ROB)+GESD 1290 1324 1270 0437

STL(ROB)+iForest 0708 0531 0670 0952

Twitter+HDoutliers 0690 0698 0676 1157

Twitter+GESD 0266 0257 0225 0523

Twitter+iForest 0538 0416 0459 1063

STR+HDoutliers 0740 0853 0796 1429

STR+GESD 0065 0077 0063 0036

STR+iForest 0432 0311 0493 0750

STR(ROB)+HDoutliers 0749 0799 0717 1477

STR(ROB)+GESD 0317 0291 0254 0167

STR(ROB)+iForest 0502 0373 0463 0839

Cuadro A14 Resultados Escenario 6 Exceso ARIMA(111)x(101)12

88 APEacuteNDICE A TABLAS

Caso 1 Caso 2 Caso 3 Caso 4

X-13ARIMA-SEATS 0147 0138 0115 0081

TRAMO-SEATS 0278 0285 0287 0261

STL+HDoutliers 0788 0815 0776 1392

STL+GESD 0045 0047 0042 0031

STL+iForest 0471 0337 0478 0842

STL(ROB)+HDoutliers 1122 1183 1194 1785

STL(ROB)+GESD 1364 1387 1340 0670

STL(ROB)+iForest 0720 0559 0711 1100

Twitter+HDoutliers 0125 0109 0084 0092

Twitter+GESD 3247 3207 3185 7613

Twitter+iForest 0087 0066 0073 0294

STR+HDoutliers 0854 0807 0773 1430

STR+GESD 0069 0069 0050 0036

STR+iForest 0438 0357 0484 0793

STR(ROB)+HDoutliers 0765 0755 0725 1370

STR(ROB)+GESD 0434 0489 0510 0536

STR(ROB)+iForest 0581 0471 0547 1064

Cuadro A15 Resultados Escenario 7 Exceso ARIMA(112)x(011)12

A2 TABLAS DE EXCESO 89

Caso 1 Caso 2 Caso 3 Caso 4

X-13ARIMA-SEATS 0090 0095 0104 0056

TRAMO-SEATS 0487 0475 0494 0446

STL+HDoutliers 0734 0814 0749 1507

STL+GESD 0068 0059 0052 0025

STL+iForest 0496 0352 0479 0747

STL(ROB)+HDoutliers 1157 1098 1083 1660

STL(ROB)+GESD 1232 1281 1260 0294

STL(ROB)+iForest 0764 0566 0687 0918

Twitter+HDoutliers 0859 0822 0860 1415

Twitter+GESD 0214 0209 0217 0114

Twitter+iForest 0606 0526 0550 1031

STR+HDoutliers 0797 0792 0778 1469

STR+GESD 0048 0059 0042 0017

STR+iForest 0461 0336 0464 0782

STR(ROB)+HDoutliers 0786 0726 0699 1494

STR(ROB)+GESD 0159 0146 0145 0072

STR(ROB)+iForest 0520 0359 0433 0830

Cuadro A16 Resultados Escenario 8 Exceso ARIMA(011)x(100)12

90 APEacuteNDICE A TABLAS

Bibliografiacutea

Abraham B y Box G E P (1979) Bayesian analysis of some outlier problems in time seriesBiometrika 66 (2) 229ndash236

Barnett V y Lewis T (1996) Outliers in statistical data 3rd edition (John Wiley amp Sons Chi-chester) 584 pp [UK pound]5500 ISBN 0-471-93094-6 International Journal of Forecasting 12 (1) 175-176

Bell W (1983) A computer program for detecting outliers in time series Proceedings of the AmericanStatistical Association Business and Economic Statistics Section 634-639

Box G y Jenkins G (1976) Time series analysis forecasting and control En (Vol 134) doi1023072344246

Box G E P y Tiao G C (1975) Intervention analysis with applications to economic and environ-mental problems Journal of the American Statistical Association 70 (349) 70ndash79

Breunig M Kriegel H-P Ng R y Sander J (2000) Lof Identifying density-based local outliersEn (Vol 29 p 93-104) doi 101145342009335388

Chang I Tiao G y Chen C (1988) Estimation of time series parameters in the presence of outliersTechnometrics 30 193-204 doi 10108000401706198810488367

Chang I y Tiao G C (1983) Estimation of time series parameters in the presence of outliersTechnical Report 8 University of Chicago Statistics Research Center 30

Chauvenet W (1963) A manual of spherical and practical astronomy volume 2 474-566Chen C y Liu L-M (1993) Joint estimation of model parameters and outlier effects in time series

Journal of the American Statistical Association 88 (421) 284ndash297Cleveland R B Cleveland W S McRae J E y Terpenning I (1990) STL A seasonal-trend

decomposition procedure based on Loess Journal of Official Statistics 6 Dancho M y Vaughan D (2019) Anomalize Tidy anomaly detection [Manual de software informaacute-

tico]Datacamp (2018) Detect anomalies with anomalize in r httpswwwdatacampcomcommunity

tutorialsdetect-anomalies-anomalize-r (Visitado 2020-06-16)de Lacalle J L (2015) Detection of outliers in time series with r httpsjalobecomtsoutliers

(Visitado 2020-03-16)de Lacalle J L (2019) Detection of outliers in time series [Manual de software informaacutetico] https

cranr-projectorgwebpackagestsoutlierstsoutlierspdfDokumentov A y Hyndman R J (2015) STR A seasonal-trend decomposition procedure based

on Regression

91

92 BIBLIOGRAFIacuteA

Dokumentov A y Hyndman R J (2018) str Str decomposition [Manual de software informaacutetico](httpscranr-projectorgwebpackagesstRindexhtml)

Fraley C y Wilkinson L (2020) Hdoutliers Leland wilkinsonrsquos algorithm for detecting multidimen-sionaloutliers [Manual de software informaacutetico]

Goacutemez V y Maravall A (1997) Programs tramo and seats instructions for the user Mimeo Bancode Espantildea

Goacutemez V y Taguas D (1995) Deteccioacuten y correccioacuten automaacutetica de outliers con tramo Unaaplicacioacuten al ipc de bienes industriales no energeacuteticos

Grubbs F (1950) Sample criteria for testing outlying observations The Annals of MathematicalStatistics 21 doi 101214aoms1177729885

Hawkins D (1980) Identification of outliers London [ua] Chapman and HallHochenbaum J Vallis O y Kejariwal A (2017) Automatic anomaly detection in the cloud via

statistical learningHoerl A y Kennard R (1970) Ridge regression Biased estimation for nonorthogonal problems

Technometrics 8 27-51Hyndman R (2020) Forecasting functions for time series and linear models [Manual de software

informaacutetico] httpscranr-projectorgwebpackagesforecastforecastpdfla Tente A Q Michalek A Palate J y Baeyens R (2020) Rjdemetra Interface to rsquojdemetra+rsquo

seasonal adjustment software [Manual de software informaacutetico]Liu F T Ting K y Zhou Z-H (2009) Isolation forest En (p 413 - 422) doi 101109

ICDM200817Mahdavinejad M S Rezvan M Barekatain M Adibi P Barnaghi P y Sheth A P (2018)

Machine learning for internet of things data analysis a survey Digital Communications andNetworks 4 (3) 161 - 175 doi httpsdoiorg101016jdcan201710002

Moore D y McCabe G (1999) Introduction to the practice of statistics WH FreemanOtto M y Bell W (1990) Two issues in time series outlier detection using indicator variables

Proceedings of the American Statistical Association Business and Economic Statistics Section182-187

Peirce B (1852) Criterion for rejection of doubtful observations The Astronomical Journal 2 161-163 doi 101086100259

Pentildea D (2010) Anaacutelisis de series temporales Alianza EditorialRosner B (1975) On the detection of many outliers Technometrics 17 221-227 doi 101080

00401706197510489305Rosner B (1983) Percentagepoints for a generalized esd many-outier procedure Technometrics 25

165-172 doi 10108000401706198310487848Rousseeuw P y Hubert M (2011) Robust statistics for outlier detection Wiley Interdisc Rew

Data Mining and Knowledge Discovery 1 73-79 doi 101002widm2Shan G (2015) Improved confidence intervals for the youden index

doi 01371journalpone0127272Shiskin J Young A y Musgrave J (1967) The x-11 variant of the census method ii seasonal

adjustment program

BIBLIOGRAFIacuteA 93

Srikanth K S (2017) solitude An implementation of isolation forest [Manual de software informaacutetico](R package version 021 mdash For new features see the rsquoSolitudersquo file (in the package source))

Thompson W (1935) On a criterion for the rejection of observations and the distribution of theratio of deviation to sample standard deviation The Annals of Mathematical Statistics 6 doi101214aoms1177732567

Tibshirani R (1996) Regression shrinkage and selection via the lasso Journal of the Royal StatisticalSociety Series B (Methodological) 58 267-288 doi 101111j2517-61611996tb02080x

Time Series Research Staff (2017) X-13ARIMA-SEATS Reference Manual Center for StatisticalResearch and Methodology

Tsay R S (1986) Time series model specification in the presence of outliers Journal of the AmericanStatistical Association 81 (393) 132ndash141

Tsay R S y Tiao G C (1984) Consistent estimates of autoregressive parameters and extendedsample autocorrelation function for stationary and nonstationary arma models Journal of theAmerican Statistical Association 79 (385) 84ndash96

Tukey J W (1977) Exploratory data analysis Addison-WesleyTwitter Inc (2015) Anomalydetection r package GitHub (httpsgithubcomtwitter

AnomalyDetection)Wilkinson L (2017) Visualizing big data outliers through distributed aggregation IEEE Transactions

on Visualization and Computer Graphics PP 1-1 doi 101109TVCG20172744685Woodward W A Gray H L y Elliott A C (2017) Applied time series analysis with r second

edition Journal of Time Series Analysis 39 618 doi 101111jtsa12273Youden W (1950) Youden wjindex for rating diagnostic tests cancer 3(1) 32-35 Cancer 3 32-5

doi 1010021097-0142(1950)3130CO2-3

  • Resumen
  • Introduccioacuten
  • Modelizacioacuten de series temporales
    • Conceptos baacutesicos
    • Meacutetodos de modelizacioacuten de series temporales
      • X-13ARIMA-SEATS
      • TRAMO-SEATS
      • STL
      • STR
      • Twitter
        • Resumen meacutetodos de modelizacioacuten de series temporales
          • Deteccioacuten de valores atiacutepicos
            • Conceptos baacutesicos
            • Meacutetodos de deteccioacuten de valores atiacutepicos
              • X-13ARIMA-SEATS
              • TRAMO-SEATS
              • GESD
              • Isolation Forest
              • HDoutliers
                • Resumen meacutetodos de deteccioacuten de valores atiacutepicos
                • Meacutetodos de deteccioacuten de valores atiacutepicos en series temporales
                  • Estudio de simulacioacuten
                    • Escenarios
                    • Iacutendice de Youden
                    • Resultados
                    • Conclusiones
                      • Aplicacioacuten a datos reales
                        • Anaacutelisis Series IGE
                        • Anaacutelisis Graacutefico
                          • Conclusiones
                          • Tablas
                            • Tablas de sensibilidad
                            • Tablas de exceso
                              • Bibliografiacutea
Page 8: Trabajo Fin de Máster - USC

viii IacuteNDICE GENERAL

5 Aplicacioacuten a datos reales 4351 Anaacutelisis Series IGE 4352 Anaacutelisis Graacutefico 66

6 Conclusiones 71

A Tablas 73A1 Tablas de sensibilidad 73A2 Tablas de exceso 82

Bibliografiacutea 91

Resumen

Resumen en espantildeol

El objetivo de este trabajo es el de realizar un anaacutelisis acerca de la presencia de valores atiacutepicos enlos diferentes conjuntos de datos del Instituto Gallego de Estadiacutestica Para ello realizamos una revisioacutenbibliograacutefica que nos permite conocer los meacutetodos actuales y el recorrido que se produjo hasta llegar alos mismos A traveacutes de esta revisioacuten comprendemos la idea que se esconde detraacutes de la deteccioacuten devalores atiacutepicos en series temporales y somos capaces de proponer nuestros propios meacutetodos

Para comparar el comportamiento de los diferentes meacutetodos realizamos un estudio de simulacioacutenel cual nos sirve para contrastar el buen comportamiento de nuestras propuestas y para descartar otrosmeacutetodos

Finalmente aplicamos los meacutetodos que han reflejado un comportamiento maacutes consistente en elestudio de simulacioacuten y analizamos el efecto del Covid19 en el incremento de valores atiacutepicos en losconjuntos de datos Ademaacutes con el objetivo de reducir la incertidumbre asociada al campo de ladeteccioacuten de valores atiacutepicos introducimos una nueva herramienta graacutefica

English abstract

The aim of this project is to carry out an analysis about the presence of outliers in the differentdata sets of the Galician Institute of Statistics We carried out a bibliographic review that allows us toknow the current methods and the route that took place until we reached them Through this reviewwe understand the idea behind the detection of outliers in time series and we are able to propose ourown methods

To compare the behavior of the different methods we carried out a simulation study which helpsus compare the good behavior of our proposals and to rule out other methods

Finally we applied the methods that have reflected a more consistent behavior in the simulationstudy and analyzed the effect of Covid19 on the increase of outliers in the data sets Furthermore withthe aim of reducing the uncertainty associated with the field of outlier detection we introduced a newgraphical tool

ix

x RESUMEN

Capiacutetulo 1

Introduccioacuten

El Instituto Galego de Estadiacutestica (IGE) es un organismo autoacutenomo de la Xunta de Galicia creadoen el antildeo 1988 cuyo objetivo es el de promover el desarrollo del sistema estadiacutestico de la comunidadautoacutenoma mediante servicios de recopilacioacuten y difusioacuten de la documentacioacuten estadiacutestica disponibledesenvolver bases de datos de intereacutes puacuteblico analizar las necesidades y la evolucioacuten de la demandade estadiacutesticas y asegurar su difusioacuten El IGE se erige por tanto como una de las principales fuentesde informacioacuten de datos de caraacutecter socioeconoacutemico de Galicia y de sus divisiones territoriales

Al igual que el resto de organismos del mismo aacutembito el IGE estaacute experimentando un incrementocontinuo tanto en la generacioacuten como en el almacenamiento de datos Es por esto que se hace devital importancia el incorporar una herramienta que nos permita identificar de un modo automaacuteticoposibles candidatos a valores atiacutepicos dentro de nuestros conjuntos de datos

Un dato atiacutepico o outlier en ingleacutes es una observacioacuten anoacutemala en comparacioacuten con el restode datos contenidos en un determinado conjunto de datos Puede deberse a diversos motivos desdeerrores humanos errores relacionados con la medicioacuten grabacioacuten e introduccioacuten de los datos hastacausas como que el dato procede de una poblacioacuten diferente de la que se pretende estudiar

Existen multitud de definiciones que nos permiten dibujarnos una idea de a queacute nos referimoscuando hablamos de valores atiacutepicos

ldquoUn dato atiacutepico es una observacioacuten que se desviacutea tanto del resto de observaciones como paracrear la sospecha de que fue creada por un mecanismo generador diferenterdquo - Hawkins (1980)

ldquoUn dato atiacutepico es una observacioacuten (o conjunto de observaciones) que son inconsistentes con elresto de datosrdquo - Barnett y Lewis (1996)

ldquoUn outlier es una observacioacuten que se encuentra fuera del patroacuten general de una distribucioacutenrdquo-Moore y McCabe (1999)

ldquoLos datos atiacutepicos pueden ser dependiendo de la circunstancia errores no deseados que puedenafectar negativamente al resultado o valiosas pepitas de informacioacuten inesperadardquo- Rousseeuw yHubert (2011)

Eliminar un dato de una muestra por haberlo considerado atiacutepico puede llevar a perder informacioacutenrelevante debido a una singularidad del mecanismo generador y a su vez incluir un dato atiacutepico en una

1

2 CAPIacuteTULO 1 INTRODUCCIOacuteN

muestra puede confundir los resultados Ambos casos alteran los anaacutelisis posteriores y pueden dirigira conclusiones incorrectas si se llegara a tomar la decisioacuten equivocada Por lo tanto la importanciareside en identificar de manera adecuada queacute datos son atiacutepicos y cuaacuteles no

Esta identificacioacuten seraacute de gran utilidad dado que permitiraacute tanto realizar mejores anaacutelisis comopoder interpretar sucesos relevantes en el contexto socio-econoacutemico gallego

El problema de la deteccioacuten de atiacutepicos es un tema ampliamente tratado en la literatura por loque nuestro trabajo consistiraacute en realizar un estudio comparativo de los meacutetodos maacutes comunes en laactualidad y plantear posibles mejoras

Uno de los criterios a los que le prestaremos mayor atencioacuten en este estudio seraacute a la sensibilidaddel meacutetodo dado que si este es muy sensible e identifica muchos candidatos como atiacutepicos no serviraacute degran ayuda Por otra parte si apenas sentildeala ninguacuten caso seraacute similar a no aplicar ninguna herramientade deteccioacuten

Para estudiar este comportamiento realizaremos un estudio de simulacioacuten en el que a traveacutes devalores atiacutepicos previamente identificados podremos analizar el comportamiento de cada meacutetodoAdemaacutes dado que trabajamos con un gran volumen de datos una caracteriacutestica que se les exigiraacute alos meacutetodos seraacute una raacutepida velocidad de ejecucioacuten

La deteccioacuten de datos atiacutepicos tiene aplicaciones en muchos aacutembitos deteccioacuten de operacionesfraudulentas en tarjetas de creacutedito solicitudes para preacutestamos de clientes potencialmente morososdeteccioacuten de intrusiones en redes de comunicacioacuten monitorizacioacuten de paraacutemetros de fabricacioacuten paradeteccioacuten de producciones defectuosas anomaliacuteas en monitorizaciones meacutedicas anaacutelisis electoraleslimpieza de datos prediccioacuten del tiempo o hasta en astronomiacutea donde un punto anoacutemalo puedeimplicar el descubrimiento de una nueva estrella

En este trabajo nos centraremos en datos reales provenientes de la paacutegina web del IGE recogidosen siete conjuntos

Conjunto 1 Viajeros noches y estancia media en establecimientos hoteleros y de turismo ruralen Espantildea Galicia y sus provincias Datos mensuales Los datos proceden del Instituto Nacio-nal de Estadiacutestica (INE) de la Encuesta de ocupacioacuten hotelera y la Encuesta de ocupacioacuten enalojamientos de turismo rural (httpwwwigeeuigebdtigeapidatos3476)

Conjunto 2 Poblacioacuten de 16 y maacutes antildeos por sexo grupos de edad y relacioacuten con la actividadeconoacutemica en Galicia Datos trimestrales Los datos proceden de la Encuesta de Poblacioacuten Activa(EPA) elaborada conjuntamente entre el INE y el IGE (httpwwwigeeuigebdtigeapidatos6356)

Conjunto 3 Contratos registrados seguacuten su modalidad Datos mensuales Esta informacioacuten proce-de de la Estadiacutestica de contratos registrados elaborada por el Servicio Puacuteblico de Empleo Estatal(SEPE) (httpwwwigeeuigebdtigeapidatos308)

Conjunto 4 Iacutendice de produccioacuten industrial general y por destino econoacutemico de los bienes en Ga-licia (Base 2015) Datos mensuales La informacioacuten procede del Iacutendice de Produccioacuten Industrialoperacioacuten estadiacutestica ejecutada por el INE (httpwwwigeeuigebdtigeapidatos9048)

Conjunto 5 Transacciones inmobiliarias por reacutegimen y tipo de vivienda Nuacutemero valor totaly valor medio Datos trimestrales La fuente de esta informacioacuten es el Ministerio de Fomento y

3

hace referencia a la compraventa de viviendas elevadas a escritura puacuteblica ante notario (httpwwwigeeuigebdtigeapidatos4052)

Conjunto 6 Bajas de demandas de empleo seguacuten geacutenero y duracioacuten de la demanda en Galiciay sus provincias Datos mensuales La fuente de esta informacioacuten es el SEPE y hace referenciaa las bajas que los servicios de empleo puacuteblico tuvieron debido a una colocacioacuten no hacer larenovacioacuten de la demanda en el periodo establecido o por otras causas (httpwwwigeeuigebdtigeapidatos1243)

Conjunto 7 Afiliaciones a la Seguridad Social uacuteltimo diacutea del mes en Galicia y sus provinciasDatos mensuales La informacioacuten procede del Ministerio de Seguridad Social y Migraciones yhace referencia a las personas trabajadoras que estaacuten en alta en la Seguridad Social (httpwwwigeeuigebdtigeapidatos4885)

Los motivos por los que se han escogido estos conjuntos obedece a diversas razones En primerlugar el maacutes importante incluir series en las que existe el conocimiento de que se presentan atiacutepicosA partir de ahiacute se ha conformado un conjunto de series que permitiesen recoger la mayor amalgamade naturalezas posibles que se presentan en las series que trata el IGE mercado laboral turismoconstruccioacuten o industria Seriacutean aacutembitos que se recogen a lo largo de la seleccioacuten de datos realizadaAdemaacutes se han incorporado series con distinta frecuencia de obtencioacuten tanto series mensuales comotrimestrales

En este trabajo se recoge una comparativa de meacutetodos los cuales se pueden englobar bajo dosvisiones de coacutemo abordar la identificacioacuten de anomaliacuteas en series de tiempo Por un lado existen losmeacutetodos cuyo mecanismo se fundamenta en modelos de series temporales que realizan un procesoiterativo para estimar el modelo integrando la posible influencia de observaciones atiacutepicas Por el otrouna visioacuten maacutes reciente se plantea a traveacutes de realizar un proceso de deteccioacuten en dos partes en laprimera se le aplica a la serie de tiempo un meacutetodo de descomposicioacuten para despueacutes aplicar un meacutetodode deteccioacuten de atiacutepicos sobre el residuo

Dado que ambos enfoques comparten un nexo comuacuten como es la modelizacioacuten de la serie de tiempoy la localizacioacuten de atiacutepicos las podemos tratar conjuntamente en dos capiacutetulos el Capiacutetulo 2 y elCapiacutetulo 3

En el Capiacutetulo 2 se estudian las propiedades de modelizacioacuten de cada meacutetodo La importancia deun buen meacutetodo de modelizacioacuten de series temporales reside en que cuanto mejor se consiga extraer elmecanismo generador de la serie de tiempo maacutes resaltaraacuten las observaciones atiacutepicas En el Capiacutetulo 3se describen los meacutetodos de deteccioacuten de atiacutepicos Estos dos capiacutetulos conforman la parte teoacuterica deltrabajo

Para estudiar el comportamiento de los diferentes meacutetodos se plantea un profundo estudio desimulacioacuten en el Capiacutetulo 4 en el que se utiliza el Iacutendice de Youden como herramienta discriminatoriaacerca de queacute meacutetodos ofrecen mejores resultados En el Capiacutetulo 5 se tratan los datos proporcionadospor el IGE a traveacutes de los meacutetodos que han presentado un mejor comportamiento en el estudio desimulacioacuten Para finalizar el Capiacutetulo 6 expone las conclusiones que hemos extraiacutedo a lo largo de larealizacioacuten de este trabajo

4 CAPIacuteTULO 1 INTRODUCCIOacuteN

Capiacutetulo 2

Modelizacioacuten de series temporales

21 Conceptos baacutesicos

En este apartado definiremos los elementos principales que rodean a las series de tiempo Para ellopodemos echar mano de infinidad de manuales dado que las mismas son objeto de estudio en multitudde campos desde las ciencias sociales y econoacutemicas hasta ramas que requieren de un bagaje muchomaacutes matemaacutetico En este trabajo haremos uso de Pentildea (2010) y Woodward Gray y Elliott (2017)

En la estadiacutestica baacutesica estamos acostumbrados a trabajar con una muestra donde las observacio-nes X1 X2 Xn son variables aleatorias independientes e ideacutenticamente distribuidas Sin embargocuando las muestras se extraen en base a instantes de tiempo es muy probable que las observacionesesteacuten correlacionadas entre si Este tipo de muestras con dependencia temporal se denominan series detiempo Es decir una serie de tiempo es una secuencia de observaciones ordenadas cronoloacutegicamente

Este tipo de datos se utilizan en muacuteltiples disciplinas algunos ejemplos podriacutean incluir desde elaacutembito econoacutemico como la evolucioacuten del Producto Interior Bruto (PIB) o del precio del petroacuteleo hastaaacutembitos como la meteorologiacutea midiendo la temperatura de una localidad durante un periacuteodo de tiempoo el aacutembito sanitario siguiendo la evolucioacuten de una enfermedad en un paciente

Uno de los principales inconvenientes a la hora de trabajar con series temporales son los datos atiacute-picos Estos datos atiacutepicos pueden tener dos naturalezas errores no deseados o pepitas de informacioacuten(Rousseeuw y Hubert 2011) Estas pepitas de informacioacuten pueden servirnos por ejemplo para locali-zar sucesos importantes como huelgas medidas de poliacutetica econoacutemica o desastres naturales (Goacutemez yTaguas 1995) Al igual que en el resto de campos de la estadiacutestica que en nuestro conjunto de datos seencuentren valores atiacutepicos puede llevarnos a incurrir en errores de especificacioacuten Como se mencionaen Chang Tiao y Chen (1988) es importante ser capaz de identificar estos sucesos para comprendermejor la estructura subyacente de la serie

Uno de los modelos maacutes comuacutenmente usado y utilizado como punto de partida en el anaacutelisisde series temporales es el modelo ARIMA Los modelos ARIMA ajustan los valores de la serie enbase a las observaciones previas y errores aleatorios con una estructura que le permite incluir tantocomponentes ciacuteclicos como estacionales Siendo Xtt una serie de tiempo un modelo ARIMA seriacuteaaquel que admite una representacioacuten

5

6 CAPIacuteTULO 2 MODELIZACIOacuteN DE SERIES TEMPORALES

φ(B)(1minusB)dXt = c+ θ(B)at

donde Xt es la observacioacuten t de la serie de tiempo B el operador retardo definido por BXt = Xtminus1φ(B) = (1minusφ1(B)minusφ2B

2minusminusφpBp) φ(B) = (1minusθ1Bminusθ2B2minusminusθqBq) cφ1 φ2 φpθ1 θ2 θp

son constantes d es el nuacutemero de diferencias necesarias para eliminar la tendencia de la serie at esruido blanco y p y q los oacuterdenes de los procesos autorregresivos (AR) y de medias moviles (MA)

Con esta representacioacuten del modelo ARIMA se puede deducir raacutepidamente que estos no son maacutes quela mezcla de los dos primeros modelos de series temporales formulados los modelos AR y los modelosMA Ademaacutes si el proceso que genera la serie de tiempo presenta la posibilidad de estar formado porcomponentes de largo periacuteodo temporal se debe hacer uso de los ARIMA estacional muacuteltiplicativoARIMA(pdq)x(PDQ) cuya representacioacuten seriacutea

φ(B)Φ(Bs)(1minusB)d(1minusBs)DXt = c+ θ(B)Θ(Bs)at

En esta nueva formulacioacuten D es el nuacutemero de diferenciaciones estacionales aplicadas para eliminarla componente estacional Φi y Θj las constantes respectivas a la parte estacional para i = 1 2 P yj = 1 2 Q con P igual al orden del proceso AR estacional y Q al orden del proceso MA estacional

Sin embargo la presencia de atiacutepicos puede llevar a un incorrecto ajuste de los paraacutemetros delmodelo debido a que se pueden ver sesgados por el efecto del atiacutepico La mala estimacioacuten de losparaacutemetros nos conduce a diversos errores dado que podemos no diseccionar bien la estructura dela serie como para entender su comportamiento Ademaacutes en el caso de que el atiacutepico se produzcaen la uacuteltima parte de la serie afectariacutea a las estimaciones futuras incurriendo en un error mayor deprediccioacuten

Por ello surgieron meacutetodos como X-13ARIMA-SEATS o TRAMO-SEATS que parten de los mo-delos ARIMA e introducen mejoras como la deteccioacuten y correccioacuten de atiacutepicos Estos meacutetodos fueronampliamente utilizados durante mucho tiempo para la modelizacioacuten de series temporales Sin embargoel desarrollo de la tecnologiacutea provocoacute la creacioacuten del Internet de las Cosas (Mahdavinejad et al 2018)un entorno en el que casi la totalidad de los objetos y personas estaacute conectado a internet dejandohuella de su comportamiento Las caracteriacutesticas de esta red provocaron un incremento enorme en lacreacioacuten y obtencioacuten de datos unas caracteriacutesticas para las cuales no estaban preparados estos meacutetodosdisentildeados para escalar a conjuntos de tamantildeo pequentildeo o mediano

Es aquiacute donde surge un nuevo enfoque para la deteccioacuten de valores atiacutepicos en series de tiempobasado en aplicar un proceso de descomposicioacuten y analizar los residuos Los procesos de descomposicioacutentienen por objetivo diseccionar una serie en tres componentes tendencia estacionalidad y residuo demodo que se pueda establecer un patroacuten de como se comporta En este trabajo el objetivo no es buscarel modelo maacutes preciso sino aquel que consiga trazar mejor la estructura subyacente de la serie de formaque resalte los posibles valores atiacutepicos en su componente residual y es por ello que estos modelosresultan de tanto intereacutes El primer meacutetodo basado en esta idea que recibioacute cierta repercusioacuten fue elpresentado por el equipo de Twitter (Hochenbaum Vallis y Kejariwal 2017) el cual fue maacutes tardeampliado en el paquete Anomalize de R (Dancho y Vaughan 2019)

Esta forma de proceder en dos partes descomposicioacuten maacutes deteccioacuten se debe a la idea de quevisualizar o localizar atiacutepicos en una serie es complicado debido a causas como la estacionalidad o

21 CONCEPTOS BAacuteSICOS 7

tendencia de la serie Aplicarle a la serie un proceso de descomposicioacuten permite extraer estas compo-nentes y resaltar las posibles anomaliacuteas A continuacioacuten en la Figura 21 mostramos un ejemplo deeste procedimiento utilizando uno de los meacutetodos que se emplearaacuten posteriormente en el trabajo STL

Figura 21 A la izquierda la serie referente al Nuacutemero Total de Afiliaciones a la Seguridad Social eluacuteltimo diacutea de mes en Pontevedra perteneciente al Conjunto 7 A la derecha los residuos obtenidos trasaplicarle la descomposicioacuten STL

Como se puede apreciar en la Figura 21 observar alguacuten comportamiento extrantildeo en la serie detiempo es complicado debido a las fluctuaciones que va sufriendo a lo largo de los antildeos Sin embargouna vez aplicado el proceso de descomposicioacuten y eliminado los efectos de estacionalidad y tendenciapodemos ver el efecto de la crisis del Covid-19 apareciendo en los uacuteltimos datos de la serie Esta crisisprovoca que los datos reales de esos meses disten mucho de los esperados lo que se traduce en fuertesincrementos en el tamantildeo del residuo

Lo interesante de estos meacutetodos es que los procesos de descomposicioacuten de series de tiempo soncapaces de analizar multitud de series de caracteriacutesticas muy diferentes y filtrarlas de tal modo que elproblema acabe residiendo en lo que aparentemente es un sencillo problema de deteccioacuten de valoresatiacutepicos en el caso univariante Mientras que los meacutetodos como X-13ARIMA-SEATS o TRAMO-SEATS se encuentran limitados en su disentildeo a trabajar solamente con series con frecuencias mensualeso trimestrales

Sin embargo Wilkinson (2017) resalta que el problema de la deteccioacuten de valores atiacutepicos en elcaso univariante es engantildeosamente sencillo lo cual puede llevarnos a cometer errores en la deteccioacutende atiacutepicos pese a haber realizado una buena descomposicioacuten de la serie Por ello en este trabajo seplantea un capiacutetulo dedicado a analizar las propiedades de diferentes meacutetodos de deteccioacuten

Por tanto en el trabajo coexisten dos mecanismos de deteccioacuten de atiacutepicos en series temporalesPor un lado los meacutetodos de ajuste de series temporales que incorporan la deteccioacuten y correccioacuten deatiacutepicos al modelo de modo automaacutetico Y por el otro aquellos meacutetodos de deteccioacuten de atiacutepicos cuyaidea se centra en aplicar un proceso de descomposicioacuten maacutes anaacutelisis del residuo

En la Seccioacuten 22 se describen los procesos de modelizacioacuten de series temporales utilizados y en elCapiacutetulo 3 se describen los procesos de deteccioacuten de atiacutepicos

8 CAPIacuteTULO 2 MODELIZACIOacuteN DE SERIES TEMPORALES

22 Meacutetodos de modelizacioacuten de series temporales

221 X-13ARIMA-SEATS

El meacutetodo X-13ARIMA-SEATS es la versioacuten actualizada y mejorada del modelo X-11 desarrolladopor Shiskin Young y Musgrave (1967) X-13ARIMA-SEATS fue creado por el Censo de los EstadosUnidos (US Census Bureau) y forma parte de una familia de modelos de ajuste para series temporalesque se han ido desarrollando y estaacuten disentildeados para trabajar con series econoacutemicas estacionales Unaexplicacioacuten completa del meacutetodo y de coacutemo ha de implantarse se puede encontrar en Time SeriesResearch Staff (2017)

Este modelo se basa en la estimacioacuten de lo que sus autores denominan modelos regARIMA Estosson modelos de regresioacuten con errores ARIMA En concreto la media de la serie estaacute descrita por unacombinacioacuten lineal de regresores y la matriz de covarianzas es la de un proceso ARIMA Se incluyenregresores para modelar efectos de calendario como festivos vacaciones o diacutea de la semana Ademaacutestambieacuten se incluyen otro tipo de regresores para modelar el efecto de las anomaliacuteas que se puedanpresentar El modo en que se aborda este campo lo trataremos en profundidad en el Capiacutetulo 3 conel resto de meacutetodos de deteccioacuten

El proceso de ajuste comienza por un pre-ajuste de la serie a traveacutes de eliminar el efecto determiniacutes-tico mediante un modelo de regresioacuten con errores ARIMA En el siguiente paso la serie pre-ajustada sedescompone en tendencia (t) estacionalidad (s) y residuo (i) Esta descomposicioacuten puede ser aditiva(y = t+s+i) multiplicativa (y = tlowastslowasti) log-aditiva (log(y) = log(t)+log(s)+log(i)) o pseudo-aditiva(y = t lowast (s+ iminus 1)) Este paso en el que se aplica el proceso de descomposicioacuten se basa en el uso delalgoritmo X11 que descompone la serie a traveacutes de filtros lineales La serie final ajustada debe estarlibre de estacionalidad y efectos de calendario

X-13ARIMA-SEATS estaacute implementado en la libreriacutea RJDemetra de R en la funcioacuten x13 y lasespecificaciones necesarias para llevar a cabo la deteccioacuten de atiacutepicos se tratan en el Capiacutetulo 3 juntocon la explicacioacuten del proceso de deteccioacuten

222 TRAMO-SEATS

El meacutetodo TRAMO-SEATS (Goacutemez y Maravall 1997) fue disentildeado por el Banco de Espantildea parael anaacutelisis de series de tiempo Esta herramienta estaacute formada por dos mecanismos La parte TRAMO(Time Series Regression with Arima noise Missing Observations and Outliers) y la parte SEATS(Signal Extraction in ARIMA Time Series)

Como se introduce en Goacutemez y Taguas (1995) el programa TRAMO puede ser utilizado inde-pendientemente de SEATS sin embargo SEATS ha sido disentildeado para trabajar conjuntamente conTRAMO Su finalidad es la de realizar un anaacutelisis detallado de series temporales ya que cuenta conmecanismos para realizar tareas de estimacioacuten prediccioacuten interpolacioacuten de modelos de regresioacuten convalores ausentes con errores ARIMA y correccioacuten de valores atiacutepicos El programa incluye variables deregresioacuten para modelizar los diacuteas de calendario que pueden influir en el comportamiento de la serie co-mo puede ser la Pascua y variables de intervencioacuten que permiten corregir el efecto de las observacionesatiacutepicas La idea en la que se basa el modelo es muy similar a la del modelo X-13ARIMA-SEATS

TRAMO elimina de la serie los efectos especiales identifica y elimina automaacuteticamente los efectos

22 MEacuteTODOS DE MODELIZACIOacuteN DE SERIES TEMPORALES 9

de varios tipos de atiacutepicos e interpola las observaciones ausentes Tambieacuten cuenta con un moacuteduloque permite la identificacioacuten automaacutetica de modelos herramienta que imitaron los desarrolladores deX-13ARIMA-SEATS y que en su momento le permitioacute relevar de tareas monoacutetonas a los analistasEste procedimiento de identificacioacuten automaacutetica estaacute basado en estimar primero las raiacuteces unitarias yutilizar despueacutes el Criterio de Informacioacuten Bayesiano (BIC ) para especificar un modelo ARMA a laserie diferenciada

Figura 22 Esquema de funcionamiento de TRAMO-SEATS (Goacutemez y Maravall 1997)

La Figura 22 (Goacutemez y Maravall 1997) muestra como se integran ambas partes TRAMO ySEATS para formar en conjunto el mecanismo completo de modelizacioacuten

SEATS fue disentildeado originalmente para desestacionalizar series temporales El programa descom-pone una serie que sigue un modelo ARIMA en varios componentes tendencia componente estacionalciclo y componente irregular La descomposicioacuten puede ser aditiva o multiplicativa La descomposicioacutenparte de la hipoacutetesis de ortogonalidad de los componentes que a su vez siguen modelos ARIMA Paraidentificar los componentes se requiere que excepto el irregular esteacuten limpios de ruido blanco De estemodo se maximiza la varianza de este uacuteltimo y al contrario la tendencia el componente estacional yel ciclo son lo maacutes estables posibles

El modelo tratado por SEATS es el de una serie integrada lineal con innovaciones gaussianas Estahipoacutetesis puede no ser cierta en muacuteltiples ocasiones pero siempre es necesario extraer un modelo espor ello que SEATS fue disentildeada para ser utilizada de forma conjunta con TRAMO

TRAMO-SEATS estaacute implementado en la libreriacutea RJDemetra de R en la funcioacuten tramoseats y las

10 CAPIacuteTULO 2 MODELIZACIOacuteN DE SERIES TEMPORALES

especificaciones necesarias para llevar a cabo la deteccioacuten de atiacutepicos se tratan en el capiacutetulo 3 juntocon la explicacioacuten del proceso de deteccioacuten

223 STL

STL es un proceso de filtrado para descomponer series de tiempo en tendencia estacionalidad yresiduo cuyo nombre se debe a sus siglas en ingleacutes Seasonal-Trend decomposition based on Loessintroducido por Cleveland Cleveland McRae y Terpenning (1990) El propoacutesito de este meacutetodo fue elde desarrollar un meacutetodo de descomposicioacuten de series de tiempo que cumpliese los siguientes requisitos

1 Disentildeo sencillo y uso inmediato

2 Flexibilidad a la hora de especificar las variaciones en la tendencia y estacionalidad

3 Poder descomponer series de tiempo con valores faltantes

4 Tendencia y estacionalidad robusta de modo que no se vea distorsionada por datos anoacutemalos

5 Raacutepida computacioacuten y faacutecil implementacioacuten incluso para series temporales largas

El procedimiento de STL consiste en una secuencia de operaciones de suavizado realizadas todasellas salvo una por el mismo suavizador loess El mecanismo consiste en dos bucles uno interno yotro externo

Cada vuelta del bucle interno consiste en un suavizado estacional que actualiza dicha componenteseguido de un suavizado de la tendencia que actualiza la componente asociada con la tendencia Porotra parte cada vuelta del bucle externo consiste en aplicarle una serie de pesos robustos al bucleinterno Estos pesos se utilizan en la siguiente vuelta del bucle interno para reducir la influencia de losdatos anoacutemalos

La aplicacioacuten de la estimacioacuten robusta seraacute necesaria cuando exista un conocimiento previo de quelos datos tienen un comportamiento no gaussiano que conduce a una variacioacuten transitoria extrema delo contrario se pueden omitir las iteraciones del bucle externo y STL consistiriacutea solamente en el bucleinterno

A diferencia de otros meacutetodos como TRAMO-SEATS o X-13ARIMA-SEATS STL puede tratarcualquier tipo de estacionalidad en vez de estar atado a estacionalidades mensuales o trimestrales Sucomponente estacional es capaz de cambiar a lo largo del tiempo y dicho cambio puede ser controladopor el usuario Lo mismo sucede con el suavizado de la componente relacionada con la tendencia Unode sus inconvenientes es que no opera si en la serie se encuentran valores faltantes

En R encontramos este meacutetodo bajo la funcioacuten stl a la cual solo habraacute que especificarle unparaacutemetro Dicho paraacutemetro es el relacionado con el suavizado de la componente estacional e indicaal mecanismo el nuacutemero de observaciones consecutivas a utilizar para estimar los valores de dichacomponente Se podriacutea introducir un valor numeacuterico si tenemos alguacuten indicio sobre el posible desarrollode la componente estacional sin embargo dado que vamos a aplicarlo a un gran nuacutemero de series elanaacutelisis individual seriacutea costoso La solucioacuten utilizada en este trabajo pasa por fijar este paraacutemetrocomo perioacutedico lo cual asume que la evolucioacuten de la componente estacional es ideacutentica a lo largo delos antildeos que se desarrolla la serie

22 MEacuteTODOS DE MODELIZACIOacuteN DE SERIES TEMPORALES 11

224 STR

STR es un meacutetodo de descomposicioacuten de series de tiempo presentado por Dokumentov y Hyndman(2015) Sus siglas se deben a su nombre en ingleacutes Seasonal-Trend decomposition procedure based onRegression similar a la idea de STL salvo que ahora en vez de basarse en loess lo hace en regresioacutenEn concreto seguacuten los autores STR es similar a la regresioacuten Ridge (Hoerl y Kennard 1970) y suversioacuten robusta Robust STR (Dokumentov y Hyndman 2015) se podriacutea relacionar con una regresioacutenLASSO (Tibshirani 1996)

La idea de su desarrollo se originoacute debido a que los autores consideran que a pesar de existir variosalgoritmos de descomposicioacuten de series de tiempo existen muchas caracteriacutesticas en ellas que dichosalgoritmos son incapaces de tratar Las principales deficiencias que encuentran son

Incapacidad para proporcionar un modelo estadiacutestico significativo y simple

Incapacidad (o dificultad) para calcular intervalos de confianza

Incapacidad para tener en cuenta regresores

Incapacidad para tener en cuenta estacionalidad fraccionada

Incapacidad para tener en cuenta muacuteltiples estacionalidades

Incapacidad para tener en cuenta estacionalidades complejas y regresores que afecten a los datosde un modo estacional

El objetivo con el que se desarrolloacute STR fue el de corregir estas deficiencias a la par que presentar unmeacutetodo claro geneacuterico simple y robusto si fuera necesario Para solucionar estas deficiencias enfocan ladescomposicioacuten como un problema a resolver a traveacutes de una regresioacuten cuantil o de miacutenimos cuadradosordinarios

De acuerdo a sus desarrolladores STR constituye el meacutetodo de descomposicioacuten de series de tiempomaacutes geneacuterico disponible en el momento de su publicacioacuten Sin embargo matizan una gran desventajaque presenta el meacutetodo y es su ineficiencia o la ralentizacioacuten que sufre el mecanismo a la hora de tratarcasos en los que se utilizan varios componentes o predictores estacionales

Uno de sus desarrolladores Rob J Hyndman es conocido por sus aportaciones en el campo delas series de tiempo y su posterior implantacioacuten en paquetes para el software R como el famosopaquete forecast En este caso tambieacuten ha colaborado en la implantacioacuten de STR con el paquete stR(Dokumentov y Hyndman 2018)

225 Twitter

En Hochenbaum et al (2017) se aborda el problema de deteccioacuten de valores atiacutepicos en series detiempo introduciendo la idea de descomposicioacuten maacutes deteccioacuten como hemos comentado en la introduc-cioacuten de esta seccioacuten El equipo de Twitter plantea en su artiacuteculo utilizar en un primer momento STLcomo meacutetodo de descomposicioacuten para obtener los residuos sin embargo a la hora de trabajar con estemeacutetodo encuentran una serie de inconvenientes Estos inconvenientes estariacutean provocados por ciertasanomaliacuteas espurias producidas en el residuo

12 CAPIacuteTULO 2 MODELIZACIOacuteN DE SERIES TEMPORALES

Para corregir esta situacioacuten optan por utilizar la mediana de la serie de tiempo para representar latendencia ldquoestablerdquo que despueacutes seraacute utilizada para calcular el residuo

De este modo afirman que reemplazando la tendencia con la mediana se eliminan las anomaliacuteasespurias o ilegiacutetimas del residuo Los mismos desarrolladores publicaron un paquete en la plataformaGitHub (Twitter Inc 2015) que nos permitiacutea hacer uso de este mecanismo sin embargo su manteni-miento cesoacute a finales de 2015 y el paquete fue eliminado de la plataforma CRAN en marzo de 2019 Elpaquete Anomalize (Dancho y Vaughan 2019) recoge este mecanismo y seraacute el paquete que utilizaremosen este trabajo para utilizar esta modificacioacuten del meacutetodo STL bajo la funcioacuten decompose_twitter

23 RESUMEN MEacuteTODOS DE MODELIZACIOacuteN DE SERIES TEMPORALES 13

23 Resumen meacutetodos de modelizacioacuten de series temporales

Meacutetodo Ventajas Contras

X-13ARIMA-SEATS(2017)

Capaz de tratar con valores fal-tantesIntegra diversos tipos de descom-posicioacutenRaacutepida velocidad de ejecucioacuten

Disentildeado para trabajar solo conseries mensuales o trimestrales

TRAMO-SEATS(1997) Capaz de tratar con valores fal-tantesIntegra diversos tipos de descom-posicioacutenRaacutepida velocidad de ejecucioacuten

Disentildeado para trabajar solo conseries mensuales o trimestrales

STL(1990) Puede tratar series de cualquierfrecuenciaRaacutepidoCuenta con versioacuten robusta

No admite valores faltantesCarece de flexibilidad cuando elperiacuteodo estacional es largo y seobserva mucho ruido en la serieAuacuten con su versioacuten robusta pue-de verse afectado por la influen-cia de los atiacutepicos

STR(2015) Puede tratar series de cualquierfrecuenciaCuenta con versioacuten robustaAdmite valores faltantesSensible a cambios de estaciona-lidad

No puede seguir cambios bruscosen la tendenciaExtremadamente lento en com-paracioacuten al resto de meacutetodos

Twitter(2017) Puede tratar series de cualquierfrecuenciaElimina anomaliacuteas espuacutereas en lacomponente residualRaacutepido

No admite valores faltantesNo cuenta con versioacuten robusta

Cuadro 21 Resumen de los meacutetodos de modelizacioacuten de series temporales

14 CAPIacuteTULO 2 MODELIZACIOacuteN DE SERIES TEMPORALES

Capiacutetulo 3

Deteccioacuten de valores atiacutepicos

31 Conceptos baacutesicos

El problema que supone en la estadiacutestica la presencia de valores atiacutepicos aparecioacute muy pronto EnHawkins (1980) mencionan que este problema pudo haber surgido ya en los siglos XVIII y XIX enencuestas estadiacutesticas que se realizaban Las primeras decisiones de queacute hacer con ellos se basaron encriterios puramente subjetivos en los que era el propio analista el que decidiacutea descartar una observacioacutensi pareciacutea anoacutemala respecto al resto de los datos

Posteriormente se comenzaron a plantear posibles soluciones para tratar el problema bajo uncriterio La primera de ellas fue la presentada por Peirce (1852) basada en lo que se podriacutea entendercomo un test de razoacuten de verosimilitud donde todos los valores que superasen el umbral determinadopor cσ seriacutean rechazados siendo c una constante a calcular y σ la desviacioacuten tiacutepica de la muestraVarios autores realizaron criacuteticas a este meacutetodo y propusieron su correccioacuten a este criterio una de ellasfue la de Chauvenet (1963) Esta pasaba por calificar a una observacioacuten como atiacutepico si su valor sesituaba fuera del intervalo definido por 1(4n) puntos de la distribucioacuten Normal siendo n el tamantildeode la muestra

En ese momento surgen diversas propuestas no muy relevantes que trataron de abordar dichoproblema hasta que surgioacute la llevada a cabo por Thompson (1935) Su estudio condujo a descubrir ladistribucioacuten nula de un residuo estudentizado

xi minus xs

donde xi es la observacioacuten sospechosa de ser atiacutepica x la media muestral y s la desviacioacuten tiacutepica de lamuestra A partir de esto pudo deducir un procedimiento de deteccioacuten de atiacutepicos que rechazariacutea unaproporcioacuten fija de todos los datos buenos y devolveriacutea una tabla con los valores criacuteticos adecuados

Esta idea supuso el desarrollo del test de Grubbs (1950) el cual utilizando la misma notacioacutenanterior basaba su regla en los momentos muestrales de una normal

G =max1leilen|xi minus x|

s

Grubbs (1950) asocioacute G con una distribucioacuten t con el objetivo de encontrar un maacuteximo y un miacutenimo

15

16 CAPIacuteTULO 3 DETECCIOacuteN DE VALORES ATIacutePICOS

para localizar atiacutepicos Esta idea fue posteriormente ampliada dando lugar al meacutetodo GESD (Rosner1983) el cual se detalla en la siguiente seccioacuten

Posteriormente se presentoacute una de las herramientas maacutes comuacutenmente utilizadas para la identifi-cacioacuten de atiacutepicos el boxplot introducido en Tukey (1977) Sin embargo el objetivo inicial no fue ladeteccioacuten de atiacutepicos sino como un meacutetodo para trazar una idea del intervalo en el que se encuentranla gran parte de nuestros datos Ademaacutes la forma en la que se construye provoca dos grandes incon-venientes No se puede aplicar a distribuciones sesgadas y dado que no incluye el tamantildeo muestral ensu formulacioacuten tenderaacute a etiquetar falsos atiacutepicos cuanto maacutes grande sea la muestra

A la par que se iban presentando estas ideas para la buacutesqueda de valores atiacutepicos en un conjuntode datos se fueron presentando mecanismos enfocados a las series de tiempo

Uno de los primeros aportes al tratamiento de datos atiacutepicos en series de tiempo fue propuestopor G E P Box y Tiao (1975) Sin embargo este meacutetodo solamente permitiacutea modelar el efecto de laobservacioacuten atiacutepica si se conociacutea de antemano el momento de la intervencioacuten por lo que no se podriacuteaconsiderar una herramienta de deteccioacuten sino maacutes bien una herramienta de intervencioacuten

Posteriormente se propusieron diversos meacutetodos para abordar el problema de la estimacioacuten demodelos ARIMA en series bajo esta circunstancia El primero de ellos fue el de Abraham y Box(1979) que se basaba en proponer un enfoque bayesiano para resolver el problema partiendo de ideassimilares a las que se habiacutean propuesto en otros contextos por autores como Tukey (1977) Otro meacutetodoque buscaba resolver tambieacuten el mismo problema fue el propuesto por Chang y Tiao (1983) cuya idease centraba en aplicar un proceso iterativo

Fue en este artiacuteculo (Chang y Tiao 1983) donde se propuso por primera vez un meacutetodo de deteccioacutene identificacioacuten de atiacutepicos Tsay (1986) propuso su versioacuten que se basaba en combinar el procesoiterativo presentado en Chang y Tiao (1983) con la funcioacuten de autocorrelacioacuten muestral extendidadesarrollada en Tsay y Tiao (1984) la cual permite eliminar la necesidad de determinar el orden dediferenciacioacuten para producir una serie estacionaria que modelar

En Chen y Liu (1993) se reconocen los numerosos aportes hechos en los anteriores artiacuteculos citadospero matiza que algunos problemas seguiacutean estando vigentes

a La presencia de atiacutepicos puede resultar en un modelo inapropiado

b Incluso si el modelo es el apropiado los atiacutepicos pueden seguir produciendo sesgo en el paraacutemetroestimado y por tanto afectar a la deteccioacuten del atiacutepico

c Algunos atiacutepicos no van a ser identificados debido a un problema de enmascaramiento

Su objetivo era presentar un meacutetodo que fuese capaz de resolver los problemas b y c de modo quese pudiese generalizar para aplicar a los cuatro tipos de atiacutepicos en series temporales que se habiacutean idointroduciendo Los cuatro tipos son

IO (atiacutepico innovativo) existe un atiacutepico innovativo en el momento t cuando la innovacioacuten en esepunto esteacute directamente provocada por una cantidad desconocida debido a un suceso imprevisto

AO (atiacutepico aditivo) diremos que se produce un atiacutepico aditivo si en el momento t la serie segenera de manera diferente al resto

32 MEacuteTODOS DE DETECCIOacuteN DE VALORES ATIacutePICOS 17

LS (cambio de nivel) existe un cambio de nivel si en el momento t la serie experimenta unincremento de todos sus valores A diferencia del resto tiene un efecto permanente sobre la serieuna vez aparece

TC (cambio temporal) similar al cambio de nivel solo que el efecto no es permanente y decreceexponencialmente con el tiempo

X-13ARIMA-SEATS y TRAMO-SEATS basan su proceso de deteccioacuten de atiacutepicos en meacutetodosinspirados en el artiacuteculo de Chen y Liu (1993) cuya idea se fundamenta en integrar un mecanismoiterativo disentildeado para trabajar con series de tiempo que localiza e integra los atiacutepicos al modelo Porotra parte en la siguiente seccioacuten introducimos los meacutetodos de deteccioacuten de atiacutepicos que acompantildeana los procesos de descomposicioacuten de series de tiempo estos son GESD Isolation Forest y HDoutliersEstos meacutetodos son desarrollos de los mecanismos e ideas tratados al comienzo de esta seccioacuten como elmeacutetodo Grubbs (Grubbs 1950)

32 Meacutetodos de deteccioacuten de valores atiacutepicos

321 X-13ARIMA-SEATS

El anaacutelisis de diagnoacutestico del modelo regARIMA se realiza a traveacutes del anaacutelisis de los residuos delmodelo estimado Para el apartado de anaacutelisis de valores atiacutepicos X-13ARIMA-SEATS se fundamentaen Chang y Tiao (1983) con extensiones y modificaciones tratadas en Bell (1983) y Otto y Bell (1990)donde los valores atiacutepicos pueden ser de tres de los cuatro tipos antes mencionados AO LS y TC

El enfoque que plantea este mecanismo de deteccioacuten es similar a la regresioacuten paso a paso procedi-miento de regresioacuten en el que se construye el modelo a traveacutes de ir antildeadiendo o eliminando variablespredictoras en base a criterios de informacioacuten

En este caso las variables candidatas para la regresioacuten son las AO LS y TC para todos los puntosen los que la deteccioacuten de atiacutepicos se realiza Es decir se calcula el t-estadiacutestico para ver la significa-tividad de cada tipo de atiacutepico en cada instante temporal se busca significatividad entre todos estost-estadiacutesticos y se antildeade la correspondiente variable de regresioacuten (AO LS o TC) al modelo con el finde corregir los efectos que producen estas observaciones atiacutepicas De este modo se identifica e introduceel efecto de un momento atiacutepico en el modelo Mientras se produce el proceso de deteccioacuten de atiacutepicosse utiliza un estimador robusto de la desviacioacuten residual estaacutendar 148lowastla mediana del valor absolutode la desviacioacuten residual

X-13ARIMA-SEATS antildeade dos variaciones a este meacutetodo El meacutetodo addone en el que cada vezque se antildeade al modelo un atiacutepico se lleva a cabo una re-estimacioacuten del modelo y el meacutetodo addallque re-estima el modelo solo cuando un nuacutemero de variables atiacutepicas han sido antildeadidas al modelo

Este meacutetodo estaacute implantado en R a traveacutes de la funcioacuten x13 del paquete RJDemetra Dicha funcioacutenrequiere de un paraacutemetro de especificacioacuten spec en que se concreta el modelo que queremos introducirEste paraacutemetro es el que nos ofrece diversas posibilidades de modelizacioacuten de la serie como se recogeen la Figura 31 entre ellas los efectos de calendario o los atiacutepicos que presente la serie Dado quebuscamos sucesos atiacutepicos en su sentido maacutes amplio vamos a omitir incluir los efectos de calendarioy solamente introducir la deteccioacuten automaacutetica de atiacutepicos Esto provoca que en nuestro trabajo la

18 CAPIacuteTULO 3 DETECCIOacuteN DE VALORES ATIacutePICOS

especificacioacuten que nos interesa y con la que hemos trabajado sea RSA3 La opcioacuten RSA3 permiteajustar automaacuteticamente un modelo ARIMA identificando y corrigiendo las posibles observacionesanoacutemalas El resto de modificaciones que permite introducir el paraacutemetro de especificacioacuten de la funcioacutenx13 se recogen en la Figura 31 Por ejemplo si estuvieacutesemos interesados en modelizar nuestros datosa traveacutes de un modelo ARIMA de liacuteneas aeacutereas observariacuteamos en la Figura 31 que tendriacuteamos queescoger la especificacioacuten RSA0 Si ahora quisieacuteramos antildeadirle a dicho modelo deteccioacuten de atiacutepicostendriacuteamos que cambiar el paraacutemetro de especificacioacuten a RSA1 y si ademaacutes tambieacuten nos interesamodelar los efectos de calendario sobre dicho modelo introduciriacuteamos la especificacioacuten RSA2 El restode especificaciones ya trabajan sobre el ajuste de un modelo ARIMA de un modo automaacutetico la maacutessencilla es la que utilizamos nosotros en este trabajo RSA3 la cual ajusta un modelo ARIMA deforma automaacutetica incluyendo la deteccioacuten de atiacutepicos Las especificaciones RSA4 y RSA5 incorporanrespecto a RSA3 modelizar los efectos de calendario La diferencia entre ellas se encuentra en queRSA4 incluye en el modelo los efectos de calendario a traveacutes de dos variables que representan losdiacuteas laborables y los fines de semana y RSA5 incluye dichos efectos a traveacutes de siete variables cadadiacutea de la semana y ambas incluyen el efecto de la Pascua en el calendario Por uacuteltimo se encuentrala especificacioacuten RSAfull que incluye el ajuste automaacutetico de un modelo ARIMA y de los efectos decalendario e incorpora la deteccioacuten de atiacutepicos Todas estas especificaciones son las que se detallan enla Figura 31 para profundizar maacutes en ellas se puede consultar el manual de la libreriacutea RJDemetra (laTente Michalek Palate y Baeyens 2020)

Figura 31 Paraacutemetro de especificaciones a introducir al modelo X-13ARIMA-SEATS

322 TRAMO-SEATS

El mecanismo de deteccioacuten de atiacutepicos que utiliza el programa TRAMO-SEATS aborda el problemacon la intencioacuten de resolver los problemas b y c introducidos en el inicio del Capiacutetulo 3 dado queentiende que estos no se han resuelto de un modo satisfactorio en Chen y Liu (1993) En Goacutemez yTaguas (1995) explican que aunque este meacutetodo funciona de forma bastante satisfactoria su solucioacutenpresenta una serie de deficiencias

1 Se estima varias veces por maacutexima verosimilitud exacta lo que es costoso

2 No utiliza residuos exactos

3 El algoritmo es excesivamente complicado

4 Las regresiones muacuteltiples no se hacen filtrando los datos y las columnas de la matriz por un filtroexacto como el filtro de Kalman sino que se utiliza un filtro condicional

32 MEacuteTODOS DE DETECCIOacuteN DE VALORES ATIacutePICOS 19

Por tanto se presenta un mecanismo que pretende subsanar estas deficiencias a la par que corregirlos problemas b y c mencionados en Chen y Liu (1993) Ademaacutes si se utiliza de forma secuencial juntocon el procedimiento de especificacioacuten automaacutetica del programa supone un procedimiento alternativoal de Tsay (1986)

Al igual que X-13ARIMA-SEATS TRAMO-SEATS estaacute implementado en la libreriacutea RJDemetra

de R en la funcioacuten tramoseats Dicha funcioacuten tambieacuten requiere de un paraacutemetro de especificacioacutenspec en el que se concreta el modelo que queremos introducir La utilidad y mecanismo sobre el quetrabaja este paraacutemetro es ideacutentico al explicado en la Seccioacuten 321 para el meacutetodo X-13ARIMA-SEATSpor lo que utilizaremos la especificacioacuten RSA3 Esta especificacioacuten incluye el ajuste automaacutetico de unmodelo ARIMA corrigiendo las posibles observaciones atiacutepicas

El resto de posibles especificaciones que se pueden incluir en el modelo se recogen en la Figura32 El significado de esta figura es equivalente al de la Figura 31 dado que ambos modelos TRAMO-SEATS y X-13ARIMA-SEATS estaacuten implementados en la misma libreria RJDemetra y compartenel mismo paraacutemetro de especificacioacuten en la funcioacuten que estima sus modelos en R

Figura 32 Paraacutemetro de especificaciones a introducir al modelo TRAMO-SEATS

323 GESD

Introducido por Rosner (1983) como una mejora al por entonces conocido ESD (Rosner 1975) porsus siglas en ingleacutes Extreme Studentized Deviate A pesar de que ESD contaba con buenas propiedadesante una amplia alternativa de atiacutepicos presentaba una serie de defectos que le conduciacutean a etiquetarmaacutes candidatos a atiacutepicos que el nuacutemero apropiado Esto provocoacute que se quedase obsoleto en favor desu actualizacioacuten GESD General Extreme Studentized Deviate

Los pasos que sigue son los siguientes

1 Decidir un maacuteximo nuacutemero de posibles candidatos a atiacutepicos r La recomendacioacuten es de consi-derar el 20 del tamantildeo muestral

2 Comenzar las iteraciones i = 1

3 Calcular Ri = maxt|ximinusx|s siendo xi una observacioacuten sospechosa de ser anoacutemala x la media

muestral y s la desviacioacuten estaacutendar de la muestra respectivamente

4 Eliminar la observacioacuten que maximice xi minus x

5 Calcular el siguiente valor criacutetico λi =(nminusi)tpnminusi+1radic

(nminus1minus1+t2pnminusiminus1)(nminusi+1)

donde tpnminusi+1 es una distribucioacuten t con n minus i minus 1 grados de libertad y p = 1 minus α2(nminusi+1 siendo

α la probabilidad de cometer errores de tipo I

20 CAPIacuteTULO 3 DETECCIOacuteN DE VALORES ATIacutePICOS

6 Pasar a la siguiente iteracioacuten repetir los pasos 2 a 5 hasta i = r quedando r definido en el paso1

7 El nuacutemero de atiacutepicos detectados se determina al encontrar el mayor i tal que Ri gt λi dondeRi se define en el paso 2 y λi en el paso 5

GESD es principalmente el test de Grubbs (Grubbs 1950) aplicado de forma secuencial sin embargoexisten unas pequentildeas diferencias que premian su comportamiento GESD realiza ajustes del valorcriacutetico en base al nuacutemero de atiacutepicos a ser estudiado algo que el test de Grubbs no hace Ademaacutessi existe efecto de enmascaramiento aplicar el test de Grubbs de forma secuencial produciriacutea unadetencioacuten demasiado temprana del algoritmo de deteccioacuten lo que impediriacutea localizar algunos atiacutepicos

Los estudios de simulacioacuten realizados para estudiar el comportamiento de GESD indican que elmeacutetodo es muy preciso cuando contamos con tamantildeos muestrales n gt 25 por lo que en nuestrotrabajo no tendremos problema Sin embargo debido a que es un meacutetodo iterativo seraacute maacutes costosocomputacionalmente a medida que se incrementen los tamantildeos muestrales y es algo a tener en cuentacomo posible freno al crecimiento futuro del mecanismo de deteccioacuten

En R podemos encontrar la funcioacuten gesd dentro del paquete Anomalize (Dancho y Vaughan 2019)

324 Isolation Forest

Isolation Forest o iForest es el meacutetodo presentado por Liu Ting y Zhou (2009) donde se tratael tema de deteccioacuten de atiacutepicos desde un punto de vista diferente Ese punto de vista se basa en dospropiedades relacionadas con la idea de queacute es un valor atiacutepico son la minoriacutea de un conjunto y tienenunos atributos muy diferentes a los de las observaciones normales Es decir las anomaliacuteas son pocas ydiferentes lo que las hace maacutes propensas a encontrarse aisladas del resto

Por esta razoacuten los autores presentan un meacutetodo basado en construir un aacuterbol que aiacutesle cada ob-servacioacuten de tal modo que los valores atiacutepicos se encontraraacuten en ramas maacutes proacuteximas a la raiacutez y losvalores normales se encontraraacuten en zonas maacutes profundas del aacuterbol Es por ello que iForest (Liu et al2009) se distingue del resto de mecanismos basados en modelos distancias o densidades

Figura 33 Idea sobre la que se sustenta el mecanismo de Isolation Forest

32 MEacuteTODOS DE DETECCIOacuteN DE VALORES ATIacutePICOS 21

En la Figura 33 se puede observar la idea sobre la que se rige este mecanismo Un punto normalxi requiere maacutes particiones para ser aislado Y el opuesto tambieacuten es cierto donde un punto anoacutemalox0 requiere menos particiones para ser aislado Por lo que se trata de calcular la ldquolongitud del caminordquoa ser aislado dado que los valores atiacutepicos tendraacuten caminos maacutes cortos que los de los valores normales

Para definir como se calcula la ldquolongitud del caminordquo es necesario definir primero el aacuterbol deaislamiento Isolation Tree El aacuterbol de aislamiento seriacutea toda la estructura de ramas que trocean elconjunto de datos La longitud del camino h(x) path length de un punto x se mediriacutea por tanto comoel nuacutemero de ramas a atravesar desde la raiacutez del aacuterbol al punto

Es necesario definir una puntuacioacuten de cuaacuten anoacutemala es una observacioacuten score para ello se intro-duce c(n) como la media de h(x) siendo E el operador esperanza dado el tamantildeo de la muestra nDe tal modo que

Cuando E(h(x))rarr c(n) scorerarr 05

Cuando E(h(x))rarr 0 scorerarr 1

Cuando E(h(x))rarr nminus 1 scorerarr 0

Haciendo uso de la puntuacioacuten anoacutemala que recibe cada punto score tenemos que

Si score es cercano a 1 la observacioacuten es atiacutepica

Si la observacioacuten presenta valores de score inferiores a 05 pueden ser calificadas como observa-ciones normales

Si todas las observaciones devuelven un valor score asymp 05 entonces la muestra entera carece deatiacutepicos

En el artiacuteculo fijan como atiacutepicos potenciales observaciones con score ge 06 en este trabajo somosmaacutes estrictos y fijamos el umbral en score ge 075 Esta decisioacuten se toma tras probar diferentes umbralesy observar el comportamiento del meacutetodo en el estudio de simulacioacuten y en los datos reales Otrosumbrales que se barajaron y descartaron por los resultados mostrados fueron score ge 07 por serdemasiado laxo y score ge 08 por ser demasiado estricto

En R existen dos libreriacuteas que implantan dicho meacutetodo una es la implantada por la empresa H20 lacual ha desarrollado el algoritmo HDoutliers utilizado en este trabajo Y la otra es la libreriacutea solitude(Srikanth 2017) la cual hemos usado para el desarrollo de este trabajo

325 HDoutliers

HDoutliers (Wilkinson 2017) es un algoritmo que se puede aplicar en multitud de escenarios posi-bles desde el maacutes sencillo que seriacutea el caso univariante hasta maacutes complejos como el multidimensionalo el espacial La idea sobre la que se desarrolla es la de buscar espacios entre los valores ordenadosmaacutes que en la de buscar valores extremos De los meacutetodos que se centran en la idea de buscar valoresextremos como por ejemplo el test de Grubbs y por tanto GESD el autor hace una criacutetica y es queestos utilizan medidas como la media muestral o la desviacioacuten tiacutepica las cuales no son robustas frentea valores atiacutepicos

22 CAPIacuteTULO 3 DETECCIOacuteN DE VALORES ATIacutePICOS

El concepto anterior se puede explicar de un modo muy sencillo a traveacutes de un ejemplo que se recogeen Wilkinson (2017) En los resultados a un examen al que se presentaron 100 alumnos obtenemos unapuntuacioacuten media de 50 y una desviacioacuten estaacutendar de 5 Si entre todas las notas un alumno obtuvo un100 y la siguiente mejor nota es un 65 se podriacutea sospechar que ese alumno es un genio o un tramposoPor otra parte si la nota perfecta se encuentra en el punto maacutes alto de una serie de notas que difieren5 puntos entre ellas ese alumno ya no seriacutea tan sospechoso Los test claacutesicos de valores atiacutepicos no soncapaces de diferir entre ambas situaciones

Figura 34 El algoritmo de HDoutliers aplicado sobre el ejemplo anterior (Wilkinson 2017)

En la Figura 34 se representa este ejemplo En el caso de la izquierda estariacuteamos en la situacioacutenen la que no se sospecha que se hayan producido trampas por parte de ninguacuten alumno y el meacutetodoHDoutliers no detectariacutea ninguacuten candidato a atiacutepico A la derecha tendriacuteamos la situacioacuten en la quesospechariacuteamos de que existe un alumno brillante o tramposo y el meacutetodo detectariacutea una situacioacutenatiacutepica como se sentildeala con el punto rojo

La solucioacuten de buscar espacios permite identificar valores inusuales tanto en el medio de las dis-tribuciones como en los extremos Para ello HDoutliers calcula la distancia al vecino maacutes cercanoDespueacutes ajusta una distribucioacuten exponencial a la cola superior de las distancias calculadas y calcula elvalor 1minusα siendo α la probabilidad de cometer un error tipo I superior de la funcioacuten de distribucioacutenacumulada Por lo que cada observacioacuten que se encuentre significativamente alejada del resto basadaen este punto de corte se etiquetaraacute como atiacutepica

El autor menciona que este meacutetodo difiere de aquellos que se basan en hacer un ranking de candi-datos a atiacutepicos como podriacutea ser Local Outlier Factor (Breunig Kriegel Ng y Sander 2000) o quelos etiquetan bajo un liacutemite arbitrario como seriacutea el caso de Isolation Forest (Liu et al 2009) dadoque pueden conducir a resultados inconsistentes Para ello lo que hace es asignar una probabilidad ala creencia de que estamos ante un atiacutepico

En R podemos encontrar este meacutetodo en la libreriacutea HDoutliers (Fraley y Wilkinson 2020)

33 RESUMEN MEacuteTODOS DE DETECCIOacuteN DE VALORES ATIacutePICOS 23

33 Resumen meacutetodos de deteccioacuten de valores atiacutepicos

Meacutetodo Ventajas Contras

X-13ARIMA-SEATS(2017)

Califica el tipo de atiacutepicoRaacutepida velocidad de ejecucioacuten

Basado en modelos ARIMA

TRAMO-SEATS(1997) Califica el tipo de atiacutepicoRaacutepida velocidad de ejecucioacutenIdea similar a X-13ARIMA-SEATS pero profundizando maacutesen el desarrollo del mecanismo dedeteccioacuten de atiacutepicos

Basado en modelos ARIMA

GESD(1983) Elimina parte de la incertidum-bre de que se produzca un efectode enmascaramiento

Utiliza medidas como la media ola desviacioacuten tiacutepica medidas quese pueden ver distorsionadas porvalores atiacutepicosEs un proceso iterativo lo queimplica mayor coste computacio-nal a medida que se incrementeel tamantildeo de datos

Isolation Forest(2009) Escalable a conjuntos de gran di-mensioacutenDisentildeo sencillo

El usuario tiene que determinarel umbral de atiacutepico lo cual pue-de ser un inconveniente a veces

HDoutliers(2017) Identifica valores inusuales tantoen el medio de las distribucionescomo en los extremosEscalable a conjuntos de gran di-mensioacutenAlta velocidad de ejecucioacuten

Tendencia a calificar un excesode observaciones como atiacutepicassin serlo

Cuadro 31 Resumen de los meacutetodos de deteccioacuten de atiacutepicos

24 CAPIacuteTULO 3 DETECCIOacuteN DE VALORES ATIacutePICOS

34 Meacutetodos de deteccioacuten de valores atiacutepicos en series tempo-

rales

Dado que se han introducido diversos meacutetodos con diferentes enfoques respecto a la resolucioacuten delproblema de deteccioacuten de atiacutepicos en series de tiempo hemos decidido incluir este apartado al finaldel contenido principalmente teoacuterico del trabajo para asiacute centrar los meacutetodos que se utilizaraacuten en lossiguientes capiacutetulos Este apartado recoge todos los meacutetodos los ya existentes y nuevas propuestasrealizadas por nosotros que se utilizaraacuten en este trabajo

Los meacutetodos existentes son los pertenecientes a las libreriacuteas RJDemetra (la Tente et al 2020) yAnomalize (Dancho y Vaughan 2019) La libreriacutea RJDemetra es la que nos dota de las funcionesnecesarias para utilizar los modelos X-13ARIMA-SEATS y TRAMO-SEATS Mientras que la libreriacuteaAnomalize se ha convertido en uno de los paquetes de referencia en R para el anaacutelisis de valores atiacutepicosen series de tiempo A traveacutes de ella podemos utilizar el meacutetodo tratado en Hochenbaum et al (2017)basado en una combinacioacuten de Twitter+GESD y tambieacuten la otra opcioacuten que proponen a traveacutes decombinar STL+GESD

A partir de la idea desarrollada por autores como Hochenbaum et al (2017) o libreriacuteas comoAnomalize Dancho y Vaughan (2019) proponemos nuevos meacutetodos de deteccioacuten de atiacutepicos paraseries temporales El fundamento bajo el que se sostiene esta propuesta es muy sencillo Estos meca-nismos se fundamentan en aplicarle a la serie de tiempo un proceso de descomposicioacuten para extraer laestacionalidad y la tendencia para posteriormente aplicarle un meacutetodo de deteccioacuten de valores atiacutepicosal residuo Dado que se han propuesto mejoras en ambos campos tanto en los meacutetodos de descompo-sicioacuten de series temporales como en el de deteccioacuten de valores atiacutepicos creemos que su combinacioacutenpodriacutea suponer una mejora a las ya establecidas Teniendo en cuenta que se ha introducido un meacutetodode descomposicioacuten de series temporales STR (Dokumentov y Hyndman 2015) y dos meacutetodos de de-teccioacuten de valores atiacutepicos Isolation Forest (Liu et al 2009) y HDoutliers (Wilkinson 2017) lo que seharaacute seraacute obtener todas las combinaciones posibles a traveacutes de mezclar los procesos de descomposicioacutencon los meacutetodos de deteccioacuten dando lugar a las siguientes combinaciones

STL +iForest

STL +HDoutliers

STL (Robusto) +iForest

STL (Robusto) +HDoutliers

Twitter +iForest

Twitter +HDoutliers

STR + GESD

STR + iForest

STR + HDoutliers

34 MEacuteTODOS DE DETECCIOacuteN DE VALORES ATIacutePICOS EN SERIES TEMPORALES 25

STR (Robusto) + GESD

STR (Robusto) + iForest

STR (Robusto) + HDoutliers

Estos son los nuevos meacutetodos propuestos en el trabajo de los cuales estudiaremos su comporta-miento en el proacuteximo capiacutetulo a traveacutes de un estudio de simulacioacuten junto a los meacutetodos ya existentesX-13ARIMA-SEATS TRAMO-SEATS STL+GESD y Twitter+GESD

Existen otros meacutetodos populares en la deteccioacuten de atiacutepicos para el software R los cuales no se hanincluido en este trabajo debido a que planteaban peores resultados que los finalmente introducidospero que creemos que merecen una mencioacuten debido a que pueden ser de intereacutes para alguien quepretenda profundizar en este campo

El primero de ellos seriacutea el meacutetodo de deteccioacuten de atiacutepicos IQR incluido en la libreriacutea AnomalizeDancho y Vaughan (2019) el cual se ha descartado debido a que sus combinaciones con STL y Twittersuponiacutean una menor precisioacuten que las combinaciones con GESD (Datacamp 2018) Los autores lo hanincluido en dicha libreriacutea debido a que su coste computacional es mucho menor que el de GESD porlo que se puede plantear situaciones en las que sea uacutetil

El segundo seriacutea la funcioacuten tsoutliers del paquete forecast (Hyndman 2020) la cual hemosdescartado por presentar un mecanismo muy similar al que presentariacutea la combinacioacuten STL+IQR

Por uacuteltimo tambieacuten se ha descartado la funcioacuten tso del paquete tsoutliers (de Lacalle 2019)El motivo se debe a que su autor enfoca el proceso de deteccioacuten basaacutendose en las mismas ideas que lasdesarrolladas en los modelos X-13ARIMA-SEATS y TRAMO-SEATS pero comenta que este meacutetodono estaacute capacitado para trabajar con grandes y heterogeacuteneos conjuntos de series temporales comoX-13ARIMA-SEATS o TRAMO-SEATS sino maacutes bien para pequentildeas aplicaciones de un modo semi-automaacutetico (de Lacalle 2015)

26 CAPIacuteTULO 3 DETECCIOacuteN DE VALORES ATIacutePICOS

Capiacutetulo 4

Estudio de simulacioacuten

En este capiacutetulo se realiza un estudio de simulacioacuten con el objetivo de comparar la eficiencia delos diferentes meacutetodos expuestos en el apartado anterior En primer lugar se presenta un resumendel procedimiento seguido para realizar las simulaciones en los diferentes escenarios y el motivo deproponer cada escenario A continuacioacuten se introduce el Iacutendice de Youden medida que nos permitiraacutediscernir queacute meacutetodos presentan mejor comportamiento en el estudio Finalmente se presentan losresultados del estudio y las conclusiones extraiacutedas del mismo

41 Escenarios

El procedimiento para obtener las series simuladas ha sido el siguiente

1 Simular una serie de tiempo sin atiacutepicos

2 A la observacioacuten correspondiente al instante t sumarle el valor w el cual indicaraacute el tamantildeo delatiacutepico

3 Si se quiere introducir maacutes de un atiacutepico repetir los pasos 1 y 2

Se van a proponer ocho escenarios a continuacioacuten pasamos a justificar la eleccioacuten de cada uno deellos Los escenarios 1 2 y 3 son los planteados en Chen y Liu (1993) artiacuteculo utilizado para analizar laeficiencia de los mecanismos de deteccioacuten que inspiran los meacutetodos aplicados en X-13ARIMA-SEATS yTRAMO-SEATS El Escenario 4 plantea el modelo de liacuteneas aeacutereas utilizado ampliamente para datoseconoacutemicos como los que se van a tratar posteriormente Por uacuteltimo los escenarios 5 a 8 proponendiversos modelos que han sido generados a partir de seleccionar una serie del IGE aleatoriamente yaplicarle la funcioacuten autoarima del paquete forecast (Hyndman 2020) A continuacioacuten se recogentodos los escenarios planteados en el Cuadro 41 Los escenarios 1 a 3 se simulan a traveacutes de la funcioacuten deR arimasim mientras que los escenarios 4 a 8 a traveacutes de la funcioacuten simulate del paquete forecast

27

28 CAPIacuteTULO 4 ESTUDIO DE SIMULACIOacuteN

Escenario Modelo Motivo

Escenario 1 AR(1) Propuesto en el estudio de simu-lacioacuten de Chen y Liu (1993)

Escenario 2 MA(1) Propuesto en el estudio de simu-lacioacuten de Chen y Liu (1993)

Escenario 3 ARIMA(011) Propuesto en el estudio de simu-lacioacuten de Chen y Liu (1993)

Escenario 4 ARIMA(011)x(011)12 Modelos de liacuteneas aeacutereas muyutilizado en lo referente a datoseconoacutemicos

Escenario 5 ARIMA(101)x(012)12 Modelo extraiacutedo de aplicar lafuncioacuten autoarima a una seriedel IGE escogida aleatoriamente

Escenario 6 ARIMA(111)x(101)12 Modelo extraiacutedo de aplicar lafuncioacuten autoarima a una seriedel IGE escogida aleatoriamente

Escenario 7 ARIMA(112)x(011)12 Modelo extraiacutedo de aplicar lafuncioacuten autoarima a una seriedel IGE escogida aleatoriamente

Escenario 8 ARIMA(011)x(100)12 Modelo extraiacutedo de aplicar lafuncioacuten autoarima a una seriedel IGE escogida aleatoriamente

Cuadro 41 Resumen de los escenarios propuestos para el estudio de simulacioacuten

42 IacuteNDICE DE YOUDEN 29

En cada escenario se estudian cuatro casos

Caso 1 Serie con 100 observaciones y un atiacutepico en t = 40 el tamantildeo del atiacutepico es w = 35

Caso 2 Serie con 100 observaciones y un atiacutepico en t = 40 el tamantildeo del atiacutepico es w = 45

Caso 3 Serie con 100 observaciones y un atiacutepico en t = 2 el tamantildeo del atiacutepico es w = 4

Caso 4 Serie con 300 observaciones y dos atiacutepicos en t1 = 40 y t2 = 180 el tamantildeo de los atiacutepicoses w1 = 4 y w2 = 5

En el Escenario 4 hubo que modificar los valores del tamantildeo del atiacutepico introducido en cada casodebido a que no se obteniacutean resultados significativos para ninguacuten meacutetodo Por lo que finalmente solopara el Escenario 4 los valores introducidos fueron de w = 55 para el Caso 1 w = 65 para el Caso2 w = 6 para el Caso 1 w1 = 6 y w2 = 7 para el Caso 4

Los Casos 1 y 2 buscan estudiar la sensibilidad del meacutetodo de deteccioacuten dado que en lo uacutenico quese diferencian es en el tamantildeo del atiacutepico El Caso 3 plantea una situacioacuten complicada al encontrarseel atiacutepico al principio de la serie es maacutes difiacutecil detectar ese valor por dos motivos que el meacutetodo notenga todaviacutea la informacioacuten suficiente o que el meacutetodo vea afectada su estimacioacuten por este valor tantemprano El Caso 4 busca estudiar el comportamiento cuando se presenta maacutes de un atiacutepico

42 Iacutendice de Youden

Para comparar los resultados de los diferentes meacutetodos en las simulaciones vamos a utilizar lo queen otros campos como la investigacioacuten meacutedica se denomina test de diagnoacutestico En este tipo de testse compara la realidad con la prediccioacuten del mecanismo para analizar su funcionamiento Estos testde diagnoacutestico se presentan en lo que se denominan matrices de confusioacuten como la presentada en elCuadro 44 La idea de la matriz de confusioacuten es la de comparar las predicciones realizadas con larealidad de tal modo que se pueda observar cuando la prediccioacuten y la realidad coinciden y cuando no

Realidad

Negativo(0) Positivo (1)

PrediccioacutenNegativo(0) Verdadero Negativo (VN) Falso Negativo (FN)

Positivo(1) Falso Positivo (FP) Verdadero Positivo (VP)

Cuadro 42 Matriz de confusioacuten

En nuestro trabajo Negativo (0) representariacutea una observacioacuten normal y Positivo (1) una obser-vacioacuten atiacutepica La diagonal de la matriz estaacute representada por aquellas observaciones en las que larealidad y la prediccioacuten coinciden Los Falsos Negativos (FN) son aquellas observaciones en que el

30 CAPIacuteTULO 4 ESTUDIO DE SIMULACIOacuteN

mecanismo determinoacute que la observacioacuten era normal pero en realidad era atiacutepica Por otra parte losFalsos Positivos (FP) suceden cuando el mecanismo dictamina que la observacioacuten es atiacutepica pero larealidad es que es una observacioacuten normal

Los Falsos Positivos son tambieacuten conocidos como Error Tipo I la probabilidad de aceptar la hipoacute-tesis nula siendo esta falsa Y los Falsos Negativos son conocidos como Error Tipo II la probabilidadde no rechazar la hipoacutetesis nula siendo esta falsa

El iacutendice de Youden (Youden 1950) nacioacute con motivo de poder comparar los resultados de doso maacutes mecanismos de deteccioacuten y asiacute tener la capacidad de discernir cual de ellos tiene una mejorcapacidad discriminatoria Es decir el propoacutesito final del iacutendice es el de resumir la matriz de confusioacutenen un valor que consiga representar el comportamiento del mecanismo de deteccioacuten de tal modo quedos mecanismos se puedan comparar directamente

Este iacutendice considera con la misma importancia tanto los falsos positivos como los falsos negativosUtilizando otro campo de ejemplo la medicina un falso negativo supondriacutea no tratar la enfermedadde un paciente dado que establecemos que estaacute sano cuando la realidad es que estaacute enfermo Por otraparte un falso positivo supondriacutea un coste como podriacutea ser el monetario financiando el tratamiento oel emocional de un paciente que la realidad es que estaacute sano

Trasladando ese ejemplo a nuestro trabajo un falso negativo supondriacutea no calificar como atiacutepicauna observacioacuten que lo es Esto provocariacutea que estariacuteamos asumiendo como normal un comportamientoen el aacutembito socio-econoacutemico gallego que no lo fue estariacuteamos incurriendo en errores en posterioresanaacutelisis o estariacuteamos obviando sucesos relevantes

Los falsos positivos tambieacuten suponen un coste aquiacute cada observacioacuten que el meacutetodo detecte comoatiacutepica supondraacute la intervencioacuten de un analista para tratar de entender queacute ha sucedido Si finalmenteel analista concluye que la observacioacuten no es atiacutepica se habraacute desperdiciado una serie de horas y equipoque podriacutean haber sido invertidos para otro fin De ambos escenarios surgen dos medidas

Sensibilidad V PV P+FN refleja la proporcioacuten de verdaderos positivos sobre el total de positivos

Especifidad V NV N+FP refleja la proporcioacuten de verdaderos negativos sobre el total de negativos

El iacutendice de Youden se construye a partir de ambas medidas del siguiente modo

J = Sensibilidad + Especifidadminus 1 =V P

V P + FN+

V N

V N + FPminus 1

El rango en el que se utiliza este iacutendice es de 0 a 1 donde 1 representariacutea que el mecanismo escapaz de diferenciar perfectamente las observaciones atiacutepicas de las normales y 0 todo lo contrario

Sin embargo teoacutericamente este rango puede variar de minus1 a 1 (Shan G 2015) los valores menoresque cero no se suelen contemplar dado que no tienen una interpretacioacuten significativa En nuestrotrabajo sucede esta situacioacuten en la que se presentan mecanismos con valores negativos y si bien deforma general esto no tiene explicacioacuten en otros campos en este estudio si

Explicaacutendolo a traveacutes de lo que podriacutea ser un posible resultado de un mecanismo de deteccioacuten

42 IacuteNDICE DE YOUDEN 31

Realidad

Negativo(0) Positivo(1)

PrediccioacutenNegativo(0) 96 1

Positivo(1) 3 0

Cuadro 43 Ejemplo de posible resultado de un mecanismo de deteccioacuten en el que el iacutendice de Youdenseriacutea negativo

En el ejemplo del Cuadro 42 se analiza una serie de tiempo con 100 observaciones entre las cualesse encuentra un valor atiacutepico El mecanismo de deteccioacuten habriacutea detectado 3 posibles atiacutepicos peroninguno de ellos es el atiacutepico real Si calculamos el iacutendice de Youden obtenemos

J =0

0 + 1+

96

96 + 3minus 1 = minus003

El resultado es negativo debido a que el mecanismo de deteccioacuten nos situacutea en una posicioacuten peorque no clasificar nada como atiacutepico Por lo que si 1 refleja que el mecanismo es capaz de diferenciarperfectamente las dos clases y 0 que el mecanismo no nos ayuda en absoluto a diferenciar entre ellasun valor menor que 0 en nuestro trabajo supondriacutea que el mecanismo seriacutea peor que no clasificar nadadado que nos infunde un mayor error sobre la realidad

Un resultado de cero implicariacutea que el mecanismo no es uacutetil ya que no es capaz de diferenciar entrelo que es atiacutepico y lo que no En el Cuadro 43 se recoge un posible resultado que conduciriacutea a estasituacioacuten Este ejemplo recoge una situacioacuten en la que en una serie de tiempo de 100 observaciones seencuentran 5 valores atiacutepicos sin embargo el meacutetodo no es capaz de detectar ninguna de ellas

Realidad

Negativo(0) Positivo(1)

PrediccioacutenNegativo(0) 95 5

Positivo(1) 0 0

Cuadro 44 Ejemplo de posible resultado de un mecanismo de deteccioacuten en el que el iacutendice de Youdenseriacutea cero

J =0

0 + 5+

95

95 + 0minus 1 = 0

Finalmente el resultado perfecto implicariacutea que el mecanismo de deteccioacuten es capaz de diferenciarde forma precisa aquello que es atiacutepico de lo que no lo es En el Cuadro 44 se recoge un ejemplo de

32 CAPIacuteTULO 4 ESTUDIO DE SIMULACIOacuteN

esta situacioacuten En este ejemplo se plantea una serie de tiempo que cuenta con 100 observaciones delas cuales 5 son atiacutepicas igual que en el ejemplo anterior sin embargo el meacutetodo ahora es capaz dedetectar cada una de ellas sin incurrir en Falsos Positivos ni Falsos Negativos

Realidad

Negativo(0) Positivo(1)

PrediccioacutenNegativo(0) 95 0

Positivo(1) 0 5

Cuadro 45 Ejemplo de posible resultado de un mecanismo de deteccioacuten en el que el iacutendice de Youdenseriacutea uno

J =5

0 + 5+

95

95 + 0minus 1 = 1

Podemos observar como los valores fuera de la diagonal de la matriz aquellos que representan losFalsos Negativos y Falsos Positivos son cero En la diagonal de la matriz se encuentran los resultadosque muestran que el mecanismo ha conseguido identificar de forma perfecta aquellas observacionesque son atiacutepicas Esta seriacutea la situacioacuten ideal la cual representariacutea que el mecanismo de deteccioacuten deatiacutepicos funciona de forma idoacutenea

43 Resultados

A continuacioacuten se presentan los resultados para los ocho escenarios introducidos recogidos en elCuadro 41 Al introducir una gran cantidad de meacutetodos escenarios y casos el anaacutelisis de los resultadosse presenta confuso por lo que se decidioacute introducir un coacutedigo de color para resaltar los tres mejores ytres peores resultados en cada caso Los mejores resultados se asocian al color verde siendo el verde maacutesintenso el mejor resultado y decayendo gradualmente la intensidad del color seguacuten empeora Por otraparte los peores resultados estaacuten asociados al color rojo siendo el rojo maacutes intenso el peor resultadoy decayendo la intensidad seguacuten el resultado mejora

Se pensoacute en introducir un gradiente de color por cada caso de modo que fuese variando de mejora peor Finalmente se descartoacute debido a que su contribucioacuten a la comprensioacuten de los resultados eramenor que la idea finalmente escogida de resaltar los tres mejores y los tres peores resultados

Los resultados obtenidos para el iacutendice de Youden se muestran a continuacioacuten A mayores en elanexo se han incluido tablas referentes a los resultados que han presentado los distintos meacutetodos enbase a otras dos medidas que tambieacuten han resultado de utilidad a la hora de escoger los mecanismosadecuados La primera de esas medidas es la sensibilidad la cual hemos definido en este apartado yla otra es el exceso la cual se define como la media de detecciones incorrectas por simulacioacuten y cuyosresultados estaacuten incluidos en el anexo correspondiente

43 RESULTADOS 33

Caso 1 Caso 2 Caso 3 Caso 4

X-13ARIMA-SEATS 0495 0853 0699 0490

TRAMO-SEATS 0655 0926 0803 0494

STL+HDoutliers 0561 0830 0562 0727

STL+GESD 0265 0589 0236 0531

STL+iForest 0632 0882 0632 0788

STL(ROB)+HDoutliers 0550 0790 0666 0707

STL(ROB)+GESD 0623 0862 0732 0752

STL(ROB)+iForest 0634 0873 0741 0748

Twitter+HDoutliers 0462 0725 0588 0616

Twitter+GESD 0303 0587 0426 0433

Twitter+iForest 0524 0797 0647 0657

STR+Hdoutliers 0603 0833 0595 0667

STR+GESD 0344 0649 0292 0448

STR+iForest 0670 0882 0675 0719

STR(ROB)+Hdoutliers 0534 0803 0630 0654

STR(ROB)+GESD 0379 0683 0456 0557

STR(ROB)+iForest 0619 0859 0695 0711

Cuadro 46 Resultados Escenario 1Iacutendice de Youden AR(1)

En el Cuadro 46 se recogen los resultados al Escenario 1 escenario en el que se simula un AR(1)igual al realizado por Chen y Liu (1993) Los resultados muestran que en los casos 1 2 y 3 TRAMO-SEATS ejerce un papel superior al resto buen comportamiento que desaparece en el Caso 4 casoen el que se introducen dos atiacutepicos Si analizamos conjuntamente los resultados de los cuatro casospodriacuteamos decir que los meacutetodos que reflejan un mejor comportamiento global en el escenario seriacuteanSTR+iForest y STL(Rob)+iForest

34 CAPIacuteTULO 4 ESTUDIO DE SIMULACIOacuteN

Caso 1 Caso 2 Caso 3 Caso 4

X-13ARIMA-SEATS 0504 0828 0645 0494

TRAMO-SEATS 0667 0913 0741 0494

STL+HDoutliers 0465 0721 0473 0680

STL+GESD 0217 0457 0147 0428

STL+iForest 0502 0781 0521 0713

STL(ROB)+HDoutliers 0457 0723 0576 0642

STL(ROB)+GESD 0516 0761 0651 0667

STL(ROB)+iForest 0519 0798 0660 0713

Twitter+HDoutliers 0457 0690 0587 0640

Twitter+GESD 0346 0627 0480 0486

Twitter+iForest 0506 0774 0658 0689

STR+HDoutliers 0580 0814 0566 0658

STR+GESD 0297 0601 0247 0449

STR+iForest 0626 0866 0647 0719

STR(ROB)+HDoutliers 0514 0780 0603 0644

STR(ROB)+GESD 0335 0627 0405 0520

STR(ROB)+iForest 0578 0836 0687 0709

Cuadro 47 Resultados Escenario 2 Iacutendice de Youden MA(1)

En el Cuadro 47 se recogen los resultados al Escenario 2 escenario en el que se simula un MA(1)igual al realizado por Chen y Liu (1993) Los resultados que se observan son similares a los extraiacutedos delEscenario 1 TRAMO-SEATS es claramente superior en los casos 1 2 y 3 pero su buen comportamientodesaparece ante el Caso 4 Por otra parte STR+iForest presenta un comportamiento maacutes homogeacuteneoencontraacutendose en tres de los cuatro casos entre los tres mejores resultados Lo mismo sucede con suversioacuten robusta En esta ocasioacuten la combinacioacuten STL+iForest solamente se encuentra entre las mejoresen el Caso 4

43 RESULTADOS 35

Caso 1 Caso 2 Caso 3 Caso 4

X-13ARIMA-SEATS 0921 0970 0926 0500

TRAMO-SEATS 0921 0971 0921 0500

STL+HDoutliers 0306 0502 0234 0435

STL+GESD 0088 0229 0050 0152

STL+iForest 0338 0575 0279 0451

STL(ROB)+HDoutliers 0252 0426 0287 0328

STL(ROB)+GESD 0287 0504 0369 0316

STL(ROB)+iForest 0291 0495 0329 0358

Twitter+HDoutliers 0061 0109 0124 0064

Twitter+GESD 0015 0027 0056 0025

Twitter+iForest 0077 0127 0167 0068

STR+HDoutliers 0400 0556 0342 0436

STR+GESD 0202 0365 0108 0230

STR+iForest 0441 0614 0385 0492

STR(ROB)+HDoutliers 0237 0391 0248 0268

STR(ROB)+GESD 0199 0381 0215 0254

STR(ROB)+iForest 0277 0451 0279 0289

Cuadro 48 Resultados Escenario 3 Iacutendice de Youden ARIMA(011)

En el Cuadro 48 se recogen los resultados al Escenario 3 escenario en el que se simula un ARI-MA(011) igual al realizado por Chen y Liu (1993) En este escenario existe una hegemoniacutea de X-13ARIMA-SEATS y TRAMO-SEATS los cuales presentan resultados superiores a los de cualquierotro meacutetodo La combinacioacuten STR+iForest es el tercer meacutetodo que a pesar de la diferencia con losotros dos presenta mejores resultados

36 CAPIacuteTULO 4 ESTUDIO DE SIMULACIOacuteN

Caso 1 Caso 2 Caso 3 Caso 4

X-13ARIMA-SEATS 0402 0592 0067 0480

TRAMO-SEATS 0540 0705 0071 0481

STL+HDoutliers -0003 -0004 0008 0000

STL+GESD -0002 -0001 0002 -0001

STL+iForest -0004 -0004 0008 0001

STL(ROB)+HDoutliers -0005 -0005 0025 0000

STL(ROB)+GESD -0039 -0026 0052 0002

STL(ROB)+iForest 0004 -0002 0026 0000

Twitter+HDoutliers 0000 -0002 -0001 0007

Twitter+GESD -0025 -0019 -0016 0003

Twitter+iForest 0000 -0001 0004 0016

STR+HDoutliers 0359 0417 -0004 0083

STR+GESD 0409 0445 -0006 0124

STR+iForest 0411 0472 -0005 0097

STR(ROB)+HDoutliers 0014 0006 0002 0039

STR(ROB)+GESD 0019 0017 0008 0075

STR(ROB)+iForest 0014 0005 0002 0021

Cuadro 49 Resultados Escenario 4 Iacutendice de Youden ARIMA(011)x(011)12

En el Cuadro 49 se recogen los resultados al Escenario 4 escenario en el que se simula el modelo deliacuteneas aeacutereas (G Box y Jenkins 1976) Este modelo es famoso por su uso en series socio-econoacutemicasPor ello cabriacutea esperar un buen comportamiento de los modelos disentildeados para este fin X-13ARIMA-SEATS y TRAMO-SEATS El resto de combinaciones presentan resultados poco consistentes

43 RESULTADOS 37

Caso 1 Caso 2 Caso 3 Caso 4

X-13ARIMA-SEATS 0265 0628 0176 0409

TRAMO-SEATS 0398 0747 0248 0432

STL+HDoutliers 0238 0469 0281 0125

STL+GESD 0091 0258 0158 0024

STL+iForest 0263 0531 0305 0134

STL(ROB)+HDoutliers 0265 0475 0343 0097

STL(ROB)+GESD 0375 0662 0452 0114

STL(ROB)+iForest 0304 0545 0388 0128

Twitter+HDoutliers 0243 0429 0352 0103

Twitter+GESD 0168 0376 0309 0057

Twitter+iForest 0266 0479 0381 0126

STR+HDoutliers 0656 0885 0231 0755

STR+GESD 0424 0769 0064 0567

STR+iForest 0720 0936 0277 0798

STR(ROB)+HDoutliers 0189 0326 0212 0523

STR(ROB)+GESD 0174 0317 0192 0665

STR(ROB)+iForest 0229 0364 0232 0588

Cuadro 410 Resultados Escenario 5 Iacutendice de Youden ARIMA(101)x(012)12

En el Cuadro 410 se recogen los resultados al Escenario 5 escenario en el que se simula un modeloARIMA (101)x(012)12 a partir de aplicarle la funcioacuten autoarima a una serie del IGE escogidaaleatoriamente En este escenario predomina la descomposicioacuten STR ya que son las combinacionesjunto a los tres meacutetodos de deteccioacuten de atiacutepicos GESD iForest y HDoutliers los meacutetodos quepresentan mejores resultados En concreto la combinacioacuten STR+iForest supone la combinacioacuten maacutesinteresante para este escenario

38 CAPIacuteTULO 4 ESTUDIO DE SIMULACIOacuteN

Caso 1 Caso 2 Caso 3 Caso 4

X-13ARIMA-SEATS 0331 0659 0354 0425

TRAMO-SEATS 0457 0764 0477 0438

STL+HDoutliers 0513 0790 0494 0624

STL+GESD 0229 0558 0188 0328

STL+iForest 0560 0833 0567 0648

STL(ROB)+HDoutliers 0507 0776 0592 0595

STL(ROB)+GESD 0528 0815 0663 0560

STL(ROB)+iForest 0559 0838 0661 0645

Twitter+HDoutliers 0239 0416 0355 0208

Twitter+GESD 0101 0229 0185 0100

Twitter+iForest 0279 0452 0383 0227

STR+HDoutliers 0520 0779 0436 0636

STR+GESD 0278 0584 0151 0385

STR+iForest 0596 0822 0494 0682

STR(ROB)+HDoutliers 0399 0666 0490 0545

STR(ROB)+GESD 0274 0524 0349 0404

STR(ROB)+iForest 0457 0731 0568 0579

Cuadro 411 Resultados Escenario 6 Iacutendice de Youden ARIMA(111)x(101)12

En el Cuadro 411 se recogen los resultados al Escenario 6 escenario en el que se simula un modeloARIMA (111)x(101)12 a partir de aplicarle la funcioacuten autoarima a una serie del IGE escogidaaleatoriamente En este escenario los meacutetodos que muestran unos mejores resultados son STR+iForesty STL+iForest Tambieacuten muestra un buen comportamiento el meacutetodo STL(Rob)+GESD basado enla combinacioacuten de la versioacuten robusta de la descomposicioacuten STL y el meacutetodo de deteccioacuten de atiacutepicosGESD

43 RESULTADOS 39

Caso 1 Caso 2 Caso 3 Caso 4

X-13ARIMA-SEATS 0332 0673 0347 0422

TRAMO-SEATS 0426 0765 0425 0453

STL+HDoutliers 0451 0693 0414 0503

STL+GESD 0180 0438 0142 0219

STL+iForest 0509 0759 0458 0527

STL(ROB)+HDoutliers 0416 0655 0468 0489

STL(ROB)+GESD 0452 0702 0549 0457

STL(ROB)+iForest 0484 0717 0541 0525

Twitter+HDoutliers 0009 0018 0037 0037

Twitter+GESD -0024 -0014 0011 0010

Twitter+iForest 0007 0016 0050 0050

STR+HDoutliers 0469 0719 0369 0582

STR+GESD 0228 0495 0122 0329

STR+iForest 0511 0774 0438 0635

STR(ROB)+HDoutliers 0282 0495 0347 0330

STR(ROB)+GESD 0224 0432 0301 0285

STR(ROB)+iForest 0343 0557 0407 0385

Cuadro 412 Resultados Escenario 7 Iacutendice de Youden ARIMA(112)x(011)12

En el Cuadro 412 se recogen los resultados al Escenario 7 escenario en el que se simula un modeloARIMA (112)x(011)12 a partir de aplicarle la funcioacuten autoarima a una serie del IGE escogidaaleatoriamente En este escenario los meacutetodos que muestran unos mejores resultados vuelven a serSTL+iForest STR+iForest y cercano a ellos STL(Rob)+iForest El resto de resultados no muestranninguacuten meacutetodo estable para los cuatro casos

40 CAPIacuteTULO 4 ESTUDIO DE SIMULACIOacuteN

Caso 1 Caso 2 Caso 3 Caso 4

X-13ARIMA-SEATS 0298 0636 0334 0434

TRAMO-SEATS 0419 0712 0427 0481

STL+HDoutliers 0425 0697 0389 0620

STL+GESD 0176 0415 0108 0351

STL+iForest 0480 0734 0423 0662

STL(ROB)+HDoutliers 0429 0675 0483 0607

STL(ROB)+GESD 0449 0718 0543 0584

STL(ROB)+iForest 0486 0749 0559 0675

Twitter+HDoutliers 0271 0463 0378 0350

Twitter+GESD 0127 0286 0189 0147

Twitter+iForest 0300 0504 0424 0356

STR+HDoutliers 0448 0692 0459 0564

STR+GESD 0203 0438 0167 0274

STR+iForest 0492 0769 0502 0600

STR(ROB)+Hdoutliers 0416 0680 0503 0548

STR(ROB)+GESD 0260 0523 0329 0366

STR(ROB)+iForest 0460 0751 0573 0587

Cuadro 413 Resultados Escenario 8 Iacutendice de Youden ARIMA(011)x(100)12

En el Cuadro 413 se recogen los resultados al Escenario 8 escenario en el que se simula un mode-lo ARIMA(011)x(100)12 a partir de aplicarle la funcioacuten autoarima a una serie del IGE escogidaaleatoriamente Los resultados maacutes consistentes para los cuatro casos estaacuten formados por las combina-ciones de STR+iForest la misma combinacioacuten pero con la versioacuten robusta de la descomposicioacuten STRSTR(Rob)+iForest y la combinacioacuten STL+iForest y tambieacuten su versioacuten robusta STL (Rob)+iForest

44 CONCLUSIONES 41

44 Conclusiones

Los resultados de las simulaciones muestran dos realidades Por un lado nos encontramos con losresultados asociados a los escenarios 1 2 3 y 4 En estos escenarios prevalece el comportamientode TRAMO-SEATS por encima de todos los meacutetodos sin lugar a duda incluso tambieacuten podriacuteamosincluir a X-13ARIMA-SEATS aquiacute Cabe recordar que ambos parten de las mismas ideas pero esTRAMO-SEATS el que implanta una serie de mejoras a los meacutetodos de deteccioacuten de atiacutepicos en losque se inspiran ambos esto se trata en el Capiacutetulo 3 Por otra parte en los escenarios 5 6 7 y 8 ya noexiste tal hegemoniacutea de TRAMO-SEATS frente al resto de meacutetodos de hecho nos encontramos unosresultados bastante maacutes variados

Entre los meacutetodos de descomposicioacuten (STLTwitter y STR) el que presenta mejores resultados enlas simulaciones es STR En todos los escenarios presenta resultados que lo posicionan entre los tresprimeros Esto nos da una idea de que estamos ante un meacutetodo flexible capaz de entender la estructurasubyacente de series de tiempo muy diversas y adecuar una respuesta realista del mecanismo generadorSus buenos resultados son seguidos muy de cerca por la descomposicioacuten STL Este es un resultado queconcuerda con lo esperado debido a que siendo los dos meacutetodos similares plantean la misma idea perola ejecutan de distinta forma STR fue creado con el objetivo de suponer una mejora a STL

En lo que respecta a los meacutetodos de deteccioacuten GESD HDoutliers y iForest podemos extraerconclusiones acerca del comportamiento de cada uno

GESD es un buen meacutetodo de identificacioacuten de atiacutepicos Obtiene buenos resultados faacutecil deaplicar y es sencillo entender su mecanismo algo muy uacutetil para personas que quieran realizaro transmitir un estudio sin ahondar profundamente en materia Por otra parte sus buenosresultados en la deteccioacuten correcta de atiacutepicos se ven eclipsados por su tendencia a clasificaraltos valores de observaciones como anoacutemalas incorrectamente Si estamos realizando un anaacutelisisindividual esto podriacutea no ser un problema dado que se podriacutea intervenir modificando alguno desus paraacutemetros y conseguir mejores resultados Sin embargo en este trabajo buscamos un meacutetodoque nos sirva como filtro para analizar multitud de series con la menor intervencioacuten posible porlo que descartamos dicho mecanismo

HDoutliers supone una mejora a GESD Muestra mejor comportamiento en todas las combina-ciones con los meacutetodos de descomposicioacuten GESD solo consigue igualar o superar ligeramentesus resultados incurriendo en calificar una gran cantidad de observaciones como atiacutepicas lo queprovoca un incremento en el nuacutemero de observaciones calificadas erroacuteneamente esto se puede veren las tablas de exceso introducidas en el anexo Sin embargo pese a suponer una mejora noes el meacutetodo que presenta mejores resultados

Isolation Forest o iForest es el meacutetodo de deteccioacuten maacutes consistente a lo largo de los escenariosy para cada meacutetodo de descomposicioacuten Consigue un equilibrio entre buenos valores de deteccioacutencorrecta y bajas tasas de atiacutepicos sentildealados incorrectamente justo lo que se busca en un meacutetodode deteccioacuten de atiacutepicos La idea de aacuterbol bajo la que se desarrolla su mecanismo es faacutecil decomprender cada observacioacuten recibe una puntuacioacuten entre 0 y 1 de cuaacuten anoacutemala es esto permiteflexibilizar la decisioacuten del analista con el umbral en el que fija un valor como atiacutepico En Liu et

42 CAPIacuteTULO 4 ESTUDIO DE SIMULACIOacuteN

al (2009) califican como observaciones sospechosas de ser atiacutepicas aquellas cuya puntuacioacuten seamayor a 06 en este trabajo somos maacutes estrictos y fijamos un umbral superior 075 Ademaacutessu disentildeo le permite escalar a conjuntos de gran tamantildeo y dimensioacuten (big data) por lo que nosupone un freno ante situaciones futuras

Parece interesante tambieacuten recordar que los mecanismos que emplean los meacutetodos X-13ARIMA-SEATS y TRAMO-SEATS fueron analizados en estudios que planteaban simulaciones como las quese realizan en los escenarios 1 2 y 3 Ademaacutes tambieacuten cabe esperar un buen comportamiento que seespera de ellos en un modelo tan comuacuten como el de liacuteneas aacutereas (Escenario 4) Sin embargo cuando seaplican fuera de estos escenarios en modelos maacutes complejos solamente TRAMO-SEATS consigue noquedarse atraacutes

La simulacioacuten nos permite descartar la descomposicioacuten Twitter la cual estaacute quizaacutes maacutes enfocadaa datos de alta frecuencia datos que se producen en frecuencias de tiempo mucho maacutes pequentildeascomo minutos en vez de datos mensuales como los planteados en el estudio de simulacioacuten por lo querefleja peores resultados en escenarios de este aacutembito Tambieacuten nos permite descartar el meacutetodo X-13ARIMA-SEATS dado que supone una idea similar pero menos desarrollada en lo que a deteccioacuten deatiacutepicos se refiere a TRAMO-SEATS Finalmente el meacutetodo GESD tambieacuten es descartado debido asus resultados en los que muestra un comportamiento inferior frente a HDoutliers meacutetodo que suponeuna mejora a la idea sobre la que se basa GESD

Por lo que se concluye que los meacutetodos maacutes adecuados para la continuacioacuten del trabajo son elmodelo TRAMO-SEATS las descomposiciones de series temporales STL y STR y los meacutetodos dedeteccioacuten de atiacutepicos HDoutliers y iForest lo que conforman los siguientes mecanismos de deteccioacutende atiacutepicos

TRAMO-SEATS

STL+HDoutliers

STL+iForest

STR+HDoutliers

STR+iForest

Capiacutetulo 5

Aplicacioacuten a datos reales

En este capiacutetulo se aplican los meacutetodos que han mostrado unos mejores resultados en el estudiode simulacioacuten a las bases de datos del IGE comentadas en Capiacutetulo 1 Estos meacutetodos son TRAMO-SEATS STL+HDoutliers STL+iForest STR+HDoutliers y STL+iForest De este modo podemosanalizar el comportamiento de los meacutetodos con datos reales y extraer nuevas conclusiones que nosurgiacutean en el estudio de simulacioacuten Esto se debe a que si bien el estudio de simulacioacuten planteaba unadiversidad de escenarios amplia nunca seraacuten suficientes para recoger la multitud de naturalezas quecaracteriza a las series socio-econoacutemicas

El anaacutelisis de las datos del IGE se haraacute en dos niveles Un primer nivel mostraraacute el comportamientoglobal del conjunto mediante cuatro medidas el total de atiacutepicos detectados por cada meacutetodo en elconjunto el maacuteximo nuacutemero de atiacutepicos que detecta el meacutetodo en una serie del conjunto el nuacutemero deseries que no presentan atiacutepicos y la media de atiacutepicos detectados por cada meacutetodo El segundo nivelmostraraacute un anaacutelisis maacutes especiacutefico donde se analizaraacute el comportamiento de los meacutetodos respecto auna serie escogida del conjunto

Para finalizar el capiacutetulo introducimos una herramienta graacutefica disentildeada con el objetivo de eliminarla mayor incertidumbre posible que acompantildea a un campo como el de la deteccioacuten de valores atiacutepicosy analizamos su comportamiento

51 Anaacutelisis Series IGE

Los conjuntos utilizados para este trabajo han pasado primero por un proceso de filtrado en el quese han eliminado todas las series que presentan menos de 24 observaciones o maacutes de 24 ceros entre susobservaciones De este modo conseguimos quedarnos con series que recogen la informacioacuten suficientepara trabajar con ellas

A continuacioacuten se muestra el total de series perteneciente a cada conjunto

43

44 CAPIacuteTULO 5 APLICACIOacuteN A DATOS REALES

Conjunto 1 Conjunto 2 Conjunto 3 Conjunto 4 Conjunto 5 Conjunto 6 Conjunto 7

Pre-filtrado 108 72 55 42 162 165 55

Post-filtrado 84 60 50 42 90 165 47

Cuadro 51 Nuacutemero de series de tiempo perteneciente a cada conjunto antes y despueacutes del proceso defiltrado

Ademaacutes con el objetivo de capturar la influencia del Covid19 sobre las series de tiempo se procedea dividir el estudio en dos partes La primera analiza las series con datos hasta 2019 si el conjuntopresenta datos de frecuencia mensual esta fecha seraacute diciembre de 2019 por otra parte si el conjuntopresenta datos de frecuencia trimestral esta fecha seraacute el cuarto trimestre de 2019 La segunda analizalas series incluyendo el uacuteltimo dato actualizado el cual variacutea dependiendo del conjunto Los conjuntoscon datos trimestrales incluyen hasta el primer trimestre del 2020 mientras que los conjuntos condatos mensuales incluyen como uacuteltima actualizacioacuten fechas comprendidas entre abril y junio de 2020por lo que dicha fecha se concretaraacute en el momento que se analiza dicho conjunto Respecto a la fechade inicio de las series variacutea dependiendo del conjunto por lo que tambieacuten se especificaraacute en el iniciodel anaacutelisis del mismo

Para medir la influencia del Covid lo que se haraacute seraacute calcular la tasa de variacioacuten del total deatiacutepicos detectados entre ambos escenarios las series hasta 2019 y las series actualizadas al uacuteltimodato existente de 2020 la cual calcularemos como

Tasa de variacioacuten =

(Total atiacutepicos serie completaTotal atiacutepicos serie hasta 2019

minus 1

)lowast 100

Conjunto 1 (httpwwwigeeuigebdtigeapidatos3476)

Series de datos mensuales que contienen la informacioacuten de los viajeros noches y estancia media enestablecimientos hoteleros y de turismo rural en Espantildea Galicia y sus provincias Los datos de esteconjunto comienzan en enero de 1999 y finalizan en mayo de 2020

51 ANAacuteLISIS SERIES IGE 45

TRAMO -

SEATS

STL +

HDoutliers

STL +

iForest

STR +

HDoutliers

STR +

iForest

Atiacutepicos detectados 327 176 111 136 142

Max nuacutemero atip serie 17 11 3 8 4

Series con 0 atiacutepicos 13 20 11 23 3

Media de atiacutepicos detec 389 210 132 162 169

Cuadro 52 Resultados para el Conjunto 1 con datos hasta diciembre de 2019

Los resultados del Cuadro 52 se producen para un total de 18816 observaciones que muestra elconjunto con datos hasta diciembre de 2019 Ahora vamos a estudiar los resultados de forma quecada serie esteacute formada por el uacuteltimo dato actualizado y a realizar una comparacioacuten entre ambosescenarios En esta serie el uacuteltimo dato actualizado es mayo de 2020 lo que conforma un total de19172 observaciones

TRAMO -

SEATS

STL +

HDoutliers

STL +

iForest

STR +

HDoutliers

STR +

iForest

Atiacutepicos detectados 457 243 170 264 204

Max nuacutemero atip serie 17 11 4 15 5

Series con 0 atiacutepicos 1 6 1 10 3

Media de atiacutepicos detec 544 289 202 314 243

Cuadro 53 Resultados para el Conjunto 1 con datos hasta mayo de 2020

46 CAPIacuteTULO 5 APLICACIOacuteN A DATOS REALES

TRAMO -

SEATS

STL +

HDoutliers

STL +

iForest

STR +

HDoutliers

STR +

iForest

Hasta 2019 327 176 111 136 142

Hasta mayo 2020 457 243 170 264 204

Tasa de variacioacuten 3976 3807 5315 9412 4366

Cuadro 54 Total de atiacutepicos detectados por cada meacutetodo hasta diciembre de 2019 y abril 2020 y tasade variacioacuten que produce el efecto del Covid en el Conjunto 1

En el Cuadro 54 podemos ver como el efecto del Covid sobre el conjunto es muy notorio algoque cabriacutea esperar dado que estamos tratando series relacionadas con el Turismo en Galicia uno delos sectores maacutes afectados por la crisis del Covid El Cuadro 53 incorpora datos hasta mayo 2020lo que supone solamente un crecimiento del 189 del total de datos Sin embargo el crecimientoque experimenta el total de atiacutepicos detectado es muy superior en el caso maacutes suave representa uncrecimiento de maacutes del 38 llegando a suponer para alguacuten meacutetodo el 94

A continuacioacuten vamos a analizar un caso concreto de una serie del conjunto Hemos escogido laserie que hace referencia al nuacutemero de viajeros residentes en Espantildea hospedados en establecimientosde turismo rural en Espantildea El motivo de su eleccioacuten es que es la serie que provoca un mayor nuacutemerode atiacutepicos en el Cuadro 52 un total de 17 observaciones atiacutepicas sentildealadas por el meacutetodo TRAMO-SEATS

Figura 51 Serie de tiempo referente al nuacutemero de viajeros residentes en Espantildea hospedados en esta-blecimientos de turismo rural en Espantildea

La Figura 51 recoge la serie de tiempo referente al nuacutemero de viajeros residentes en Espantildea hos-

51 ANAacuteLISIS SERIES IGE 47

pedados en establecimientos de turismo rural en Espantildea La liacutenea vertical roja representa el comienzodel antildeo 2020 Observando dicha figura y centraacutendonos en la serie hasta 2019 nos encontramos con unaserie con mucha volatilidad debido al fuerte caraacutecter estacional que posee un sector como el turismoy con una ligera tendencia creciente que se estanca ligeramente en los antildeos posteriores a la crisis eco-noacutemica de 2011 para despueacutes continuar en aumento Sin embargo no parece que se encuentren valoresatiacutepicos en dicha serie La combinacioacuten STR+HDoutliers tambieacuten sentildeala un elevado nivel de atiacutepicosseis en total que se reduce con STR+iForest a tres posibles atiacutepicos Finalmente STL+HDoutliers ySTL+iForest coinciden en sentildealar un atiacutepico agosto de 2019

Si ahora observamos los resultados para la serie completa podemos comprobar que los resultadoscambian bruscamente con la introduccioacuten de cuatro nuevos datos enero febrero marzo y abril de2020 Ahora el meacutetodo TRAMO-SEATS sentildeala cuatro fechas de las que solo dos coinciden con lassentildealadas anteriormente Las combinaciones STL+HDoutliers y STL+iForest mantienen como atiacutepicoagosto de 2019 y antildeaden febrero marzo y abril 2020 y marzo y abril 2020 respectivamente Y ahorason las combinaciones STR+HDoutliers y STR+iForest las que sentildealan uacutenicamente agosto de 2019

Es interesante observar el comportamiento de los cinco meacutetodos en esta serie TRAMO-SEATS ylas combinaciones basadas en el proceso de descomposicioacuten STR soliacutean ser las que mejores resultadospresentaban sin embargo en este ejemplo son los meacutetodos basados en la descomposicioacuten STL que sibien presentaron buenos resultados en la simulacioacuten tendiacutean a ir por detraacutes de TRAMO-SEATS y losmeacutetodos basados en la descomposicioacuten STR los que presenta un comportamiento maacutes acorde con loque sucede en la serie De hecho son los meacutetodos basados en la descomposicioacuten STL los uacutenicos quesentildealan como atiacutepica la observacioacuten de abril 2020 la cual es la uacutenica que tiene un valor de 0 y esclaramente atiacutepica

La Figura 52 representa los atiacutepicos detectados por el meacutetodo STL+HDoutliers el cual es el meacutetodoque mejor comportamiento muestra para esta serie

Figura 52 Serie de tiempo referente al nuacutemero de viajeros residentes en Espantildea hospedados en esta-blecimientos de turismo rural en Espantildea analizada por el meacutetodo STL+HDoutliers

En la Figura 53 se muestran los resultados para la misma serie por el resto de meacutetodos utilizadosSTL+iForest STR+HDoutliers STR+iForest y TRAMO-SEATS

48 CAPIacuteTULO 5 APLICACIOacuteN A DATOS REALES

Figura 53 Serie de tiempo referente al nuacutemero de viajeros residentes en Espantildea hospedados en esta-blecimientos de turismo rural en Espantildea analizada por STL+iForest STR+HDoutliers STR+iForesty TRAMO-SEATS

Conjunto 2 (httpwwwigeeuigebdtigeapidatos6356)

Series de datos trimestrales acerca de la poblacioacuten de 16 y maacutes antildeos desglosados por sexo gruposde edad y relacioacuten con la actividad econoacutemica en Galicia Los datos de este conjunto comienzan en elprimer trimestre de 1996 y finalizan en el primer trimestre de 2020

TRAMO -

SEATS

STL +

HDoutliers

STL +

iForest

STR +

HDoutliers

STR +

iForest

Atiacutepicos detectados 56 70 61 62 66

Max nuacutemero atip serie 5 6 3 5 3

Series con 0 atiacutepicos 28 29 18 26 14

Media de atiacutepicos detec 093 117 102 103 110

Cuadro 55 Resultados para el Conjunto 2 con datos hasta el cuarto trimestre de 2019

Los resultados del Cuadro 55 se producen para un total de 5760 observaciones que muestra elconjunto con datos hasta el cuarto trimestre de 2019 Ahora vamos a estudiar los resultados de formaque cada serie esteacute formada por el uacuteltimo dato actualizado y a comparar ambos escenarios En estaserie el uacuteltimo dato actualizado es el primer trimestre de 2020 lo que conforma un total de 5820

51 ANAacuteLISIS SERIES IGE 49

observaciones

TRAMO -

SEATS

STL +

HDoutliers

STL +

iForest

STR +

HDoutliers

STR +

iForest

Atiacutepicos detectados 54 107 62 68 66

Max nuacutemero atip serie 5 45 3 4 3

Series con 0 atiacutepicos 28 30 15 20 12

Media de atiacutepicos detec 090 178 103 113 110

Cuadro 56 Resultados para el Conjunto 2 con datos hasta el primer trimestre de 2020

TRAMO -

SEATS

STL +

HDoutliers

STL +

iForest

STR +

HDoutliers

STR +

iForest

Hasta 2019 56 70 61 62 66

Hasta mayo 2020 54 107 62 68 66

Tasa de variacioacuten -357 5286 164 968 000

Cuadro 57 Total de atiacutepicos detectados por cada meacutetodo hasta el cuarto trimestre de 2019 y primertrimestre de 2020 y tasa de variacioacuten que produce el efecto del Covid en el Conjunto 2

En el Cuadro 57 podemos ver como el efecto del Covid sobre el conjunto es mucho menor que enlos datos del Conjunto 1 Esto se debe a la naturaleza trimestral de los datos por lo que situando lainfluencia del Covid en el contexto gallego a finales de marzo de 2020 su impacto es maacutes suave sobrelos datos Seriacutea interesante en el futuro ver que sucede con este conjunto una vez se antildeadan los datosdel segundo trimestre

A continuacioacuten vamos a analizar un caso concreto de una serie del conjunto Hemos escogido laserie que recoge los datos de hombres mayores de 55 antildeos y que forman parte de la poblacioacuten ocupada

En la Figura 54 se muestra la serie de tiempo referente a los hombres mayores de 55 antildeos queforma parte de la poblacioacuten ocupada La recta vertical roja diferencia los dos escenarios que estudiamosla serie hasta el cuarto trimestre de 2019 y la serie hasta el primer trimestre de 2020-

50 CAPIacuteTULO 5 APLICACIOacuteN A DATOS REALES

Figura 54 Serie de tiempo referente hombres mayores de 55 antildeos y que forman parte de la poblacioacutenocupada

El uacutenico dato que las diferencia el primer trimestre de 2020 sigue con lo que cabriacutea esperar Y losmeacutetodos de deteccioacuten de atiacutepicos concuerdan con lo que observamos no existen atiacutepicos ni antes nidespueacutes excepto en un caso Ahora son los meacutetodos basados en el proceso de descomposicioacuten STL losque sentildealan una fecha que parece discrepar con la realidad

En la serie con valores hasta 2019 son ambas combinaciones STL+HDoutliers y STL+iForestlas que sentildealan como posible atiacutepico julio 2013 Si nos trasladamos a la serie completa uacutenicamenteSTL+iForest sigue manteniendo ese posible atiacutepico mientras que STL+HDoutliers lo corrige Esta si-tuacioacuten en las que solo un meacutetodo sentildeala una fecha nos lleva a dudar de que realmente esta observacioacutensea atiacutepica

A continuacioacuten mostramos la serie referente a los hombres mayores de 55 antildeos y que forman partede la poblacioacuten ocupada analizada por el uacutenico meacutetodo que detecta atiacutepicos para la serie completaSTL+iForest

Figura 55 Serie de tiempo referente hombres mayores de 55 antildeos y que forman parte de la poblacioacutenocupada analizada por STL+iForest

51 ANAacuteLISIS SERIES IGE 51

Conjunto 3 (httpwwwigeeuigebdtigeapidatos308)

Series de datos mensuales acerca de contratos registrados seguacuten la modalidad del contrato Losdatos de este conjunto comienzan en enero de 1999 y finalizan en mayo de 2020

TRAMO -

SEATS

STL +

HDoutliers

STL +

iForest

STR +

HDoutliers

STR +

iForest

Atiacutepicos detectados 193 126 98 146 98

Max nuacutemero atip serie 9 14 5 10 4

Series con 0 atiacutepicos 5 9 1 7 2

Media de atiacutepicos detec 386 252 196 292 196

Cuadro 58 Resultados para el Conjunto 3 con datos hasta diciembre 2019

El Cuadro 58 recoge los resultados que se producen para un total de 12600 observaciones quemuestra el Conjunto 3 con datos hasta diciembre de 2019 Ahora vamos a estudiar los resultados deforma que cada serie esteacute conformada por el uacuteltimo dato actualizado y a realizar una comparativaentre ambas En esta serie el uacuteltimo dato actualizado es mayo de 2020 lo que conforma un total de12850 observaciones

TRAMO -

SEATS

STL +

HDoutliers

STL +

iForest

STR +

HDoutliers

STR +

iForest

Atiacutepicos detectados 242 144 107 153 121

Max nuacutemero atip serie 13 8 5 10 4

Series con 0 atiacutepicos 1 6 0 7 1

Media de atiacutepicos detec 484 288 214 306 242

Cuadro 59 Resultados para el Conjunto 3 con datos hasta mayo de 2020

52 CAPIacuteTULO 5 APLICACIOacuteN A DATOS REALES

TRAMO -

SEATS

STL +

HDoutliers

STL +

iForest

STR +

HDoutliers

STR +

iForest

Hasta 2019 193 126 98 146 98

Hasta mayo 2020 242 144 107 153 121

Tasa de variacioacuten 2539 1429 918 479 2350

Cuadro 510 Total de atiacutepicos detectados por cada meacutetodo hasta diciembre de 2019 y mayo de 2020y tasa de variacioacuten que produce el efecto del Covid en el Conjunto 3

En el Cuadro 510 podemos ver como el efecto del Covid sobre el conjunto es similar al que sepresentaba en los datos del Conjunto 1 Este conjunto vuelve a recoger datos de caraacutecter mensual porlo que la influencia de los meses de 2020 vuelven a reflejar un gran peso en los resultados Sin embargolas tasas de variacioacuten no son tan grandes como las que se produciacutean en el Conjunto 1 Esto podriacuteadeberse a que mientras el sector turiacutestico se redujo a cero en el mercado laboral se llevaron a cabopoliacuteticas contra la destruccioacuten masiva de empleo Estos resultados lo que hacen es aflorar que se haproducido un efecto en el conjunto de datos y que podriacutea ser de intereacutes para despueacutes desarrollar unestudio en profundidad

A continuacioacuten vamos a analizar la serie referente a las contrataciones eventuales por circunstanciasde la produccioacuten para la provincia de Ourense diferenciando a traveacutes de una recta roja vertical los dosescenarios analizados los datos hasta diciembre 2019 y los datos hasta mayo de 2020

Figura 56 Serie de tiempo referente a las contrataciones eventuales por circunstancias de la produccioacutenpara la provincia de Ourense

El meacutetodo TRAMO-SEATS sentildeala tres fechas atiacutepicas en ambas ocasiones en la serie hasta 2019

51 ANAacuteLISIS SERIES IGE 53

y hasta mayo de 2020 sin embargo ninguna de ellas es comuacuten Probablemente esto se deba al compor-tamiento que podemos apreciar en la Figura 56 donde se observa la caiacuteda que produce en la serie losmeses de marzo abril y mayo de 2020 La introduccioacuten de estos datos reajusta las prioridades sobrequeacute es un atiacutepico en la serie para TRAMO-SEATS de forma que pasa de identificar octubre 2001abril 2002 y enero 2012 a sentildealar como fechas atiacutepicas octubre 2007 y marzo y abril de 2020

Este suceso tambieacuten se presenta en el resto de meacutetodos STL+HDoutliers pasa de no identificarninguacuten dato en la serie hasta 2019 a sentildealar abril del 2002 y febrero abril y mayo de 2020 Otro meacutetodoque experimenta esta situacioacuten es STR+iForest que pasa de no calificar ninguna observacioacuten atiacutepicaa sentildealar abril y mayo en 2019 y en 2020 STL+iForest sentildeala dos y tres atiacutepicos en cada caso en laserie hasta 2019 sentildeala el mes de julio en 2018 y 2019 mientras que en la serie completa sentildeala losmeses de febrero abril y mayo de 2020 Por uacuteltimo STR+HDoutliers sentildeala como atiacutepico abril del2002 en la serie acortada observacioacuten que ya no es detectada al incluir la serie completa donde sentildealalos meses de abril y mayo para los antildeos 2019 y 2020 igual aquiacute que STR+iForest

Estos resultados conducen hacia un punto comuacuten mientras que en la serie recortada en 2019 noparece haber mucho acuerdo sobre los atiacutepicos o si existen atiacutepicos en la serie completa todos losmeacutetodos se ponen de acuerdo en que las situaciones de abril y mayo de 2020 son anoacutemalas Estosresultados se muestran en la Figura 57

Figura 57 Serie de tiempo referente a las contrataciones eventuales por circunstancias de la produccioacutenpara la provincia de Ourense sentildealizando las anomaliacuteas comunes a los cinco meacutetodos

Conjunto 4 (httpwwwigeeuigebdtigeapidatos9048)

Series de datos mensuales referidas al Iacutendice de produccioacuten industrial general y por destino eco-noacutemico de los bienes en Espantildea y Galicia Los distintos destinos econoacutemico son bienes de consumoduraderos y no duraderos bienes de equipo bienes intermedios y energiacutea Los datos del conjuntocomienzan en enero de 2002 y finalizan en mayo de 2020

54 CAPIacuteTULO 5 APLICACIOacuteN A DATOS REALES

TRAMO -

SEATS

STL +

HDoutliers

STL +

iForest

STR +

HDoutliers

STR +

iForest

Atiacutepicos detectados 288 129 73 212 64

Max nuacutemero atip serie 24 11 3 102 3

Series con 0 atiacutepicos 9 5 3 6 2

Media de atiacutepicos detec 686 307 174 505 152

Cuadro 511 Resultados para el Conjunto 4 con datos hasta diciembre de 2019

El Cuadro 511 recoge los resultados que se producen para un total de 8904 observaciones quemuestra el conjunto con datos hasta diciembre de 2019 Ahora vamos a estudiar los resultados deforma que cada serie esteacute conformada por el uacuteltimo dato actualizado y a analizar los cambios que seproducen entre ambos escenarios En este conjunto el uacuteltimo dato actualizado es mayo de 2020 lo queconforma un total de 9114 observaciones

TRAMO -

SEATS

STL +

HDoutliers

STL +

iForest

STR +

HDoutliers

STR +

iForest

Atiacutepicos detectados 282 92 78 144 79

Max nuacutemero atip serie 24 5 3 50 3

Series con 0 atiacutepicos 4 5 1 2 1

Media de atiacutepicos detec 672 219 186 343 189

Cuadro 512 Resultados para el Conjunto 4 con datos hasta mayo de 2020

51 ANAacuteLISIS SERIES IGE 55

TRAMO -

SEATS

STL +

HDoutliers

STL +

iForest

STR +

HDoutliers

STR +

iForest

Hasta 2019 288 129 73 212 64

Hasta mayo 2020 282 92 78 144 79

Tasa de variacioacuten -208 -2868 685 -3208 2344

Cuadro 513 Total de atiacutepicos detectados por cada meacutetodo hasta diciembre de 2019 y mayo de 2020y tasa de variacioacuten que produce el efecto del Covid en el Conjunto 4

En el Cuadro 513 podemos ver el efecto del Covid sobre el conjunto sin embargo en esta ocasioacuten nopodemos ver una direccioacuten clara Los meacutetodos difieren y mientras unos meacutetodos muestran crecimientosen el nuacutemero de atiacutepicos detectados para el conjunto otros decrecen y muestran ahora menos atiacutepicosSin embargo esto no implica que el efecto del Covid sobre el conjunto sea menor que por ejemplo en elConjunto 3 Las variaciones entre las series las que incluyen datos de 2020 y las que no son notoriaslo cual implica que el efecto existe

A continuacioacuten vamos a analizar la serie referente a la produccioacuten industrial destinada a bienesintermedios de Galicia diferenciando a traveacutes de una recta vertical roja los dos escenarios los datoshasta diciembre de 2019 y la serie hasta mayo 2020

Figura 58 Serie de tiempo referente a la produccioacuten industrial destinada a bienes intermedios deGalicia

El comportamiento que muestran los meacutetodos con esta serie nos ayuda a plasmar una idea quedesarrollaremos maacutes adelante en el siguiente apartado Si observamos los datos para la serie recortada

56 CAPIacuteTULO 5 APLICACIOacuteN A DATOS REALES

en diciembre de 2019 obtenemos que salvo TRAMO-SEATS que no detecta ninguacuten atiacutepico los otroscuatro meacutetodos concuerdan en dos fechas marzo y julio de 2008 Por otra parte en la serie completacinco meacutetodos sentildealan abril 2020 y cuatro sentildealan marzo de 2008 Estos dos atiacutepicos abril de 2020 ymarzo de 2008 los representamos en la Figura 59

Analizando la Figura 59 el atiacutepico sentildealado en marzo de 2008 parece dudoso sin embargo siprofundizamos en los datos observamos que esta fecha rompe una clara tendencia creciente respecto alos meses de marzo de antildeos anteriores

Este suceso en el que varios meacutetodos coinciden en identificar una fecha proveen al analista de unaseguridad a la hora de calificar una observacioacuten como anoacutemala Este concepto de seguridad eliminandola incertidumbre asociada al campo de la deteccioacuten de valores atiacutepicos seraacute desarrollado maacutes adelante

Figura 59 Serie de tiempo referente a la produccioacuten industrial destinada a bienes intermedios deGalicia con los dos atiacutepicos

Conjunto 5 (httpwwwigeeuigebdtigeapidatos4052)

Series de datos trimestrales de nuacutemero de transacciones inmobiliarias por reacutegimen (Libre Protegiday Total de viviendas) y tipo de vivienda (Nuevas segunda mano y total de viviendas) Las medidas enlas que se toman los datos son por nuacutemero de viviendas su valor total (en miles de euros) o su valormedio (en euros) Los datos se presentan a nivel Espantildea Galicia y las provincias gallegas Los datosse recogen entre el primer trimestre de 2004 hasta el primer trimestre de 2020

51 ANAacuteLISIS SERIES IGE 57

TRAMO -

SEATS

STL +

HDoutliers

STL +

iForest

STR +

HDoutliers

STR +

iForest

Atiacutepicos detectados 184 122 105 94 97

Max nuacutemero atip serie 7 8 2 6 2

Series con 0 atiacutepicos 13 41 12 47 11

Media de atiacutepicos detec 204 136 117 104 107

Cuadro 514 Resultados para el Conjunto 5 con datos hasta el cuarto trimestre de 2019

Los resultados que recoge el Cuadro 514 se producen para un total de 5760 observaciones que mues-tra el Conjunto 5 con datos hasta el cuarto trimestre de 2019 Ahora vamos a estudiar los resultadosde forma que cada serie esteacute conformada por el uacuteltimo dato actualizado y a realizar una comparacioacutenentre ambos escenarios En esta serie el uacuteltimo dato actualizado es el primer trimestre de 2020 lo queconforma un total de 5850 observaciones

TRAMO -

SEATS

STL +

HDoutliers

STL +

iForest

STR +

HDoutliers

STR +

iForest

Atiacutepicos detectados 184 106 108 90 93

Max nuacutemero atip serie 9 8 2 5 3

Series con 0 atiacutepicos 12 42 11 43 13

Media de atiacutepicos detec 204 118 120 100 103

Cuadro 515 Resultados para el Conjunto 5 con datos hasta el primer trimestre de 2020

58 CAPIacuteTULO 5 APLICACIOacuteN A DATOS REALES

TRAMO -

SEATS

STL +

HDoutliers

STL +

iForest

STR +

HDoutliers

STR +

iForest

Hasta 2019 184 122 105 94 97

Hasta mayo 2020 184 106 108 90 93

Tasa de variacioacuten 000 -1311 286 -426 -412

Cuadro 516 Total de atiacutepicos detectados por cada meacutetodo hasta cuarto trimestre de 2019 y primertrimestre de 2020 y tasa de variacioacuten que produce el efecto del Covid en el Conjunto 5

En el Cuadro 516 podemos ver que el efecto del Covid sobre las series trimestrales vuelve a sermuy pequentildeo similar a las conclusiones obtenidas para el Conjunto 2 Si comparamos las tablas 514y 515 podemos similitudes en los resultados para las diferentes medidas que se toman Por ejemplo sinos fijamos en la fila que mide el nuacutemero de series que son identificadas con cero atiacutepicos los meacutetodosapenas difieren en sus resultados Lo mismo sucede con la media de atiacutepicos detectados en cada serieEstos resultados sostienen la idea de que el Covid repercutioacute en menor medida en las series trimestralesen el primer trimestre del antildeo y es de intereacutes realizar este mismo estudio una vez se incorporen losdatos del segundo trimestre

A continuacioacuten vamos a analizar la serie referente al nuacutemero de viviendas transmitidas de segundamano en reacutegimen libre para la provincia de Lugo diferenciando los dos escenarios analizados a traveacutesde una recta vertical roja los datos hasta el cuarto trimestre de 2019 y los datos incluyendo el primertrimestre de 2020

Figura 510 Serie de tiempo referente al nuacutemero de viviendas transmitidas de segunda mano en reacutegimenlibre para la provincia de Lugo

51 ANAacuteLISIS SERIES IGE 59

Observando la Figura 510 parece que el dato incluido referente al primer trimestre de 2020 su-pone una caiacuteda una situacioacuten anoacutemala sin embargo si observamos la evolucioacuten histoacuterica de la seriepodemos comprobar que solamente en dos ocasiones se han mostrado valores superiores en este pri-mer trimestre Para ambos escenarios la serie hasta 2019 y la serie completa uacutenicamente un meacutetododetecta atiacutepicos TRAMO-SEATS que sentildeala en ambas ocasiones octubre de 2010 y 2012 El resto demeacutetodos concuerdan en que la serie no presenta en ninguacuten caso ninguna situacioacuten anoacutemala

La Figura 511 muestra las dos fechas que sentildeala como atiacutepicas el meacutetodo TRAMO-SEATS cuartotrimestre de 2010 y 2012 que si bien reflejan un pico en los espacios temporales en los que se producenno parecen ser atiacutepicas respecto a la serie completa

Figura 511 Serie de tiempo referente al nuacutemero de viviendas transmitidas de segunda mano en reacutegimenlibre para la provincia de Lugo

Conjunto 6 (httpwwwigeeuigebdtigeapidatos1243)

Series de datos mensuales referentes a las bajas de demandas de empleo seguacuten geacutenero y duracioacutende la demanda en Galicia y sus provincias Los datos de la serie se recogen desde enero de 2009 hastajunio de 2020

60 CAPIacuteTULO 5 APLICACIOacuteN A DATOS REALES

TRAMO -

SEATS

STL +

HDoutliers

STL +

iForest

STR +

HDoutliers

STR +

iForest

Atiacutepicos detectados 154 271 228 288 228

Max nuacutemero atip serie 7 11 4 7 3

Series con 0 atiacutepicos 85 44 16 40 12

Media de atiacutepicos detec 093 164 138 174 138

Cuadro 517 Resultados para el Conjunto 6 con datos hasta diciembre de 2019

Los resultados del Cuadro 517 se producen para un total de 21780 observaciones que muestra elconjunto con datos hasta diciembre de 2019 Ahora vamos a estudiar los resultados de forma que cadaserie esteacute conformada por el uacuteltimo dato actualizado y a comparar ambas situaciones En esta serie eluacuteltimo dato actualizado es junio de 2020 lo que conforma un total de 22770 observaciones

TRAMO -

SEATS

STL +

HDoutliers

STL +

iForest

STR +

HDoutliers

STR +

iForest

Atiacutepicos detectados 484 502 336 504 334

Max nuacutemero atip serie 9 12 4 11 4

Series con 0 atiacutepicos 1 10 3 15 5

Media de atiacutepicos detec 293 304 204 305 202

Cuadro 518 Resultados para el Conjunto 6 con datos hasta junio de 2020

51 ANAacuteLISIS SERIES IGE 61

TRAMO -

SEATS

STL +

HDoutliers

STL +

iForest

STR +

HDoutliers

STR +

iForest

Hasta 2019 154 271 228 288 228

Hasta mayo 2020 484 502 336 504 334

Tasa de variacioacuten 21429 8524 4737 7500 4649

Cuadro 519 Total de atiacutepicos detectados por cada meacutetodo hasta diciembre de 2019 y junio de 2020 ytasa de variacioacuten que produce el efecto del Covid en el Conjunto 6

En el Cuadro 519 podemos ver el efecto que supone la primera mitad del antildeo 2020 en la aparicioacutende valores atiacutepicos en este conjunto El incremento en el nuacutemero de datos a analizar no llega a serdel 5 pero esa miacutenima cantidad de datos nuevos dispara las fechas anoacutemalas que se suceden en lasseries En el Cuadro 518 se puede observar que apenas existen series sin atiacutepicos independientementedel meacutetodo que seleccionemos algo todaviacutea maacutes sorprendente si recordamos que este es el conjuntoque posee maacutes series un total de 165 series

A continuacioacuten analizamos un caso concreto utilizando la serie referente a las bajas de la demandade empleo en mujeres con una duracioacuten de la demanda entre 12 y 18 meses en Ourense La rectavertical roja indica el inicio del antildeo 2020 sirviendo asiacute para indicar la diferencia entre los dos escenariosanalizados en los Cuadros 517 y 518

Figura 512 Serie de tiempo referente a las bajas de la demanda de empleo en mujeres con una duracioacutende la demanda entre 12 y 18 meses en Ourense

Esta serie es de intereacutes por diversos motivos El primero es que posee claros atiacutepicos en ambos

62 CAPIacuteTULO 5 APLICACIOacuteN A DATOS REALES

escenarios En la serie con duracioacuten hasta 2019 se puede observar un valor cercano al inicio de 2014con claro aspecto de ser atiacutepico La serie con todos los datos muestra el atiacutepico anterior pero tambieacutennuevos valores con claro comportamiento discordante al resto de la serie

Para la serie recortada cinco meacutetodos coinciden en sus resultados julio de 2013 es atiacutepico uacutenica-mente TRAMO-SEATS difiere el cual no sentildeala ninguacuten atiacutepico en la serie Si ahora nos trasladamosa la serie completa TRAMO-SEATS sentildeala marzo de 2020 como atiacutepico mientras que el resto demeacutetodos vuelven a concordar sentildealando julio de 2013 y febrero de 2020 En la Figura 513 se muestrala serie sentildealizando dichos atiacutepicos julio de 2013 y febrero y marzo de 2020

Figura 513 Serie de tiempo referente a las bajas de la demanda de empleo en mujeres con una duracioacutende la demanda entre 12 y 18 meses en Ourense con los atiacutepicos identificados

Si observamos los datos de la serie podemos calificar todas estas fechas como atiacutepicas julio 2013febrero 2020 y marzo 2020 Sin embargo ninguacuten meacutetodo ha calificado los meses de abril mayo yjunio de 2020 siendo claramente atiacutepicos Estamos frente a una situacioacuten completamente inusual unasituacioacuten que se produce en multitud de series del IGE y es la secuencia de varias observacionesconsecutivas muy atiacutepicas que ejercen un gran peso en la serie

Este gran peso provoca que los meacutetodos no consigan analizar correctamente este escenario Losmodelos de series temporales como TRAMO-SEATS interpretan que se estaacute produciendo un cambiode nivel permanente en la serie mencionado en el Capiacutetulo 3 como Level Shift (LS) y modelizan laserie como tal Los procesos de descomposicioacuten de series temporales utilizados STL y STR entiendenlo que estaacute sucediendo como un cambio en la tendencia es decir en su proceso de extraccioacuten de laestacionalidad y la tendencia estiman una tendencia decreciente en la serie Y por uacuteltimo los meacutetodosde deteccioacuten de valores atiacutepicos HDoutliers y iForest sufren un grave problema de enmascaramientoLa idea del mecanismo de iForest reside en buscar valores aislados mientras que la de HDoutliers sefundamenta en buscar espacios entre los valores ordenados estas dos ideas son consistentes con la ideade la buacutesqueda de atiacutepicos sin embargo ven disminuida su eficiencia ante una situacioacuten tan atiacutepica quepermanece durante varias observaciones consecutivas llevando a provocar que observaciones atiacutepicaspuedan pasar desapercibidas para el mecanismo

51 ANAacuteLISIS SERIES IGE 63

Conjunto 7 (httpwwwigeeuigebdtigeapidatos4885)

Series de datos mensuales referentes a las afiliaciones a la seguridad social el uacuteltimo diacutea de mes enGalicia y sus provincias por regiacutemenes Los datos comienzan en enero de 1990 y finalizan en mayo de2020

TRAMO -

SEATS

STL +

HDoutliers

STL +

iForest

STR +

HDoutliers

STR +

iForest

Atiacutepicos detectados 288 96 118 136 121

Max nuacutemero atip serie 24 8 5 10 5

Series con 0 atiacutepicos 4 10 0 4 0

Media de atiacutepicos detec 613 204 251 289 257

Cuadro 520 Resultados para el Conjunto 7 con datos hasta diciembre de 2019

El Cuadro 520 muestra los resultado que se producen para un total de 16920 observaciones quemuestra el conjunto con datos hasta diciembre de 2019 Ahora vamos a estudiar los resultados de formaque cada serie esteacute conformada por el uacuteltimo dato actualizado y comparar ambas situaciones En estaserie el uacuteltimo dato actualizado es junio de 2020 lo que conforma un total de 17155 observaciones

TRAMO -

SEATS

STL +

HDoutliers

STL +

iForest

STR +

HDoutliers

STR +

iForest

Atiacutepicos detectados 333 179 128 118 136

Max nuacutemero atip serie 24 14 5 11 6

Series con 0 atiacutepicos 0 6 0 3 0

Media de atiacutepicos detec 709 380 272 251 289

Cuadro 521 Resultados para el Conjunto 7 con datos hasta mayo de 2020

64 CAPIacuteTULO 5 APLICACIOacuteN A DATOS REALES

TRAMO -

SEATS

STL +

HDoutliers

STL +

iForest

STR +

HDoutliers

STR +

iForest

Hasta 2019 288 96 118 136 121

Hasta mayo 2020 333 179 128 118 136

Tasa de variacioacuten 1563 8646 847 -1324 1240

Cuadro 522 Total de atiacutepicos detectados por cada meacutetodo hasta diciembre de 2019 y mayo de 2020y tasa de variacioacuten que produce el efecto del Covid en el Conjunto 7

En el Cuadro 522 podemos ver que el efecto que supone la primera mitad del antildeo 2020 en laaparicioacuten de valores atiacutepicos en este conjunto La variacioacuten que supone en el nuacutemero de valores detec-tados como anoacutemalos es considerable todaviacutea maacutes si lo comparamos con la variacioacuten de nuevos datosintroducidos en el anaacutelisis los cuales han aumentado solamente un 138 De este modo podemosafirmar que la presencia del Covid ha provocado un gran impacto en el incremento del nuacutemero deobservaciones atiacutepicas de los conjuntos que presentan datos de frecuencia mensual

A continuacioacuten analizamos un caso concreto utilizando la serie referente a las afiliaciones a laseguridad social en reacutegimen mar para la provincia de Lugo La Figura 514 muestra la representacioacutengraacutefica de dicha serie indicando mediante una recta vertical roja el inicio del 2020

Figura 514 Serie de tiempo referente a las afiliaciones a la seguridad social en reacutegimen mar para laprovincia de Lugo

El motivo de seleccionar esta serie reside en una idea que se va desarrollando a lo largo de todoeste apartado y que da lugar a la herramienta que se introduce en el siguiente Las series socio-econoacutemicas son complejas dado que se ven afectadas por multitud de factores externos que condicionansu desarrollo Este caraacutecter uacutenico de cada serie maacutes los resultados obtenidos a lo largo del trabajo

51 ANAacuteLISIS SERIES IGE 65

nos conduce a la conclusioacuten de que no existe un meacutetodo de deteccioacuten de atiacutepicos con una capacidadde clasificacioacuten superior al resto

Los resultados para esta serie son diversos Por ejemplo la combinacioacuten STR+HDoutliers muestrahasta ocho atiacutepicos para la serie delimitada en el antildeo 2019 sin embargo al introducir la serie completaesta cifra se reduce solamente a dos Sucede lo contrario con la combinacioacuten STL+HDoutliers quesi bien en la serie recortada califica dos observaciones en la completa sentildeala un total de siete Porsu parte TRAMO-SEATS identifica un total de siete atiacutepicos Sin embargo todos los meacutetodos dedeteccioacuten sentildealan dos fechas como atiacutepicas en los dos casos agosto de 2006 y junio de 2008 como serepresenta en la Figura 515 Esto dota al estudio de confianza si todos los mecanismos sospechan dedos fechas deberaacute haber un motivo de peso algo ha sucedido en la serie para que todos concuerdenEsta idea dio lugar al desarrollo de la herramienta que se introduce en el siguiente apartado

Figura 515 Serie de tiempo referente a las afiliaciones a la seguridad social en reacutegimen mar parala provincia de Lugo identificando los atiacutepicos sentildealados de forma comuacuten por los cinco meacutetodos dedeteccioacuten

Por uacuteltimo el Cuadro 523 recoge el total de atiacutepicos detectados por cada meacutetodo en los dosescenarios con los que se ha trabajado en este capiacutetulo El primer escenario incluye datos hasta lauacuteltima fecha de 2019 si las series son mensuales este dato es el correspondiente a diciembre de 2019si son series trimestrales el uacuteltimo dato seraacute el cuarto trimestre de 2019 En el Cuadro 523 se recogede modo general para todos los conjuntos bajo el teacutermino ldquodatos hasta 2019rdquo El segundo escenariorecoge los datos hasta su uacuteltima actualizacioacuten aquiacute existe un mayor abanico de fechas como vimos alo largo de todo este capiacutetulo Los conjuntos con datos de frecuencia trimestral presentan su uacuteltimodato en el primer trimestre de 2020 por su parte los conjuntos de datos mensuales variacutean su uacuteltimaactualizacioacuten entre los meses de abril mayo o junio de 2020 En el Cuadro 523 se recoge de modogeneral para todos ellos bajo el teacutermino ldquodatos hasta 2020rdquo

66 CAPIacuteTULO 5 APLICACIOacuteN A DATOS REALES

TRAMO -SEATS

STL +HDoutliers

STL +iForest

STR +HDoutliers

STR +iForest

Tiempo de ejecucioacuten (2019) 1332 24 1782 7234 8805Tiempo de ejecucioacuten (2020) 1503 21 2042 8043 10764Atiacutepicos detectados (2019) 1490 990 794 1074 816Atiacutepicos detectados (2020) 2036 1373 989 1341 1033

Tasa de variacioacuten 3664 3869 2456 2486 2659

Cuadro 523 Tiempo de ejecucioacuten (en segundos) y total de atiacutepicos detectados por cada meacutetodo hastael uacuteltimo dato de 2019 y hasta uacuteltima actualizacioacuten de 2020 y tasa de variacioacuten que produce el efectodel Covid en los siete conjuntos de datos

El Cuadro 523 nos permite concluir que el efecto global del Covid ha supuesto un incremento enel nuacutemero de observaciones atiacutepicas puesto que todos los meacutetodos experimentan una tasa de variacioacutenpositiva sobre sus cifras de valores atiacutepicos detectados Las cifras de tasas de variacioacuten que se muestranen el Cuadro 523 sorprenden todaviacutea maacutes si analizamos el incremento en el nuacutemero de observacionesanalizadas El escenario que analiza el conjunto de datos hasta 2019 presentan un total de 90540observaciones mientras que el escenario que incluye hasta el uacuteltimo dato actualizado recoge un totalde 92731 Es decir el nuacutemero total de datos analizados se ha incrementado en poco maacutes del 2 sinembargo la tasa de variacioacuten maacutes pequentildea muestra un incremento del maacutes del 24 del nuacutemero deatiacutepicos que se presentan en el conjunto de datos

Otra medida que incluye el Cuadro 523 es el tiempo que tarda en analizar los siete conjuntosde datos cada meacutetodo recogida bajo el nombre de ldquotiempo de ejecucioacutenrdquo A traveacutes de ella podemosobservar que la diferencia entre el tiempo de ejecucioacuten es pequentildea pero existe por lo que muestra quela presencia de atiacutepicos dificulta la modelizacioacuten de la series temporales Tambieacuten podemos comprobarcomo todos los meacutetodos presentan buenas cifras en este medida los que peores resultados muestranson los meacutetodos que utilizan la descomposicioacuten STR la cual ya mencionamos su posible problemade lentitud en el Capiacutetulo 2 Por uacuteltimo es sorprendente la combinacioacuten de STL+HDoutliers que escapaz de analizar las 538 en un tiempo inferior a los tres segundos en ambos casos

52 Anaacutelisis Graacutefico

El campo de la deteccioacuten de valores atiacutepicos estaacute caracterizado por una constante incertidumbrePartiendo del inicio del trabajo ni siquiera existe una definicioacuten exacta de queacute es un valor atiacutepicosino maacutes bien se trazan definiciones en base a ideas de lo que se espera que sea un valor atiacutepico enun conjunto de datos Es por ello que dependiendo de los escenarios y las complejidades asociadas auna serie unos meacutetodos resulten maacutes efectivos que otros Este es el motivo por el que surgioacute la ideade crear una herramienta de anaacutelisis graacutefico para el estudio de series de tiempo

El objetivo de esta herramienta es la de dotar al analista de un mecanismo sencillo de implantarque le permita trazar una idea de los posibles atiacutepicos con los que podriacutea contar la serie Para ello seha creado una funcioacuten en R que solo necesita introducir la serie de tiempo para devolver el graacutefico

52 ANAacuteLISIS GRAacuteFICO 67

Ademaacutes dado que esta herramienta estaacute disentildeada especiacuteficamente para trabajar con series de tiemposu representacioacuten dariacutea lugar a lo que podriacutea denominarse un mapa de calor para zonas atiacutepicas estose muestra maacutes adelante mediante ejemplos

Esta herramienta estaacute compuesta por los meacutetodos que han mostrado mejores resultados en el estudiode simulacioacuten Cada meacutetodo ocupa una fila mostrando a lo largo de ella sus atiacutepicos sentildealados y cadacolumna es una fecha detectada por un meacutetodo De tal modo que si una fecha es detectada por todoslos meacutetodos mostraraacute una columna verde y seraacute sospecha clara de que esa fecha es atiacutepica Por otraparte si una fecha es detectada por solo un meacutetodo mostraraacute solo de color verde la celda asociada aese meacutetodo y no seraacute sentildeal tan evidente de situacioacuten atiacutepica

Para la composicioacuten del graacutefico se utilizan los meacutetodos del apartado anterior y a mayores seintroducen las versiones robustas de los meacutetodos de descomposicioacuten de series temporales STL y STREl motivo de su uso en este apartado se debe a que si bien no mostraron los mejores resultados enel estudio de simulacioacuten ahora pueden resultar de utilidad Los meacutetodos robustos pueden generaranomaliacuteas espurias cuando no existen atiacutepicos debido a que resaltan el tamantildeo del residuo de unaobservacioacuten provocando su identificacioacuten como atiacutepico sin esta serlo Sin embargo cuando se producenanomaliacuteas que ejercen un gran peso en la serie como lo sucedido durante el Covid este tipo deestimaciones son de gran intereacutes esta situacioacuten tambieacuten se justificaraacute mediante un ejemplo praacutectico

El primer ejemplo lo extraemos a traveacutes de la serie referente a la estancia media de viajeros de todaslas procedencias en establecimientos hoteleros en Galicia perteneciente al Conjunto 1 En la Figura516 mostramos la representacioacuten de la misma ahora ya mostramos hasta el uacuteltimo dato actualizadoen este caso mayo de 2020

Figura 516 Estancia media de viajeros de todas las procedencias en establecimientos hoteleros enGalicia

Esta serie parece contar con dos atiacutepicos los relacionados con las dos uacuteltimas observaciones de laserie sin embargo vamos a analizar los resultados del graacutefico comparativo

68 CAPIacuteTULO 5 APLICACIOacuteN A DATOS REALES

Figura 517 Resultados para la serie estancia media de viajeros de todas las procedencias en estable-cimientos hoteleros en Galicia del Conjunto 1

La Figura 517 muestra el graacutefico que hemos desarrollado el cual vamos a desgranar ahora paraentender su utilidad Si hubieacutesemos escogido el meacutetodo TRAMO-SEATS hubieacutesemos sentildealado tresobservaciones atiacutepicas una de ellas seriacutea enero de 2003 Sin embargo analizando los datos podemoscomprobar que este dato parece normal y estariacuteamos identificaacutendolo erroacuteneamente como anoacutemalo Dehecho solo TRAMO-SEATS sentildeala esta fecha Lo mismo sucede con otras fechas como octubre delantildeo 2000 sentildealada por solo dos meacutetodos Por otra parte todos los meacutetodos sentildealan los meses deabril y mayo de 2020 las dos uacuteltimas observaciones de la serie que en la Figura 516 mostraban uncomportamiento totalmente discordante al resto del conjunto de datos Es decir el graacutefico permitetrazar una idea concisa al analista de queacute es anoacutemalo en la serie y que pueden ser falsos positivos

Observando el graacutefico podemos tambieacuten extraer una conclusioacuten raacutepida de la posible presenciade valores atiacutepicos en la serie Se muestran dos comportamientos muy marcados El primero estariacuteadeterminado por la serie hasta el antildeo 2020 en el cual la aparicioacuten de atiacutepicos es dispersa pococoncluyente el analista puede dudar de que estas observaciones sean realmente anoacutemalas El segundoson los datos de 2020 dos columnas enteras de color verde una imagen que comunica que en eseintervalo de tiempo estaacute sucediendo algo realmente anoacutemalo

Vamos a utilizar el graacutefico con otra serie para analizar otra de las caracteriacutesticas que muestran elintereacutes de analizar una serie de tiempo a traveacutes de este graacutefico En la Figura 518 se muestra la serie detiempo perteneciente al Conjunto 3 que recoge la evolucioacuten de los contratos iniciales en Galicia Dichaserie cuenta con tres atiacutepicos claros marzo abril y mayo de 2020

52 ANAacuteLISIS GRAacuteFICO 69

Figura 518 Contratos iniciales registrados en Galicia

Haciendo uso del graacutefico comparativo Figura 519 volvemos a obtener un escenario en el queresulta de intereacutes esta herramienta En este caso el meacutetodo compuesto por STR+HDoutliers muestraun comportamiento erraacutetico que le conduce a identificar una gran cantidad de atiacutepicos de modoincorrecto Lo mismo sucede con TRAMO-SEATS que es el uacutenico que sentildeala enero de 2001 comoatiacutepico sin existir motivo en los datos para esta calificacioacuten

Por otra parte este escenario nos permite observar la utilidad de incorporar las versiones robustasSi bien se equivocan en alguacuten caso por ejemplo el meacutetodo STR+HDoutliers(Rob) sentildealando junio de2002 nos permiten calificar marzo de 2020 como atiacutepico algo que los meacutetodos que utilizan las versionesno robustas de los meacutetodos de descomposicioacuten de series temporales STR y STR no logran Todasellas se ponen de acuerdo junto a TRAMO-SEATS para la sentildealizacioacuten de este mes

Ademaacutes dado que estamos trabajando con series temporales los resultados de la graacutefica se muestranen orden cronoloacutegico en vez de por cuaacuten anoacutemala es la observacioacuten como se hace en TRAMO-SEATSo en iForest Esto nos permite entender la graacutefica como un mapa de calor Al analizar la serie siexiste un intervalo de tiempo en el que se han producido situaciones anoacutemalas como por ejemplo eneste caso los meses relacionados al Covid se veraacute reflejado en el graacutefico por una serie de columnascon muchas celdas verdes lo que daraacute a entender de manera raacutepida al analista que en ese intervalode tiempo se han producido situaciones excepcionales De este modo tambieacuten conseguimos corregirel problema de enmascaramiento que pueden sufrir los meacutetodos cuando se suceden varias situacionesatiacutepicas consecutivas

70 CAPIacuteTULO 5 APLICACIOacuteN A DATOS REALES

Figura 519 Resultados para la serie Contratos iniciales registrados en Galicia del Conjunto 3

Capiacutetulo 6

Conclusiones

El IGE cuenta con una ampliacutea base de datos que se utiliza para el estudio del contexto socio-econoacutemico en Galicia Estos datos tienen una base temporal es decir son datos referidos a un intervalode tiempo en la mayoriacutea de los casos esta periodicidad es anual trimestral o mensual La manipulacioacutende los datos puede conllevar a que se introduzcan errores humanos o de medicioacuten que provoquen quese incluyan cifras incorrectas a las bases de datos Estos errores pueden distorsionar las conclusionesde un estudio o conducir haciacutea resultados alejados de la verdadera realidad Es por ello que resultanecesario el incorporar una herramienta de deteccioacuten de valores atiacutepicos al anaacutelisis de las bases dedatos del IGE

Para ello se planteoacute una revisioacuten bibliograacutefica de los principales meacutetodos de deteccioacuten de atiacutepicosen series temporales Esta revisioacuten nos permitioacute conocer la existencia de un amplio abanico de meacuteto-dos disponibles con los cuales empezamos a trabajar para analizar su comportamiento Es aquiacute dondedecidimos descartar una serie de meacutetodos mencionados al final del Apartado 34 debido a que sufuncionamiento y sus resultados correspondiacutean a versiones inferiores de otros meacutetodos que finalmenteadoptamos Este primer estudio nos proporcionoacute los meacutetodos de deteccioacuten de atiacutepicos en series tem-porales que supondriacutean el punto de partida del trabajo X-13ARIMA-SEATS TRAMO-SEATS y lalibreriacutea de R Anomalize

La libreriacutea Anomalize tambieacuten nos sirvioacute de ayuda en el desarrollo de nuestros propios meacutetodos dedeteccioacuten de atiacutepicos para series temporales La idea sobre la que se fundamenta esta libreriacutea es la deaplicar un proceso de descomposicioacuten de series de tiempo a una serie para extraer las componentes dela estacionalidad la tendencia y un residuo para despueacutes aplicar un meacutetodo de deteccioacuten de atiacutepicossobre el residuo Dado que se han producido mejoras a los meacutetodos de descomposicioacuten y deteccioacutenque se utilizan en la libreriacutea Anomalize consideramos que una nueva combinacioacuten podriacutea reflejar unamejora en los resultados

Para comparar todos los meacutetodos de deteccioacuten de atiacutepicos en series temporales los que sirven depunto de partida del trabajo y los desarrollados por nosotros decidimos llevar a cabo un ambiciosoestudio de simulacioacuten El estudio de simulacioacuten recoge diferentes escenarios con la finalidad de repre-sentar la heterogeneidad propia de las series de tiempo referentes a variables sociales y econoacutemicas Losresultados del estudio de simulacioacuten confirman nuestra idea acerca de que una nueva combinacioacuten pue-de suponer una mejora en los resultados debido a que varias de nuestras combinaciones reflejan mejores

71

72 CAPIacuteTULO 6 CONCLUSIONES

resultados que las propuestas en la libreriacutea Anomalize Tambieacuten nos permite observar que nuestraspropuestas compiten en los resultados con un modelo tan desarrollado como TRAMO-SEATS Final-mente nos permiten descartar otros meacutetodos que siendo uacutetiles en otros campos no parecen resultaridoacuteneos para el nuestro

Tras el estudio de simulacioacuten comenzamos a utilizar los meacutetodos que habiacutean mostrado mejoresresultados con los datos proporcionados por el IGE Fue en este momento cuando nos encontramos conuna situacioacuten no contemplada en ninguacuten momento en ninguacuten escenario del estudio de simulacioacuten yen general en ninguacuten momento de lo que podriacutea ser la historia reciente como fue la crisis del Covid19Esta crisis provoca un efecto enorme en los datos del contexto gallego como se recoge a lo largo delCapiacutetulo 5 y supone un nuevo escenario en lo que a deteccioacuten de valores atiacutepicos en series temporalesse refiere

Este nuevo escenario se caracteriza por reflejar durante varios periacuteodos de tiempo consecutivosobservaciones enormemente anoacutemalas y los modelos ven empeorado su comportamiento TRAMO-SEATS y los modelos de descomposicioacuten de series de tiempo STL y STR entienden que lo que seestaacute produciendo es una tendencia decreciente de la serie Por su parte los meacutetodos de deteccioacuten deatiacutepicos HDoutliers y iForest sufren un fenoacutemeno de enmascaramiento en el que son incapaces desentildealizar todos los atiacutepicos Fue aquiacute donde decidimos crear una nueva herramienta para el anaacutelisis

El objetivo con el que creamos esta herramienta de anaacutelisis graacutefico fue el de reducir la incertidumbreque supone el campo de la deteccioacuten de atiacutepicos de un modo sencillo y directo para el analista que lautilice Ademaacutes su disentildeo estaacute pensado para el trabajo con series temporales de modo que si se sucedeun periacuteodo convulso como el actual la graacutefica podraacute ser analizada como un mapa de calor un mapade calor que transmite visualmente la idea de en queacute intervalo de tiempo la serie estaacute experimentandocomportamientos atiacutepicos

Apeacutendice A

Tablas

A1 Tablas de sensibilidad

73

74 APEacuteNDICE A TABLAS

Caso 1 Caso 2 Caso 3 Caso 4

X-13ARIMA-SEATS 0496 0854 0700 0826

TRAMO-SEATS 0657 0928 0805 0851

STL+HDoutliers 0569 0838 0570 0732

STL+GESD 0266 0590 0236 0532

STL+iForest 0636 0885 0636 0790

STL(ROB)+HDoutliers 0562 0803 0678 0712

STL(ROB)+GESD 0637 0876 0746 0754

STL(ROB)+iForest 0640 0878 0747 0786

Twitter+HDoutliers 0471 0735 0597 0620

Twitter+GESD 0306 0590 0429 0434

Twitter+iForest 0529 0801 0652 0660

STR+HDoutliers 0611 0841 0603 0672

STR+GESD 0345 0650 0292 0448

STR+iForest 0674 0885 0679 0721

STR(ROB)+HDoutliers 0542 0812 0638 0658

STR(ROB)+GESD 0381 0685 0458 0558

STR(ROB)+iForest 0623 0862 0699 0714

Cuadro A1 Resultados Escenario 1Sensibilidad AR(1)

A1 TABLAS DE SENSIBILIDAD 75

Caso 1 Caso 2 Caso 3 Caso 4

X-13ARIMA-SEATS 0505 0829 0646 0875

TRAMO-SEATS 0668 0914 0743 0888

STL+HDoutliers 0472 0729 0481 0684

STL+GESD 0217 0457 0148 0428

STL+iForest 0506 0784 0525 0716

STL(ROB)+HDoutliers 0469 0735 0588 0648

STL(ROB)+GESD 0529 0775 0665 0668

STL(ROB)+iForest 0526 0803 0666 0716

Twitter+HDoutliers 0465 0698 0596 0646

Twitter+GESD 0349 0630 0483 0486

Twitter+iForest 0512 0778 0663 0692

STR+HDoutliers 0588 0823 0573 0664

STR+GESD 0298 0602 0247 0449

STR+iForest 0630 0869 0651 0721

STR(ROB)+HDoutliers 0521 0788 0611 0649

STR(ROB)+GESD 0336 0628 0406 0520

STR(ROB)+iForest 0582 0839 0691 0711

Cuadro A2 Resultados Escenario 2 Sensibilidad MA(1)

76 APEacuteNDICE A TABLAS

Caso 1 Caso 2 Caso 3 Caso 4

X-13ARIMA-SEATS 0922 0971 0927 0983

TRAMO-SEATS 0923 0972 0923 0982

STL+HDoutliers 0312 0508 0241 0440

STL+GESD 0089 0230 0051 0152

STL+iForest 0343 0578 0284 0454

STL(ROB)+HDoutliers 0261 0435 0297 0333

STL(ROB)+GESD 0311 0527 0393 0322

STL(ROB)+iForest 0298 0501 0336 0362

Twitter+HDoutliers 0064 0112 0127 0066

Twitter+GESD 0028 0040 0069 0032

Twitter+iForest 0079 0129 0169 0070

STR+HDoutliers 0407 0563 0348 0440

STR+GESD 0204 0367 0109 0230

STR+iForest 0445 0617 0389 0495

STR(ROB)+HDoutliers 0243 0397 0254 0272

STR(ROB)+GESD 0209 0391 0225 0259

STR(ROB)+iForest 0282 0455 0284 0293

Cuadro A3 Resultados Escenario 3 Sensibilidad ARIMA(011)

A1 TABLAS DE SENSIBILIDAD 77

Caso 1 Caso 2 Caso 3 Caso 4

X-13ARIMA-SEATS 0403 0593 0068 0816

TRAMO-SEATS 0542 0707 0072 0814

STL+HDoutliers 0005 0004 0016 0004

STL+GESD 0000 0001 0004 0000

STL+iForest 0003 0003 0015 0005

STL(ROB)+HDoutliers 0007 0007 0037 0004

STL(ROB)+GESD 0009 0021 0099 0029

STL(ROB)+iForest 0006 0008 0036 0005

Twitter+HDoutliers 0001 0000 0001 0008

Twitter+GESD 0006 0009 0012 0023

Twitter+iForest 0001 0000 0005 0018

STR+HDoutliers 0370 0428 0006 0088

STR+GESD 0424 0462 0000 0138

STR+iForest 0418 0479 0004 0103

STR(ROB)+HDoutliers 0028 0019 0011 0076

STR(ROB)+GESD 0064 0063 0051 0140

STR(ROB)+iForest 0022 0014 0010 0027

Cuadro A4 Resultados Escenario 4 Sensibilidad ARIMA(011)x(011)12

78 APEacuteNDICE A TABLAS

Caso 1 Caso 2 Caso 3 Caso 4

X-13ARIMA-SEATS 0266 0629 0177 0574

TRAMO-SEATS 0400 0750 0251 0618

STL+HDoutliers 0247 0477 0291 0130

STL+GESD 0093 0260 0160 0024

STL+iForest 0270 0536 0312 0138

STL(ROB)+HDoutliers 0278 0489 0358 0102

STL(ROB)+GESD 0400 0688 0478 0132

STL(ROB)+iForest 0314 0553 0398 0133

Twitter+HDoutliers 0254 0439 0363 0108

Twitter+GESD 0176 0385 0317 0064

Twitter+iForest 0274 0486 0388 0131

STR+HDoutliers 0664 0895 0240 0760

STR+GESD 0425 0770 0065 0567

STR+iForest 0724 0939 0283 0800

STR(ROB)+HDoutliers 0197 0334 0220 0529

STR(ROB)+GESD 0190 0333 0207 0692

STR(ROB)+iForest 0235 0369 0238 0591

Cuadro A5 Resultados Escenario 5 Sensibilidad ARIMA(101)x(012)12

A1 TABLAS DE SENSIBILIDAD 79

Caso 1 Caso 2 Caso 3 Caso 4

X-13ARIMA-SEATS 0333 0662 0355 0618

TRAMO-SEATS 0460 0767 0480 0656

STL+HDoutliers 0521 0798 0502 0629

STL+GESD 0230 0559 0188 0328

STL+iForest 0565 0836 0572 0651

STL(ROB)+HDoutliers 0519 0788 0605 0601

STL(ROB)+GESD 0541 0828 0676 0561

STL(ROB)+iForest 0566 0843 0668 0648

Twitter+HDoutliers 0246 0423 0362 0212

Twitter+GESD 0104 0232 0187 0102

Twitter+iForest 0284 0456 0398 0230

STR+HDoutliers 0527 0788 0444 0641

STR+GESD 0279 0585 0152 0386

STR+iForest 0600 0825 0499 0685

STR(ROB)+HDoutliers 0407 0674 0497 0550

STR(ROB)+GESD 0277 0527 0352 0404

STR(ROB)+iForest 0462 0735 0573 0582

Cuadro A6 Resultados Escenario 6 Sensibilidad ARIMA(111)x(101)12

80 APEacuteNDICE A TABLAS

Caso 1 Caso 2 Caso 3 Caso 4

X-13ARIMA-SEATS 0299 0638 0335 0632

TRAMO-SEATS 0424 0717 0432 0801

STL+HDoutliers 0432 0705 0397 0626

STL+GESD 0177 0416 0109 0351

STL+iForest 0514 0762 0463 0530

STL(ROB)+HDoutliers 0441 0686 0494 0613

STL(ROB)+GESD 0461 0731 0556 0584

STL(ROB)+iForest 0491 0723 0548 0528

Twitter+HDoutliers 0280 0471 0387 0354

Twitter+GESD 0129 0288 0191 0147

Twitter+iForest 0008 0017 0051 0050

STR+HDoutliers 0456 0700 0467 0568

STR+GESD 0203 0439 0167 0274

STR+iForest 0515 0778 0443 0638

STR(ROB)+HDoutliers 0424 0687 0510 0554

STR(ROB)+GESD 0262 0524 0330 0366

STR(ROB)+iForest 0349 0562 0413 0388

Cuadro A7 Resultados Escenario 7 Sensibilidad ARIMA(112)x(011)12

A1 TABLAS DE SENSIBILIDAD 81

Caso 1 Caso 2 Caso 3 Caso 4

X-13ARIMA-SEATS 0299 0638 0335 0632

TRAMO-SEATS 0424 0717 0432 0801

STL+HDoutliers 0432 0705 0397 0626

STL+GESD 0177 0416 0109 0351

STL+iForest 0485 0738 0428 0665

STL(ROB)+HDoutliers 0441 0686 0494 0613

STL(ROB)+GESD 0461 0731 0556 0584

STL(ROB)+iForest 0494 0755 0566 0678

Twitter+HDoutliers 0280 0471 0387 0354

Twitter+GESD 0129 0288 0191 0147

Twitter+iForest 0306 0509 0430 0359

STR+HDoutliers 0456 0700 0467 0568

STR+GESD 0203 0439 0167 0274

STR+iForest 0497 0772 0507 0602

STR(ROB)+HDoutliers 0424 0687 0510 0554

STR(ROB)+GESD 0262 0524 0330 0366

STR(ROB)+iForest 0465 0755 0577 0590

Cuadro A8 Resultados Escenario 8 Sensibilidad ARIMA(011)x(100)12

82 APEacuteNDICE A TABLAS

A2 Tablas de exceso

Caso 1 Caso 2 Caso 3 Caso 4

X-13ARIMA-SEATS 0078 0077 0066 0042

TRAMO-SEATS 0211 0208 0222 0056

STL+HDoutliers 0788 0829 0805 1534

STL+GESD 0056 0055 0045 0031

STL+iForest 0406 0300 0404 0659

STL(ROB)+HDoutliers 1162 1242 1212 1714

STL(ROB)+GESD 1411 1417 1416 0461

STL(ROB)+iForest 0637 0468 0575 0859

Twitter+HDoutliers 0930 0955 0905 1487

Twitter+GESD 0257 0273 0254 0069

Twitter+iForest 0538 0412 0490 0776

STR+HDoutliers 0759 0810 0759 1464

STR+GESD 0053 0062 0046 0024

STR+iForest 0403 0301 0381 0725

STR(ROB)+HDoutliers 0749 0842 0758 1460

STR(ROB)+GESD 0199 0196 0192 0099

STR(ROB)+iForest 0427 0315 0413 0749

Cuadro A9 Resultados Escenario 1 Exceso AR(1)

A2 TABLAS DE EXCESO 83

Caso 1 Caso 2 Caso 3 Caso 4

X-13ARIMA-SEATS 0054 0058 0066 0058

TRAMO-SEATS 0144 0138 0175 0061

STL+HDoutliers 0695 0772 0759 1472

STL+GESD 0034 0038 0050 0016

STL+iForest 0443 0318 0425 0706

STL(ROB)+HDoutliers 1168 1221 1180 1703

STL(ROB)+GESD 1309 1349 1415 0418

STL(ROB)+iForest 0682 0528 0621 0877

Twitter+HDoutliers 0836 0832 0911 1577

Twitter+GESD 0313 0329 0334 0061

Twitter+iForest 0552 0417 0483 0755

STR+HDoutliers 0798 0885 0694 1541

STR+GESD 0054 0064 0044 0018

STR+iForest 0407 0302 0396 0724

STR(ROB)+HDoutliers 0725 0776 0745 1516

STR(ROB)+GESD 0134 0143 0142 0076

STR(ROB)+iForest 0435 0312 0372 0727

Cuadro A10 Resultados Escenario 2 Exceso MA(1)

84 APEacuteNDICE A TABLAS

Caso 1 Caso 2 Caso 3 Caso 4

X-13ARIMA-SEATS 0106 0060 0101 0070

TRAMO-SEATS 0179 0123 0175 0085

STL+HDoutliers 0638 0635 0686 1376

STL+GESD 0052 0054 0067 0020

STL+iForest 0448 0346 0468 0867

STL(ROB)+HDoutliers 0932 0905 1010 1604

STL(ROB)+GESD 2339 2311 2338 1863

STL(ROB)+iForest 0705 0573 0695 1281

Twitter+HDoutliers 0311 0285 0311 0743

Twitter+GESD 1302 1282 1331 1946

Twitter+iForest 0167 0153 0175 0645

STR+HDoutliers 0672 0703 0623 1364

STR+GESD 0180 0183 0119 0050

STR+iForest 0372 0297 0393 0899

STR(ROB)+HDoutliers 0598 0568 0588 1225

STR(ROB)+GESD 1030 1008 0999 1341

STR(ROB)+iForest 0463 0383 0464 1108

Cuadro A11 Resultados Escenario 3 Exceso ARIMA(011)

A2 TABLAS DE EXCESO 85

Caso 1 Caso 2 Caso 3 Caso 4

X-13ARIMA-SEATS 0132 0120 0062 0274

TRAMO-SEATS 0198 0180 0075 0274

STL+HDoutliers 0832 0823 0837 1337

STL+GESD 0231 0225 0226 0165

STL+iForest 0727 0710 0718 1237

STL(ROB)+HDoutliers 1197 1152 1186 1230

STL(ROB)+GESD 4756 4699 4689 7954

STL(ROB)+iForest 0992 0993 0983 1514

Twitter+HDoutliers 0144 0162 0182 0376

Twitter+GESD 3050 2761 2813 6058

Twitter+iForest 0123 0128 0121 0508

STR+HDoutliers 1108 1135 1027 1454

STR+GESD 1469 1679 0582 4430

STR+iForest 0732 0674 0882 1653

STR(ROB)+HDoutliers 1382 1266 0876 10915

STR(ROB)+GESD 4452 4583 4289 19321

STR(ROB)+iForest 0831 0845 0828 1858

Cuadro A12 Resultados Escenario 4 Exceso ARIMA(011)x(011)12

86 APEacuteNDICE A TABLAS

Caso 1 Caso 2 Caso 3 Caso 4

X-13ARIMA-SEATS 0109 0123 0111 0069

TRAMO-SEATS 0239 0301 0312 0139

STL+HDoutliers 0869 0762 0986 1367

STL+GESD 0170 0170 0198 0244

STL+iForest 0667 0475 0712 1291

STL(ROB)+HDoutliers 1328 1357 1499 1287

STL(ROB)+GESD 2517 2530 2919 5438

STL(ROB)+iForest 0992 0813 0978 1444

Twitter+HDoutliers 1041 0966 1065 1383

Twitter+GESD 0796 0854 0830 2221

Twitter+iForest 0808 0655 0735 1412

STR+HDoutliers 0799 0979 0846 1551

STR+GESD 0101 0087 0083 0029

STR+iForest 0383 0286 0619 0669

STR(ROB)+HDoutliers 0764 0759 0755 1692

STR(ROB)+GESD 1600 1591 1490 8145

STR(ROB)+iForest 0603 0492 0593 0894

Cuadro A13 Resultados Escenario 5 Exceso ARIMA(101)x(012)12

A2 TABLAS DE EXCESO 87

Caso 1 Caso 2 Caso 3 Caso 4

X-13ARIMA-SEATS 0179 0167 0141 0096

TRAMO-SEATS 0307 0299 0297 0127

STL+HDoutliers 0792 0783 0775 1598

STL+GESD 0052 0050 0049 0030

STL+iForest 0452 0306 0459 0748

STL(ROB)+HDoutliers 1193 1207 1269 1697

STL(ROB)+GESD 1290 1324 1270 0437

STL(ROB)+iForest 0708 0531 0670 0952

Twitter+HDoutliers 0690 0698 0676 1157

Twitter+GESD 0266 0257 0225 0523

Twitter+iForest 0538 0416 0459 1063

STR+HDoutliers 0740 0853 0796 1429

STR+GESD 0065 0077 0063 0036

STR+iForest 0432 0311 0493 0750

STR(ROB)+HDoutliers 0749 0799 0717 1477

STR(ROB)+GESD 0317 0291 0254 0167

STR(ROB)+iForest 0502 0373 0463 0839

Cuadro A14 Resultados Escenario 6 Exceso ARIMA(111)x(101)12

88 APEacuteNDICE A TABLAS

Caso 1 Caso 2 Caso 3 Caso 4

X-13ARIMA-SEATS 0147 0138 0115 0081

TRAMO-SEATS 0278 0285 0287 0261

STL+HDoutliers 0788 0815 0776 1392

STL+GESD 0045 0047 0042 0031

STL+iForest 0471 0337 0478 0842

STL(ROB)+HDoutliers 1122 1183 1194 1785

STL(ROB)+GESD 1364 1387 1340 0670

STL(ROB)+iForest 0720 0559 0711 1100

Twitter+HDoutliers 0125 0109 0084 0092

Twitter+GESD 3247 3207 3185 7613

Twitter+iForest 0087 0066 0073 0294

STR+HDoutliers 0854 0807 0773 1430

STR+GESD 0069 0069 0050 0036

STR+iForest 0438 0357 0484 0793

STR(ROB)+HDoutliers 0765 0755 0725 1370

STR(ROB)+GESD 0434 0489 0510 0536

STR(ROB)+iForest 0581 0471 0547 1064

Cuadro A15 Resultados Escenario 7 Exceso ARIMA(112)x(011)12

A2 TABLAS DE EXCESO 89

Caso 1 Caso 2 Caso 3 Caso 4

X-13ARIMA-SEATS 0090 0095 0104 0056

TRAMO-SEATS 0487 0475 0494 0446

STL+HDoutliers 0734 0814 0749 1507

STL+GESD 0068 0059 0052 0025

STL+iForest 0496 0352 0479 0747

STL(ROB)+HDoutliers 1157 1098 1083 1660

STL(ROB)+GESD 1232 1281 1260 0294

STL(ROB)+iForest 0764 0566 0687 0918

Twitter+HDoutliers 0859 0822 0860 1415

Twitter+GESD 0214 0209 0217 0114

Twitter+iForest 0606 0526 0550 1031

STR+HDoutliers 0797 0792 0778 1469

STR+GESD 0048 0059 0042 0017

STR+iForest 0461 0336 0464 0782

STR(ROB)+HDoutliers 0786 0726 0699 1494

STR(ROB)+GESD 0159 0146 0145 0072

STR(ROB)+iForest 0520 0359 0433 0830

Cuadro A16 Resultados Escenario 8 Exceso ARIMA(011)x(100)12

90 APEacuteNDICE A TABLAS

Bibliografiacutea

Abraham B y Box G E P (1979) Bayesian analysis of some outlier problems in time seriesBiometrika 66 (2) 229ndash236

Barnett V y Lewis T (1996) Outliers in statistical data 3rd edition (John Wiley amp Sons Chi-chester) 584 pp [UK pound]5500 ISBN 0-471-93094-6 International Journal of Forecasting 12 (1) 175-176

Bell W (1983) A computer program for detecting outliers in time series Proceedings of the AmericanStatistical Association Business and Economic Statistics Section 634-639

Box G y Jenkins G (1976) Time series analysis forecasting and control En (Vol 134) doi1023072344246

Box G E P y Tiao G C (1975) Intervention analysis with applications to economic and environ-mental problems Journal of the American Statistical Association 70 (349) 70ndash79

Breunig M Kriegel H-P Ng R y Sander J (2000) Lof Identifying density-based local outliersEn (Vol 29 p 93-104) doi 101145342009335388

Chang I Tiao G y Chen C (1988) Estimation of time series parameters in the presence of outliersTechnometrics 30 193-204 doi 10108000401706198810488367

Chang I y Tiao G C (1983) Estimation of time series parameters in the presence of outliersTechnical Report 8 University of Chicago Statistics Research Center 30

Chauvenet W (1963) A manual of spherical and practical astronomy volume 2 474-566Chen C y Liu L-M (1993) Joint estimation of model parameters and outlier effects in time series

Journal of the American Statistical Association 88 (421) 284ndash297Cleveland R B Cleveland W S McRae J E y Terpenning I (1990) STL A seasonal-trend

decomposition procedure based on Loess Journal of Official Statistics 6 Dancho M y Vaughan D (2019) Anomalize Tidy anomaly detection [Manual de software informaacute-

tico]Datacamp (2018) Detect anomalies with anomalize in r httpswwwdatacampcomcommunity

tutorialsdetect-anomalies-anomalize-r (Visitado 2020-06-16)de Lacalle J L (2015) Detection of outliers in time series with r httpsjalobecomtsoutliers

(Visitado 2020-03-16)de Lacalle J L (2019) Detection of outliers in time series [Manual de software informaacutetico] https

cranr-projectorgwebpackagestsoutlierstsoutlierspdfDokumentov A y Hyndman R J (2015) STR A seasonal-trend decomposition procedure based

on Regression

91

92 BIBLIOGRAFIacuteA

Dokumentov A y Hyndman R J (2018) str Str decomposition [Manual de software informaacutetico](httpscranr-projectorgwebpackagesstRindexhtml)

Fraley C y Wilkinson L (2020) Hdoutliers Leland wilkinsonrsquos algorithm for detecting multidimen-sionaloutliers [Manual de software informaacutetico]

Goacutemez V y Maravall A (1997) Programs tramo and seats instructions for the user Mimeo Bancode Espantildea

Goacutemez V y Taguas D (1995) Deteccioacuten y correccioacuten automaacutetica de outliers con tramo Unaaplicacioacuten al ipc de bienes industriales no energeacuteticos

Grubbs F (1950) Sample criteria for testing outlying observations The Annals of MathematicalStatistics 21 doi 101214aoms1177729885

Hawkins D (1980) Identification of outliers London [ua] Chapman and HallHochenbaum J Vallis O y Kejariwal A (2017) Automatic anomaly detection in the cloud via

statistical learningHoerl A y Kennard R (1970) Ridge regression Biased estimation for nonorthogonal problems

Technometrics 8 27-51Hyndman R (2020) Forecasting functions for time series and linear models [Manual de software

informaacutetico] httpscranr-projectorgwebpackagesforecastforecastpdfla Tente A Q Michalek A Palate J y Baeyens R (2020) Rjdemetra Interface to rsquojdemetra+rsquo

seasonal adjustment software [Manual de software informaacutetico]Liu F T Ting K y Zhou Z-H (2009) Isolation forest En (p 413 - 422) doi 101109

ICDM200817Mahdavinejad M S Rezvan M Barekatain M Adibi P Barnaghi P y Sheth A P (2018)

Machine learning for internet of things data analysis a survey Digital Communications andNetworks 4 (3) 161 - 175 doi httpsdoiorg101016jdcan201710002

Moore D y McCabe G (1999) Introduction to the practice of statistics WH FreemanOtto M y Bell W (1990) Two issues in time series outlier detection using indicator variables

Proceedings of the American Statistical Association Business and Economic Statistics Section182-187

Peirce B (1852) Criterion for rejection of doubtful observations The Astronomical Journal 2 161-163 doi 101086100259

Pentildea D (2010) Anaacutelisis de series temporales Alianza EditorialRosner B (1975) On the detection of many outliers Technometrics 17 221-227 doi 101080

00401706197510489305Rosner B (1983) Percentagepoints for a generalized esd many-outier procedure Technometrics 25

165-172 doi 10108000401706198310487848Rousseeuw P y Hubert M (2011) Robust statistics for outlier detection Wiley Interdisc Rew

Data Mining and Knowledge Discovery 1 73-79 doi 101002widm2Shan G (2015) Improved confidence intervals for the youden index

doi 01371journalpone0127272Shiskin J Young A y Musgrave J (1967) The x-11 variant of the census method ii seasonal

adjustment program

BIBLIOGRAFIacuteA 93

Srikanth K S (2017) solitude An implementation of isolation forest [Manual de software informaacutetico](R package version 021 mdash For new features see the rsquoSolitudersquo file (in the package source))

Thompson W (1935) On a criterion for the rejection of observations and the distribution of theratio of deviation to sample standard deviation The Annals of Mathematical Statistics 6 doi101214aoms1177732567

Tibshirani R (1996) Regression shrinkage and selection via the lasso Journal of the Royal StatisticalSociety Series B (Methodological) 58 267-288 doi 101111j2517-61611996tb02080x

Time Series Research Staff (2017) X-13ARIMA-SEATS Reference Manual Center for StatisticalResearch and Methodology

Tsay R S (1986) Time series model specification in the presence of outliers Journal of the AmericanStatistical Association 81 (393) 132ndash141

Tsay R S y Tiao G C (1984) Consistent estimates of autoregressive parameters and extendedsample autocorrelation function for stationary and nonstationary arma models Journal of theAmerican Statistical Association 79 (385) 84ndash96

Tukey J W (1977) Exploratory data analysis Addison-WesleyTwitter Inc (2015) Anomalydetection r package GitHub (httpsgithubcomtwitter

AnomalyDetection)Wilkinson L (2017) Visualizing big data outliers through distributed aggregation IEEE Transactions

on Visualization and Computer Graphics PP 1-1 doi 101109TVCG20172744685Woodward W A Gray H L y Elliott A C (2017) Applied time series analysis with r second

edition Journal of Time Series Analysis 39 618 doi 101111jtsa12273Youden W (1950) Youden wjindex for rating diagnostic tests cancer 3(1) 32-35 Cancer 3 32-5

doi 1010021097-0142(1950)3130CO2-3

  • Resumen
  • Introduccioacuten
  • Modelizacioacuten de series temporales
    • Conceptos baacutesicos
    • Meacutetodos de modelizacioacuten de series temporales
      • X-13ARIMA-SEATS
      • TRAMO-SEATS
      • STL
      • STR
      • Twitter
        • Resumen meacutetodos de modelizacioacuten de series temporales
          • Deteccioacuten de valores atiacutepicos
            • Conceptos baacutesicos
            • Meacutetodos de deteccioacuten de valores atiacutepicos
              • X-13ARIMA-SEATS
              • TRAMO-SEATS
              • GESD
              • Isolation Forest
              • HDoutliers
                • Resumen meacutetodos de deteccioacuten de valores atiacutepicos
                • Meacutetodos de deteccioacuten de valores atiacutepicos en series temporales
                  • Estudio de simulacioacuten
                    • Escenarios
                    • Iacutendice de Youden
                    • Resultados
                    • Conclusiones
                      • Aplicacioacuten a datos reales
                        • Anaacutelisis Series IGE
                        • Anaacutelisis Graacutefico
                          • Conclusiones
                          • Tablas
                            • Tablas de sensibilidad
                            • Tablas de exceso
                              • Bibliografiacutea
Page 9: Trabajo Fin de Máster - USC

Resumen

Resumen en espantildeol

El objetivo de este trabajo es el de realizar un anaacutelisis acerca de la presencia de valores atiacutepicos enlos diferentes conjuntos de datos del Instituto Gallego de Estadiacutestica Para ello realizamos una revisioacutenbibliograacutefica que nos permite conocer los meacutetodos actuales y el recorrido que se produjo hasta llegar alos mismos A traveacutes de esta revisioacuten comprendemos la idea que se esconde detraacutes de la deteccioacuten devalores atiacutepicos en series temporales y somos capaces de proponer nuestros propios meacutetodos

Para comparar el comportamiento de los diferentes meacutetodos realizamos un estudio de simulacioacutenel cual nos sirve para contrastar el buen comportamiento de nuestras propuestas y para descartar otrosmeacutetodos

Finalmente aplicamos los meacutetodos que han reflejado un comportamiento maacutes consistente en elestudio de simulacioacuten y analizamos el efecto del Covid19 en el incremento de valores atiacutepicos en losconjuntos de datos Ademaacutes con el objetivo de reducir la incertidumbre asociada al campo de ladeteccioacuten de valores atiacutepicos introducimos una nueva herramienta graacutefica

English abstract

The aim of this project is to carry out an analysis about the presence of outliers in the differentdata sets of the Galician Institute of Statistics We carried out a bibliographic review that allows us toknow the current methods and the route that took place until we reached them Through this reviewwe understand the idea behind the detection of outliers in time series and we are able to propose ourown methods

To compare the behavior of the different methods we carried out a simulation study which helpsus compare the good behavior of our proposals and to rule out other methods

Finally we applied the methods that have reflected a more consistent behavior in the simulationstudy and analyzed the effect of Covid19 on the increase of outliers in the data sets Furthermore withthe aim of reducing the uncertainty associated with the field of outlier detection we introduced a newgraphical tool

ix

x RESUMEN

Capiacutetulo 1

Introduccioacuten

El Instituto Galego de Estadiacutestica (IGE) es un organismo autoacutenomo de la Xunta de Galicia creadoen el antildeo 1988 cuyo objetivo es el de promover el desarrollo del sistema estadiacutestico de la comunidadautoacutenoma mediante servicios de recopilacioacuten y difusioacuten de la documentacioacuten estadiacutestica disponibledesenvolver bases de datos de intereacutes puacuteblico analizar las necesidades y la evolucioacuten de la demandade estadiacutesticas y asegurar su difusioacuten El IGE se erige por tanto como una de las principales fuentesde informacioacuten de datos de caraacutecter socioeconoacutemico de Galicia y de sus divisiones territoriales

Al igual que el resto de organismos del mismo aacutembito el IGE estaacute experimentando un incrementocontinuo tanto en la generacioacuten como en el almacenamiento de datos Es por esto que se hace devital importancia el incorporar una herramienta que nos permita identificar de un modo automaacuteticoposibles candidatos a valores atiacutepicos dentro de nuestros conjuntos de datos

Un dato atiacutepico o outlier en ingleacutes es una observacioacuten anoacutemala en comparacioacuten con el restode datos contenidos en un determinado conjunto de datos Puede deberse a diversos motivos desdeerrores humanos errores relacionados con la medicioacuten grabacioacuten e introduccioacuten de los datos hastacausas como que el dato procede de una poblacioacuten diferente de la que se pretende estudiar

Existen multitud de definiciones que nos permiten dibujarnos una idea de a queacute nos referimoscuando hablamos de valores atiacutepicos

ldquoUn dato atiacutepico es una observacioacuten que se desviacutea tanto del resto de observaciones como paracrear la sospecha de que fue creada por un mecanismo generador diferenterdquo - Hawkins (1980)

ldquoUn dato atiacutepico es una observacioacuten (o conjunto de observaciones) que son inconsistentes con elresto de datosrdquo - Barnett y Lewis (1996)

ldquoUn outlier es una observacioacuten que se encuentra fuera del patroacuten general de una distribucioacutenrdquo-Moore y McCabe (1999)

ldquoLos datos atiacutepicos pueden ser dependiendo de la circunstancia errores no deseados que puedenafectar negativamente al resultado o valiosas pepitas de informacioacuten inesperadardquo- Rousseeuw yHubert (2011)

Eliminar un dato de una muestra por haberlo considerado atiacutepico puede llevar a perder informacioacutenrelevante debido a una singularidad del mecanismo generador y a su vez incluir un dato atiacutepico en una

1

2 CAPIacuteTULO 1 INTRODUCCIOacuteN

muestra puede confundir los resultados Ambos casos alteran los anaacutelisis posteriores y pueden dirigira conclusiones incorrectas si se llegara a tomar la decisioacuten equivocada Por lo tanto la importanciareside en identificar de manera adecuada queacute datos son atiacutepicos y cuaacuteles no

Esta identificacioacuten seraacute de gran utilidad dado que permitiraacute tanto realizar mejores anaacutelisis comopoder interpretar sucesos relevantes en el contexto socio-econoacutemico gallego

El problema de la deteccioacuten de atiacutepicos es un tema ampliamente tratado en la literatura por loque nuestro trabajo consistiraacute en realizar un estudio comparativo de los meacutetodos maacutes comunes en laactualidad y plantear posibles mejoras

Uno de los criterios a los que le prestaremos mayor atencioacuten en este estudio seraacute a la sensibilidaddel meacutetodo dado que si este es muy sensible e identifica muchos candidatos como atiacutepicos no serviraacute degran ayuda Por otra parte si apenas sentildeala ninguacuten caso seraacute similar a no aplicar ninguna herramientade deteccioacuten

Para estudiar este comportamiento realizaremos un estudio de simulacioacuten en el que a traveacutes devalores atiacutepicos previamente identificados podremos analizar el comportamiento de cada meacutetodoAdemaacutes dado que trabajamos con un gran volumen de datos una caracteriacutestica que se les exigiraacute alos meacutetodos seraacute una raacutepida velocidad de ejecucioacuten

La deteccioacuten de datos atiacutepicos tiene aplicaciones en muchos aacutembitos deteccioacuten de operacionesfraudulentas en tarjetas de creacutedito solicitudes para preacutestamos de clientes potencialmente morososdeteccioacuten de intrusiones en redes de comunicacioacuten monitorizacioacuten de paraacutemetros de fabricacioacuten paradeteccioacuten de producciones defectuosas anomaliacuteas en monitorizaciones meacutedicas anaacutelisis electoraleslimpieza de datos prediccioacuten del tiempo o hasta en astronomiacutea donde un punto anoacutemalo puedeimplicar el descubrimiento de una nueva estrella

En este trabajo nos centraremos en datos reales provenientes de la paacutegina web del IGE recogidosen siete conjuntos

Conjunto 1 Viajeros noches y estancia media en establecimientos hoteleros y de turismo ruralen Espantildea Galicia y sus provincias Datos mensuales Los datos proceden del Instituto Nacio-nal de Estadiacutestica (INE) de la Encuesta de ocupacioacuten hotelera y la Encuesta de ocupacioacuten enalojamientos de turismo rural (httpwwwigeeuigebdtigeapidatos3476)

Conjunto 2 Poblacioacuten de 16 y maacutes antildeos por sexo grupos de edad y relacioacuten con la actividadeconoacutemica en Galicia Datos trimestrales Los datos proceden de la Encuesta de Poblacioacuten Activa(EPA) elaborada conjuntamente entre el INE y el IGE (httpwwwigeeuigebdtigeapidatos6356)

Conjunto 3 Contratos registrados seguacuten su modalidad Datos mensuales Esta informacioacuten proce-de de la Estadiacutestica de contratos registrados elaborada por el Servicio Puacuteblico de Empleo Estatal(SEPE) (httpwwwigeeuigebdtigeapidatos308)

Conjunto 4 Iacutendice de produccioacuten industrial general y por destino econoacutemico de los bienes en Ga-licia (Base 2015) Datos mensuales La informacioacuten procede del Iacutendice de Produccioacuten Industrialoperacioacuten estadiacutestica ejecutada por el INE (httpwwwigeeuigebdtigeapidatos9048)

Conjunto 5 Transacciones inmobiliarias por reacutegimen y tipo de vivienda Nuacutemero valor totaly valor medio Datos trimestrales La fuente de esta informacioacuten es el Ministerio de Fomento y

3

hace referencia a la compraventa de viviendas elevadas a escritura puacuteblica ante notario (httpwwwigeeuigebdtigeapidatos4052)

Conjunto 6 Bajas de demandas de empleo seguacuten geacutenero y duracioacuten de la demanda en Galiciay sus provincias Datos mensuales La fuente de esta informacioacuten es el SEPE y hace referenciaa las bajas que los servicios de empleo puacuteblico tuvieron debido a una colocacioacuten no hacer larenovacioacuten de la demanda en el periodo establecido o por otras causas (httpwwwigeeuigebdtigeapidatos1243)

Conjunto 7 Afiliaciones a la Seguridad Social uacuteltimo diacutea del mes en Galicia y sus provinciasDatos mensuales La informacioacuten procede del Ministerio de Seguridad Social y Migraciones yhace referencia a las personas trabajadoras que estaacuten en alta en la Seguridad Social (httpwwwigeeuigebdtigeapidatos4885)

Los motivos por los que se han escogido estos conjuntos obedece a diversas razones En primerlugar el maacutes importante incluir series en las que existe el conocimiento de que se presentan atiacutepicosA partir de ahiacute se ha conformado un conjunto de series que permitiesen recoger la mayor amalgamade naturalezas posibles que se presentan en las series que trata el IGE mercado laboral turismoconstruccioacuten o industria Seriacutean aacutembitos que se recogen a lo largo de la seleccioacuten de datos realizadaAdemaacutes se han incorporado series con distinta frecuencia de obtencioacuten tanto series mensuales comotrimestrales

En este trabajo se recoge una comparativa de meacutetodos los cuales se pueden englobar bajo dosvisiones de coacutemo abordar la identificacioacuten de anomaliacuteas en series de tiempo Por un lado existen losmeacutetodos cuyo mecanismo se fundamenta en modelos de series temporales que realizan un procesoiterativo para estimar el modelo integrando la posible influencia de observaciones atiacutepicas Por el otrouna visioacuten maacutes reciente se plantea a traveacutes de realizar un proceso de deteccioacuten en dos partes en laprimera se le aplica a la serie de tiempo un meacutetodo de descomposicioacuten para despueacutes aplicar un meacutetodode deteccioacuten de atiacutepicos sobre el residuo

Dado que ambos enfoques comparten un nexo comuacuten como es la modelizacioacuten de la serie de tiempoy la localizacioacuten de atiacutepicos las podemos tratar conjuntamente en dos capiacutetulos el Capiacutetulo 2 y elCapiacutetulo 3

En el Capiacutetulo 2 se estudian las propiedades de modelizacioacuten de cada meacutetodo La importancia deun buen meacutetodo de modelizacioacuten de series temporales reside en que cuanto mejor se consiga extraer elmecanismo generador de la serie de tiempo maacutes resaltaraacuten las observaciones atiacutepicas En el Capiacutetulo 3se describen los meacutetodos de deteccioacuten de atiacutepicos Estos dos capiacutetulos conforman la parte teoacuterica deltrabajo

Para estudiar el comportamiento de los diferentes meacutetodos se plantea un profundo estudio desimulacioacuten en el Capiacutetulo 4 en el que se utiliza el Iacutendice de Youden como herramienta discriminatoriaacerca de queacute meacutetodos ofrecen mejores resultados En el Capiacutetulo 5 se tratan los datos proporcionadospor el IGE a traveacutes de los meacutetodos que han presentado un mejor comportamiento en el estudio desimulacioacuten Para finalizar el Capiacutetulo 6 expone las conclusiones que hemos extraiacutedo a lo largo de larealizacioacuten de este trabajo

4 CAPIacuteTULO 1 INTRODUCCIOacuteN

Capiacutetulo 2

Modelizacioacuten de series temporales

21 Conceptos baacutesicos

En este apartado definiremos los elementos principales que rodean a las series de tiempo Para ellopodemos echar mano de infinidad de manuales dado que las mismas son objeto de estudio en multitudde campos desde las ciencias sociales y econoacutemicas hasta ramas que requieren de un bagaje muchomaacutes matemaacutetico En este trabajo haremos uso de Pentildea (2010) y Woodward Gray y Elliott (2017)

En la estadiacutestica baacutesica estamos acostumbrados a trabajar con una muestra donde las observacio-nes X1 X2 Xn son variables aleatorias independientes e ideacutenticamente distribuidas Sin embargocuando las muestras se extraen en base a instantes de tiempo es muy probable que las observacionesesteacuten correlacionadas entre si Este tipo de muestras con dependencia temporal se denominan series detiempo Es decir una serie de tiempo es una secuencia de observaciones ordenadas cronoloacutegicamente

Este tipo de datos se utilizan en muacuteltiples disciplinas algunos ejemplos podriacutean incluir desde elaacutembito econoacutemico como la evolucioacuten del Producto Interior Bruto (PIB) o del precio del petroacuteleo hastaaacutembitos como la meteorologiacutea midiendo la temperatura de una localidad durante un periacuteodo de tiempoo el aacutembito sanitario siguiendo la evolucioacuten de una enfermedad en un paciente

Uno de los principales inconvenientes a la hora de trabajar con series temporales son los datos atiacute-picos Estos datos atiacutepicos pueden tener dos naturalezas errores no deseados o pepitas de informacioacuten(Rousseeuw y Hubert 2011) Estas pepitas de informacioacuten pueden servirnos por ejemplo para locali-zar sucesos importantes como huelgas medidas de poliacutetica econoacutemica o desastres naturales (Goacutemez yTaguas 1995) Al igual que en el resto de campos de la estadiacutestica que en nuestro conjunto de datos seencuentren valores atiacutepicos puede llevarnos a incurrir en errores de especificacioacuten Como se mencionaen Chang Tiao y Chen (1988) es importante ser capaz de identificar estos sucesos para comprendermejor la estructura subyacente de la serie

Uno de los modelos maacutes comuacutenmente usado y utilizado como punto de partida en el anaacutelisisde series temporales es el modelo ARIMA Los modelos ARIMA ajustan los valores de la serie enbase a las observaciones previas y errores aleatorios con una estructura que le permite incluir tantocomponentes ciacuteclicos como estacionales Siendo Xtt una serie de tiempo un modelo ARIMA seriacuteaaquel que admite una representacioacuten

5

6 CAPIacuteTULO 2 MODELIZACIOacuteN DE SERIES TEMPORALES

φ(B)(1minusB)dXt = c+ θ(B)at

donde Xt es la observacioacuten t de la serie de tiempo B el operador retardo definido por BXt = Xtminus1φ(B) = (1minusφ1(B)minusφ2B

2minusminusφpBp) φ(B) = (1minusθ1Bminusθ2B2minusminusθqBq) cφ1 φ2 φpθ1 θ2 θp

son constantes d es el nuacutemero de diferencias necesarias para eliminar la tendencia de la serie at esruido blanco y p y q los oacuterdenes de los procesos autorregresivos (AR) y de medias moviles (MA)

Con esta representacioacuten del modelo ARIMA se puede deducir raacutepidamente que estos no son maacutes quela mezcla de los dos primeros modelos de series temporales formulados los modelos AR y los modelosMA Ademaacutes si el proceso que genera la serie de tiempo presenta la posibilidad de estar formado porcomponentes de largo periacuteodo temporal se debe hacer uso de los ARIMA estacional muacuteltiplicativoARIMA(pdq)x(PDQ) cuya representacioacuten seriacutea

φ(B)Φ(Bs)(1minusB)d(1minusBs)DXt = c+ θ(B)Θ(Bs)at

En esta nueva formulacioacuten D es el nuacutemero de diferenciaciones estacionales aplicadas para eliminarla componente estacional Φi y Θj las constantes respectivas a la parte estacional para i = 1 2 P yj = 1 2 Q con P igual al orden del proceso AR estacional y Q al orden del proceso MA estacional

Sin embargo la presencia de atiacutepicos puede llevar a un incorrecto ajuste de los paraacutemetros delmodelo debido a que se pueden ver sesgados por el efecto del atiacutepico La mala estimacioacuten de losparaacutemetros nos conduce a diversos errores dado que podemos no diseccionar bien la estructura dela serie como para entender su comportamiento Ademaacutes en el caso de que el atiacutepico se produzcaen la uacuteltima parte de la serie afectariacutea a las estimaciones futuras incurriendo en un error mayor deprediccioacuten

Por ello surgieron meacutetodos como X-13ARIMA-SEATS o TRAMO-SEATS que parten de los mo-delos ARIMA e introducen mejoras como la deteccioacuten y correccioacuten de atiacutepicos Estos meacutetodos fueronampliamente utilizados durante mucho tiempo para la modelizacioacuten de series temporales Sin embargoel desarrollo de la tecnologiacutea provocoacute la creacioacuten del Internet de las Cosas (Mahdavinejad et al 2018)un entorno en el que casi la totalidad de los objetos y personas estaacute conectado a internet dejandohuella de su comportamiento Las caracteriacutesticas de esta red provocaron un incremento enorme en lacreacioacuten y obtencioacuten de datos unas caracteriacutesticas para las cuales no estaban preparados estos meacutetodosdisentildeados para escalar a conjuntos de tamantildeo pequentildeo o mediano

Es aquiacute donde surge un nuevo enfoque para la deteccioacuten de valores atiacutepicos en series de tiempobasado en aplicar un proceso de descomposicioacuten y analizar los residuos Los procesos de descomposicioacutentienen por objetivo diseccionar una serie en tres componentes tendencia estacionalidad y residuo demodo que se pueda establecer un patroacuten de como se comporta En este trabajo el objetivo no es buscarel modelo maacutes preciso sino aquel que consiga trazar mejor la estructura subyacente de la serie de formaque resalte los posibles valores atiacutepicos en su componente residual y es por ello que estos modelosresultan de tanto intereacutes El primer meacutetodo basado en esta idea que recibioacute cierta repercusioacuten fue elpresentado por el equipo de Twitter (Hochenbaum Vallis y Kejariwal 2017) el cual fue maacutes tardeampliado en el paquete Anomalize de R (Dancho y Vaughan 2019)

Esta forma de proceder en dos partes descomposicioacuten maacutes deteccioacuten se debe a la idea de quevisualizar o localizar atiacutepicos en una serie es complicado debido a causas como la estacionalidad o

21 CONCEPTOS BAacuteSICOS 7

tendencia de la serie Aplicarle a la serie un proceso de descomposicioacuten permite extraer estas compo-nentes y resaltar las posibles anomaliacuteas A continuacioacuten en la Figura 21 mostramos un ejemplo deeste procedimiento utilizando uno de los meacutetodos que se emplearaacuten posteriormente en el trabajo STL

Figura 21 A la izquierda la serie referente al Nuacutemero Total de Afiliaciones a la Seguridad Social eluacuteltimo diacutea de mes en Pontevedra perteneciente al Conjunto 7 A la derecha los residuos obtenidos trasaplicarle la descomposicioacuten STL

Como se puede apreciar en la Figura 21 observar alguacuten comportamiento extrantildeo en la serie detiempo es complicado debido a las fluctuaciones que va sufriendo a lo largo de los antildeos Sin embargouna vez aplicado el proceso de descomposicioacuten y eliminado los efectos de estacionalidad y tendenciapodemos ver el efecto de la crisis del Covid-19 apareciendo en los uacuteltimos datos de la serie Esta crisisprovoca que los datos reales de esos meses disten mucho de los esperados lo que se traduce en fuertesincrementos en el tamantildeo del residuo

Lo interesante de estos meacutetodos es que los procesos de descomposicioacuten de series de tiempo soncapaces de analizar multitud de series de caracteriacutesticas muy diferentes y filtrarlas de tal modo que elproblema acabe residiendo en lo que aparentemente es un sencillo problema de deteccioacuten de valoresatiacutepicos en el caso univariante Mientras que los meacutetodos como X-13ARIMA-SEATS o TRAMO-SEATS se encuentran limitados en su disentildeo a trabajar solamente con series con frecuencias mensualeso trimestrales

Sin embargo Wilkinson (2017) resalta que el problema de la deteccioacuten de valores atiacutepicos en elcaso univariante es engantildeosamente sencillo lo cual puede llevarnos a cometer errores en la deteccioacutende atiacutepicos pese a haber realizado una buena descomposicioacuten de la serie Por ello en este trabajo seplantea un capiacutetulo dedicado a analizar las propiedades de diferentes meacutetodos de deteccioacuten

Por tanto en el trabajo coexisten dos mecanismos de deteccioacuten de atiacutepicos en series temporalesPor un lado los meacutetodos de ajuste de series temporales que incorporan la deteccioacuten y correccioacuten deatiacutepicos al modelo de modo automaacutetico Y por el otro aquellos meacutetodos de deteccioacuten de atiacutepicos cuyaidea se centra en aplicar un proceso de descomposicioacuten maacutes anaacutelisis del residuo

En la Seccioacuten 22 se describen los procesos de modelizacioacuten de series temporales utilizados y en elCapiacutetulo 3 se describen los procesos de deteccioacuten de atiacutepicos

8 CAPIacuteTULO 2 MODELIZACIOacuteN DE SERIES TEMPORALES

22 Meacutetodos de modelizacioacuten de series temporales

221 X-13ARIMA-SEATS

El meacutetodo X-13ARIMA-SEATS es la versioacuten actualizada y mejorada del modelo X-11 desarrolladopor Shiskin Young y Musgrave (1967) X-13ARIMA-SEATS fue creado por el Censo de los EstadosUnidos (US Census Bureau) y forma parte de una familia de modelos de ajuste para series temporalesque se han ido desarrollando y estaacuten disentildeados para trabajar con series econoacutemicas estacionales Unaexplicacioacuten completa del meacutetodo y de coacutemo ha de implantarse se puede encontrar en Time SeriesResearch Staff (2017)

Este modelo se basa en la estimacioacuten de lo que sus autores denominan modelos regARIMA Estosson modelos de regresioacuten con errores ARIMA En concreto la media de la serie estaacute descrita por unacombinacioacuten lineal de regresores y la matriz de covarianzas es la de un proceso ARIMA Se incluyenregresores para modelar efectos de calendario como festivos vacaciones o diacutea de la semana Ademaacutestambieacuten se incluyen otro tipo de regresores para modelar el efecto de las anomaliacuteas que se puedanpresentar El modo en que se aborda este campo lo trataremos en profundidad en el Capiacutetulo 3 conel resto de meacutetodos de deteccioacuten

El proceso de ajuste comienza por un pre-ajuste de la serie a traveacutes de eliminar el efecto determiniacutes-tico mediante un modelo de regresioacuten con errores ARIMA En el siguiente paso la serie pre-ajustada sedescompone en tendencia (t) estacionalidad (s) y residuo (i) Esta descomposicioacuten puede ser aditiva(y = t+s+i) multiplicativa (y = tlowastslowasti) log-aditiva (log(y) = log(t)+log(s)+log(i)) o pseudo-aditiva(y = t lowast (s+ iminus 1)) Este paso en el que se aplica el proceso de descomposicioacuten se basa en el uso delalgoritmo X11 que descompone la serie a traveacutes de filtros lineales La serie final ajustada debe estarlibre de estacionalidad y efectos de calendario

X-13ARIMA-SEATS estaacute implementado en la libreriacutea RJDemetra de R en la funcioacuten x13 y lasespecificaciones necesarias para llevar a cabo la deteccioacuten de atiacutepicos se tratan en el Capiacutetulo 3 juntocon la explicacioacuten del proceso de deteccioacuten

222 TRAMO-SEATS

El meacutetodo TRAMO-SEATS (Goacutemez y Maravall 1997) fue disentildeado por el Banco de Espantildea parael anaacutelisis de series de tiempo Esta herramienta estaacute formada por dos mecanismos La parte TRAMO(Time Series Regression with Arima noise Missing Observations and Outliers) y la parte SEATS(Signal Extraction in ARIMA Time Series)

Como se introduce en Goacutemez y Taguas (1995) el programa TRAMO puede ser utilizado inde-pendientemente de SEATS sin embargo SEATS ha sido disentildeado para trabajar conjuntamente conTRAMO Su finalidad es la de realizar un anaacutelisis detallado de series temporales ya que cuenta conmecanismos para realizar tareas de estimacioacuten prediccioacuten interpolacioacuten de modelos de regresioacuten convalores ausentes con errores ARIMA y correccioacuten de valores atiacutepicos El programa incluye variables deregresioacuten para modelizar los diacuteas de calendario que pueden influir en el comportamiento de la serie co-mo puede ser la Pascua y variables de intervencioacuten que permiten corregir el efecto de las observacionesatiacutepicas La idea en la que se basa el modelo es muy similar a la del modelo X-13ARIMA-SEATS

TRAMO elimina de la serie los efectos especiales identifica y elimina automaacuteticamente los efectos

22 MEacuteTODOS DE MODELIZACIOacuteN DE SERIES TEMPORALES 9

de varios tipos de atiacutepicos e interpola las observaciones ausentes Tambieacuten cuenta con un moacuteduloque permite la identificacioacuten automaacutetica de modelos herramienta que imitaron los desarrolladores deX-13ARIMA-SEATS y que en su momento le permitioacute relevar de tareas monoacutetonas a los analistasEste procedimiento de identificacioacuten automaacutetica estaacute basado en estimar primero las raiacuteces unitarias yutilizar despueacutes el Criterio de Informacioacuten Bayesiano (BIC ) para especificar un modelo ARMA a laserie diferenciada

Figura 22 Esquema de funcionamiento de TRAMO-SEATS (Goacutemez y Maravall 1997)

La Figura 22 (Goacutemez y Maravall 1997) muestra como se integran ambas partes TRAMO ySEATS para formar en conjunto el mecanismo completo de modelizacioacuten

SEATS fue disentildeado originalmente para desestacionalizar series temporales El programa descom-pone una serie que sigue un modelo ARIMA en varios componentes tendencia componente estacionalciclo y componente irregular La descomposicioacuten puede ser aditiva o multiplicativa La descomposicioacutenparte de la hipoacutetesis de ortogonalidad de los componentes que a su vez siguen modelos ARIMA Paraidentificar los componentes se requiere que excepto el irregular esteacuten limpios de ruido blanco De estemodo se maximiza la varianza de este uacuteltimo y al contrario la tendencia el componente estacional yel ciclo son lo maacutes estables posibles

El modelo tratado por SEATS es el de una serie integrada lineal con innovaciones gaussianas Estahipoacutetesis puede no ser cierta en muacuteltiples ocasiones pero siempre es necesario extraer un modelo espor ello que SEATS fue disentildeada para ser utilizada de forma conjunta con TRAMO

TRAMO-SEATS estaacute implementado en la libreriacutea RJDemetra de R en la funcioacuten tramoseats y las

10 CAPIacuteTULO 2 MODELIZACIOacuteN DE SERIES TEMPORALES

especificaciones necesarias para llevar a cabo la deteccioacuten de atiacutepicos se tratan en el capiacutetulo 3 juntocon la explicacioacuten del proceso de deteccioacuten

223 STL

STL es un proceso de filtrado para descomponer series de tiempo en tendencia estacionalidad yresiduo cuyo nombre se debe a sus siglas en ingleacutes Seasonal-Trend decomposition based on Loessintroducido por Cleveland Cleveland McRae y Terpenning (1990) El propoacutesito de este meacutetodo fue elde desarrollar un meacutetodo de descomposicioacuten de series de tiempo que cumpliese los siguientes requisitos

1 Disentildeo sencillo y uso inmediato

2 Flexibilidad a la hora de especificar las variaciones en la tendencia y estacionalidad

3 Poder descomponer series de tiempo con valores faltantes

4 Tendencia y estacionalidad robusta de modo que no se vea distorsionada por datos anoacutemalos

5 Raacutepida computacioacuten y faacutecil implementacioacuten incluso para series temporales largas

El procedimiento de STL consiste en una secuencia de operaciones de suavizado realizadas todasellas salvo una por el mismo suavizador loess El mecanismo consiste en dos bucles uno interno yotro externo

Cada vuelta del bucle interno consiste en un suavizado estacional que actualiza dicha componenteseguido de un suavizado de la tendencia que actualiza la componente asociada con la tendencia Porotra parte cada vuelta del bucle externo consiste en aplicarle una serie de pesos robustos al bucleinterno Estos pesos se utilizan en la siguiente vuelta del bucle interno para reducir la influencia de losdatos anoacutemalos

La aplicacioacuten de la estimacioacuten robusta seraacute necesaria cuando exista un conocimiento previo de quelos datos tienen un comportamiento no gaussiano que conduce a una variacioacuten transitoria extrema delo contrario se pueden omitir las iteraciones del bucle externo y STL consistiriacutea solamente en el bucleinterno

A diferencia de otros meacutetodos como TRAMO-SEATS o X-13ARIMA-SEATS STL puede tratarcualquier tipo de estacionalidad en vez de estar atado a estacionalidades mensuales o trimestrales Sucomponente estacional es capaz de cambiar a lo largo del tiempo y dicho cambio puede ser controladopor el usuario Lo mismo sucede con el suavizado de la componente relacionada con la tendencia Unode sus inconvenientes es que no opera si en la serie se encuentran valores faltantes

En R encontramos este meacutetodo bajo la funcioacuten stl a la cual solo habraacute que especificarle unparaacutemetro Dicho paraacutemetro es el relacionado con el suavizado de la componente estacional e indicaal mecanismo el nuacutemero de observaciones consecutivas a utilizar para estimar los valores de dichacomponente Se podriacutea introducir un valor numeacuterico si tenemos alguacuten indicio sobre el posible desarrollode la componente estacional sin embargo dado que vamos a aplicarlo a un gran nuacutemero de series elanaacutelisis individual seriacutea costoso La solucioacuten utilizada en este trabajo pasa por fijar este paraacutemetrocomo perioacutedico lo cual asume que la evolucioacuten de la componente estacional es ideacutentica a lo largo delos antildeos que se desarrolla la serie

22 MEacuteTODOS DE MODELIZACIOacuteN DE SERIES TEMPORALES 11

224 STR

STR es un meacutetodo de descomposicioacuten de series de tiempo presentado por Dokumentov y Hyndman(2015) Sus siglas se deben a su nombre en ingleacutes Seasonal-Trend decomposition procedure based onRegression similar a la idea de STL salvo que ahora en vez de basarse en loess lo hace en regresioacutenEn concreto seguacuten los autores STR es similar a la regresioacuten Ridge (Hoerl y Kennard 1970) y suversioacuten robusta Robust STR (Dokumentov y Hyndman 2015) se podriacutea relacionar con una regresioacutenLASSO (Tibshirani 1996)

La idea de su desarrollo se originoacute debido a que los autores consideran que a pesar de existir variosalgoritmos de descomposicioacuten de series de tiempo existen muchas caracteriacutesticas en ellas que dichosalgoritmos son incapaces de tratar Las principales deficiencias que encuentran son

Incapacidad para proporcionar un modelo estadiacutestico significativo y simple

Incapacidad (o dificultad) para calcular intervalos de confianza

Incapacidad para tener en cuenta regresores

Incapacidad para tener en cuenta estacionalidad fraccionada

Incapacidad para tener en cuenta muacuteltiples estacionalidades

Incapacidad para tener en cuenta estacionalidades complejas y regresores que afecten a los datosde un modo estacional

El objetivo con el que se desarrolloacute STR fue el de corregir estas deficiencias a la par que presentar unmeacutetodo claro geneacuterico simple y robusto si fuera necesario Para solucionar estas deficiencias enfocan ladescomposicioacuten como un problema a resolver a traveacutes de una regresioacuten cuantil o de miacutenimos cuadradosordinarios

De acuerdo a sus desarrolladores STR constituye el meacutetodo de descomposicioacuten de series de tiempomaacutes geneacuterico disponible en el momento de su publicacioacuten Sin embargo matizan una gran desventajaque presenta el meacutetodo y es su ineficiencia o la ralentizacioacuten que sufre el mecanismo a la hora de tratarcasos en los que se utilizan varios componentes o predictores estacionales

Uno de sus desarrolladores Rob J Hyndman es conocido por sus aportaciones en el campo delas series de tiempo y su posterior implantacioacuten en paquetes para el software R como el famosopaquete forecast En este caso tambieacuten ha colaborado en la implantacioacuten de STR con el paquete stR(Dokumentov y Hyndman 2018)

225 Twitter

En Hochenbaum et al (2017) se aborda el problema de deteccioacuten de valores atiacutepicos en series detiempo introduciendo la idea de descomposicioacuten maacutes deteccioacuten como hemos comentado en la introduc-cioacuten de esta seccioacuten El equipo de Twitter plantea en su artiacuteculo utilizar en un primer momento STLcomo meacutetodo de descomposicioacuten para obtener los residuos sin embargo a la hora de trabajar con estemeacutetodo encuentran una serie de inconvenientes Estos inconvenientes estariacutean provocados por ciertasanomaliacuteas espurias producidas en el residuo

12 CAPIacuteTULO 2 MODELIZACIOacuteN DE SERIES TEMPORALES

Para corregir esta situacioacuten optan por utilizar la mediana de la serie de tiempo para representar latendencia ldquoestablerdquo que despueacutes seraacute utilizada para calcular el residuo

De este modo afirman que reemplazando la tendencia con la mediana se eliminan las anomaliacuteasespurias o ilegiacutetimas del residuo Los mismos desarrolladores publicaron un paquete en la plataformaGitHub (Twitter Inc 2015) que nos permitiacutea hacer uso de este mecanismo sin embargo su manteni-miento cesoacute a finales de 2015 y el paquete fue eliminado de la plataforma CRAN en marzo de 2019 Elpaquete Anomalize (Dancho y Vaughan 2019) recoge este mecanismo y seraacute el paquete que utilizaremosen este trabajo para utilizar esta modificacioacuten del meacutetodo STL bajo la funcioacuten decompose_twitter

23 RESUMEN MEacuteTODOS DE MODELIZACIOacuteN DE SERIES TEMPORALES 13

23 Resumen meacutetodos de modelizacioacuten de series temporales

Meacutetodo Ventajas Contras

X-13ARIMA-SEATS(2017)

Capaz de tratar con valores fal-tantesIntegra diversos tipos de descom-posicioacutenRaacutepida velocidad de ejecucioacuten

Disentildeado para trabajar solo conseries mensuales o trimestrales

TRAMO-SEATS(1997) Capaz de tratar con valores fal-tantesIntegra diversos tipos de descom-posicioacutenRaacutepida velocidad de ejecucioacuten

Disentildeado para trabajar solo conseries mensuales o trimestrales

STL(1990) Puede tratar series de cualquierfrecuenciaRaacutepidoCuenta con versioacuten robusta

No admite valores faltantesCarece de flexibilidad cuando elperiacuteodo estacional es largo y seobserva mucho ruido en la serieAuacuten con su versioacuten robusta pue-de verse afectado por la influen-cia de los atiacutepicos

STR(2015) Puede tratar series de cualquierfrecuenciaCuenta con versioacuten robustaAdmite valores faltantesSensible a cambios de estaciona-lidad

No puede seguir cambios bruscosen la tendenciaExtremadamente lento en com-paracioacuten al resto de meacutetodos

Twitter(2017) Puede tratar series de cualquierfrecuenciaElimina anomaliacuteas espuacutereas en lacomponente residualRaacutepido

No admite valores faltantesNo cuenta con versioacuten robusta

Cuadro 21 Resumen de los meacutetodos de modelizacioacuten de series temporales

14 CAPIacuteTULO 2 MODELIZACIOacuteN DE SERIES TEMPORALES

Capiacutetulo 3

Deteccioacuten de valores atiacutepicos

31 Conceptos baacutesicos

El problema que supone en la estadiacutestica la presencia de valores atiacutepicos aparecioacute muy pronto EnHawkins (1980) mencionan que este problema pudo haber surgido ya en los siglos XVIII y XIX enencuestas estadiacutesticas que se realizaban Las primeras decisiones de queacute hacer con ellos se basaron encriterios puramente subjetivos en los que era el propio analista el que decidiacutea descartar una observacioacutensi pareciacutea anoacutemala respecto al resto de los datos

Posteriormente se comenzaron a plantear posibles soluciones para tratar el problema bajo uncriterio La primera de ellas fue la presentada por Peirce (1852) basada en lo que se podriacutea entendercomo un test de razoacuten de verosimilitud donde todos los valores que superasen el umbral determinadopor cσ seriacutean rechazados siendo c una constante a calcular y σ la desviacioacuten tiacutepica de la muestraVarios autores realizaron criacuteticas a este meacutetodo y propusieron su correccioacuten a este criterio una de ellasfue la de Chauvenet (1963) Esta pasaba por calificar a una observacioacuten como atiacutepico si su valor sesituaba fuera del intervalo definido por 1(4n) puntos de la distribucioacuten Normal siendo n el tamantildeode la muestra

En ese momento surgen diversas propuestas no muy relevantes que trataron de abordar dichoproblema hasta que surgioacute la llevada a cabo por Thompson (1935) Su estudio condujo a descubrir ladistribucioacuten nula de un residuo estudentizado

xi minus xs

donde xi es la observacioacuten sospechosa de ser atiacutepica x la media muestral y s la desviacioacuten tiacutepica de lamuestra A partir de esto pudo deducir un procedimiento de deteccioacuten de atiacutepicos que rechazariacutea unaproporcioacuten fija de todos los datos buenos y devolveriacutea una tabla con los valores criacuteticos adecuados

Esta idea supuso el desarrollo del test de Grubbs (1950) el cual utilizando la misma notacioacutenanterior basaba su regla en los momentos muestrales de una normal

G =max1leilen|xi minus x|

s

Grubbs (1950) asocioacute G con una distribucioacuten t con el objetivo de encontrar un maacuteximo y un miacutenimo

15

16 CAPIacuteTULO 3 DETECCIOacuteN DE VALORES ATIacutePICOS

para localizar atiacutepicos Esta idea fue posteriormente ampliada dando lugar al meacutetodo GESD (Rosner1983) el cual se detalla en la siguiente seccioacuten

Posteriormente se presentoacute una de las herramientas maacutes comuacutenmente utilizadas para la identifi-cacioacuten de atiacutepicos el boxplot introducido en Tukey (1977) Sin embargo el objetivo inicial no fue ladeteccioacuten de atiacutepicos sino como un meacutetodo para trazar una idea del intervalo en el que se encuentranla gran parte de nuestros datos Ademaacutes la forma en la que se construye provoca dos grandes incon-venientes No se puede aplicar a distribuciones sesgadas y dado que no incluye el tamantildeo muestral ensu formulacioacuten tenderaacute a etiquetar falsos atiacutepicos cuanto maacutes grande sea la muestra

A la par que se iban presentando estas ideas para la buacutesqueda de valores atiacutepicos en un conjuntode datos se fueron presentando mecanismos enfocados a las series de tiempo

Uno de los primeros aportes al tratamiento de datos atiacutepicos en series de tiempo fue propuestopor G E P Box y Tiao (1975) Sin embargo este meacutetodo solamente permitiacutea modelar el efecto de laobservacioacuten atiacutepica si se conociacutea de antemano el momento de la intervencioacuten por lo que no se podriacuteaconsiderar una herramienta de deteccioacuten sino maacutes bien una herramienta de intervencioacuten

Posteriormente se propusieron diversos meacutetodos para abordar el problema de la estimacioacuten demodelos ARIMA en series bajo esta circunstancia El primero de ellos fue el de Abraham y Box(1979) que se basaba en proponer un enfoque bayesiano para resolver el problema partiendo de ideassimilares a las que se habiacutean propuesto en otros contextos por autores como Tukey (1977) Otro meacutetodoque buscaba resolver tambieacuten el mismo problema fue el propuesto por Chang y Tiao (1983) cuya idease centraba en aplicar un proceso iterativo

Fue en este artiacuteculo (Chang y Tiao 1983) donde se propuso por primera vez un meacutetodo de deteccioacutene identificacioacuten de atiacutepicos Tsay (1986) propuso su versioacuten que se basaba en combinar el procesoiterativo presentado en Chang y Tiao (1983) con la funcioacuten de autocorrelacioacuten muestral extendidadesarrollada en Tsay y Tiao (1984) la cual permite eliminar la necesidad de determinar el orden dediferenciacioacuten para producir una serie estacionaria que modelar

En Chen y Liu (1993) se reconocen los numerosos aportes hechos en los anteriores artiacuteculos citadospero matiza que algunos problemas seguiacutean estando vigentes

a La presencia de atiacutepicos puede resultar en un modelo inapropiado

b Incluso si el modelo es el apropiado los atiacutepicos pueden seguir produciendo sesgo en el paraacutemetroestimado y por tanto afectar a la deteccioacuten del atiacutepico

c Algunos atiacutepicos no van a ser identificados debido a un problema de enmascaramiento

Su objetivo era presentar un meacutetodo que fuese capaz de resolver los problemas b y c de modo quese pudiese generalizar para aplicar a los cuatro tipos de atiacutepicos en series temporales que se habiacutean idointroduciendo Los cuatro tipos son

IO (atiacutepico innovativo) existe un atiacutepico innovativo en el momento t cuando la innovacioacuten en esepunto esteacute directamente provocada por una cantidad desconocida debido a un suceso imprevisto

AO (atiacutepico aditivo) diremos que se produce un atiacutepico aditivo si en el momento t la serie segenera de manera diferente al resto

32 MEacuteTODOS DE DETECCIOacuteN DE VALORES ATIacutePICOS 17

LS (cambio de nivel) existe un cambio de nivel si en el momento t la serie experimenta unincremento de todos sus valores A diferencia del resto tiene un efecto permanente sobre la serieuna vez aparece

TC (cambio temporal) similar al cambio de nivel solo que el efecto no es permanente y decreceexponencialmente con el tiempo

X-13ARIMA-SEATS y TRAMO-SEATS basan su proceso de deteccioacuten de atiacutepicos en meacutetodosinspirados en el artiacuteculo de Chen y Liu (1993) cuya idea se fundamenta en integrar un mecanismoiterativo disentildeado para trabajar con series de tiempo que localiza e integra los atiacutepicos al modelo Porotra parte en la siguiente seccioacuten introducimos los meacutetodos de deteccioacuten de atiacutepicos que acompantildeana los procesos de descomposicioacuten de series de tiempo estos son GESD Isolation Forest y HDoutliersEstos meacutetodos son desarrollos de los mecanismos e ideas tratados al comienzo de esta seccioacuten como elmeacutetodo Grubbs (Grubbs 1950)

32 Meacutetodos de deteccioacuten de valores atiacutepicos

321 X-13ARIMA-SEATS

El anaacutelisis de diagnoacutestico del modelo regARIMA se realiza a traveacutes del anaacutelisis de los residuos delmodelo estimado Para el apartado de anaacutelisis de valores atiacutepicos X-13ARIMA-SEATS se fundamentaen Chang y Tiao (1983) con extensiones y modificaciones tratadas en Bell (1983) y Otto y Bell (1990)donde los valores atiacutepicos pueden ser de tres de los cuatro tipos antes mencionados AO LS y TC

El enfoque que plantea este mecanismo de deteccioacuten es similar a la regresioacuten paso a paso procedi-miento de regresioacuten en el que se construye el modelo a traveacutes de ir antildeadiendo o eliminando variablespredictoras en base a criterios de informacioacuten

En este caso las variables candidatas para la regresioacuten son las AO LS y TC para todos los puntosen los que la deteccioacuten de atiacutepicos se realiza Es decir se calcula el t-estadiacutestico para ver la significa-tividad de cada tipo de atiacutepico en cada instante temporal se busca significatividad entre todos estost-estadiacutesticos y se antildeade la correspondiente variable de regresioacuten (AO LS o TC) al modelo con el finde corregir los efectos que producen estas observaciones atiacutepicas De este modo se identifica e introduceel efecto de un momento atiacutepico en el modelo Mientras se produce el proceso de deteccioacuten de atiacutepicosse utiliza un estimador robusto de la desviacioacuten residual estaacutendar 148lowastla mediana del valor absolutode la desviacioacuten residual

X-13ARIMA-SEATS antildeade dos variaciones a este meacutetodo El meacutetodo addone en el que cada vezque se antildeade al modelo un atiacutepico se lleva a cabo una re-estimacioacuten del modelo y el meacutetodo addallque re-estima el modelo solo cuando un nuacutemero de variables atiacutepicas han sido antildeadidas al modelo

Este meacutetodo estaacute implantado en R a traveacutes de la funcioacuten x13 del paquete RJDemetra Dicha funcioacutenrequiere de un paraacutemetro de especificacioacuten spec en que se concreta el modelo que queremos introducirEste paraacutemetro es el que nos ofrece diversas posibilidades de modelizacioacuten de la serie como se recogeen la Figura 31 entre ellas los efectos de calendario o los atiacutepicos que presente la serie Dado quebuscamos sucesos atiacutepicos en su sentido maacutes amplio vamos a omitir incluir los efectos de calendarioy solamente introducir la deteccioacuten automaacutetica de atiacutepicos Esto provoca que en nuestro trabajo la

18 CAPIacuteTULO 3 DETECCIOacuteN DE VALORES ATIacutePICOS

especificacioacuten que nos interesa y con la que hemos trabajado sea RSA3 La opcioacuten RSA3 permiteajustar automaacuteticamente un modelo ARIMA identificando y corrigiendo las posibles observacionesanoacutemalas El resto de modificaciones que permite introducir el paraacutemetro de especificacioacuten de la funcioacutenx13 se recogen en la Figura 31 Por ejemplo si estuvieacutesemos interesados en modelizar nuestros datosa traveacutes de un modelo ARIMA de liacuteneas aeacutereas observariacuteamos en la Figura 31 que tendriacuteamos queescoger la especificacioacuten RSA0 Si ahora quisieacuteramos antildeadirle a dicho modelo deteccioacuten de atiacutepicostendriacuteamos que cambiar el paraacutemetro de especificacioacuten a RSA1 y si ademaacutes tambieacuten nos interesamodelar los efectos de calendario sobre dicho modelo introduciriacuteamos la especificacioacuten RSA2 El restode especificaciones ya trabajan sobre el ajuste de un modelo ARIMA de un modo automaacutetico la maacutessencilla es la que utilizamos nosotros en este trabajo RSA3 la cual ajusta un modelo ARIMA deforma automaacutetica incluyendo la deteccioacuten de atiacutepicos Las especificaciones RSA4 y RSA5 incorporanrespecto a RSA3 modelizar los efectos de calendario La diferencia entre ellas se encuentra en queRSA4 incluye en el modelo los efectos de calendario a traveacutes de dos variables que representan losdiacuteas laborables y los fines de semana y RSA5 incluye dichos efectos a traveacutes de siete variables cadadiacutea de la semana y ambas incluyen el efecto de la Pascua en el calendario Por uacuteltimo se encuentrala especificacioacuten RSAfull que incluye el ajuste automaacutetico de un modelo ARIMA y de los efectos decalendario e incorpora la deteccioacuten de atiacutepicos Todas estas especificaciones son las que se detallan enla Figura 31 para profundizar maacutes en ellas se puede consultar el manual de la libreriacutea RJDemetra (laTente Michalek Palate y Baeyens 2020)

Figura 31 Paraacutemetro de especificaciones a introducir al modelo X-13ARIMA-SEATS

322 TRAMO-SEATS

El mecanismo de deteccioacuten de atiacutepicos que utiliza el programa TRAMO-SEATS aborda el problemacon la intencioacuten de resolver los problemas b y c introducidos en el inicio del Capiacutetulo 3 dado queentiende que estos no se han resuelto de un modo satisfactorio en Chen y Liu (1993) En Goacutemez yTaguas (1995) explican que aunque este meacutetodo funciona de forma bastante satisfactoria su solucioacutenpresenta una serie de deficiencias

1 Se estima varias veces por maacutexima verosimilitud exacta lo que es costoso

2 No utiliza residuos exactos

3 El algoritmo es excesivamente complicado

4 Las regresiones muacuteltiples no se hacen filtrando los datos y las columnas de la matriz por un filtroexacto como el filtro de Kalman sino que se utiliza un filtro condicional

32 MEacuteTODOS DE DETECCIOacuteN DE VALORES ATIacutePICOS 19

Por tanto se presenta un mecanismo que pretende subsanar estas deficiencias a la par que corregirlos problemas b y c mencionados en Chen y Liu (1993) Ademaacutes si se utiliza de forma secuencial juntocon el procedimiento de especificacioacuten automaacutetica del programa supone un procedimiento alternativoal de Tsay (1986)

Al igual que X-13ARIMA-SEATS TRAMO-SEATS estaacute implementado en la libreriacutea RJDemetra

de R en la funcioacuten tramoseats Dicha funcioacuten tambieacuten requiere de un paraacutemetro de especificacioacutenspec en el que se concreta el modelo que queremos introducir La utilidad y mecanismo sobre el quetrabaja este paraacutemetro es ideacutentico al explicado en la Seccioacuten 321 para el meacutetodo X-13ARIMA-SEATSpor lo que utilizaremos la especificacioacuten RSA3 Esta especificacioacuten incluye el ajuste automaacutetico de unmodelo ARIMA corrigiendo las posibles observaciones atiacutepicas

El resto de posibles especificaciones que se pueden incluir en el modelo se recogen en la Figura32 El significado de esta figura es equivalente al de la Figura 31 dado que ambos modelos TRAMO-SEATS y X-13ARIMA-SEATS estaacuten implementados en la misma libreria RJDemetra y compartenel mismo paraacutemetro de especificacioacuten en la funcioacuten que estima sus modelos en R

Figura 32 Paraacutemetro de especificaciones a introducir al modelo TRAMO-SEATS

323 GESD

Introducido por Rosner (1983) como una mejora al por entonces conocido ESD (Rosner 1975) porsus siglas en ingleacutes Extreme Studentized Deviate A pesar de que ESD contaba con buenas propiedadesante una amplia alternativa de atiacutepicos presentaba una serie de defectos que le conduciacutean a etiquetarmaacutes candidatos a atiacutepicos que el nuacutemero apropiado Esto provocoacute que se quedase obsoleto en favor desu actualizacioacuten GESD General Extreme Studentized Deviate

Los pasos que sigue son los siguientes

1 Decidir un maacuteximo nuacutemero de posibles candidatos a atiacutepicos r La recomendacioacuten es de consi-derar el 20 del tamantildeo muestral

2 Comenzar las iteraciones i = 1

3 Calcular Ri = maxt|ximinusx|s siendo xi una observacioacuten sospechosa de ser anoacutemala x la media

muestral y s la desviacioacuten estaacutendar de la muestra respectivamente

4 Eliminar la observacioacuten que maximice xi minus x

5 Calcular el siguiente valor criacutetico λi =(nminusi)tpnminusi+1radic

(nminus1minus1+t2pnminusiminus1)(nminusi+1)

donde tpnminusi+1 es una distribucioacuten t con n minus i minus 1 grados de libertad y p = 1 minus α2(nminusi+1 siendo

α la probabilidad de cometer errores de tipo I

20 CAPIacuteTULO 3 DETECCIOacuteN DE VALORES ATIacutePICOS

6 Pasar a la siguiente iteracioacuten repetir los pasos 2 a 5 hasta i = r quedando r definido en el paso1

7 El nuacutemero de atiacutepicos detectados se determina al encontrar el mayor i tal que Ri gt λi dondeRi se define en el paso 2 y λi en el paso 5

GESD es principalmente el test de Grubbs (Grubbs 1950) aplicado de forma secuencial sin embargoexisten unas pequentildeas diferencias que premian su comportamiento GESD realiza ajustes del valorcriacutetico en base al nuacutemero de atiacutepicos a ser estudiado algo que el test de Grubbs no hace Ademaacutessi existe efecto de enmascaramiento aplicar el test de Grubbs de forma secuencial produciriacutea unadetencioacuten demasiado temprana del algoritmo de deteccioacuten lo que impediriacutea localizar algunos atiacutepicos

Los estudios de simulacioacuten realizados para estudiar el comportamiento de GESD indican que elmeacutetodo es muy preciso cuando contamos con tamantildeos muestrales n gt 25 por lo que en nuestrotrabajo no tendremos problema Sin embargo debido a que es un meacutetodo iterativo seraacute maacutes costosocomputacionalmente a medida que se incrementen los tamantildeos muestrales y es algo a tener en cuentacomo posible freno al crecimiento futuro del mecanismo de deteccioacuten

En R podemos encontrar la funcioacuten gesd dentro del paquete Anomalize (Dancho y Vaughan 2019)

324 Isolation Forest

Isolation Forest o iForest es el meacutetodo presentado por Liu Ting y Zhou (2009) donde se tratael tema de deteccioacuten de atiacutepicos desde un punto de vista diferente Ese punto de vista se basa en dospropiedades relacionadas con la idea de queacute es un valor atiacutepico son la minoriacutea de un conjunto y tienenunos atributos muy diferentes a los de las observaciones normales Es decir las anomaliacuteas son pocas ydiferentes lo que las hace maacutes propensas a encontrarse aisladas del resto

Por esta razoacuten los autores presentan un meacutetodo basado en construir un aacuterbol que aiacutesle cada ob-servacioacuten de tal modo que los valores atiacutepicos se encontraraacuten en ramas maacutes proacuteximas a la raiacutez y losvalores normales se encontraraacuten en zonas maacutes profundas del aacuterbol Es por ello que iForest (Liu et al2009) se distingue del resto de mecanismos basados en modelos distancias o densidades

Figura 33 Idea sobre la que se sustenta el mecanismo de Isolation Forest

32 MEacuteTODOS DE DETECCIOacuteN DE VALORES ATIacutePICOS 21

En la Figura 33 se puede observar la idea sobre la que se rige este mecanismo Un punto normalxi requiere maacutes particiones para ser aislado Y el opuesto tambieacuten es cierto donde un punto anoacutemalox0 requiere menos particiones para ser aislado Por lo que se trata de calcular la ldquolongitud del caminordquoa ser aislado dado que los valores atiacutepicos tendraacuten caminos maacutes cortos que los de los valores normales

Para definir como se calcula la ldquolongitud del caminordquo es necesario definir primero el aacuterbol deaislamiento Isolation Tree El aacuterbol de aislamiento seriacutea toda la estructura de ramas que trocean elconjunto de datos La longitud del camino h(x) path length de un punto x se mediriacutea por tanto comoel nuacutemero de ramas a atravesar desde la raiacutez del aacuterbol al punto

Es necesario definir una puntuacioacuten de cuaacuten anoacutemala es una observacioacuten score para ello se intro-duce c(n) como la media de h(x) siendo E el operador esperanza dado el tamantildeo de la muestra nDe tal modo que

Cuando E(h(x))rarr c(n) scorerarr 05

Cuando E(h(x))rarr 0 scorerarr 1

Cuando E(h(x))rarr nminus 1 scorerarr 0

Haciendo uso de la puntuacioacuten anoacutemala que recibe cada punto score tenemos que

Si score es cercano a 1 la observacioacuten es atiacutepica

Si la observacioacuten presenta valores de score inferiores a 05 pueden ser calificadas como observa-ciones normales

Si todas las observaciones devuelven un valor score asymp 05 entonces la muestra entera carece deatiacutepicos

En el artiacuteculo fijan como atiacutepicos potenciales observaciones con score ge 06 en este trabajo somosmaacutes estrictos y fijamos el umbral en score ge 075 Esta decisioacuten se toma tras probar diferentes umbralesy observar el comportamiento del meacutetodo en el estudio de simulacioacuten y en los datos reales Otrosumbrales que se barajaron y descartaron por los resultados mostrados fueron score ge 07 por serdemasiado laxo y score ge 08 por ser demasiado estricto

En R existen dos libreriacuteas que implantan dicho meacutetodo una es la implantada por la empresa H20 lacual ha desarrollado el algoritmo HDoutliers utilizado en este trabajo Y la otra es la libreriacutea solitude(Srikanth 2017) la cual hemos usado para el desarrollo de este trabajo

325 HDoutliers

HDoutliers (Wilkinson 2017) es un algoritmo que se puede aplicar en multitud de escenarios posi-bles desde el maacutes sencillo que seriacutea el caso univariante hasta maacutes complejos como el multidimensionalo el espacial La idea sobre la que se desarrolla es la de buscar espacios entre los valores ordenadosmaacutes que en la de buscar valores extremos De los meacutetodos que se centran en la idea de buscar valoresextremos como por ejemplo el test de Grubbs y por tanto GESD el autor hace una criacutetica y es queestos utilizan medidas como la media muestral o la desviacioacuten tiacutepica las cuales no son robustas frentea valores atiacutepicos

22 CAPIacuteTULO 3 DETECCIOacuteN DE VALORES ATIacutePICOS

El concepto anterior se puede explicar de un modo muy sencillo a traveacutes de un ejemplo que se recogeen Wilkinson (2017) En los resultados a un examen al que se presentaron 100 alumnos obtenemos unapuntuacioacuten media de 50 y una desviacioacuten estaacutendar de 5 Si entre todas las notas un alumno obtuvo un100 y la siguiente mejor nota es un 65 se podriacutea sospechar que ese alumno es un genio o un tramposoPor otra parte si la nota perfecta se encuentra en el punto maacutes alto de una serie de notas que difieren5 puntos entre ellas ese alumno ya no seriacutea tan sospechoso Los test claacutesicos de valores atiacutepicos no soncapaces de diferir entre ambas situaciones

Figura 34 El algoritmo de HDoutliers aplicado sobre el ejemplo anterior (Wilkinson 2017)

En la Figura 34 se representa este ejemplo En el caso de la izquierda estariacuteamos en la situacioacutenen la que no se sospecha que se hayan producido trampas por parte de ninguacuten alumno y el meacutetodoHDoutliers no detectariacutea ninguacuten candidato a atiacutepico A la derecha tendriacuteamos la situacioacuten en la quesospechariacuteamos de que existe un alumno brillante o tramposo y el meacutetodo detectariacutea una situacioacutenatiacutepica como se sentildeala con el punto rojo

La solucioacuten de buscar espacios permite identificar valores inusuales tanto en el medio de las dis-tribuciones como en los extremos Para ello HDoutliers calcula la distancia al vecino maacutes cercanoDespueacutes ajusta una distribucioacuten exponencial a la cola superior de las distancias calculadas y calcula elvalor 1minusα siendo α la probabilidad de cometer un error tipo I superior de la funcioacuten de distribucioacutenacumulada Por lo que cada observacioacuten que se encuentre significativamente alejada del resto basadaen este punto de corte se etiquetaraacute como atiacutepica

El autor menciona que este meacutetodo difiere de aquellos que se basan en hacer un ranking de candi-datos a atiacutepicos como podriacutea ser Local Outlier Factor (Breunig Kriegel Ng y Sander 2000) o quelos etiquetan bajo un liacutemite arbitrario como seriacutea el caso de Isolation Forest (Liu et al 2009) dadoque pueden conducir a resultados inconsistentes Para ello lo que hace es asignar una probabilidad ala creencia de que estamos ante un atiacutepico

En R podemos encontrar este meacutetodo en la libreriacutea HDoutliers (Fraley y Wilkinson 2020)

33 RESUMEN MEacuteTODOS DE DETECCIOacuteN DE VALORES ATIacutePICOS 23

33 Resumen meacutetodos de deteccioacuten de valores atiacutepicos

Meacutetodo Ventajas Contras

X-13ARIMA-SEATS(2017)

Califica el tipo de atiacutepicoRaacutepida velocidad de ejecucioacuten

Basado en modelos ARIMA

TRAMO-SEATS(1997) Califica el tipo de atiacutepicoRaacutepida velocidad de ejecucioacutenIdea similar a X-13ARIMA-SEATS pero profundizando maacutesen el desarrollo del mecanismo dedeteccioacuten de atiacutepicos

Basado en modelos ARIMA

GESD(1983) Elimina parte de la incertidum-bre de que se produzca un efectode enmascaramiento

Utiliza medidas como la media ola desviacioacuten tiacutepica medidas quese pueden ver distorsionadas porvalores atiacutepicosEs un proceso iterativo lo queimplica mayor coste computacio-nal a medida que se incrementeel tamantildeo de datos

Isolation Forest(2009) Escalable a conjuntos de gran di-mensioacutenDisentildeo sencillo

El usuario tiene que determinarel umbral de atiacutepico lo cual pue-de ser un inconveniente a veces

HDoutliers(2017) Identifica valores inusuales tantoen el medio de las distribucionescomo en los extremosEscalable a conjuntos de gran di-mensioacutenAlta velocidad de ejecucioacuten

Tendencia a calificar un excesode observaciones como atiacutepicassin serlo

Cuadro 31 Resumen de los meacutetodos de deteccioacuten de atiacutepicos

24 CAPIacuteTULO 3 DETECCIOacuteN DE VALORES ATIacutePICOS

34 Meacutetodos de deteccioacuten de valores atiacutepicos en series tempo-

rales

Dado que se han introducido diversos meacutetodos con diferentes enfoques respecto a la resolucioacuten delproblema de deteccioacuten de atiacutepicos en series de tiempo hemos decidido incluir este apartado al finaldel contenido principalmente teoacuterico del trabajo para asiacute centrar los meacutetodos que se utilizaraacuten en lossiguientes capiacutetulos Este apartado recoge todos los meacutetodos los ya existentes y nuevas propuestasrealizadas por nosotros que se utilizaraacuten en este trabajo

Los meacutetodos existentes son los pertenecientes a las libreriacuteas RJDemetra (la Tente et al 2020) yAnomalize (Dancho y Vaughan 2019) La libreriacutea RJDemetra es la que nos dota de las funcionesnecesarias para utilizar los modelos X-13ARIMA-SEATS y TRAMO-SEATS Mientras que la libreriacuteaAnomalize se ha convertido en uno de los paquetes de referencia en R para el anaacutelisis de valores atiacutepicosen series de tiempo A traveacutes de ella podemos utilizar el meacutetodo tratado en Hochenbaum et al (2017)basado en una combinacioacuten de Twitter+GESD y tambieacuten la otra opcioacuten que proponen a traveacutes decombinar STL+GESD

A partir de la idea desarrollada por autores como Hochenbaum et al (2017) o libreriacuteas comoAnomalize Dancho y Vaughan (2019) proponemos nuevos meacutetodos de deteccioacuten de atiacutepicos paraseries temporales El fundamento bajo el que se sostiene esta propuesta es muy sencillo Estos meca-nismos se fundamentan en aplicarle a la serie de tiempo un proceso de descomposicioacuten para extraer laestacionalidad y la tendencia para posteriormente aplicarle un meacutetodo de deteccioacuten de valores atiacutepicosal residuo Dado que se han propuesto mejoras en ambos campos tanto en los meacutetodos de descompo-sicioacuten de series temporales como en el de deteccioacuten de valores atiacutepicos creemos que su combinacioacutenpodriacutea suponer una mejora a las ya establecidas Teniendo en cuenta que se ha introducido un meacutetodode descomposicioacuten de series temporales STR (Dokumentov y Hyndman 2015) y dos meacutetodos de de-teccioacuten de valores atiacutepicos Isolation Forest (Liu et al 2009) y HDoutliers (Wilkinson 2017) lo que seharaacute seraacute obtener todas las combinaciones posibles a traveacutes de mezclar los procesos de descomposicioacutencon los meacutetodos de deteccioacuten dando lugar a las siguientes combinaciones

STL +iForest

STL +HDoutliers

STL (Robusto) +iForest

STL (Robusto) +HDoutliers

Twitter +iForest

Twitter +HDoutliers

STR + GESD

STR + iForest

STR + HDoutliers

34 MEacuteTODOS DE DETECCIOacuteN DE VALORES ATIacutePICOS EN SERIES TEMPORALES 25

STR (Robusto) + GESD

STR (Robusto) + iForest

STR (Robusto) + HDoutliers

Estos son los nuevos meacutetodos propuestos en el trabajo de los cuales estudiaremos su comporta-miento en el proacuteximo capiacutetulo a traveacutes de un estudio de simulacioacuten junto a los meacutetodos ya existentesX-13ARIMA-SEATS TRAMO-SEATS STL+GESD y Twitter+GESD

Existen otros meacutetodos populares en la deteccioacuten de atiacutepicos para el software R los cuales no se hanincluido en este trabajo debido a que planteaban peores resultados que los finalmente introducidospero que creemos que merecen una mencioacuten debido a que pueden ser de intereacutes para alguien quepretenda profundizar en este campo

El primero de ellos seriacutea el meacutetodo de deteccioacuten de atiacutepicos IQR incluido en la libreriacutea AnomalizeDancho y Vaughan (2019) el cual se ha descartado debido a que sus combinaciones con STL y Twittersuponiacutean una menor precisioacuten que las combinaciones con GESD (Datacamp 2018) Los autores lo hanincluido en dicha libreriacutea debido a que su coste computacional es mucho menor que el de GESD porlo que se puede plantear situaciones en las que sea uacutetil

El segundo seriacutea la funcioacuten tsoutliers del paquete forecast (Hyndman 2020) la cual hemosdescartado por presentar un mecanismo muy similar al que presentariacutea la combinacioacuten STL+IQR

Por uacuteltimo tambieacuten se ha descartado la funcioacuten tso del paquete tsoutliers (de Lacalle 2019)El motivo se debe a que su autor enfoca el proceso de deteccioacuten basaacutendose en las mismas ideas que lasdesarrolladas en los modelos X-13ARIMA-SEATS y TRAMO-SEATS pero comenta que este meacutetodono estaacute capacitado para trabajar con grandes y heterogeacuteneos conjuntos de series temporales comoX-13ARIMA-SEATS o TRAMO-SEATS sino maacutes bien para pequentildeas aplicaciones de un modo semi-automaacutetico (de Lacalle 2015)

26 CAPIacuteTULO 3 DETECCIOacuteN DE VALORES ATIacutePICOS

Capiacutetulo 4

Estudio de simulacioacuten

En este capiacutetulo se realiza un estudio de simulacioacuten con el objetivo de comparar la eficiencia delos diferentes meacutetodos expuestos en el apartado anterior En primer lugar se presenta un resumendel procedimiento seguido para realizar las simulaciones en los diferentes escenarios y el motivo deproponer cada escenario A continuacioacuten se introduce el Iacutendice de Youden medida que nos permitiraacutediscernir queacute meacutetodos presentan mejor comportamiento en el estudio Finalmente se presentan losresultados del estudio y las conclusiones extraiacutedas del mismo

41 Escenarios

El procedimiento para obtener las series simuladas ha sido el siguiente

1 Simular una serie de tiempo sin atiacutepicos

2 A la observacioacuten correspondiente al instante t sumarle el valor w el cual indicaraacute el tamantildeo delatiacutepico

3 Si se quiere introducir maacutes de un atiacutepico repetir los pasos 1 y 2

Se van a proponer ocho escenarios a continuacioacuten pasamos a justificar la eleccioacuten de cada uno deellos Los escenarios 1 2 y 3 son los planteados en Chen y Liu (1993) artiacuteculo utilizado para analizar laeficiencia de los mecanismos de deteccioacuten que inspiran los meacutetodos aplicados en X-13ARIMA-SEATS yTRAMO-SEATS El Escenario 4 plantea el modelo de liacuteneas aeacutereas utilizado ampliamente para datoseconoacutemicos como los que se van a tratar posteriormente Por uacuteltimo los escenarios 5 a 8 proponendiversos modelos que han sido generados a partir de seleccionar una serie del IGE aleatoriamente yaplicarle la funcioacuten autoarima del paquete forecast (Hyndman 2020) A continuacioacuten se recogentodos los escenarios planteados en el Cuadro 41 Los escenarios 1 a 3 se simulan a traveacutes de la funcioacuten deR arimasim mientras que los escenarios 4 a 8 a traveacutes de la funcioacuten simulate del paquete forecast

27

28 CAPIacuteTULO 4 ESTUDIO DE SIMULACIOacuteN

Escenario Modelo Motivo

Escenario 1 AR(1) Propuesto en el estudio de simu-lacioacuten de Chen y Liu (1993)

Escenario 2 MA(1) Propuesto en el estudio de simu-lacioacuten de Chen y Liu (1993)

Escenario 3 ARIMA(011) Propuesto en el estudio de simu-lacioacuten de Chen y Liu (1993)

Escenario 4 ARIMA(011)x(011)12 Modelos de liacuteneas aeacutereas muyutilizado en lo referente a datoseconoacutemicos

Escenario 5 ARIMA(101)x(012)12 Modelo extraiacutedo de aplicar lafuncioacuten autoarima a una seriedel IGE escogida aleatoriamente

Escenario 6 ARIMA(111)x(101)12 Modelo extraiacutedo de aplicar lafuncioacuten autoarima a una seriedel IGE escogida aleatoriamente

Escenario 7 ARIMA(112)x(011)12 Modelo extraiacutedo de aplicar lafuncioacuten autoarima a una seriedel IGE escogida aleatoriamente

Escenario 8 ARIMA(011)x(100)12 Modelo extraiacutedo de aplicar lafuncioacuten autoarima a una seriedel IGE escogida aleatoriamente

Cuadro 41 Resumen de los escenarios propuestos para el estudio de simulacioacuten

42 IacuteNDICE DE YOUDEN 29

En cada escenario se estudian cuatro casos

Caso 1 Serie con 100 observaciones y un atiacutepico en t = 40 el tamantildeo del atiacutepico es w = 35

Caso 2 Serie con 100 observaciones y un atiacutepico en t = 40 el tamantildeo del atiacutepico es w = 45

Caso 3 Serie con 100 observaciones y un atiacutepico en t = 2 el tamantildeo del atiacutepico es w = 4

Caso 4 Serie con 300 observaciones y dos atiacutepicos en t1 = 40 y t2 = 180 el tamantildeo de los atiacutepicoses w1 = 4 y w2 = 5

En el Escenario 4 hubo que modificar los valores del tamantildeo del atiacutepico introducido en cada casodebido a que no se obteniacutean resultados significativos para ninguacuten meacutetodo Por lo que finalmente solopara el Escenario 4 los valores introducidos fueron de w = 55 para el Caso 1 w = 65 para el Caso2 w = 6 para el Caso 1 w1 = 6 y w2 = 7 para el Caso 4

Los Casos 1 y 2 buscan estudiar la sensibilidad del meacutetodo de deteccioacuten dado que en lo uacutenico quese diferencian es en el tamantildeo del atiacutepico El Caso 3 plantea una situacioacuten complicada al encontrarseel atiacutepico al principio de la serie es maacutes difiacutecil detectar ese valor por dos motivos que el meacutetodo notenga todaviacutea la informacioacuten suficiente o que el meacutetodo vea afectada su estimacioacuten por este valor tantemprano El Caso 4 busca estudiar el comportamiento cuando se presenta maacutes de un atiacutepico

42 Iacutendice de Youden

Para comparar los resultados de los diferentes meacutetodos en las simulaciones vamos a utilizar lo queen otros campos como la investigacioacuten meacutedica se denomina test de diagnoacutestico En este tipo de testse compara la realidad con la prediccioacuten del mecanismo para analizar su funcionamiento Estos testde diagnoacutestico se presentan en lo que se denominan matrices de confusioacuten como la presentada en elCuadro 44 La idea de la matriz de confusioacuten es la de comparar las predicciones realizadas con larealidad de tal modo que se pueda observar cuando la prediccioacuten y la realidad coinciden y cuando no

Realidad

Negativo(0) Positivo (1)

PrediccioacutenNegativo(0) Verdadero Negativo (VN) Falso Negativo (FN)

Positivo(1) Falso Positivo (FP) Verdadero Positivo (VP)

Cuadro 42 Matriz de confusioacuten

En nuestro trabajo Negativo (0) representariacutea una observacioacuten normal y Positivo (1) una obser-vacioacuten atiacutepica La diagonal de la matriz estaacute representada por aquellas observaciones en las que larealidad y la prediccioacuten coinciden Los Falsos Negativos (FN) son aquellas observaciones en que el

30 CAPIacuteTULO 4 ESTUDIO DE SIMULACIOacuteN

mecanismo determinoacute que la observacioacuten era normal pero en realidad era atiacutepica Por otra parte losFalsos Positivos (FP) suceden cuando el mecanismo dictamina que la observacioacuten es atiacutepica pero larealidad es que es una observacioacuten normal

Los Falsos Positivos son tambieacuten conocidos como Error Tipo I la probabilidad de aceptar la hipoacute-tesis nula siendo esta falsa Y los Falsos Negativos son conocidos como Error Tipo II la probabilidadde no rechazar la hipoacutetesis nula siendo esta falsa

El iacutendice de Youden (Youden 1950) nacioacute con motivo de poder comparar los resultados de doso maacutes mecanismos de deteccioacuten y asiacute tener la capacidad de discernir cual de ellos tiene una mejorcapacidad discriminatoria Es decir el propoacutesito final del iacutendice es el de resumir la matriz de confusioacutenen un valor que consiga representar el comportamiento del mecanismo de deteccioacuten de tal modo quedos mecanismos se puedan comparar directamente

Este iacutendice considera con la misma importancia tanto los falsos positivos como los falsos negativosUtilizando otro campo de ejemplo la medicina un falso negativo supondriacutea no tratar la enfermedadde un paciente dado que establecemos que estaacute sano cuando la realidad es que estaacute enfermo Por otraparte un falso positivo supondriacutea un coste como podriacutea ser el monetario financiando el tratamiento oel emocional de un paciente que la realidad es que estaacute sano

Trasladando ese ejemplo a nuestro trabajo un falso negativo supondriacutea no calificar como atiacutepicauna observacioacuten que lo es Esto provocariacutea que estariacuteamos asumiendo como normal un comportamientoen el aacutembito socio-econoacutemico gallego que no lo fue estariacuteamos incurriendo en errores en posterioresanaacutelisis o estariacuteamos obviando sucesos relevantes

Los falsos positivos tambieacuten suponen un coste aquiacute cada observacioacuten que el meacutetodo detecte comoatiacutepica supondraacute la intervencioacuten de un analista para tratar de entender queacute ha sucedido Si finalmenteel analista concluye que la observacioacuten no es atiacutepica se habraacute desperdiciado una serie de horas y equipoque podriacutean haber sido invertidos para otro fin De ambos escenarios surgen dos medidas

Sensibilidad V PV P+FN refleja la proporcioacuten de verdaderos positivos sobre el total de positivos

Especifidad V NV N+FP refleja la proporcioacuten de verdaderos negativos sobre el total de negativos

El iacutendice de Youden se construye a partir de ambas medidas del siguiente modo

J = Sensibilidad + Especifidadminus 1 =V P

V P + FN+

V N

V N + FPminus 1

El rango en el que se utiliza este iacutendice es de 0 a 1 donde 1 representariacutea que el mecanismo escapaz de diferenciar perfectamente las observaciones atiacutepicas de las normales y 0 todo lo contrario

Sin embargo teoacutericamente este rango puede variar de minus1 a 1 (Shan G 2015) los valores menoresque cero no se suelen contemplar dado que no tienen una interpretacioacuten significativa En nuestrotrabajo sucede esta situacioacuten en la que se presentan mecanismos con valores negativos y si bien deforma general esto no tiene explicacioacuten en otros campos en este estudio si

Explicaacutendolo a traveacutes de lo que podriacutea ser un posible resultado de un mecanismo de deteccioacuten

42 IacuteNDICE DE YOUDEN 31

Realidad

Negativo(0) Positivo(1)

PrediccioacutenNegativo(0) 96 1

Positivo(1) 3 0

Cuadro 43 Ejemplo de posible resultado de un mecanismo de deteccioacuten en el que el iacutendice de Youdenseriacutea negativo

En el ejemplo del Cuadro 42 se analiza una serie de tiempo con 100 observaciones entre las cualesse encuentra un valor atiacutepico El mecanismo de deteccioacuten habriacutea detectado 3 posibles atiacutepicos peroninguno de ellos es el atiacutepico real Si calculamos el iacutendice de Youden obtenemos

J =0

0 + 1+

96

96 + 3minus 1 = minus003

El resultado es negativo debido a que el mecanismo de deteccioacuten nos situacutea en una posicioacuten peorque no clasificar nada como atiacutepico Por lo que si 1 refleja que el mecanismo es capaz de diferenciarperfectamente las dos clases y 0 que el mecanismo no nos ayuda en absoluto a diferenciar entre ellasun valor menor que 0 en nuestro trabajo supondriacutea que el mecanismo seriacutea peor que no clasificar nadadado que nos infunde un mayor error sobre la realidad

Un resultado de cero implicariacutea que el mecanismo no es uacutetil ya que no es capaz de diferenciar entrelo que es atiacutepico y lo que no En el Cuadro 43 se recoge un posible resultado que conduciriacutea a estasituacioacuten Este ejemplo recoge una situacioacuten en la que en una serie de tiempo de 100 observaciones seencuentran 5 valores atiacutepicos sin embargo el meacutetodo no es capaz de detectar ninguna de ellas

Realidad

Negativo(0) Positivo(1)

PrediccioacutenNegativo(0) 95 5

Positivo(1) 0 0

Cuadro 44 Ejemplo de posible resultado de un mecanismo de deteccioacuten en el que el iacutendice de Youdenseriacutea cero

J =0

0 + 5+

95

95 + 0minus 1 = 0

Finalmente el resultado perfecto implicariacutea que el mecanismo de deteccioacuten es capaz de diferenciarde forma precisa aquello que es atiacutepico de lo que no lo es En el Cuadro 44 se recoge un ejemplo de

32 CAPIacuteTULO 4 ESTUDIO DE SIMULACIOacuteN

esta situacioacuten En este ejemplo se plantea una serie de tiempo que cuenta con 100 observaciones delas cuales 5 son atiacutepicas igual que en el ejemplo anterior sin embargo el meacutetodo ahora es capaz dedetectar cada una de ellas sin incurrir en Falsos Positivos ni Falsos Negativos

Realidad

Negativo(0) Positivo(1)

PrediccioacutenNegativo(0) 95 0

Positivo(1) 0 5

Cuadro 45 Ejemplo de posible resultado de un mecanismo de deteccioacuten en el que el iacutendice de Youdenseriacutea uno

J =5

0 + 5+

95

95 + 0minus 1 = 1

Podemos observar como los valores fuera de la diagonal de la matriz aquellos que representan losFalsos Negativos y Falsos Positivos son cero En la diagonal de la matriz se encuentran los resultadosque muestran que el mecanismo ha conseguido identificar de forma perfecta aquellas observacionesque son atiacutepicas Esta seriacutea la situacioacuten ideal la cual representariacutea que el mecanismo de deteccioacuten deatiacutepicos funciona de forma idoacutenea

43 Resultados

A continuacioacuten se presentan los resultados para los ocho escenarios introducidos recogidos en elCuadro 41 Al introducir una gran cantidad de meacutetodos escenarios y casos el anaacutelisis de los resultadosse presenta confuso por lo que se decidioacute introducir un coacutedigo de color para resaltar los tres mejores ytres peores resultados en cada caso Los mejores resultados se asocian al color verde siendo el verde maacutesintenso el mejor resultado y decayendo gradualmente la intensidad del color seguacuten empeora Por otraparte los peores resultados estaacuten asociados al color rojo siendo el rojo maacutes intenso el peor resultadoy decayendo la intensidad seguacuten el resultado mejora

Se pensoacute en introducir un gradiente de color por cada caso de modo que fuese variando de mejora peor Finalmente se descartoacute debido a que su contribucioacuten a la comprensioacuten de los resultados eramenor que la idea finalmente escogida de resaltar los tres mejores y los tres peores resultados

Los resultados obtenidos para el iacutendice de Youden se muestran a continuacioacuten A mayores en elanexo se han incluido tablas referentes a los resultados que han presentado los distintos meacutetodos enbase a otras dos medidas que tambieacuten han resultado de utilidad a la hora de escoger los mecanismosadecuados La primera de esas medidas es la sensibilidad la cual hemos definido en este apartado yla otra es el exceso la cual se define como la media de detecciones incorrectas por simulacioacuten y cuyosresultados estaacuten incluidos en el anexo correspondiente

43 RESULTADOS 33

Caso 1 Caso 2 Caso 3 Caso 4

X-13ARIMA-SEATS 0495 0853 0699 0490

TRAMO-SEATS 0655 0926 0803 0494

STL+HDoutliers 0561 0830 0562 0727

STL+GESD 0265 0589 0236 0531

STL+iForest 0632 0882 0632 0788

STL(ROB)+HDoutliers 0550 0790 0666 0707

STL(ROB)+GESD 0623 0862 0732 0752

STL(ROB)+iForest 0634 0873 0741 0748

Twitter+HDoutliers 0462 0725 0588 0616

Twitter+GESD 0303 0587 0426 0433

Twitter+iForest 0524 0797 0647 0657

STR+Hdoutliers 0603 0833 0595 0667

STR+GESD 0344 0649 0292 0448

STR+iForest 0670 0882 0675 0719

STR(ROB)+Hdoutliers 0534 0803 0630 0654

STR(ROB)+GESD 0379 0683 0456 0557

STR(ROB)+iForest 0619 0859 0695 0711

Cuadro 46 Resultados Escenario 1Iacutendice de Youden AR(1)

En el Cuadro 46 se recogen los resultados al Escenario 1 escenario en el que se simula un AR(1)igual al realizado por Chen y Liu (1993) Los resultados muestran que en los casos 1 2 y 3 TRAMO-SEATS ejerce un papel superior al resto buen comportamiento que desaparece en el Caso 4 casoen el que se introducen dos atiacutepicos Si analizamos conjuntamente los resultados de los cuatro casospodriacuteamos decir que los meacutetodos que reflejan un mejor comportamiento global en el escenario seriacuteanSTR+iForest y STL(Rob)+iForest

34 CAPIacuteTULO 4 ESTUDIO DE SIMULACIOacuteN

Caso 1 Caso 2 Caso 3 Caso 4

X-13ARIMA-SEATS 0504 0828 0645 0494

TRAMO-SEATS 0667 0913 0741 0494

STL+HDoutliers 0465 0721 0473 0680

STL+GESD 0217 0457 0147 0428

STL+iForest 0502 0781 0521 0713

STL(ROB)+HDoutliers 0457 0723 0576 0642

STL(ROB)+GESD 0516 0761 0651 0667

STL(ROB)+iForest 0519 0798 0660 0713

Twitter+HDoutliers 0457 0690 0587 0640

Twitter+GESD 0346 0627 0480 0486

Twitter+iForest 0506 0774 0658 0689

STR+HDoutliers 0580 0814 0566 0658

STR+GESD 0297 0601 0247 0449

STR+iForest 0626 0866 0647 0719

STR(ROB)+HDoutliers 0514 0780 0603 0644

STR(ROB)+GESD 0335 0627 0405 0520

STR(ROB)+iForest 0578 0836 0687 0709

Cuadro 47 Resultados Escenario 2 Iacutendice de Youden MA(1)

En el Cuadro 47 se recogen los resultados al Escenario 2 escenario en el que se simula un MA(1)igual al realizado por Chen y Liu (1993) Los resultados que se observan son similares a los extraiacutedos delEscenario 1 TRAMO-SEATS es claramente superior en los casos 1 2 y 3 pero su buen comportamientodesaparece ante el Caso 4 Por otra parte STR+iForest presenta un comportamiento maacutes homogeacuteneoencontraacutendose en tres de los cuatro casos entre los tres mejores resultados Lo mismo sucede con suversioacuten robusta En esta ocasioacuten la combinacioacuten STL+iForest solamente se encuentra entre las mejoresen el Caso 4

43 RESULTADOS 35

Caso 1 Caso 2 Caso 3 Caso 4

X-13ARIMA-SEATS 0921 0970 0926 0500

TRAMO-SEATS 0921 0971 0921 0500

STL+HDoutliers 0306 0502 0234 0435

STL+GESD 0088 0229 0050 0152

STL+iForest 0338 0575 0279 0451

STL(ROB)+HDoutliers 0252 0426 0287 0328

STL(ROB)+GESD 0287 0504 0369 0316

STL(ROB)+iForest 0291 0495 0329 0358

Twitter+HDoutliers 0061 0109 0124 0064

Twitter+GESD 0015 0027 0056 0025

Twitter+iForest 0077 0127 0167 0068

STR+HDoutliers 0400 0556 0342 0436

STR+GESD 0202 0365 0108 0230

STR+iForest 0441 0614 0385 0492

STR(ROB)+HDoutliers 0237 0391 0248 0268

STR(ROB)+GESD 0199 0381 0215 0254

STR(ROB)+iForest 0277 0451 0279 0289

Cuadro 48 Resultados Escenario 3 Iacutendice de Youden ARIMA(011)

En el Cuadro 48 se recogen los resultados al Escenario 3 escenario en el que se simula un ARI-MA(011) igual al realizado por Chen y Liu (1993) En este escenario existe una hegemoniacutea de X-13ARIMA-SEATS y TRAMO-SEATS los cuales presentan resultados superiores a los de cualquierotro meacutetodo La combinacioacuten STR+iForest es el tercer meacutetodo que a pesar de la diferencia con losotros dos presenta mejores resultados

36 CAPIacuteTULO 4 ESTUDIO DE SIMULACIOacuteN

Caso 1 Caso 2 Caso 3 Caso 4

X-13ARIMA-SEATS 0402 0592 0067 0480

TRAMO-SEATS 0540 0705 0071 0481

STL+HDoutliers -0003 -0004 0008 0000

STL+GESD -0002 -0001 0002 -0001

STL+iForest -0004 -0004 0008 0001

STL(ROB)+HDoutliers -0005 -0005 0025 0000

STL(ROB)+GESD -0039 -0026 0052 0002

STL(ROB)+iForest 0004 -0002 0026 0000

Twitter+HDoutliers 0000 -0002 -0001 0007

Twitter+GESD -0025 -0019 -0016 0003

Twitter+iForest 0000 -0001 0004 0016

STR+HDoutliers 0359 0417 -0004 0083

STR+GESD 0409 0445 -0006 0124

STR+iForest 0411 0472 -0005 0097

STR(ROB)+HDoutliers 0014 0006 0002 0039

STR(ROB)+GESD 0019 0017 0008 0075

STR(ROB)+iForest 0014 0005 0002 0021

Cuadro 49 Resultados Escenario 4 Iacutendice de Youden ARIMA(011)x(011)12

En el Cuadro 49 se recogen los resultados al Escenario 4 escenario en el que se simula el modelo deliacuteneas aeacutereas (G Box y Jenkins 1976) Este modelo es famoso por su uso en series socio-econoacutemicasPor ello cabriacutea esperar un buen comportamiento de los modelos disentildeados para este fin X-13ARIMA-SEATS y TRAMO-SEATS El resto de combinaciones presentan resultados poco consistentes

43 RESULTADOS 37

Caso 1 Caso 2 Caso 3 Caso 4

X-13ARIMA-SEATS 0265 0628 0176 0409

TRAMO-SEATS 0398 0747 0248 0432

STL+HDoutliers 0238 0469 0281 0125

STL+GESD 0091 0258 0158 0024

STL+iForest 0263 0531 0305 0134

STL(ROB)+HDoutliers 0265 0475 0343 0097

STL(ROB)+GESD 0375 0662 0452 0114

STL(ROB)+iForest 0304 0545 0388 0128

Twitter+HDoutliers 0243 0429 0352 0103

Twitter+GESD 0168 0376 0309 0057

Twitter+iForest 0266 0479 0381 0126

STR+HDoutliers 0656 0885 0231 0755

STR+GESD 0424 0769 0064 0567

STR+iForest 0720 0936 0277 0798

STR(ROB)+HDoutliers 0189 0326 0212 0523

STR(ROB)+GESD 0174 0317 0192 0665

STR(ROB)+iForest 0229 0364 0232 0588

Cuadro 410 Resultados Escenario 5 Iacutendice de Youden ARIMA(101)x(012)12

En el Cuadro 410 se recogen los resultados al Escenario 5 escenario en el que se simula un modeloARIMA (101)x(012)12 a partir de aplicarle la funcioacuten autoarima a una serie del IGE escogidaaleatoriamente En este escenario predomina la descomposicioacuten STR ya que son las combinacionesjunto a los tres meacutetodos de deteccioacuten de atiacutepicos GESD iForest y HDoutliers los meacutetodos quepresentan mejores resultados En concreto la combinacioacuten STR+iForest supone la combinacioacuten maacutesinteresante para este escenario

38 CAPIacuteTULO 4 ESTUDIO DE SIMULACIOacuteN

Caso 1 Caso 2 Caso 3 Caso 4

X-13ARIMA-SEATS 0331 0659 0354 0425

TRAMO-SEATS 0457 0764 0477 0438

STL+HDoutliers 0513 0790 0494 0624

STL+GESD 0229 0558 0188 0328

STL+iForest 0560 0833 0567 0648

STL(ROB)+HDoutliers 0507 0776 0592 0595

STL(ROB)+GESD 0528 0815 0663 0560

STL(ROB)+iForest 0559 0838 0661 0645

Twitter+HDoutliers 0239 0416 0355 0208

Twitter+GESD 0101 0229 0185 0100

Twitter+iForest 0279 0452 0383 0227

STR+HDoutliers 0520 0779 0436 0636

STR+GESD 0278 0584 0151 0385

STR+iForest 0596 0822 0494 0682

STR(ROB)+HDoutliers 0399 0666 0490 0545

STR(ROB)+GESD 0274 0524 0349 0404

STR(ROB)+iForest 0457 0731 0568 0579

Cuadro 411 Resultados Escenario 6 Iacutendice de Youden ARIMA(111)x(101)12

En el Cuadro 411 se recogen los resultados al Escenario 6 escenario en el que se simula un modeloARIMA (111)x(101)12 a partir de aplicarle la funcioacuten autoarima a una serie del IGE escogidaaleatoriamente En este escenario los meacutetodos que muestran unos mejores resultados son STR+iForesty STL+iForest Tambieacuten muestra un buen comportamiento el meacutetodo STL(Rob)+GESD basado enla combinacioacuten de la versioacuten robusta de la descomposicioacuten STL y el meacutetodo de deteccioacuten de atiacutepicosGESD

43 RESULTADOS 39

Caso 1 Caso 2 Caso 3 Caso 4

X-13ARIMA-SEATS 0332 0673 0347 0422

TRAMO-SEATS 0426 0765 0425 0453

STL+HDoutliers 0451 0693 0414 0503

STL+GESD 0180 0438 0142 0219

STL+iForest 0509 0759 0458 0527

STL(ROB)+HDoutliers 0416 0655 0468 0489

STL(ROB)+GESD 0452 0702 0549 0457

STL(ROB)+iForest 0484 0717 0541 0525

Twitter+HDoutliers 0009 0018 0037 0037

Twitter+GESD -0024 -0014 0011 0010

Twitter+iForest 0007 0016 0050 0050

STR+HDoutliers 0469 0719 0369 0582

STR+GESD 0228 0495 0122 0329

STR+iForest 0511 0774 0438 0635

STR(ROB)+HDoutliers 0282 0495 0347 0330

STR(ROB)+GESD 0224 0432 0301 0285

STR(ROB)+iForest 0343 0557 0407 0385

Cuadro 412 Resultados Escenario 7 Iacutendice de Youden ARIMA(112)x(011)12

En el Cuadro 412 se recogen los resultados al Escenario 7 escenario en el que se simula un modeloARIMA (112)x(011)12 a partir de aplicarle la funcioacuten autoarima a una serie del IGE escogidaaleatoriamente En este escenario los meacutetodos que muestran unos mejores resultados vuelven a serSTL+iForest STR+iForest y cercano a ellos STL(Rob)+iForest El resto de resultados no muestranninguacuten meacutetodo estable para los cuatro casos

40 CAPIacuteTULO 4 ESTUDIO DE SIMULACIOacuteN

Caso 1 Caso 2 Caso 3 Caso 4

X-13ARIMA-SEATS 0298 0636 0334 0434

TRAMO-SEATS 0419 0712 0427 0481

STL+HDoutliers 0425 0697 0389 0620

STL+GESD 0176 0415 0108 0351

STL+iForest 0480 0734 0423 0662

STL(ROB)+HDoutliers 0429 0675 0483 0607

STL(ROB)+GESD 0449 0718 0543 0584

STL(ROB)+iForest 0486 0749 0559 0675

Twitter+HDoutliers 0271 0463 0378 0350

Twitter+GESD 0127 0286 0189 0147

Twitter+iForest 0300 0504 0424 0356

STR+HDoutliers 0448 0692 0459 0564

STR+GESD 0203 0438 0167 0274

STR+iForest 0492 0769 0502 0600

STR(ROB)+Hdoutliers 0416 0680 0503 0548

STR(ROB)+GESD 0260 0523 0329 0366

STR(ROB)+iForest 0460 0751 0573 0587

Cuadro 413 Resultados Escenario 8 Iacutendice de Youden ARIMA(011)x(100)12

En el Cuadro 413 se recogen los resultados al Escenario 8 escenario en el que se simula un mode-lo ARIMA(011)x(100)12 a partir de aplicarle la funcioacuten autoarima a una serie del IGE escogidaaleatoriamente Los resultados maacutes consistentes para los cuatro casos estaacuten formados por las combina-ciones de STR+iForest la misma combinacioacuten pero con la versioacuten robusta de la descomposicioacuten STRSTR(Rob)+iForest y la combinacioacuten STL+iForest y tambieacuten su versioacuten robusta STL (Rob)+iForest

44 CONCLUSIONES 41

44 Conclusiones

Los resultados de las simulaciones muestran dos realidades Por un lado nos encontramos con losresultados asociados a los escenarios 1 2 3 y 4 En estos escenarios prevalece el comportamientode TRAMO-SEATS por encima de todos los meacutetodos sin lugar a duda incluso tambieacuten podriacuteamosincluir a X-13ARIMA-SEATS aquiacute Cabe recordar que ambos parten de las mismas ideas pero esTRAMO-SEATS el que implanta una serie de mejoras a los meacutetodos de deteccioacuten de atiacutepicos en losque se inspiran ambos esto se trata en el Capiacutetulo 3 Por otra parte en los escenarios 5 6 7 y 8 ya noexiste tal hegemoniacutea de TRAMO-SEATS frente al resto de meacutetodos de hecho nos encontramos unosresultados bastante maacutes variados

Entre los meacutetodos de descomposicioacuten (STLTwitter y STR) el que presenta mejores resultados enlas simulaciones es STR En todos los escenarios presenta resultados que lo posicionan entre los tresprimeros Esto nos da una idea de que estamos ante un meacutetodo flexible capaz de entender la estructurasubyacente de series de tiempo muy diversas y adecuar una respuesta realista del mecanismo generadorSus buenos resultados son seguidos muy de cerca por la descomposicioacuten STL Este es un resultado queconcuerda con lo esperado debido a que siendo los dos meacutetodos similares plantean la misma idea perola ejecutan de distinta forma STR fue creado con el objetivo de suponer una mejora a STL

En lo que respecta a los meacutetodos de deteccioacuten GESD HDoutliers y iForest podemos extraerconclusiones acerca del comportamiento de cada uno

GESD es un buen meacutetodo de identificacioacuten de atiacutepicos Obtiene buenos resultados faacutecil deaplicar y es sencillo entender su mecanismo algo muy uacutetil para personas que quieran realizaro transmitir un estudio sin ahondar profundamente en materia Por otra parte sus buenosresultados en la deteccioacuten correcta de atiacutepicos se ven eclipsados por su tendencia a clasificaraltos valores de observaciones como anoacutemalas incorrectamente Si estamos realizando un anaacutelisisindividual esto podriacutea no ser un problema dado que se podriacutea intervenir modificando alguno desus paraacutemetros y conseguir mejores resultados Sin embargo en este trabajo buscamos un meacutetodoque nos sirva como filtro para analizar multitud de series con la menor intervencioacuten posible porlo que descartamos dicho mecanismo

HDoutliers supone una mejora a GESD Muestra mejor comportamiento en todas las combina-ciones con los meacutetodos de descomposicioacuten GESD solo consigue igualar o superar ligeramentesus resultados incurriendo en calificar una gran cantidad de observaciones como atiacutepicas lo queprovoca un incremento en el nuacutemero de observaciones calificadas erroacuteneamente esto se puede veren las tablas de exceso introducidas en el anexo Sin embargo pese a suponer una mejora noes el meacutetodo que presenta mejores resultados

Isolation Forest o iForest es el meacutetodo de deteccioacuten maacutes consistente a lo largo de los escenariosy para cada meacutetodo de descomposicioacuten Consigue un equilibrio entre buenos valores de deteccioacutencorrecta y bajas tasas de atiacutepicos sentildealados incorrectamente justo lo que se busca en un meacutetodode deteccioacuten de atiacutepicos La idea de aacuterbol bajo la que se desarrolla su mecanismo es faacutecil decomprender cada observacioacuten recibe una puntuacioacuten entre 0 y 1 de cuaacuten anoacutemala es esto permiteflexibilizar la decisioacuten del analista con el umbral en el que fija un valor como atiacutepico En Liu et

42 CAPIacuteTULO 4 ESTUDIO DE SIMULACIOacuteN

al (2009) califican como observaciones sospechosas de ser atiacutepicas aquellas cuya puntuacioacuten seamayor a 06 en este trabajo somos maacutes estrictos y fijamos un umbral superior 075 Ademaacutessu disentildeo le permite escalar a conjuntos de gran tamantildeo y dimensioacuten (big data) por lo que nosupone un freno ante situaciones futuras

Parece interesante tambieacuten recordar que los mecanismos que emplean los meacutetodos X-13ARIMA-SEATS y TRAMO-SEATS fueron analizados en estudios que planteaban simulaciones como las quese realizan en los escenarios 1 2 y 3 Ademaacutes tambieacuten cabe esperar un buen comportamiento que seespera de ellos en un modelo tan comuacuten como el de liacuteneas aacutereas (Escenario 4) Sin embargo cuando seaplican fuera de estos escenarios en modelos maacutes complejos solamente TRAMO-SEATS consigue noquedarse atraacutes

La simulacioacuten nos permite descartar la descomposicioacuten Twitter la cual estaacute quizaacutes maacutes enfocadaa datos de alta frecuencia datos que se producen en frecuencias de tiempo mucho maacutes pequentildeascomo minutos en vez de datos mensuales como los planteados en el estudio de simulacioacuten por lo querefleja peores resultados en escenarios de este aacutembito Tambieacuten nos permite descartar el meacutetodo X-13ARIMA-SEATS dado que supone una idea similar pero menos desarrollada en lo que a deteccioacuten deatiacutepicos se refiere a TRAMO-SEATS Finalmente el meacutetodo GESD tambieacuten es descartado debido asus resultados en los que muestra un comportamiento inferior frente a HDoutliers meacutetodo que suponeuna mejora a la idea sobre la que se basa GESD

Por lo que se concluye que los meacutetodos maacutes adecuados para la continuacioacuten del trabajo son elmodelo TRAMO-SEATS las descomposiciones de series temporales STL y STR y los meacutetodos dedeteccioacuten de atiacutepicos HDoutliers y iForest lo que conforman los siguientes mecanismos de deteccioacutende atiacutepicos

TRAMO-SEATS

STL+HDoutliers

STL+iForest

STR+HDoutliers

STR+iForest

Capiacutetulo 5

Aplicacioacuten a datos reales

En este capiacutetulo se aplican los meacutetodos que han mostrado unos mejores resultados en el estudiode simulacioacuten a las bases de datos del IGE comentadas en Capiacutetulo 1 Estos meacutetodos son TRAMO-SEATS STL+HDoutliers STL+iForest STR+HDoutliers y STL+iForest De este modo podemosanalizar el comportamiento de los meacutetodos con datos reales y extraer nuevas conclusiones que nosurgiacutean en el estudio de simulacioacuten Esto se debe a que si bien el estudio de simulacioacuten planteaba unadiversidad de escenarios amplia nunca seraacuten suficientes para recoger la multitud de naturalezas quecaracteriza a las series socio-econoacutemicas

El anaacutelisis de las datos del IGE se haraacute en dos niveles Un primer nivel mostraraacute el comportamientoglobal del conjunto mediante cuatro medidas el total de atiacutepicos detectados por cada meacutetodo en elconjunto el maacuteximo nuacutemero de atiacutepicos que detecta el meacutetodo en una serie del conjunto el nuacutemero deseries que no presentan atiacutepicos y la media de atiacutepicos detectados por cada meacutetodo El segundo nivelmostraraacute un anaacutelisis maacutes especiacutefico donde se analizaraacute el comportamiento de los meacutetodos respecto auna serie escogida del conjunto

Para finalizar el capiacutetulo introducimos una herramienta graacutefica disentildeada con el objetivo de eliminarla mayor incertidumbre posible que acompantildea a un campo como el de la deteccioacuten de valores atiacutepicosy analizamos su comportamiento

51 Anaacutelisis Series IGE

Los conjuntos utilizados para este trabajo han pasado primero por un proceso de filtrado en el quese han eliminado todas las series que presentan menos de 24 observaciones o maacutes de 24 ceros entre susobservaciones De este modo conseguimos quedarnos con series que recogen la informacioacuten suficientepara trabajar con ellas

A continuacioacuten se muestra el total de series perteneciente a cada conjunto

43

44 CAPIacuteTULO 5 APLICACIOacuteN A DATOS REALES

Conjunto 1 Conjunto 2 Conjunto 3 Conjunto 4 Conjunto 5 Conjunto 6 Conjunto 7

Pre-filtrado 108 72 55 42 162 165 55

Post-filtrado 84 60 50 42 90 165 47

Cuadro 51 Nuacutemero de series de tiempo perteneciente a cada conjunto antes y despueacutes del proceso defiltrado

Ademaacutes con el objetivo de capturar la influencia del Covid19 sobre las series de tiempo se procedea dividir el estudio en dos partes La primera analiza las series con datos hasta 2019 si el conjuntopresenta datos de frecuencia mensual esta fecha seraacute diciembre de 2019 por otra parte si el conjuntopresenta datos de frecuencia trimestral esta fecha seraacute el cuarto trimestre de 2019 La segunda analizalas series incluyendo el uacuteltimo dato actualizado el cual variacutea dependiendo del conjunto Los conjuntoscon datos trimestrales incluyen hasta el primer trimestre del 2020 mientras que los conjuntos condatos mensuales incluyen como uacuteltima actualizacioacuten fechas comprendidas entre abril y junio de 2020por lo que dicha fecha se concretaraacute en el momento que se analiza dicho conjunto Respecto a la fechade inicio de las series variacutea dependiendo del conjunto por lo que tambieacuten se especificaraacute en el iniciodel anaacutelisis del mismo

Para medir la influencia del Covid lo que se haraacute seraacute calcular la tasa de variacioacuten del total deatiacutepicos detectados entre ambos escenarios las series hasta 2019 y las series actualizadas al uacuteltimodato existente de 2020 la cual calcularemos como

Tasa de variacioacuten =

(Total atiacutepicos serie completaTotal atiacutepicos serie hasta 2019

minus 1

)lowast 100

Conjunto 1 (httpwwwigeeuigebdtigeapidatos3476)

Series de datos mensuales que contienen la informacioacuten de los viajeros noches y estancia media enestablecimientos hoteleros y de turismo rural en Espantildea Galicia y sus provincias Los datos de esteconjunto comienzan en enero de 1999 y finalizan en mayo de 2020

51 ANAacuteLISIS SERIES IGE 45

TRAMO -

SEATS

STL +

HDoutliers

STL +

iForest

STR +

HDoutliers

STR +

iForest

Atiacutepicos detectados 327 176 111 136 142

Max nuacutemero atip serie 17 11 3 8 4

Series con 0 atiacutepicos 13 20 11 23 3

Media de atiacutepicos detec 389 210 132 162 169

Cuadro 52 Resultados para el Conjunto 1 con datos hasta diciembre de 2019

Los resultados del Cuadro 52 se producen para un total de 18816 observaciones que muestra elconjunto con datos hasta diciembre de 2019 Ahora vamos a estudiar los resultados de forma quecada serie esteacute formada por el uacuteltimo dato actualizado y a realizar una comparacioacuten entre ambosescenarios En esta serie el uacuteltimo dato actualizado es mayo de 2020 lo que conforma un total de19172 observaciones

TRAMO -

SEATS

STL +

HDoutliers

STL +

iForest

STR +

HDoutliers

STR +

iForest

Atiacutepicos detectados 457 243 170 264 204

Max nuacutemero atip serie 17 11 4 15 5

Series con 0 atiacutepicos 1 6 1 10 3

Media de atiacutepicos detec 544 289 202 314 243

Cuadro 53 Resultados para el Conjunto 1 con datos hasta mayo de 2020

46 CAPIacuteTULO 5 APLICACIOacuteN A DATOS REALES

TRAMO -

SEATS

STL +

HDoutliers

STL +

iForest

STR +

HDoutliers

STR +

iForest

Hasta 2019 327 176 111 136 142

Hasta mayo 2020 457 243 170 264 204

Tasa de variacioacuten 3976 3807 5315 9412 4366

Cuadro 54 Total de atiacutepicos detectados por cada meacutetodo hasta diciembre de 2019 y abril 2020 y tasade variacioacuten que produce el efecto del Covid en el Conjunto 1

En el Cuadro 54 podemos ver como el efecto del Covid sobre el conjunto es muy notorio algoque cabriacutea esperar dado que estamos tratando series relacionadas con el Turismo en Galicia uno delos sectores maacutes afectados por la crisis del Covid El Cuadro 53 incorpora datos hasta mayo 2020lo que supone solamente un crecimiento del 189 del total de datos Sin embargo el crecimientoque experimenta el total de atiacutepicos detectado es muy superior en el caso maacutes suave representa uncrecimiento de maacutes del 38 llegando a suponer para alguacuten meacutetodo el 94

A continuacioacuten vamos a analizar un caso concreto de una serie del conjunto Hemos escogido laserie que hace referencia al nuacutemero de viajeros residentes en Espantildea hospedados en establecimientosde turismo rural en Espantildea El motivo de su eleccioacuten es que es la serie que provoca un mayor nuacutemerode atiacutepicos en el Cuadro 52 un total de 17 observaciones atiacutepicas sentildealadas por el meacutetodo TRAMO-SEATS

Figura 51 Serie de tiempo referente al nuacutemero de viajeros residentes en Espantildea hospedados en esta-blecimientos de turismo rural en Espantildea

La Figura 51 recoge la serie de tiempo referente al nuacutemero de viajeros residentes en Espantildea hos-

51 ANAacuteLISIS SERIES IGE 47

pedados en establecimientos de turismo rural en Espantildea La liacutenea vertical roja representa el comienzodel antildeo 2020 Observando dicha figura y centraacutendonos en la serie hasta 2019 nos encontramos con unaserie con mucha volatilidad debido al fuerte caraacutecter estacional que posee un sector como el turismoy con una ligera tendencia creciente que se estanca ligeramente en los antildeos posteriores a la crisis eco-noacutemica de 2011 para despueacutes continuar en aumento Sin embargo no parece que se encuentren valoresatiacutepicos en dicha serie La combinacioacuten STR+HDoutliers tambieacuten sentildeala un elevado nivel de atiacutepicosseis en total que se reduce con STR+iForest a tres posibles atiacutepicos Finalmente STL+HDoutliers ySTL+iForest coinciden en sentildealar un atiacutepico agosto de 2019

Si ahora observamos los resultados para la serie completa podemos comprobar que los resultadoscambian bruscamente con la introduccioacuten de cuatro nuevos datos enero febrero marzo y abril de2020 Ahora el meacutetodo TRAMO-SEATS sentildeala cuatro fechas de las que solo dos coinciden con lassentildealadas anteriormente Las combinaciones STL+HDoutliers y STL+iForest mantienen como atiacutepicoagosto de 2019 y antildeaden febrero marzo y abril 2020 y marzo y abril 2020 respectivamente Y ahorason las combinaciones STR+HDoutliers y STR+iForest las que sentildealan uacutenicamente agosto de 2019

Es interesante observar el comportamiento de los cinco meacutetodos en esta serie TRAMO-SEATS ylas combinaciones basadas en el proceso de descomposicioacuten STR soliacutean ser las que mejores resultadospresentaban sin embargo en este ejemplo son los meacutetodos basados en la descomposicioacuten STL que sibien presentaron buenos resultados en la simulacioacuten tendiacutean a ir por detraacutes de TRAMO-SEATS y losmeacutetodos basados en la descomposicioacuten STR los que presenta un comportamiento maacutes acorde con loque sucede en la serie De hecho son los meacutetodos basados en la descomposicioacuten STL los uacutenicos quesentildealan como atiacutepica la observacioacuten de abril 2020 la cual es la uacutenica que tiene un valor de 0 y esclaramente atiacutepica

La Figura 52 representa los atiacutepicos detectados por el meacutetodo STL+HDoutliers el cual es el meacutetodoque mejor comportamiento muestra para esta serie

Figura 52 Serie de tiempo referente al nuacutemero de viajeros residentes en Espantildea hospedados en esta-blecimientos de turismo rural en Espantildea analizada por el meacutetodo STL+HDoutliers

En la Figura 53 se muestran los resultados para la misma serie por el resto de meacutetodos utilizadosSTL+iForest STR+HDoutliers STR+iForest y TRAMO-SEATS

48 CAPIacuteTULO 5 APLICACIOacuteN A DATOS REALES

Figura 53 Serie de tiempo referente al nuacutemero de viajeros residentes en Espantildea hospedados en esta-blecimientos de turismo rural en Espantildea analizada por STL+iForest STR+HDoutliers STR+iForesty TRAMO-SEATS

Conjunto 2 (httpwwwigeeuigebdtigeapidatos6356)

Series de datos trimestrales acerca de la poblacioacuten de 16 y maacutes antildeos desglosados por sexo gruposde edad y relacioacuten con la actividad econoacutemica en Galicia Los datos de este conjunto comienzan en elprimer trimestre de 1996 y finalizan en el primer trimestre de 2020

TRAMO -

SEATS

STL +

HDoutliers

STL +

iForest

STR +

HDoutliers

STR +

iForest

Atiacutepicos detectados 56 70 61 62 66

Max nuacutemero atip serie 5 6 3 5 3

Series con 0 atiacutepicos 28 29 18 26 14

Media de atiacutepicos detec 093 117 102 103 110

Cuadro 55 Resultados para el Conjunto 2 con datos hasta el cuarto trimestre de 2019

Los resultados del Cuadro 55 se producen para un total de 5760 observaciones que muestra elconjunto con datos hasta el cuarto trimestre de 2019 Ahora vamos a estudiar los resultados de formaque cada serie esteacute formada por el uacuteltimo dato actualizado y a comparar ambos escenarios En estaserie el uacuteltimo dato actualizado es el primer trimestre de 2020 lo que conforma un total de 5820

51 ANAacuteLISIS SERIES IGE 49

observaciones

TRAMO -

SEATS

STL +

HDoutliers

STL +

iForest

STR +

HDoutliers

STR +

iForest

Atiacutepicos detectados 54 107 62 68 66

Max nuacutemero atip serie 5 45 3 4 3

Series con 0 atiacutepicos 28 30 15 20 12

Media de atiacutepicos detec 090 178 103 113 110

Cuadro 56 Resultados para el Conjunto 2 con datos hasta el primer trimestre de 2020

TRAMO -

SEATS

STL +

HDoutliers

STL +

iForest

STR +

HDoutliers

STR +

iForest

Hasta 2019 56 70 61 62 66

Hasta mayo 2020 54 107 62 68 66

Tasa de variacioacuten -357 5286 164 968 000

Cuadro 57 Total de atiacutepicos detectados por cada meacutetodo hasta el cuarto trimestre de 2019 y primertrimestre de 2020 y tasa de variacioacuten que produce el efecto del Covid en el Conjunto 2

En el Cuadro 57 podemos ver como el efecto del Covid sobre el conjunto es mucho menor que enlos datos del Conjunto 1 Esto se debe a la naturaleza trimestral de los datos por lo que situando lainfluencia del Covid en el contexto gallego a finales de marzo de 2020 su impacto es maacutes suave sobrelos datos Seriacutea interesante en el futuro ver que sucede con este conjunto una vez se antildeadan los datosdel segundo trimestre

A continuacioacuten vamos a analizar un caso concreto de una serie del conjunto Hemos escogido laserie que recoge los datos de hombres mayores de 55 antildeos y que forman parte de la poblacioacuten ocupada

En la Figura 54 se muestra la serie de tiempo referente a los hombres mayores de 55 antildeos queforma parte de la poblacioacuten ocupada La recta vertical roja diferencia los dos escenarios que estudiamosla serie hasta el cuarto trimestre de 2019 y la serie hasta el primer trimestre de 2020-

50 CAPIacuteTULO 5 APLICACIOacuteN A DATOS REALES

Figura 54 Serie de tiempo referente hombres mayores de 55 antildeos y que forman parte de la poblacioacutenocupada

El uacutenico dato que las diferencia el primer trimestre de 2020 sigue con lo que cabriacutea esperar Y losmeacutetodos de deteccioacuten de atiacutepicos concuerdan con lo que observamos no existen atiacutepicos ni antes nidespueacutes excepto en un caso Ahora son los meacutetodos basados en el proceso de descomposicioacuten STL losque sentildealan una fecha que parece discrepar con la realidad

En la serie con valores hasta 2019 son ambas combinaciones STL+HDoutliers y STL+iForestlas que sentildealan como posible atiacutepico julio 2013 Si nos trasladamos a la serie completa uacutenicamenteSTL+iForest sigue manteniendo ese posible atiacutepico mientras que STL+HDoutliers lo corrige Esta si-tuacioacuten en las que solo un meacutetodo sentildeala una fecha nos lleva a dudar de que realmente esta observacioacutensea atiacutepica

A continuacioacuten mostramos la serie referente a los hombres mayores de 55 antildeos y que forman partede la poblacioacuten ocupada analizada por el uacutenico meacutetodo que detecta atiacutepicos para la serie completaSTL+iForest

Figura 55 Serie de tiempo referente hombres mayores de 55 antildeos y que forman parte de la poblacioacutenocupada analizada por STL+iForest

51 ANAacuteLISIS SERIES IGE 51

Conjunto 3 (httpwwwigeeuigebdtigeapidatos308)

Series de datos mensuales acerca de contratos registrados seguacuten la modalidad del contrato Losdatos de este conjunto comienzan en enero de 1999 y finalizan en mayo de 2020

TRAMO -

SEATS

STL +

HDoutliers

STL +

iForest

STR +

HDoutliers

STR +

iForest

Atiacutepicos detectados 193 126 98 146 98

Max nuacutemero atip serie 9 14 5 10 4

Series con 0 atiacutepicos 5 9 1 7 2

Media de atiacutepicos detec 386 252 196 292 196

Cuadro 58 Resultados para el Conjunto 3 con datos hasta diciembre 2019

El Cuadro 58 recoge los resultados que se producen para un total de 12600 observaciones quemuestra el Conjunto 3 con datos hasta diciembre de 2019 Ahora vamos a estudiar los resultados deforma que cada serie esteacute conformada por el uacuteltimo dato actualizado y a realizar una comparativaentre ambas En esta serie el uacuteltimo dato actualizado es mayo de 2020 lo que conforma un total de12850 observaciones

TRAMO -

SEATS

STL +

HDoutliers

STL +

iForest

STR +

HDoutliers

STR +

iForest

Atiacutepicos detectados 242 144 107 153 121

Max nuacutemero atip serie 13 8 5 10 4

Series con 0 atiacutepicos 1 6 0 7 1

Media de atiacutepicos detec 484 288 214 306 242

Cuadro 59 Resultados para el Conjunto 3 con datos hasta mayo de 2020

52 CAPIacuteTULO 5 APLICACIOacuteN A DATOS REALES

TRAMO -

SEATS

STL +

HDoutliers

STL +

iForest

STR +

HDoutliers

STR +

iForest

Hasta 2019 193 126 98 146 98

Hasta mayo 2020 242 144 107 153 121

Tasa de variacioacuten 2539 1429 918 479 2350

Cuadro 510 Total de atiacutepicos detectados por cada meacutetodo hasta diciembre de 2019 y mayo de 2020y tasa de variacioacuten que produce el efecto del Covid en el Conjunto 3

En el Cuadro 510 podemos ver como el efecto del Covid sobre el conjunto es similar al que sepresentaba en los datos del Conjunto 1 Este conjunto vuelve a recoger datos de caraacutecter mensual porlo que la influencia de los meses de 2020 vuelven a reflejar un gran peso en los resultados Sin embargolas tasas de variacioacuten no son tan grandes como las que se produciacutean en el Conjunto 1 Esto podriacuteadeberse a que mientras el sector turiacutestico se redujo a cero en el mercado laboral se llevaron a cabopoliacuteticas contra la destruccioacuten masiva de empleo Estos resultados lo que hacen es aflorar que se haproducido un efecto en el conjunto de datos y que podriacutea ser de intereacutes para despueacutes desarrollar unestudio en profundidad

A continuacioacuten vamos a analizar la serie referente a las contrataciones eventuales por circunstanciasde la produccioacuten para la provincia de Ourense diferenciando a traveacutes de una recta roja vertical los dosescenarios analizados los datos hasta diciembre 2019 y los datos hasta mayo de 2020

Figura 56 Serie de tiempo referente a las contrataciones eventuales por circunstancias de la produccioacutenpara la provincia de Ourense

El meacutetodo TRAMO-SEATS sentildeala tres fechas atiacutepicas en ambas ocasiones en la serie hasta 2019

51 ANAacuteLISIS SERIES IGE 53

y hasta mayo de 2020 sin embargo ninguna de ellas es comuacuten Probablemente esto se deba al compor-tamiento que podemos apreciar en la Figura 56 donde se observa la caiacuteda que produce en la serie losmeses de marzo abril y mayo de 2020 La introduccioacuten de estos datos reajusta las prioridades sobrequeacute es un atiacutepico en la serie para TRAMO-SEATS de forma que pasa de identificar octubre 2001abril 2002 y enero 2012 a sentildealar como fechas atiacutepicas octubre 2007 y marzo y abril de 2020

Este suceso tambieacuten se presenta en el resto de meacutetodos STL+HDoutliers pasa de no identificarninguacuten dato en la serie hasta 2019 a sentildealar abril del 2002 y febrero abril y mayo de 2020 Otro meacutetodoque experimenta esta situacioacuten es STR+iForest que pasa de no calificar ninguna observacioacuten atiacutepicaa sentildealar abril y mayo en 2019 y en 2020 STL+iForest sentildeala dos y tres atiacutepicos en cada caso en laserie hasta 2019 sentildeala el mes de julio en 2018 y 2019 mientras que en la serie completa sentildeala losmeses de febrero abril y mayo de 2020 Por uacuteltimo STR+HDoutliers sentildeala como atiacutepico abril del2002 en la serie acortada observacioacuten que ya no es detectada al incluir la serie completa donde sentildealalos meses de abril y mayo para los antildeos 2019 y 2020 igual aquiacute que STR+iForest

Estos resultados conducen hacia un punto comuacuten mientras que en la serie recortada en 2019 noparece haber mucho acuerdo sobre los atiacutepicos o si existen atiacutepicos en la serie completa todos losmeacutetodos se ponen de acuerdo en que las situaciones de abril y mayo de 2020 son anoacutemalas Estosresultados se muestran en la Figura 57

Figura 57 Serie de tiempo referente a las contrataciones eventuales por circunstancias de la produccioacutenpara la provincia de Ourense sentildealizando las anomaliacuteas comunes a los cinco meacutetodos

Conjunto 4 (httpwwwigeeuigebdtigeapidatos9048)

Series de datos mensuales referidas al Iacutendice de produccioacuten industrial general y por destino eco-noacutemico de los bienes en Espantildea y Galicia Los distintos destinos econoacutemico son bienes de consumoduraderos y no duraderos bienes de equipo bienes intermedios y energiacutea Los datos del conjuntocomienzan en enero de 2002 y finalizan en mayo de 2020

54 CAPIacuteTULO 5 APLICACIOacuteN A DATOS REALES

TRAMO -

SEATS

STL +

HDoutliers

STL +

iForest

STR +

HDoutliers

STR +

iForest

Atiacutepicos detectados 288 129 73 212 64

Max nuacutemero atip serie 24 11 3 102 3

Series con 0 atiacutepicos 9 5 3 6 2

Media de atiacutepicos detec 686 307 174 505 152

Cuadro 511 Resultados para el Conjunto 4 con datos hasta diciembre de 2019

El Cuadro 511 recoge los resultados que se producen para un total de 8904 observaciones quemuestra el conjunto con datos hasta diciembre de 2019 Ahora vamos a estudiar los resultados deforma que cada serie esteacute conformada por el uacuteltimo dato actualizado y a analizar los cambios que seproducen entre ambos escenarios En este conjunto el uacuteltimo dato actualizado es mayo de 2020 lo queconforma un total de 9114 observaciones

TRAMO -

SEATS

STL +

HDoutliers

STL +

iForest

STR +

HDoutliers

STR +

iForest

Atiacutepicos detectados 282 92 78 144 79

Max nuacutemero atip serie 24 5 3 50 3

Series con 0 atiacutepicos 4 5 1 2 1

Media de atiacutepicos detec 672 219 186 343 189

Cuadro 512 Resultados para el Conjunto 4 con datos hasta mayo de 2020

51 ANAacuteLISIS SERIES IGE 55

TRAMO -

SEATS

STL +

HDoutliers

STL +

iForest

STR +

HDoutliers

STR +

iForest

Hasta 2019 288 129 73 212 64

Hasta mayo 2020 282 92 78 144 79

Tasa de variacioacuten -208 -2868 685 -3208 2344

Cuadro 513 Total de atiacutepicos detectados por cada meacutetodo hasta diciembre de 2019 y mayo de 2020y tasa de variacioacuten que produce el efecto del Covid en el Conjunto 4

En el Cuadro 513 podemos ver el efecto del Covid sobre el conjunto sin embargo en esta ocasioacuten nopodemos ver una direccioacuten clara Los meacutetodos difieren y mientras unos meacutetodos muestran crecimientosen el nuacutemero de atiacutepicos detectados para el conjunto otros decrecen y muestran ahora menos atiacutepicosSin embargo esto no implica que el efecto del Covid sobre el conjunto sea menor que por ejemplo en elConjunto 3 Las variaciones entre las series las que incluyen datos de 2020 y las que no son notoriaslo cual implica que el efecto existe

A continuacioacuten vamos a analizar la serie referente a la produccioacuten industrial destinada a bienesintermedios de Galicia diferenciando a traveacutes de una recta vertical roja los dos escenarios los datoshasta diciembre de 2019 y la serie hasta mayo 2020

Figura 58 Serie de tiempo referente a la produccioacuten industrial destinada a bienes intermedios deGalicia

El comportamiento que muestran los meacutetodos con esta serie nos ayuda a plasmar una idea quedesarrollaremos maacutes adelante en el siguiente apartado Si observamos los datos para la serie recortada

56 CAPIacuteTULO 5 APLICACIOacuteN A DATOS REALES

en diciembre de 2019 obtenemos que salvo TRAMO-SEATS que no detecta ninguacuten atiacutepico los otroscuatro meacutetodos concuerdan en dos fechas marzo y julio de 2008 Por otra parte en la serie completacinco meacutetodos sentildealan abril 2020 y cuatro sentildealan marzo de 2008 Estos dos atiacutepicos abril de 2020 ymarzo de 2008 los representamos en la Figura 59

Analizando la Figura 59 el atiacutepico sentildealado en marzo de 2008 parece dudoso sin embargo siprofundizamos en los datos observamos que esta fecha rompe una clara tendencia creciente respecto alos meses de marzo de antildeos anteriores

Este suceso en el que varios meacutetodos coinciden en identificar una fecha proveen al analista de unaseguridad a la hora de calificar una observacioacuten como anoacutemala Este concepto de seguridad eliminandola incertidumbre asociada al campo de la deteccioacuten de valores atiacutepicos seraacute desarrollado maacutes adelante

Figura 59 Serie de tiempo referente a la produccioacuten industrial destinada a bienes intermedios deGalicia con los dos atiacutepicos

Conjunto 5 (httpwwwigeeuigebdtigeapidatos4052)

Series de datos trimestrales de nuacutemero de transacciones inmobiliarias por reacutegimen (Libre Protegiday Total de viviendas) y tipo de vivienda (Nuevas segunda mano y total de viviendas) Las medidas enlas que se toman los datos son por nuacutemero de viviendas su valor total (en miles de euros) o su valormedio (en euros) Los datos se presentan a nivel Espantildea Galicia y las provincias gallegas Los datosse recogen entre el primer trimestre de 2004 hasta el primer trimestre de 2020

51 ANAacuteLISIS SERIES IGE 57

TRAMO -

SEATS

STL +

HDoutliers

STL +

iForest

STR +

HDoutliers

STR +

iForest

Atiacutepicos detectados 184 122 105 94 97

Max nuacutemero atip serie 7 8 2 6 2

Series con 0 atiacutepicos 13 41 12 47 11

Media de atiacutepicos detec 204 136 117 104 107

Cuadro 514 Resultados para el Conjunto 5 con datos hasta el cuarto trimestre de 2019

Los resultados que recoge el Cuadro 514 se producen para un total de 5760 observaciones que mues-tra el Conjunto 5 con datos hasta el cuarto trimestre de 2019 Ahora vamos a estudiar los resultadosde forma que cada serie esteacute conformada por el uacuteltimo dato actualizado y a realizar una comparacioacutenentre ambos escenarios En esta serie el uacuteltimo dato actualizado es el primer trimestre de 2020 lo queconforma un total de 5850 observaciones

TRAMO -

SEATS

STL +

HDoutliers

STL +

iForest

STR +

HDoutliers

STR +

iForest

Atiacutepicos detectados 184 106 108 90 93

Max nuacutemero atip serie 9 8 2 5 3

Series con 0 atiacutepicos 12 42 11 43 13

Media de atiacutepicos detec 204 118 120 100 103

Cuadro 515 Resultados para el Conjunto 5 con datos hasta el primer trimestre de 2020

58 CAPIacuteTULO 5 APLICACIOacuteN A DATOS REALES

TRAMO -

SEATS

STL +

HDoutliers

STL +

iForest

STR +

HDoutliers

STR +

iForest

Hasta 2019 184 122 105 94 97

Hasta mayo 2020 184 106 108 90 93

Tasa de variacioacuten 000 -1311 286 -426 -412

Cuadro 516 Total de atiacutepicos detectados por cada meacutetodo hasta cuarto trimestre de 2019 y primertrimestre de 2020 y tasa de variacioacuten que produce el efecto del Covid en el Conjunto 5

En el Cuadro 516 podemos ver que el efecto del Covid sobre las series trimestrales vuelve a sermuy pequentildeo similar a las conclusiones obtenidas para el Conjunto 2 Si comparamos las tablas 514y 515 podemos similitudes en los resultados para las diferentes medidas que se toman Por ejemplo sinos fijamos en la fila que mide el nuacutemero de series que son identificadas con cero atiacutepicos los meacutetodosapenas difieren en sus resultados Lo mismo sucede con la media de atiacutepicos detectados en cada serieEstos resultados sostienen la idea de que el Covid repercutioacute en menor medida en las series trimestralesen el primer trimestre del antildeo y es de intereacutes realizar este mismo estudio una vez se incorporen losdatos del segundo trimestre

A continuacioacuten vamos a analizar la serie referente al nuacutemero de viviendas transmitidas de segundamano en reacutegimen libre para la provincia de Lugo diferenciando los dos escenarios analizados a traveacutesde una recta vertical roja los datos hasta el cuarto trimestre de 2019 y los datos incluyendo el primertrimestre de 2020

Figura 510 Serie de tiempo referente al nuacutemero de viviendas transmitidas de segunda mano en reacutegimenlibre para la provincia de Lugo

51 ANAacuteLISIS SERIES IGE 59

Observando la Figura 510 parece que el dato incluido referente al primer trimestre de 2020 su-pone una caiacuteda una situacioacuten anoacutemala sin embargo si observamos la evolucioacuten histoacuterica de la seriepodemos comprobar que solamente en dos ocasiones se han mostrado valores superiores en este pri-mer trimestre Para ambos escenarios la serie hasta 2019 y la serie completa uacutenicamente un meacutetododetecta atiacutepicos TRAMO-SEATS que sentildeala en ambas ocasiones octubre de 2010 y 2012 El resto demeacutetodos concuerdan en que la serie no presenta en ninguacuten caso ninguna situacioacuten anoacutemala

La Figura 511 muestra las dos fechas que sentildeala como atiacutepicas el meacutetodo TRAMO-SEATS cuartotrimestre de 2010 y 2012 que si bien reflejan un pico en los espacios temporales en los que se producenno parecen ser atiacutepicas respecto a la serie completa

Figura 511 Serie de tiempo referente al nuacutemero de viviendas transmitidas de segunda mano en reacutegimenlibre para la provincia de Lugo

Conjunto 6 (httpwwwigeeuigebdtigeapidatos1243)

Series de datos mensuales referentes a las bajas de demandas de empleo seguacuten geacutenero y duracioacutende la demanda en Galicia y sus provincias Los datos de la serie se recogen desde enero de 2009 hastajunio de 2020

60 CAPIacuteTULO 5 APLICACIOacuteN A DATOS REALES

TRAMO -

SEATS

STL +

HDoutliers

STL +

iForest

STR +

HDoutliers

STR +

iForest

Atiacutepicos detectados 154 271 228 288 228

Max nuacutemero atip serie 7 11 4 7 3

Series con 0 atiacutepicos 85 44 16 40 12

Media de atiacutepicos detec 093 164 138 174 138

Cuadro 517 Resultados para el Conjunto 6 con datos hasta diciembre de 2019

Los resultados del Cuadro 517 se producen para un total de 21780 observaciones que muestra elconjunto con datos hasta diciembre de 2019 Ahora vamos a estudiar los resultados de forma que cadaserie esteacute conformada por el uacuteltimo dato actualizado y a comparar ambas situaciones En esta serie eluacuteltimo dato actualizado es junio de 2020 lo que conforma un total de 22770 observaciones

TRAMO -

SEATS

STL +

HDoutliers

STL +

iForest

STR +

HDoutliers

STR +

iForest

Atiacutepicos detectados 484 502 336 504 334

Max nuacutemero atip serie 9 12 4 11 4

Series con 0 atiacutepicos 1 10 3 15 5

Media de atiacutepicos detec 293 304 204 305 202

Cuadro 518 Resultados para el Conjunto 6 con datos hasta junio de 2020

51 ANAacuteLISIS SERIES IGE 61

TRAMO -

SEATS

STL +

HDoutliers

STL +

iForest

STR +

HDoutliers

STR +

iForest

Hasta 2019 154 271 228 288 228

Hasta mayo 2020 484 502 336 504 334

Tasa de variacioacuten 21429 8524 4737 7500 4649

Cuadro 519 Total de atiacutepicos detectados por cada meacutetodo hasta diciembre de 2019 y junio de 2020 ytasa de variacioacuten que produce el efecto del Covid en el Conjunto 6

En el Cuadro 519 podemos ver el efecto que supone la primera mitad del antildeo 2020 en la aparicioacutende valores atiacutepicos en este conjunto El incremento en el nuacutemero de datos a analizar no llega a serdel 5 pero esa miacutenima cantidad de datos nuevos dispara las fechas anoacutemalas que se suceden en lasseries En el Cuadro 518 se puede observar que apenas existen series sin atiacutepicos independientementedel meacutetodo que seleccionemos algo todaviacutea maacutes sorprendente si recordamos que este es el conjuntoque posee maacutes series un total de 165 series

A continuacioacuten analizamos un caso concreto utilizando la serie referente a las bajas de la demandade empleo en mujeres con una duracioacuten de la demanda entre 12 y 18 meses en Ourense La rectavertical roja indica el inicio del antildeo 2020 sirviendo asiacute para indicar la diferencia entre los dos escenariosanalizados en los Cuadros 517 y 518

Figura 512 Serie de tiempo referente a las bajas de la demanda de empleo en mujeres con una duracioacutende la demanda entre 12 y 18 meses en Ourense

Esta serie es de intereacutes por diversos motivos El primero es que posee claros atiacutepicos en ambos

62 CAPIacuteTULO 5 APLICACIOacuteN A DATOS REALES

escenarios En la serie con duracioacuten hasta 2019 se puede observar un valor cercano al inicio de 2014con claro aspecto de ser atiacutepico La serie con todos los datos muestra el atiacutepico anterior pero tambieacutennuevos valores con claro comportamiento discordante al resto de la serie

Para la serie recortada cinco meacutetodos coinciden en sus resultados julio de 2013 es atiacutepico uacutenica-mente TRAMO-SEATS difiere el cual no sentildeala ninguacuten atiacutepico en la serie Si ahora nos trasladamosa la serie completa TRAMO-SEATS sentildeala marzo de 2020 como atiacutepico mientras que el resto demeacutetodos vuelven a concordar sentildealando julio de 2013 y febrero de 2020 En la Figura 513 se muestrala serie sentildealizando dichos atiacutepicos julio de 2013 y febrero y marzo de 2020

Figura 513 Serie de tiempo referente a las bajas de la demanda de empleo en mujeres con una duracioacutende la demanda entre 12 y 18 meses en Ourense con los atiacutepicos identificados

Si observamos los datos de la serie podemos calificar todas estas fechas como atiacutepicas julio 2013febrero 2020 y marzo 2020 Sin embargo ninguacuten meacutetodo ha calificado los meses de abril mayo yjunio de 2020 siendo claramente atiacutepicos Estamos frente a una situacioacuten completamente inusual unasituacioacuten que se produce en multitud de series del IGE y es la secuencia de varias observacionesconsecutivas muy atiacutepicas que ejercen un gran peso en la serie

Este gran peso provoca que los meacutetodos no consigan analizar correctamente este escenario Losmodelos de series temporales como TRAMO-SEATS interpretan que se estaacute produciendo un cambiode nivel permanente en la serie mencionado en el Capiacutetulo 3 como Level Shift (LS) y modelizan laserie como tal Los procesos de descomposicioacuten de series temporales utilizados STL y STR entiendenlo que estaacute sucediendo como un cambio en la tendencia es decir en su proceso de extraccioacuten de laestacionalidad y la tendencia estiman una tendencia decreciente en la serie Y por uacuteltimo los meacutetodosde deteccioacuten de valores atiacutepicos HDoutliers y iForest sufren un grave problema de enmascaramientoLa idea del mecanismo de iForest reside en buscar valores aislados mientras que la de HDoutliers sefundamenta en buscar espacios entre los valores ordenados estas dos ideas son consistentes con la ideade la buacutesqueda de atiacutepicos sin embargo ven disminuida su eficiencia ante una situacioacuten tan atiacutepica quepermanece durante varias observaciones consecutivas llevando a provocar que observaciones atiacutepicaspuedan pasar desapercibidas para el mecanismo

51 ANAacuteLISIS SERIES IGE 63

Conjunto 7 (httpwwwigeeuigebdtigeapidatos4885)

Series de datos mensuales referentes a las afiliaciones a la seguridad social el uacuteltimo diacutea de mes enGalicia y sus provincias por regiacutemenes Los datos comienzan en enero de 1990 y finalizan en mayo de2020

TRAMO -

SEATS

STL +

HDoutliers

STL +

iForest

STR +

HDoutliers

STR +

iForest

Atiacutepicos detectados 288 96 118 136 121

Max nuacutemero atip serie 24 8 5 10 5

Series con 0 atiacutepicos 4 10 0 4 0

Media de atiacutepicos detec 613 204 251 289 257

Cuadro 520 Resultados para el Conjunto 7 con datos hasta diciembre de 2019

El Cuadro 520 muestra los resultado que se producen para un total de 16920 observaciones quemuestra el conjunto con datos hasta diciembre de 2019 Ahora vamos a estudiar los resultados de formaque cada serie esteacute conformada por el uacuteltimo dato actualizado y comparar ambas situaciones En estaserie el uacuteltimo dato actualizado es junio de 2020 lo que conforma un total de 17155 observaciones

TRAMO -

SEATS

STL +

HDoutliers

STL +

iForest

STR +

HDoutliers

STR +

iForest

Atiacutepicos detectados 333 179 128 118 136

Max nuacutemero atip serie 24 14 5 11 6

Series con 0 atiacutepicos 0 6 0 3 0

Media de atiacutepicos detec 709 380 272 251 289

Cuadro 521 Resultados para el Conjunto 7 con datos hasta mayo de 2020

64 CAPIacuteTULO 5 APLICACIOacuteN A DATOS REALES

TRAMO -

SEATS

STL +

HDoutliers

STL +

iForest

STR +

HDoutliers

STR +

iForest

Hasta 2019 288 96 118 136 121

Hasta mayo 2020 333 179 128 118 136

Tasa de variacioacuten 1563 8646 847 -1324 1240

Cuadro 522 Total de atiacutepicos detectados por cada meacutetodo hasta diciembre de 2019 y mayo de 2020y tasa de variacioacuten que produce el efecto del Covid en el Conjunto 7

En el Cuadro 522 podemos ver que el efecto que supone la primera mitad del antildeo 2020 en laaparicioacuten de valores atiacutepicos en este conjunto La variacioacuten que supone en el nuacutemero de valores detec-tados como anoacutemalos es considerable todaviacutea maacutes si lo comparamos con la variacioacuten de nuevos datosintroducidos en el anaacutelisis los cuales han aumentado solamente un 138 De este modo podemosafirmar que la presencia del Covid ha provocado un gran impacto en el incremento del nuacutemero deobservaciones atiacutepicas de los conjuntos que presentan datos de frecuencia mensual

A continuacioacuten analizamos un caso concreto utilizando la serie referente a las afiliaciones a laseguridad social en reacutegimen mar para la provincia de Lugo La Figura 514 muestra la representacioacutengraacutefica de dicha serie indicando mediante una recta vertical roja el inicio del 2020

Figura 514 Serie de tiempo referente a las afiliaciones a la seguridad social en reacutegimen mar para laprovincia de Lugo

El motivo de seleccionar esta serie reside en una idea que se va desarrollando a lo largo de todoeste apartado y que da lugar a la herramienta que se introduce en el siguiente Las series socio-econoacutemicas son complejas dado que se ven afectadas por multitud de factores externos que condicionansu desarrollo Este caraacutecter uacutenico de cada serie maacutes los resultados obtenidos a lo largo del trabajo

51 ANAacuteLISIS SERIES IGE 65

nos conduce a la conclusioacuten de que no existe un meacutetodo de deteccioacuten de atiacutepicos con una capacidadde clasificacioacuten superior al resto

Los resultados para esta serie son diversos Por ejemplo la combinacioacuten STR+HDoutliers muestrahasta ocho atiacutepicos para la serie delimitada en el antildeo 2019 sin embargo al introducir la serie completaesta cifra se reduce solamente a dos Sucede lo contrario con la combinacioacuten STL+HDoutliers quesi bien en la serie recortada califica dos observaciones en la completa sentildeala un total de siete Porsu parte TRAMO-SEATS identifica un total de siete atiacutepicos Sin embargo todos los meacutetodos dedeteccioacuten sentildealan dos fechas como atiacutepicas en los dos casos agosto de 2006 y junio de 2008 como serepresenta en la Figura 515 Esto dota al estudio de confianza si todos los mecanismos sospechan dedos fechas deberaacute haber un motivo de peso algo ha sucedido en la serie para que todos concuerdenEsta idea dio lugar al desarrollo de la herramienta que se introduce en el siguiente apartado

Figura 515 Serie de tiempo referente a las afiliaciones a la seguridad social en reacutegimen mar parala provincia de Lugo identificando los atiacutepicos sentildealados de forma comuacuten por los cinco meacutetodos dedeteccioacuten

Por uacuteltimo el Cuadro 523 recoge el total de atiacutepicos detectados por cada meacutetodo en los dosescenarios con los que se ha trabajado en este capiacutetulo El primer escenario incluye datos hasta lauacuteltima fecha de 2019 si las series son mensuales este dato es el correspondiente a diciembre de 2019si son series trimestrales el uacuteltimo dato seraacute el cuarto trimestre de 2019 En el Cuadro 523 se recogede modo general para todos los conjuntos bajo el teacutermino ldquodatos hasta 2019rdquo El segundo escenariorecoge los datos hasta su uacuteltima actualizacioacuten aquiacute existe un mayor abanico de fechas como vimos alo largo de todo este capiacutetulo Los conjuntos con datos de frecuencia trimestral presentan su uacuteltimodato en el primer trimestre de 2020 por su parte los conjuntos de datos mensuales variacutean su uacuteltimaactualizacioacuten entre los meses de abril mayo o junio de 2020 En el Cuadro 523 se recoge de modogeneral para todos ellos bajo el teacutermino ldquodatos hasta 2020rdquo

66 CAPIacuteTULO 5 APLICACIOacuteN A DATOS REALES

TRAMO -SEATS

STL +HDoutliers

STL +iForest

STR +HDoutliers

STR +iForest

Tiempo de ejecucioacuten (2019) 1332 24 1782 7234 8805Tiempo de ejecucioacuten (2020) 1503 21 2042 8043 10764Atiacutepicos detectados (2019) 1490 990 794 1074 816Atiacutepicos detectados (2020) 2036 1373 989 1341 1033

Tasa de variacioacuten 3664 3869 2456 2486 2659

Cuadro 523 Tiempo de ejecucioacuten (en segundos) y total de atiacutepicos detectados por cada meacutetodo hastael uacuteltimo dato de 2019 y hasta uacuteltima actualizacioacuten de 2020 y tasa de variacioacuten que produce el efectodel Covid en los siete conjuntos de datos

El Cuadro 523 nos permite concluir que el efecto global del Covid ha supuesto un incremento enel nuacutemero de observaciones atiacutepicas puesto que todos los meacutetodos experimentan una tasa de variacioacutenpositiva sobre sus cifras de valores atiacutepicos detectados Las cifras de tasas de variacioacuten que se muestranen el Cuadro 523 sorprenden todaviacutea maacutes si analizamos el incremento en el nuacutemero de observacionesanalizadas El escenario que analiza el conjunto de datos hasta 2019 presentan un total de 90540observaciones mientras que el escenario que incluye hasta el uacuteltimo dato actualizado recoge un totalde 92731 Es decir el nuacutemero total de datos analizados se ha incrementado en poco maacutes del 2 sinembargo la tasa de variacioacuten maacutes pequentildea muestra un incremento del maacutes del 24 del nuacutemero deatiacutepicos que se presentan en el conjunto de datos

Otra medida que incluye el Cuadro 523 es el tiempo que tarda en analizar los siete conjuntosde datos cada meacutetodo recogida bajo el nombre de ldquotiempo de ejecucioacutenrdquo A traveacutes de ella podemosobservar que la diferencia entre el tiempo de ejecucioacuten es pequentildea pero existe por lo que muestra quela presencia de atiacutepicos dificulta la modelizacioacuten de la series temporales Tambieacuten podemos comprobarcomo todos los meacutetodos presentan buenas cifras en este medida los que peores resultados muestranson los meacutetodos que utilizan la descomposicioacuten STR la cual ya mencionamos su posible problemade lentitud en el Capiacutetulo 2 Por uacuteltimo es sorprendente la combinacioacuten de STL+HDoutliers que escapaz de analizar las 538 en un tiempo inferior a los tres segundos en ambos casos

52 Anaacutelisis Graacutefico

El campo de la deteccioacuten de valores atiacutepicos estaacute caracterizado por una constante incertidumbrePartiendo del inicio del trabajo ni siquiera existe una definicioacuten exacta de queacute es un valor atiacutepicosino maacutes bien se trazan definiciones en base a ideas de lo que se espera que sea un valor atiacutepico enun conjunto de datos Es por ello que dependiendo de los escenarios y las complejidades asociadas auna serie unos meacutetodos resulten maacutes efectivos que otros Este es el motivo por el que surgioacute la ideade crear una herramienta de anaacutelisis graacutefico para el estudio de series de tiempo

El objetivo de esta herramienta es la de dotar al analista de un mecanismo sencillo de implantarque le permita trazar una idea de los posibles atiacutepicos con los que podriacutea contar la serie Para ello seha creado una funcioacuten en R que solo necesita introducir la serie de tiempo para devolver el graacutefico

52 ANAacuteLISIS GRAacuteFICO 67

Ademaacutes dado que esta herramienta estaacute disentildeada especiacuteficamente para trabajar con series de tiemposu representacioacuten dariacutea lugar a lo que podriacutea denominarse un mapa de calor para zonas atiacutepicas estose muestra maacutes adelante mediante ejemplos

Esta herramienta estaacute compuesta por los meacutetodos que han mostrado mejores resultados en el estudiode simulacioacuten Cada meacutetodo ocupa una fila mostrando a lo largo de ella sus atiacutepicos sentildealados y cadacolumna es una fecha detectada por un meacutetodo De tal modo que si una fecha es detectada por todoslos meacutetodos mostraraacute una columna verde y seraacute sospecha clara de que esa fecha es atiacutepica Por otraparte si una fecha es detectada por solo un meacutetodo mostraraacute solo de color verde la celda asociada aese meacutetodo y no seraacute sentildeal tan evidente de situacioacuten atiacutepica

Para la composicioacuten del graacutefico se utilizan los meacutetodos del apartado anterior y a mayores seintroducen las versiones robustas de los meacutetodos de descomposicioacuten de series temporales STL y STREl motivo de su uso en este apartado se debe a que si bien no mostraron los mejores resultados enel estudio de simulacioacuten ahora pueden resultar de utilidad Los meacutetodos robustos pueden generaranomaliacuteas espurias cuando no existen atiacutepicos debido a que resaltan el tamantildeo del residuo de unaobservacioacuten provocando su identificacioacuten como atiacutepico sin esta serlo Sin embargo cuando se producenanomaliacuteas que ejercen un gran peso en la serie como lo sucedido durante el Covid este tipo deestimaciones son de gran intereacutes esta situacioacuten tambieacuten se justificaraacute mediante un ejemplo praacutectico

El primer ejemplo lo extraemos a traveacutes de la serie referente a la estancia media de viajeros de todaslas procedencias en establecimientos hoteleros en Galicia perteneciente al Conjunto 1 En la Figura516 mostramos la representacioacuten de la misma ahora ya mostramos hasta el uacuteltimo dato actualizadoen este caso mayo de 2020

Figura 516 Estancia media de viajeros de todas las procedencias en establecimientos hoteleros enGalicia

Esta serie parece contar con dos atiacutepicos los relacionados con las dos uacuteltimas observaciones de laserie sin embargo vamos a analizar los resultados del graacutefico comparativo

68 CAPIacuteTULO 5 APLICACIOacuteN A DATOS REALES

Figura 517 Resultados para la serie estancia media de viajeros de todas las procedencias en estable-cimientos hoteleros en Galicia del Conjunto 1

La Figura 517 muestra el graacutefico que hemos desarrollado el cual vamos a desgranar ahora paraentender su utilidad Si hubieacutesemos escogido el meacutetodo TRAMO-SEATS hubieacutesemos sentildealado tresobservaciones atiacutepicas una de ellas seriacutea enero de 2003 Sin embargo analizando los datos podemoscomprobar que este dato parece normal y estariacuteamos identificaacutendolo erroacuteneamente como anoacutemalo Dehecho solo TRAMO-SEATS sentildeala esta fecha Lo mismo sucede con otras fechas como octubre delantildeo 2000 sentildealada por solo dos meacutetodos Por otra parte todos los meacutetodos sentildealan los meses deabril y mayo de 2020 las dos uacuteltimas observaciones de la serie que en la Figura 516 mostraban uncomportamiento totalmente discordante al resto del conjunto de datos Es decir el graacutefico permitetrazar una idea concisa al analista de queacute es anoacutemalo en la serie y que pueden ser falsos positivos

Observando el graacutefico podemos tambieacuten extraer una conclusioacuten raacutepida de la posible presenciade valores atiacutepicos en la serie Se muestran dos comportamientos muy marcados El primero estariacuteadeterminado por la serie hasta el antildeo 2020 en el cual la aparicioacuten de atiacutepicos es dispersa pococoncluyente el analista puede dudar de que estas observaciones sean realmente anoacutemalas El segundoson los datos de 2020 dos columnas enteras de color verde una imagen que comunica que en eseintervalo de tiempo estaacute sucediendo algo realmente anoacutemalo

Vamos a utilizar el graacutefico con otra serie para analizar otra de las caracteriacutesticas que muestran elintereacutes de analizar una serie de tiempo a traveacutes de este graacutefico En la Figura 518 se muestra la serie detiempo perteneciente al Conjunto 3 que recoge la evolucioacuten de los contratos iniciales en Galicia Dichaserie cuenta con tres atiacutepicos claros marzo abril y mayo de 2020

52 ANAacuteLISIS GRAacuteFICO 69

Figura 518 Contratos iniciales registrados en Galicia

Haciendo uso del graacutefico comparativo Figura 519 volvemos a obtener un escenario en el queresulta de intereacutes esta herramienta En este caso el meacutetodo compuesto por STR+HDoutliers muestraun comportamiento erraacutetico que le conduce a identificar una gran cantidad de atiacutepicos de modoincorrecto Lo mismo sucede con TRAMO-SEATS que es el uacutenico que sentildeala enero de 2001 comoatiacutepico sin existir motivo en los datos para esta calificacioacuten

Por otra parte este escenario nos permite observar la utilidad de incorporar las versiones robustasSi bien se equivocan en alguacuten caso por ejemplo el meacutetodo STR+HDoutliers(Rob) sentildealando junio de2002 nos permiten calificar marzo de 2020 como atiacutepico algo que los meacutetodos que utilizan las versionesno robustas de los meacutetodos de descomposicioacuten de series temporales STR y STR no logran Todasellas se ponen de acuerdo junto a TRAMO-SEATS para la sentildealizacioacuten de este mes

Ademaacutes dado que estamos trabajando con series temporales los resultados de la graacutefica se muestranen orden cronoloacutegico en vez de por cuaacuten anoacutemala es la observacioacuten como se hace en TRAMO-SEATSo en iForest Esto nos permite entender la graacutefica como un mapa de calor Al analizar la serie siexiste un intervalo de tiempo en el que se han producido situaciones anoacutemalas como por ejemplo eneste caso los meses relacionados al Covid se veraacute reflejado en el graacutefico por una serie de columnascon muchas celdas verdes lo que daraacute a entender de manera raacutepida al analista que en ese intervalode tiempo se han producido situaciones excepcionales De este modo tambieacuten conseguimos corregirel problema de enmascaramiento que pueden sufrir los meacutetodos cuando se suceden varias situacionesatiacutepicas consecutivas

70 CAPIacuteTULO 5 APLICACIOacuteN A DATOS REALES

Figura 519 Resultados para la serie Contratos iniciales registrados en Galicia del Conjunto 3

Capiacutetulo 6

Conclusiones

El IGE cuenta con una ampliacutea base de datos que se utiliza para el estudio del contexto socio-econoacutemico en Galicia Estos datos tienen una base temporal es decir son datos referidos a un intervalode tiempo en la mayoriacutea de los casos esta periodicidad es anual trimestral o mensual La manipulacioacutende los datos puede conllevar a que se introduzcan errores humanos o de medicioacuten que provoquen quese incluyan cifras incorrectas a las bases de datos Estos errores pueden distorsionar las conclusionesde un estudio o conducir haciacutea resultados alejados de la verdadera realidad Es por ello que resultanecesario el incorporar una herramienta de deteccioacuten de valores atiacutepicos al anaacutelisis de las bases dedatos del IGE

Para ello se planteoacute una revisioacuten bibliograacutefica de los principales meacutetodos de deteccioacuten de atiacutepicosen series temporales Esta revisioacuten nos permitioacute conocer la existencia de un amplio abanico de meacuteto-dos disponibles con los cuales empezamos a trabajar para analizar su comportamiento Es aquiacute dondedecidimos descartar una serie de meacutetodos mencionados al final del Apartado 34 debido a que sufuncionamiento y sus resultados correspondiacutean a versiones inferiores de otros meacutetodos que finalmenteadoptamos Este primer estudio nos proporcionoacute los meacutetodos de deteccioacuten de atiacutepicos en series tem-porales que supondriacutean el punto de partida del trabajo X-13ARIMA-SEATS TRAMO-SEATS y lalibreriacutea de R Anomalize

La libreriacutea Anomalize tambieacuten nos sirvioacute de ayuda en el desarrollo de nuestros propios meacutetodos dedeteccioacuten de atiacutepicos para series temporales La idea sobre la que se fundamenta esta libreriacutea es la deaplicar un proceso de descomposicioacuten de series de tiempo a una serie para extraer las componentes dela estacionalidad la tendencia y un residuo para despueacutes aplicar un meacutetodo de deteccioacuten de atiacutepicossobre el residuo Dado que se han producido mejoras a los meacutetodos de descomposicioacuten y deteccioacutenque se utilizan en la libreriacutea Anomalize consideramos que una nueva combinacioacuten podriacutea reflejar unamejora en los resultados

Para comparar todos los meacutetodos de deteccioacuten de atiacutepicos en series temporales los que sirven depunto de partida del trabajo y los desarrollados por nosotros decidimos llevar a cabo un ambiciosoestudio de simulacioacuten El estudio de simulacioacuten recoge diferentes escenarios con la finalidad de repre-sentar la heterogeneidad propia de las series de tiempo referentes a variables sociales y econoacutemicas Losresultados del estudio de simulacioacuten confirman nuestra idea acerca de que una nueva combinacioacuten pue-de suponer una mejora en los resultados debido a que varias de nuestras combinaciones reflejan mejores

71

72 CAPIacuteTULO 6 CONCLUSIONES

resultados que las propuestas en la libreriacutea Anomalize Tambieacuten nos permite observar que nuestraspropuestas compiten en los resultados con un modelo tan desarrollado como TRAMO-SEATS Final-mente nos permiten descartar otros meacutetodos que siendo uacutetiles en otros campos no parecen resultaridoacuteneos para el nuestro

Tras el estudio de simulacioacuten comenzamos a utilizar los meacutetodos que habiacutean mostrado mejoresresultados con los datos proporcionados por el IGE Fue en este momento cuando nos encontramos conuna situacioacuten no contemplada en ninguacuten momento en ninguacuten escenario del estudio de simulacioacuten yen general en ninguacuten momento de lo que podriacutea ser la historia reciente como fue la crisis del Covid19Esta crisis provoca un efecto enorme en los datos del contexto gallego como se recoge a lo largo delCapiacutetulo 5 y supone un nuevo escenario en lo que a deteccioacuten de valores atiacutepicos en series temporalesse refiere

Este nuevo escenario se caracteriza por reflejar durante varios periacuteodos de tiempo consecutivosobservaciones enormemente anoacutemalas y los modelos ven empeorado su comportamiento TRAMO-SEATS y los modelos de descomposicioacuten de series de tiempo STL y STR entienden que lo que seestaacute produciendo es una tendencia decreciente de la serie Por su parte los meacutetodos de deteccioacuten deatiacutepicos HDoutliers y iForest sufren un fenoacutemeno de enmascaramiento en el que son incapaces desentildealizar todos los atiacutepicos Fue aquiacute donde decidimos crear una nueva herramienta para el anaacutelisis

El objetivo con el que creamos esta herramienta de anaacutelisis graacutefico fue el de reducir la incertidumbreque supone el campo de la deteccioacuten de atiacutepicos de un modo sencillo y directo para el analista que lautilice Ademaacutes su disentildeo estaacute pensado para el trabajo con series temporales de modo que si se sucedeun periacuteodo convulso como el actual la graacutefica podraacute ser analizada como un mapa de calor un mapade calor que transmite visualmente la idea de en queacute intervalo de tiempo la serie estaacute experimentandocomportamientos atiacutepicos

Apeacutendice A

Tablas

A1 Tablas de sensibilidad

73

74 APEacuteNDICE A TABLAS

Caso 1 Caso 2 Caso 3 Caso 4

X-13ARIMA-SEATS 0496 0854 0700 0826

TRAMO-SEATS 0657 0928 0805 0851

STL+HDoutliers 0569 0838 0570 0732

STL+GESD 0266 0590 0236 0532

STL+iForest 0636 0885 0636 0790

STL(ROB)+HDoutliers 0562 0803 0678 0712

STL(ROB)+GESD 0637 0876 0746 0754

STL(ROB)+iForest 0640 0878 0747 0786

Twitter+HDoutliers 0471 0735 0597 0620

Twitter+GESD 0306 0590 0429 0434

Twitter+iForest 0529 0801 0652 0660

STR+HDoutliers 0611 0841 0603 0672

STR+GESD 0345 0650 0292 0448

STR+iForest 0674 0885 0679 0721

STR(ROB)+HDoutliers 0542 0812 0638 0658

STR(ROB)+GESD 0381 0685 0458 0558

STR(ROB)+iForest 0623 0862 0699 0714

Cuadro A1 Resultados Escenario 1Sensibilidad AR(1)

A1 TABLAS DE SENSIBILIDAD 75

Caso 1 Caso 2 Caso 3 Caso 4

X-13ARIMA-SEATS 0505 0829 0646 0875

TRAMO-SEATS 0668 0914 0743 0888

STL+HDoutliers 0472 0729 0481 0684

STL+GESD 0217 0457 0148 0428

STL+iForest 0506 0784 0525 0716

STL(ROB)+HDoutliers 0469 0735 0588 0648

STL(ROB)+GESD 0529 0775 0665 0668

STL(ROB)+iForest 0526 0803 0666 0716

Twitter+HDoutliers 0465 0698 0596 0646

Twitter+GESD 0349 0630 0483 0486

Twitter+iForest 0512 0778 0663 0692

STR+HDoutliers 0588 0823 0573 0664

STR+GESD 0298 0602 0247 0449

STR+iForest 0630 0869 0651 0721

STR(ROB)+HDoutliers 0521 0788 0611 0649

STR(ROB)+GESD 0336 0628 0406 0520

STR(ROB)+iForest 0582 0839 0691 0711

Cuadro A2 Resultados Escenario 2 Sensibilidad MA(1)

76 APEacuteNDICE A TABLAS

Caso 1 Caso 2 Caso 3 Caso 4

X-13ARIMA-SEATS 0922 0971 0927 0983

TRAMO-SEATS 0923 0972 0923 0982

STL+HDoutliers 0312 0508 0241 0440

STL+GESD 0089 0230 0051 0152

STL+iForest 0343 0578 0284 0454

STL(ROB)+HDoutliers 0261 0435 0297 0333

STL(ROB)+GESD 0311 0527 0393 0322

STL(ROB)+iForest 0298 0501 0336 0362

Twitter+HDoutliers 0064 0112 0127 0066

Twitter+GESD 0028 0040 0069 0032

Twitter+iForest 0079 0129 0169 0070

STR+HDoutliers 0407 0563 0348 0440

STR+GESD 0204 0367 0109 0230

STR+iForest 0445 0617 0389 0495

STR(ROB)+HDoutliers 0243 0397 0254 0272

STR(ROB)+GESD 0209 0391 0225 0259

STR(ROB)+iForest 0282 0455 0284 0293

Cuadro A3 Resultados Escenario 3 Sensibilidad ARIMA(011)

A1 TABLAS DE SENSIBILIDAD 77

Caso 1 Caso 2 Caso 3 Caso 4

X-13ARIMA-SEATS 0403 0593 0068 0816

TRAMO-SEATS 0542 0707 0072 0814

STL+HDoutliers 0005 0004 0016 0004

STL+GESD 0000 0001 0004 0000

STL+iForest 0003 0003 0015 0005

STL(ROB)+HDoutliers 0007 0007 0037 0004

STL(ROB)+GESD 0009 0021 0099 0029

STL(ROB)+iForest 0006 0008 0036 0005

Twitter+HDoutliers 0001 0000 0001 0008

Twitter+GESD 0006 0009 0012 0023

Twitter+iForest 0001 0000 0005 0018

STR+HDoutliers 0370 0428 0006 0088

STR+GESD 0424 0462 0000 0138

STR+iForest 0418 0479 0004 0103

STR(ROB)+HDoutliers 0028 0019 0011 0076

STR(ROB)+GESD 0064 0063 0051 0140

STR(ROB)+iForest 0022 0014 0010 0027

Cuadro A4 Resultados Escenario 4 Sensibilidad ARIMA(011)x(011)12

78 APEacuteNDICE A TABLAS

Caso 1 Caso 2 Caso 3 Caso 4

X-13ARIMA-SEATS 0266 0629 0177 0574

TRAMO-SEATS 0400 0750 0251 0618

STL+HDoutliers 0247 0477 0291 0130

STL+GESD 0093 0260 0160 0024

STL+iForest 0270 0536 0312 0138

STL(ROB)+HDoutliers 0278 0489 0358 0102

STL(ROB)+GESD 0400 0688 0478 0132

STL(ROB)+iForest 0314 0553 0398 0133

Twitter+HDoutliers 0254 0439 0363 0108

Twitter+GESD 0176 0385 0317 0064

Twitter+iForest 0274 0486 0388 0131

STR+HDoutliers 0664 0895 0240 0760

STR+GESD 0425 0770 0065 0567

STR+iForest 0724 0939 0283 0800

STR(ROB)+HDoutliers 0197 0334 0220 0529

STR(ROB)+GESD 0190 0333 0207 0692

STR(ROB)+iForest 0235 0369 0238 0591

Cuadro A5 Resultados Escenario 5 Sensibilidad ARIMA(101)x(012)12

A1 TABLAS DE SENSIBILIDAD 79

Caso 1 Caso 2 Caso 3 Caso 4

X-13ARIMA-SEATS 0333 0662 0355 0618

TRAMO-SEATS 0460 0767 0480 0656

STL+HDoutliers 0521 0798 0502 0629

STL+GESD 0230 0559 0188 0328

STL+iForest 0565 0836 0572 0651

STL(ROB)+HDoutliers 0519 0788 0605 0601

STL(ROB)+GESD 0541 0828 0676 0561

STL(ROB)+iForest 0566 0843 0668 0648

Twitter+HDoutliers 0246 0423 0362 0212

Twitter+GESD 0104 0232 0187 0102

Twitter+iForest 0284 0456 0398 0230

STR+HDoutliers 0527 0788 0444 0641

STR+GESD 0279 0585 0152 0386

STR+iForest 0600 0825 0499 0685

STR(ROB)+HDoutliers 0407 0674 0497 0550

STR(ROB)+GESD 0277 0527 0352 0404

STR(ROB)+iForest 0462 0735 0573 0582

Cuadro A6 Resultados Escenario 6 Sensibilidad ARIMA(111)x(101)12

80 APEacuteNDICE A TABLAS

Caso 1 Caso 2 Caso 3 Caso 4

X-13ARIMA-SEATS 0299 0638 0335 0632

TRAMO-SEATS 0424 0717 0432 0801

STL+HDoutliers 0432 0705 0397 0626

STL+GESD 0177 0416 0109 0351

STL+iForest 0514 0762 0463 0530

STL(ROB)+HDoutliers 0441 0686 0494 0613

STL(ROB)+GESD 0461 0731 0556 0584

STL(ROB)+iForest 0491 0723 0548 0528

Twitter+HDoutliers 0280 0471 0387 0354

Twitter+GESD 0129 0288 0191 0147

Twitter+iForest 0008 0017 0051 0050

STR+HDoutliers 0456 0700 0467 0568

STR+GESD 0203 0439 0167 0274

STR+iForest 0515 0778 0443 0638

STR(ROB)+HDoutliers 0424 0687 0510 0554

STR(ROB)+GESD 0262 0524 0330 0366

STR(ROB)+iForest 0349 0562 0413 0388

Cuadro A7 Resultados Escenario 7 Sensibilidad ARIMA(112)x(011)12

A1 TABLAS DE SENSIBILIDAD 81

Caso 1 Caso 2 Caso 3 Caso 4

X-13ARIMA-SEATS 0299 0638 0335 0632

TRAMO-SEATS 0424 0717 0432 0801

STL+HDoutliers 0432 0705 0397 0626

STL+GESD 0177 0416 0109 0351

STL+iForest 0485 0738 0428 0665

STL(ROB)+HDoutliers 0441 0686 0494 0613

STL(ROB)+GESD 0461 0731 0556 0584

STL(ROB)+iForest 0494 0755 0566 0678

Twitter+HDoutliers 0280 0471 0387 0354

Twitter+GESD 0129 0288 0191 0147

Twitter+iForest 0306 0509 0430 0359

STR+HDoutliers 0456 0700 0467 0568

STR+GESD 0203 0439 0167 0274

STR+iForest 0497 0772 0507 0602

STR(ROB)+HDoutliers 0424 0687 0510 0554

STR(ROB)+GESD 0262 0524 0330 0366

STR(ROB)+iForest 0465 0755 0577 0590

Cuadro A8 Resultados Escenario 8 Sensibilidad ARIMA(011)x(100)12

82 APEacuteNDICE A TABLAS

A2 Tablas de exceso

Caso 1 Caso 2 Caso 3 Caso 4

X-13ARIMA-SEATS 0078 0077 0066 0042

TRAMO-SEATS 0211 0208 0222 0056

STL+HDoutliers 0788 0829 0805 1534

STL+GESD 0056 0055 0045 0031

STL+iForest 0406 0300 0404 0659

STL(ROB)+HDoutliers 1162 1242 1212 1714

STL(ROB)+GESD 1411 1417 1416 0461

STL(ROB)+iForest 0637 0468 0575 0859

Twitter+HDoutliers 0930 0955 0905 1487

Twitter+GESD 0257 0273 0254 0069

Twitter+iForest 0538 0412 0490 0776

STR+HDoutliers 0759 0810 0759 1464

STR+GESD 0053 0062 0046 0024

STR+iForest 0403 0301 0381 0725

STR(ROB)+HDoutliers 0749 0842 0758 1460

STR(ROB)+GESD 0199 0196 0192 0099

STR(ROB)+iForest 0427 0315 0413 0749

Cuadro A9 Resultados Escenario 1 Exceso AR(1)

A2 TABLAS DE EXCESO 83

Caso 1 Caso 2 Caso 3 Caso 4

X-13ARIMA-SEATS 0054 0058 0066 0058

TRAMO-SEATS 0144 0138 0175 0061

STL+HDoutliers 0695 0772 0759 1472

STL+GESD 0034 0038 0050 0016

STL+iForest 0443 0318 0425 0706

STL(ROB)+HDoutliers 1168 1221 1180 1703

STL(ROB)+GESD 1309 1349 1415 0418

STL(ROB)+iForest 0682 0528 0621 0877

Twitter+HDoutliers 0836 0832 0911 1577

Twitter+GESD 0313 0329 0334 0061

Twitter+iForest 0552 0417 0483 0755

STR+HDoutliers 0798 0885 0694 1541

STR+GESD 0054 0064 0044 0018

STR+iForest 0407 0302 0396 0724

STR(ROB)+HDoutliers 0725 0776 0745 1516

STR(ROB)+GESD 0134 0143 0142 0076

STR(ROB)+iForest 0435 0312 0372 0727

Cuadro A10 Resultados Escenario 2 Exceso MA(1)

84 APEacuteNDICE A TABLAS

Caso 1 Caso 2 Caso 3 Caso 4

X-13ARIMA-SEATS 0106 0060 0101 0070

TRAMO-SEATS 0179 0123 0175 0085

STL+HDoutliers 0638 0635 0686 1376

STL+GESD 0052 0054 0067 0020

STL+iForest 0448 0346 0468 0867

STL(ROB)+HDoutliers 0932 0905 1010 1604

STL(ROB)+GESD 2339 2311 2338 1863

STL(ROB)+iForest 0705 0573 0695 1281

Twitter+HDoutliers 0311 0285 0311 0743

Twitter+GESD 1302 1282 1331 1946

Twitter+iForest 0167 0153 0175 0645

STR+HDoutliers 0672 0703 0623 1364

STR+GESD 0180 0183 0119 0050

STR+iForest 0372 0297 0393 0899

STR(ROB)+HDoutliers 0598 0568 0588 1225

STR(ROB)+GESD 1030 1008 0999 1341

STR(ROB)+iForest 0463 0383 0464 1108

Cuadro A11 Resultados Escenario 3 Exceso ARIMA(011)

A2 TABLAS DE EXCESO 85

Caso 1 Caso 2 Caso 3 Caso 4

X-13ARIMA-SEATS 0132 0120 0062 0274

TRAMO-SEATS 0198 0180 0075 0274

STL+HDoutliers 0832 0823 0837 1337

STL+GESD 0231 0225 0226 0165

STL+iForest 0727 0710 0718 1237

STL(ROB)+HDoutliers 1197 1152 1186 1230

STL(ROB)+GESD 4756 4699 4689 7954

STL(ROB)+iForest 0992 0993 0983 1514

Twitter+HDoutliers 0144 0162 0182 0376

Twitter+GESD 3050 2761 2813 6058

Twitter+iForest 0123 0128 0121 0508

STR+HDoutliers 1108 1135 1027 1454

STR+GESD 1469 1679 0582 4430

STR+iForest 0732 0674 0882 1653

STR(ROB)+HDoutliers 1382 1266 0876 10915

STR(ROB)+GESD 4452 4583 4289 19321

STR(ROB)+iForest 0831 0845 0828 1858

Cuadro A12 Resultados Escenario 4 Exceso ARIMA(011)x(011)12

86 APEacuteNDICE A TABLAS

Caso 1 Caso 2 Caso 3 Caso 4

X-13ARIMA-SEATS 0109 0123 0111 0069

TRAMO-SEATS 0239 0301 0312 0139

STL+HDoutliers 0869 0762 0986 1367

STL+GESD 0170 0170 0198 0244

STL+iForest 0667 0475 0712 1291

STL(ROB)+HDoutliers 1328 1357 1499 1287

STL(ROB)+GESD 2517 2530 2919 5438

STL(ROB)+iForest 0992 0813 0978 1444

Twitter+HDoutliers 1041 0966 1065 1383

Twitter+GESD 0796 0854 0830 2221

Twitter+iForest 0808 0655 0735 1412

STR+HDoutliers 0799 0979 0846 1551

STR+GESD 0101 0087 0083 0029

STR+iForest 0383 0286 0619 0669

STR(ROB)+HDoutliers 0764 0759 0755 1692

STR(ROB)+GESD 1600 1591 1490 8145

STR(ROB)+iForest 0603 0492 0593 0894

Cuadro A13 Resultados Escenario 5 Exceso ARIMA(101)x(012)12

A2 TABLAS DE EXCESO 87

Caso 1 Caso 2 Caso 3 Caso 4

X-13ARIMA-SEATS 0179 0167 0141 0096

TRAMO-SEATS 0307 0299 0297 0127

STL+HDoutliers 0792 0783 0775 1598

STL+GESD 0052 0050 0049 0030

STL+iForest 0452 0306 0459 0748

STL(ROB)+HDoutliers 1193 1207 1269 1697

STL(ROB)+GESD 1290 1324 1270 0437

STL(ROB)+iForest 0708 0531 0670 0952

Twitter+HDoutliers 0690 0698 0676 1157

Twitter+GESD 0266 0257 0225 0523

Twitter+iForest 0538 0416 0459 1063

STR+HDoutliers 0740 0853 0796 1429

STR+GESD 0065 0077 0063 0036

STR+iForest 0432 0311 0493 0750

STR(ROB)+HDoutliers 0749 0799 0717 1477

STR(ROB)+GESD 0317 0291 0254 0167

STR(ROB)+iForest 0502 0373 0463 0839

Cuadro A14 Resultados Escenario 6 Exceso ARIMA(111)x(101)12

88 APEacuteNDICE A TABLAS

Caso 1 Caso 2 Caso 3 Caso 4

X-13ARIMA-SEATS 0147 0138 0115 0081

TRAMO-SEATS 0278 0285 0287 0261

STL+HDoutliers 0788 0815 0776 1392

STL+GESD 0045 0047 0042 0031

STL+iForest 0471 0337 0478 0842

STL(ROB)+HDoutliers 1122 1183 1194 1785

STL(ROB)+GESD 1364 1387 1340 0670

STL(ROB)+iForest 0720 0559 0711 1100

Twitter+HDoutliers 0125 0109 0084 0092

Twitter+GESD 3247 3207 3185 7613

Twitter+iForest 0087 0066 0073 0294

STR+HDoutliers 0854 0807 0773 1430

STR+GESD 0069 0069 0050 0036

STR+iForest 0438 0357 0484 0793

STR(ROB)+HDoutliers 0765 0755 0725 1370

STR(ROB)+GESD 0434 0489 0510 0536

STR(ROB)+iForest 0581 0471 0547 1064

Cuadro A15 Resultados Escenario 7 Exceso ARIMA(112)x(011)12

A2 TABLAS DE EXCESO 89

Caso 1 Caso 2 Caso 3 Caso 4

X-13ARIMA-SEATS 0090 0095 0104 0056

TRAMO-SEATS 0487 0475 0494 0446

STL+HDoutliers 0734 0814 0749 1507

STL+GESD 0068 0059 0052 0025

STL+iForest 0496 0352 0479 0747

STL(ROB)+HDoutliers 1157 1098 1083 1660

STL(ROB)+GESD 1232 1281 1260 0294

STL(ROB)+iForest 0764 0566 0687 0918

Twitter+HDoutliers 0859 0822 0860 1415

Twitter+GESD 0214 0209 0217 0114

Twitter+iForest 0606 0526 0550 1031

STR+HDoutliers 0797 0792 0778 1469

STR+GESD 0048 0059 0042 0017

STR+iForest 0461 0336 0464 0782

STR(ROB)+HDoutliers 0786 0726 0699 1494

STR(ROB)+GESD 0159 0146 0145 0072

STR(ROB)+iForest 0520 0359 0433 0830

Cuadro A16 Resultados Escenario 8 Exceso ARIMA(011)x(100)12

90 APEacuteNDICE A TABLAS

Bibliografiacutea

Abraham B y Box G E P (1979) Bayesian analysis of some outlier problems in time seriesBiometrika 66 (2) 229ndash236

Barnett V y Lewis T (1996) Outliers in statistical data 3rd edition (John Wiley amp Sons Chi-chester) 584 pp [UK pound]5500 ISBN 0-471-93094-6 International Journal of Forecasting 12 (1) 175-176

Bell W (1983) A computer program for detecting outliers in time series Proceedings of the AmericanStatistical Association Business and Economic Statistics Section 634-639

Box G y Jenkins G (1976) Time series analysis forecasting and control En (Vol 134) doi1023072344246

Box G E P y Tiao G C (1975) Intervention analysis with applications to economic and environ-mental problems Journal of the American Statistical Association 70 (349) 70ndash79

Breunig M Kriegel H-P Ng R y Sander J (2000) Lof Identifying density-based local outliersEn (Vol 29 p 93-104) doi 101145342009335388

Chang I Tiao G y Chen C (1988) Estimation of time series parameters in the presence of outliersTechnometrics 30 193-204 doi 10108000401706198810488367

Chang I y Tiao G C (1983) Estimation of time series parameters in the presence of outliersTechnical Report 8 University of Chicago Statistics Research Center 30

Chauvenet W (1963) A manual of spherical and practical astronomy volume 2 474-566Chen C y Liu L-M (1993) Joint estimation of model parameters and outlier effects in time series

Journal of the American Statistical Association 88 (421) 284ndash297Cleveland R B Cleveland W S McRae J E y Terpenning I (1990) STL A seasonal-trend

decomposition procedure based on Loess Journal of Official Statistics 6 Dancho M y Vaughan D (2019) Anomalize Tidy anomaly detection [Manual de software informaacute-

tico]Datacamp (2018) Detect anomalies with anomalize in r httpswwwdatacampcomcommunity

tutorialsdetect-anomalies-anomalize-r (Visitado 2020-06-16)de Lacalle J L (2015) Detection of outliers in time series with r httpsjalobecomtsoutliers

(Visitado 2020-03-16)de Lacalle J L (2019) Detection of outliers in time series [Manual de software informaacutetico] https

cranr-projectorgwebpackagestsoutlierstsoutlierspdfDokumentov A y Hyndman R J (2015) STR A seasonal-trend decomposition procedure based

on Regression

91

92 BIBLIOGRAFIacuteA

Dokumentov A y Hyndman R J (2018) str Str decomposition [Manual de software informaacutetico](httpscranr-projectorgwebpackagesstRindexhtml)

Fraley C y Wilkinson L (2020) Hdoutliers Leland wilkinsonrsquos algorithm for detecting multidimen-sionaloutliers [Manual de software informaacutetico]

Goacutemez V y Maravall A (1997) Programs tramo and seats instructions for the user Mimeo Bancode Espantildea

Goacutemez V y Taguas D (1995) Deteccioacuten y correccioacuten automaacutetica de outliers con tramo Unaaplicacioacuten al ipc de bienes industriales no energeacuteticos

Grubbs F (1950) Sample criteria for testing outlying observations The Annals of MathematicalStatistics 21 doi 101214aoms1177729885

Hawkins D (1980) Identification of outliers London [ua] Chapman and HallHochenbaum J Vallis O y Kejariwal A (2017) Automatic anomaly detection in the cloud via

statistical learningHoerl A y Kennard R (1970) Ridge regression Biased estimation for nonorthogonal problems

Technometrics 8 27-51Hyndman R (2020) Forecasting functions for time series and linear models [Manual de software

informaacutetico] httpscranr-projectorgwebpackagesforecastforecastpdfla Tente A Q Michalek A Palate J y Baeyens R (2020) Rjdemetra Interface to rsquojdemetra+rsquo

seasonal adjustment software [Manual de software informaacutetico]Liu F T Ting K y Zhou Z-H (2009) Isolation forest En (p 413 - 422) doi 101109

ICDM200817Mahdavinejad M S Rezvan M Barekatain M Adibi P Barnaghi P y Sheth A P (2018)

Machine learning for internet of things data analysis a survey Digital Communications andNetworks 4 (3) 161 - 175 doi httpsdoiorg101016jdcan201710002

Moore D y McCabe G (1999) Introduction to the practice of statistics WH FreemanOtto M y Bell W (1990) Two issues in time series outlier detection using indicator variables

Proceedings of the American Statistical Association Business and Economic Statistics Section182-187

Peirce B (1852) Criterion for rejection of doubtful observations The Astronomical Journal 2 161-163 doi 101086100259

Pentildea D (2010) Anaacutelisis de series temporales Alianza EditorialRosner B (1975) On the detection of many outliers Technometrics 17 221-227 doi 101080

00401706197510489305Rosner B (1983) Percentagepoints for a generalized esd many-outier procedure Technometrics 25

165-172 doi 10108000401706198310487848Rousseeuw P y Hubert M (2011) Robust statistics for outlier detection Wiley Interdisc Rew

Data Mining and Knowledge Discovery 1 73-79 doi 101002widm2Shan G (2015) Improved confidence intervals for the youden index

doi 01371journalpone0127272Shiskin J Young A y Musgrave J (1967) The x-11 variant of the census method ii seasonal

adjustment program

BIBLIOGRAFIacuteA 93

Srikanth K S (2017) solitude An implementation of isolation forest [Manual de software informaacutetico](R package version 021 mdash For new features see the rsquoSolitudersquo file (in the package source))

Thompson W (1935) On a criterion for the rejection of observations and the distribution of theratio of deviation to sample standard deviation The Annals of Mathematical Statistics 6 doi101214aoms1177732567

Tibshirani R (1996) Regression shrinkage and selection via the lasso Journal of the Royal StatisticalSociety Series B (Methodological) 58 267-288 doi 101111j2517-61611996tb02080x

Time Series Research Staff (2017) X-13ARIMA-SEATS Reference Manual Center for StatisticalResearch and Methodology

Tsay R S (1986) Time series model specification in the presence of outliers Journal of the AmericanStatistical Association 81 (393) 132ndash141

Tsay R S y Tiao G C (1984) Consistent estimates of autoregressive parameters and extendedsample autocorrelation function for stationary and nonstationary arma models Journal of theAmerican Statistical Association 79 (385) 84ndash96

Tukey J W (1977) Exploratory data analysis Addison-WesleyTwitter Inc (2015) Anomalydetection r package GitHub (httpsgithubcomtwitter

AnomalyDetection)Wilkinson L (2017) Visualizing big data outliers through distributed aggregation IEEE Transactions

on Visualization and Computer Graphics PP 1-1 doi 101109TVCG20172744685Woodward W A Gray H L y Elliott A C (2017) Applied time series analysis with r second

edition Journal of Time Series Analysis 39 618 doi 101111jtsa12273Youden W (1950) Youden wjindex for rating diagnostic tests cancer 3(1) 32-35 Cancer 3 32-5

doi 1010021097-0142(1950)3130CO2-3

  • Resumen
  • Introduccioacuten
  • Modelizacioacuten de series temporales
    • Conceptos baacutesicos
    • Meacutetodos de modelizacioacuten de series temporales
      • X-13ARIMA-SEATS
      • TRAMO-SEATS
      • STL
      • STR
      • Twitter
        • Resumen meacutetodos de modelizacioacuten de series temporales
          • Deteccioacuten de valores atiacutepicos
            • Conceptos baacutesicos
            • Meacutetodos de deteccioacuten de valores atiacutepicos
              • X-13ARIMA-SEATS
              • TRAMO-SEATS
              • GESD
              • Isolation Forest
              • HDoutliers
                • Resumen meacutetodos de deteccioacuten de valores atiacutepicos
                • Meacutetodos de deteccioacuten de valores atiacutepicos en series temporales
                  • Estudio de simulacioacuten
                    • Escenarios
                    • Iacutendice de Youden
                    • Resultados
                    • Conclusiones
                      • Aplicacioacuten a datos reales
                        • Anaacutelisis Series IGE
                        • Anaacutelisis Graacutefico
                          • Conclusiones
                          • Tablas
                            • Tablas de sensibilidad
                            • Tablas de exceso
                              • Bibliografiacutea
Page 10: Trabajo Fin de Máster - USC

x RESUMEN

Capiacutetulo 1

Introduccioacuten

El Instituto Galego de Estadiacutestica (IGE) es un organismo autoacutenomo de la Xunta de Galicia creadoen el antildeo 1988 cuyo objetivo es el de promover el desarrollo del sistema estadiacutestico de la comunidadautoacutenoma mediante servicios de recopilacioacuten y difusioacuten de la documentacioacuten estadiacutestica disponibledesenvolver bases de datos de intereacutes puacuteblico analizar las necesidades y la evolucioacuten de la demandade estadiacutesticas y asegurar su difusioacuten El IGE se erige por tanto como una de las principales fuentesde informacioacuten de datos de caraacutecter socioeconoacutemico de Galicia y de sus divisiones territoriales

Al igual que el resto de organismos del mismo aacutembito el IGE estaacute experimentando un incrementocontinuo tanto en la generacioacuten como en el almacenamiento de datos Es por esto que se hace devital importancia el incorporar una herramienta que nos permita identificar de un modo automaacuteticoposibles candidatos a valores atiacutepicos dentro de nuestros conjuntos de datos

Un dato atiacutepico o outlier en ingleacutes es una observacioacuten anoacutemala en comparacioacuten con el restode datos contenidos en un determinado conjunto de datos Puede deberse a diversos motivos desdeerrores humanos errores relacionados con la medicioacuten grabacioacuten e introduccioacuten de los datos hastacausas como que el dato procede de una poblacioacuten diferente de la que se pretende estudiar

Existen multitud de definiciones que nos permiten dibujarnos una idea de a queacute nos referimoscuando hablamos de valores atiacutepicos

ldquoUn dato atiacutepico es una observacioacuten que se desviacutea tanto del resto de observaciones como paracrear la sospecha de que fue creada por un mecanismo generador diferenterdquo - Hawkins (1980)

ldquoUn dato atiacutepico es una observacioacuten (o conjunto de observaciones) que son inconsistentes con elresto de datosrdquo - Barnett y Lewis (1996)

ldquoUn outlier es una observacioacuten que se encuentra fuera del patroacuten general de una distribucioacutenrdquo-Moore y McCabe (1999)

ldquoLos datos atiacutepicos pueden ser dependiendo de la circunstancia errores no deseados que puedenafectar negativamente al resultado o valiosas pepitas de informacioacuten inesperadardquo- Rousseeuw yHubert (2011)

Eliminar un dato de una muestra por haberlo considerado atiacutepico puede llevar a perder informacioacutenrelevante debido a una singularidad del mecanismo generador y a su vez incluir un dato atiacutepico en una

1

2 CAPIacuteTULO 1 INTRODUCCIOacuteN

muestra puede confundir los resultados Ambos casos alteran los anaacutelisis posteriores y pueden dirigira conclusiones incorrectas si se llegara a tomar la decisioacuten equivocada Por lo tanto la importanciareside en identificar de manera adecuada queacute datos son atiacutepicos y cuaacuteles no

Esta identificacioacuten seraacute de gran utilidad dado que permitiraacute tanto realizar mejores anaacutelisis comopoder interpretar sucesos relevantes en el contexto socio-econoacutemico gallego

El problema de la deteccioacuten de atiacutepicos es un tema ampliamente tratado en la literatura por loque nuestro trabajo consistiraacute en realizar un estudio comparativo de los meacutetodos maacutes comunes en laactualidad y plantear posibles mejoras

Uno de los criterios a los que le prestaremos mayor atencioacuten en este estudio seraacute a la sensibilidaddel meacutetodo dado que si este es muy sensible e identifica muchos candidatos como atiacutepicos no serviraacute degran ayuda Por otra parte si apenas sentildeala ninguacuten caso seraacute similar a no aplicar ninguna herramientade deteccioacuten

Para estudiar este comportamiento realizaremos un estudio de simulacioacuten en el que a traveacutes devalores atiacutepicos previamente identificados podremos analizar el comportamiento de cada meacutetodoAdemaacutes dado que trabajamos con un gran volumen de datos una caracteriacutestica que se les exigiraacute alos meacutetodos seraacute una raacutepida velocidad de ejecucioacuten

La deteccioacuten de datos atiacutepicos tiene aplicaciones en muchos aacutembitos deteccioacuten de operacionesfraudulentas en tarjetas de creacutedito solicitudes para preacutestamos de clientes potencialmente morososdeteccioacuten de intrusiones en redes de comunicacioacuten monitorizacioacuten de paraacutemetros de fabricacioacuten paradeteccioacuten de producciones defectuosas anomaliacuteas en monitorizaciones meacutedicas anaacutelisis electoraleslimpieza de datos prediccioacuten del tiempo o hasta en astronomiacutea donde un punto anoacutemalo puedeimplicar el descubrimiento de una nueva estrella

En este trabajo nos centraremos en datos reales provenientes de la paacutegina web del IGE recogidosen siete conjuntos

Conjunto 1 Viajeros noches y estancia media en establecimientos hoteleros y de turismo ruralen Espantildea Galicia y sus provincias Datos mensuales Los datos proceden del Instituto Nacio-nal de Estadiacutestica (INE) de la Encuesta de ocupacioacuten hotelera y la Encuesta de ocupacioacuten enalojamientos de turismo rural (httpwwwigeeuigebdtigeapidatos3476)

Conjunto 2 Poblacioacuten de 16 y maacutes antildeos por sexo grupos de edad y relacioacuten con la actividadeconoacutemica en Galicia Datos trimestrales Los datos proceden de la Encuesta de Poblacioacuten Activa(EPA) elaborada conjuntamente entre el INE y el IGE (httpwwwigeeuigebdtigeapidatos6356)

Conjunto 3 Contratos registrados seguacuten su modalidad Datos mensuales Esta informacioacuten proce-de de la Estadiacutestica de contratos registrados elaborada por el Servicio Puacuteblico de Empleo Estatal(SEPE) (httpwwwigeeuigebdtigeapidatos308)

Conjunto 4 Iacutendice de produccioacuten industrial general y por destino econoacutemico de los bienes en Ga-licia (Base 2015) Datos mensuales La informacioacuten procede del Iacutendice de Produccioacuten Industrialoperacioacuten estadiacutestica ejecutada por el INE (httpwwwigeeuigebdtigeapidatos9048)

Conjunto 5 Transacciones inmobiliarias por reacutegimen y tipo de vivienda Nuacutemero valor totaly valor medio Datos trimestrales La fuente de esta informacioacuten es el Ministerio de Fomento y

3

hace referencia a la compraventa de viviendas elevadas a escritura puacuteblica ante notario (httpwwwigeeuigebdtigeapidatos4052)

Conjunto 6 Bajas de demandas de empleo seguacuten geacutenero y duracioacuten de la demanda en Galiciay sus provincias Datos mensuales La fuente de esta informacioacuten es el SEPE y hace referenciaa las bajas que los servicios de empleo puacuteblico tuvieron debido a una colocacioacuten no hacer larenovacioacuten de la demanda en el periodo establecido o por otras causas (httpwwwigeeuigebdtigeapidatos1243)

Conjunto 7 Afiliaciones a la Seguridad Social uacuteltimo diacutea del mes en Galicia y sus provinciasDatos mensuales La informacioacuten procede del Ministerio de Seguridad Social y Migraciones yhace referencia a las personas trabajadoras que estaacuten en alta en la Seguridad Social (httpwwwigeeuigebdtigeapidatos4885)

Los motivos por los que se han escogido estos conjuntos obedece a diversas razones En primerlugar el maacutes importante incluir series en las que existe el conocimiento de que se presentan atiacutepicosA partir de ahiacute se ha conformado un conjunto de series que permitiesen recoger la mayor amalgamade naturalezas posibles que se presentan en las series que trata el IGE mercado laboral turismoconstruccioacuten o industria Seriacutean aacutembitos que se recogen a lo largo de la seleccioacuten de datos realizadaAdemaacutes se han incorporado series con distinta frecuencia de obtencioacuten tanto series mensuales comotrimestrales

En este trabajo se recoge una comparativa de meacutetodos los cuales se pueden englobar bajo dosvisiones de coacutemo abordar la identificacioacuten de anomaliacuteas en series de tiempo Por un lado existen losmeacutetodos cuyo mecanismo se fundamenta en modelos de series temporales que realizan un procesoiterativo para estimar el modelo integrando la posible influencia de observaciones atiacutepicas Por el otrouna visioacuten maacutes reciente se plantea a traveacutes de realizar un proceso de deteccioacuten en dos partes en laprimera se le aplica a la serie de tiempo un meacutetodo de descomposicioacuten para despueacutes aplicar un meacutetodode deteccioacuten de atiacutepicos sobre el residuo

Dado que ambos enfoques comparten un nexo comuacuten como es la modelizacioacuten de la serie de tiempoy la localizacioacuten de atiacutepicos las podemos tratar conjuntamente en dos capiacutetulos el Capiacutetulo 2 y elCapiacutetulo 3

En el Capiacutetulo 2 se estudian las propiedades de modelizacioacuten de cada meacutetodo La importancia deun buen meacutetodo de modelizacioacuten de series temporales reside en que cuanto mejor se consiga extraer elmecanismo generador de la serie de tiempo maacutes resaltaraacuten las observaciones atiacutepicas En el Capiacutetulo 3se describen los meacutetodos de deteccioacuten de atiacutepicos Estos dos capiacutetulos conforman la parte teoacuterica deltrabajo

Para estudiar el comportamiento de los diferentes meacutetodos se plantea un profundo estudio desimulacioacuten en el Capiacutetulo 4 en el que se utiliza el Iacutendice de Youden como herramienta discriminatoriaacerca de queacute meacutetodos ofrecen mejores resultados En el Capiacutetulo 5 se tratan los datos proporcionadospor el IGE a traveacutes de los meacutetodos que han presentado un mejor comportamiento en el estudio desimulacioacuten Para finalizar el Capiacutetulo 6 expone las conclusiones que hemos extraiacutedo a lo largo de larealizacioacuten de este trabajo

4 CAPIacuteTULO 1 INTRODUCCIOacuteN

Capiacutetulo 2

Modelizacioacuten de series temporales

21 Conceptos baacutesicos

En este apartado definiremos los elementos principales que rodean a las series de tiempo Para ellopodemos echar mano de infinidad de manuales dado que las mismas son objeto de estudio en multitudde campos desde las ciencias sociales y econoacutemicas hasta ramas que requieren de un bagaje muchomaacutes matemaacutetico En este trabajo haremos uso de Pentildea (2010) y Woodward Gray y Elliott (2017)

En la estadiacutestica baacutesica estamos acostumbrados a trabajar con una muestra donde las observacio-nes X1 X2 Xn son variables aleatorias independientes e ideacutenticamente distribuidas Sin embargocuando las muestras se extraen en base a instantes de tiempo es muy probable que las observacionesesteacuten correlacionadas entre si Este tipo de muestras con dependencia temporal se denominan series detiempo Es decir una serie de tiempo es una secuencia de observaciones ordenadas cronoloacutegicamente

Este tipo de datos se utilizan en muacuteltiples disciplinas algunos ejemplos podriacutean incluir desde elaacutembito econoacutemico como la evolucioacuten del Producto Interior Bruto (PIB) o del precio del petroacuteleo hastaaacutembitos como la meteorologiacutea midiendo la temperatura de una localidad durante un periacuteodo de tiempoo el aacutembito sanitario siguiendo la evolucioacuten de una enfermedad en un paciente

Uno de los principales inconvenientes a la hora de trabajar con series temporales son los datos atiacute-picos Estos datos atiacutepicos pueden tener dos naturalezas errores no deseados o pepitas de informacioacuten(Rousseeuw y Hubert 2011) Estas pepitas de informacioacuten pueden servirnos por ejemplo para locali-zar sucesos importantes como huelgas medidas de poliacutetica econoacutemica o desastres naturales (Goacutemez yTaguas 1995) Al igual que en el resto de campos de la estadiacutestica que en nuestro conjunto de datos seencuentren valores atiacutepicos puede llevarnos a incurrir en errores de especificacioacuten Como se mencionaen Chang Tiao y Chen (1988) es importante ser capaz de identificar estos sucesos para comprendermejor la estructura subyacente de la serie

Uno de los modelos maacutes comuacutenmente usado y utilizado como punto de partida en el anaacutelisisde series temporales es el modelo ARIMA Los modelos ARIMA ajustan los valores de la serie enbase a las observaciones previas y errores aleatorios con una estructura que le permite incluir tantocomponentes ciacuteclicos como estacionales Siendo Xtt una serie de tiempo un modelo ARIMA seriacuteaaquel que admite una representacioacuten

5

6 CAPIacuteTULO 2 MODELIZACIOacuteN DE SERIES TEMPORALES

φ(B)(1minusB)dXt = c+ θ(B)at

donde Xt es la observacioacuten t de la serie de tiempo B el operador retardo definido por BXt = Xtminus1φ(B) = (1minusφ1(B)minusφ2B

2minusminusφpBp) φ(B) = (1minusθ1Bminusθ2B2minusminusθqBq) cφ1 φ2 φpθ1 θ2 θp

son constantes d es el nuacutemero de diferencias necesarias para eliminar la tendencia de la serie at esruido blanco y p y q los oacuterdenes de los procesos autorregresivos (AR) y de medias moviles (MA)

Con esta representacioacuten del modelo ARIMA se puede deducir raacutepidamente que estos no son maacutes quela mezcla de los dos primeros modelos de series temporales formulados los modelos AR y los modelosMA Ademaacutes si el proceso que genera la serie de tiempo presenta la posibilidad de estar formado porcomponentes de largo periacuteodo temporal se debe hacer uso de los ARIMA estacional muacuteltiplicativoARIMA(pdq)x(PDQ) cuya representacioacuten seriacutea

φ(B)Φ(Bs)(1minusB)d(1minusBs)DXt = c+ θ(B)Θ(Bs)at

En esta nueva formulacioacuten D es el nuacutemero de diferenciaciones estacionales aplicadas para eliminarla componente estacional Φi y Θj las constantes respectivas a la parte estacional para i = 1 2 P yj = 1 2 Q con P igual al orden del proceso AR estacional y Q al orden del proceso MA estacional

Sin embargo la presencia de atiacutepicos puede llevar a un incorrecto ajuste de los paraacutemetros delmodelo debido a que se pueden ver sesgados por el efecto del atiacutepico La mala estimacioacuten de losparaacutemetros nos conduce a diversos errores dado que podemos no diseccionar bien la estructura dela serie como para entender su comportamiento Ademaacutes en el caso de que el atiacutepico se produzcaen la uacuteltima parte de la serie afectariacutea a las estimaciones futuras incurriendo en un error mayor deprediccioacuten

Por ello surgieron meacutetodos como X-13ARIMA-SEATS o TRAMO-SEATS que parten de los mo-delos ARIMA e introducen mejoras como la deteccioacuten y correccioacuten de atiacutepicos Estos meacutetodos fueronampliamente utilizados durante mucho tiempo para la modelizacioacuten de series temporales Sin embargoel desarrollo de la tecnologiacutea provocoacute la creacioacuten del Internet de las Cosas (Mahdavinejad et al 2018)un entorno en el que casi la totalidad de los objetos y personas estaacute conectado a internet dejandohuella de su comportamiento Las caracteriacutesticas de esta red provocaron un incremento enorme en lacreacioacuten y obtencioacuten de datos unas caracteriacutesticas para las cuales no estaban preparados estos meacutetodosdisentildeados para escalar a conjuntos de tamantildeo pequentildeo o mediano

Es aquiacute donde surge un nuevo enfoque para la deteccioacuten de valores atiacutepicos en series de tiempobasado en aplicar un proceso de descomposicioacuten y analizar los residuos Los procesos de descomposicioacutentienen por objetivo diseccionar una serie en tres componentes tendencia estacionalidad y residuo demodo que se pueda establecer un patroacuten de como se comporta En este trabajo el objetivo no es buscarel modelo maacutes preciso sino aquel que consiga trazar mejor la estructura subyacente de la serie de formaque resalte los posibles valores atiacutepicos en su componente residual y es por ello que estos modelosresultan de tanto intereacutes El primer meacutetodo basado en esta idea que recibioacute cierta repercusioacuten fue elpresentado por el equipo de Twitter (Hochenbaum Vallis y Kejariwal 2017) el cual fue maacutes tardeampliado en el paquete Anomalize de R (Dancho y Vaughan 2019)

Esta forma de proceder en dos partes descomposicioacuten maacutes deteccioacuten se debe a la idea de quevisualizar o localizar atiacutepicos en una serie es complicado debido a causas como la estacionalidad o

21 CONCEPTOS BAacuteSICOS 7

tendencia de la serie Aplicarle a la serie un proceso de descomposicioacuten permite extraer estas compo-nentes y resaltar las posibles anomaliacuteas A continuacioacuten en la Figura 21 mostramos un ejemplo deeste procedimiento utilizando uno de los meacutetodos que se emplearaacuten posteriormente en el trabajo STL

Figura 21 A la izquierda la serie referente al Nuacutemero Total de Afiliaciones a la Seguridad Social eluacuteltimo diacutea de mes en Pontevedra perteneciente al Conjunto 7 A la derecha los residuos obtenidos trasaplicarle la descomposicioacuten STL

Como se puede apreciar en la Figura 21 observar alguacuten comportamiento extrantildeo en la serie detiempo es complicado debido a las fluctuaciones que va sufriendo a lo largo de los antildeos Sin embargouna vez aplicado el proceso de descomposicioacuten y eliminado los efectos de estacionalidad y tendenciapodemos ver el efecto de la crisis del Covid-19 apareciendo en los uacuteltimos datos de la serie Esta crisisprovoca que los datos reales de esos meses disten mucho de los esperados lo que se traduce en fuertesincrementos en el tamantildeo del residuo

Lo interesante de estos meacutetodos es que los procesos de descomposicioacuten de series de tiempo soncapaces de analizar multitud de series de caracteriacutesticas muy diferentes y filtrarlas de tal modo que elproblema acabe residiendo en lo que aparentemente es un sencillo problema de deteccioacuten de valoresatiacutepicos en el caso univariante Mientras que los meacutetodos como X-13ARIMA-SEATS o TRAMO-SEATS se encuentran limitados en su disentildeo a trabajar solamente con series con frecuencias mensualeso trimestrales

Sin embargo Wilkinson (2017) resalta que el problema de la deteccioacuten de valores atiacutepicos en elcaso univariante es engantildeosamente sencillo lo cual puede llevarnos a cometer errores en la deteccioacutende atiacutepicos pese a haber realizado una buena descomposicioacuten de la serie Por ello en este trabajo seplantea un capiacutetulo dedicado a analizar las propiedades de diferentes meacutetodos de deteccioacuten

Por tanto en el trabajo coexisten dos mecanismos de deteccioacuten de atiacutepicos en series temporalesPor un lado los meacutetodos de ajuste de series temporales que incorporan la deteccioacuten y correccioacuten deatiacutepicos al modelo de modo automaacutetico Y por el otro aquellos meacutetodos de deteccioacuten de atiacutepicos cuyaidea se centra en aplicar un proceso de descomposicioacuten maacutes anaacutelisis del residuo

En la Seccioacuten 22 se describen los procesos de modelizacioacuten de series temporales utilizados y en elCapiacutetulo 3 se describen los procesos de deteccioacuten de atiacutepicos

8 CAPIacuteTULO 2 MODELIZACIOacuteN DE SERIES TEMPORALES

22 Meacutetodos de modelizacioacuten de series temporales

221 X-13ARIMA-SEATS

El meacutetodo X-13ARIMA-SEATS es la versioacuten actualizada y mejorada del modelo X-11 desarrolladopor Shiskin Young y Musgrave (1967) X-13ARIMA-SEATS fue creado por el Censo de los EstadosUnidos (US Census Bureau) y forma parte de una familia de modelos de ajuste para series temporalesque se han ido desarrollando y estaacuten disentildeados para trabajar con series econoacutemicas estacionales Unaexplicacioacuten completa del meacutetodo y de coacutemo ha de implantarse se puede encontrar en Time SeriesResearch Staff (2017)

Este modelo se basa en la estimacioacuten de lo que sus autores denominan modelos regARIMA Estosson modelos de regresioacuten con errores ARIMA En concreto la media de la serie estaacute descrita por unacombinacioacuten lineal de regresores y la matriz de covarianzas es la de un proceso ARIMA Se incluyenregresores para modelar efectos de calendario como festivos vacaciones o diacutea de la semana Ademaacutestambieacuten se incluyen otro tipo de regresores para modelar el efecto de las anomaliacuteas que se puedanpresentar El modo en que se aborda este campo lo trataremos en profundidad en el Capiacutetulo 3 conel resto de meacutetodos de deteccioacuten

El proceso de ajuste comienza por un pre-ajuste de la serie a traveacutes de eliminar el efecto determiniacutes-tico mediante un modelo de regresioacuten con errores ARIMA En el siguiente paso la serie pre-ajustada sedescompone en tendencia (t) estacionalidad (s) y residuo (i) Esta descomposicioacuten puede ser aditiva(y = t+s+i) multiplicativa (y = tlowastslowasti) log-aditiva (log(y) = log(t)+log(s)+log(i)) o pseudo-aditiva(y = t lowast (s+ iminus 1)) Este paso en el que se aplica el proceso de descomposicioacuten se basa en el uso delalgoritmo X11 que descompone la serie a traveacutes de filtros lineales La serie final ajustada debe estarlibre de estacionalidad y efectos de calendario

X-13ARIMA-SEATS estaacute implementado en la libreriacutea RJDemetra de R en la funcioacuten x13 y lasespecificaciones necesarias para llevar a cabo la deteccioacuten de atiacutepicos se tratan en el Capiacutetulo 3 juntocon la explicacioacuten del proceso de deteccioacuten

222 TRAMO-SEATS

El meacutetodo TRAMO-SEATS (Goacutemez y Maravall 1997) fue disentildeado por el Banco de Espantildea parael anaacutelisis de series de tiempo Esta herramienta estaacute formada por dos mecanismos La parte TRAMO(Time Series Regression with Arima noise Missing Observations and Outliers) y la parte SEATS(Signal Extraction in ARIMA Time Series)

Como se introduce en Goacutemez y Taguas (1995) el programa TRAMO puede ser utilizado inde-pendientemente de SEATS sin embargo SEATS ha sido disentildeado para trabajar conjuntamente conTRAMO Su finalidad es la de realizar un anaacutelisis detallado de series temporales ya que cuenta conmecanismos para realizar tareas de estimacioacuten prediccioacuten interpolacioacuten de modelos de regresioacuten convalores ausentes con errores ARIMA y correccioacuten de valores atiacutepicos El programa incluye variables deregresioacuten para modelizar los diacuteas de calendario que pueden influir en el comportamiento de la serie co-mo puede ser la Pascua y variables de intervencioacuten que permiten corregir el efecto de las observacionesatiacutepicas La idea en la que se basa el modelo es muy similar a la del modelo X-13ARIMA-SEATS

TRAMO elimina de la serie los efectos especiales identifica y elimina automaacuteticamente los efectos

22 MEacuteTODOS DE MODELIZACIOacuteN DE SERIES TEMPORALES 9

de varios tipos de atiacutepicos e interpola las observaciones ausentes Tambieacuten cuenta con un moacuteduloque permite la identificacioacuten automaacutetica de modelos herramienta que imitaron los desarrolladores deX-13ARIMA-SEATS y que en su momento le permitioacute relevar de tareas monoacutetonas a los analistasEste procedimiento de identificacioacuten automaacutetica estaacute basado en estimar primero las raiacuteces unitarias yutilizar despueacutes el Criterio de Informacioacuten Bayesiano (BIC ) para especificar un modelo ARMA a laserie diferenciada

Figura 22 Esquema de funcionamiento de TRAMO-SEATS (Goacutemez y Maravall 1997)

La Figura 22 (Goacutemez y Maravall 1997) muestra como se integran ambas partes TRAMO ySEATS para formar en conjunto el mecanismo completo de modelizacioacuten

SEATS fue disentildeado originalmente para desestacionalizar series temporales El programa descom-pone una serie que sigue un modelo ARIMA en varios componentes tendencia componente estacionalciclo y componente irregular La descomposicioacuten puede ser aditiva o multiplicativa La descomposicioacutenparte de la hipoacutetesis de ortogonalidad de los componentes que a su vez siguen modelos ARIMA Paraidentificar los componentes se requiere que excepto el irregular esteacuten limpios de ruido blanco De estemodo se maximiza la varianza de este uacuteltimo y al contrario la tendencia el componente estacional yel ciclo son lo maacutes estables posibles

El modelo tratado por SEATS es el de una serie integrada lineal con innovaciones gaussianas Estahipoacutetesis puede no ser cierta en muacuteltiples ocasiones pero siempre es necesario extraer un modelo espor ello que SEATS fue disentildeada para ser utilizada de forma conjunta con TRAMO

TRAMO-SEATS estaacute implementado en la libreriacutea RJDemetra de R en la funcioacuten tramoseats y las

10 CAPIacuteTULO 2 MODELIZACIOacuteN DE SERIES TEMPORALES

especificaciones necesarias para llevar a cabo la deteccioacuten de atiacutepicos se tratan en el capiacutetulo 3 juntocon la explicacioacuten del proceso de deteccioacuten

223 STL

STL es un proceso de filtrado para descomponer series de tiempo en tendencia estacionalidad yresiduo cuyo nombre se debe a sus siglas en ingleacutes Seasonal-Trend decomposition based on Loessintroducido por Cleveland Cleveland McRae y Terpenning (1990) El propoacutesito de este meacutetodo fue elde desarrollar un meacutetodo de descomposicioacuten de series de tiempo que cumpliese los siguientes requisitos

1 Disentildeo sencillo y uso inmediato

2 Flexibilidad a la hora de especificar las variaciones en la tendencia y estacionalidad

3 Poder descomponer series de tiempo con valores faltantes

4 Tendencia y estacionalidad robusta de modo que no se vea distorsionada por datos anoacutemalos

5 Raacutepida computacioacuten y faacutecil implementacioacuten incluso para series temporales largas

El procedimiento de STL consiste en una secuencia de operaciones de suavizado realizadas todasellas salvo una por el mismo suavizador loess El mecanismo consiste en dos bucles uno interno yotro externo

Cada vuelta del bucle interno consiste en un suavizado estacional que actualiza dicha componenteseguido de un suavizado de la tendencia que actualiza la componente asociada con la tendencia Porotra parte cada vuelta del bucle externo consiste en aplicarle una serie de pesos robustos al bucleinterno Estos pesos se utilizan en la siguiente vuelta del bucle interno para reducir la influencia de losdatos anoacutemalos

La aplicacioacuten de la estimacioacuten robusta seraacute necesaria cuando exista un conocimiento previo de quelos datos tienen un comportamiento no gaussiano que conduce a una variacioacuten transitoria extrema delo contrario se pueden omitir las iteraciones del bucle externo y STL consistiriacutea solamente en el bucleinterno

A diferencia de otros meacutetodos como TRAMO-SEATS o X-13ARIMA-SEATS STL puede tratarcualquier tipo de estacionalidad en vez de estar atado a estacionalidades mensuales o trimestrales Sucomponente estacional es capaz de cambiar a lo largo del tiempo y dicho cambio puede ser controladopor el usuario Lo mismo sucede con el suavizado de la componente relacionada con la tendencia Unode sus inconvenientes es que no opera si en la serie se encuentran valores faltantes

En R encontramos este meacutetodo bajo la funcioacuten stl a la cual solo habraacute que especificarle unparaacutemetro Dicho paraacutemetro es el relacionado con el suavizado de la componente estacional e indicaal mecanismo el nuacutemero de observaciones consecutivas a utilizar para estimar los valores de dichacomponente Se podriacutea introducir un valor numeacuterico si tenemos alguacuten indicio sobre el posible desarrollode la componente estacional sin embargo dado que vamos a aplicarlo a un gran nuacutemero de series elanaacutelisis individual seriacutea costoso La solucioacuten utilizada en este trabajo pasa por fijar este paraacutemetrocomo perioacutedico lo cual asume que la evolucioacuten de la componente estacional es ideacutentica a lo largo delos antildeos que se desarrolla la serie

22 MEacuteTODOS DE MODELIZACIOacuteN DE SERIES TEMPORALES 11

224 STR

STR es un meacutetodo de descomposicioacuten de series de tiempo presentado por Dokumentov y Hyndman(2015) Sus siglas se deben a su nombre en ingleacutes Seasonal-Trend decomposition procedure based onRegression similar a la idea de STL salvo que ahora en vez de basarse en loess lo hace en regresioacutenEn concreto seguacuten los autores STR es similar a la regresioacuten Ridge (Hoerl y Kennard 1970) y suversioacuten robusta Robust STR (Dokumentov y Hyndman 2015) se podriacutea relacionar con una regresioacutenLASSO (Tibshirani 1996)

La idea de su desarrollo se originoacute debido a que los autores consideran que a pesar de existir variosalgoritmos de descomposicioacuten de series de tiempo existen muchas caracteriacutesticas en ellas que dichosalgoritmos son incapaces de tratar Las principales deficiencias que encuentran son

Incapacidad para proporcionar un modelo estadiacutestico significativo y simple

Incapacidad (o dificultad) para calcular intervalos de confianza

Incapacidad para tener en cuenta regresores

Incapacidad para tener en cuenta estacionalidad fraccionada

Incapacidad para tener en cuenta muacuteltiples estacionalidades

Incapacidad para tener en cuenta estacionalidades complejas y regresores que afecten a los datosde un modo estacional

El objetivo con el que se desarrolloacute STR fue el de corregir estas deficiencias a la par que presentar unmeacutetodo claro geneacuterico simple y robusto si fuera necesario Para solucionar estas deficiencias enfocan ladescomposicioacuten como un problema a resolver a traveacutes de una regresioacuten cuantil o de miacutenimos cuadradosordinarios

De acuerdo a sus desarrolladores STR constituye el meacutetodo de descomposicioacuten de series de tiempomaacutes geneacuterico disponible en el momento de su publicacioacuten Sin embargo matizan una gran desventajaque presenta el meacutetodo y es su ineficiencia o la ralentizacioacuten que sufre el mecanismo a la hora de tratarcasos en los que se utilizan varios componentes o predictores estacionales

Uno de sus desarrolladores Rob J Hyndman es conocido por sus aportaciones en el campo delas series de tiempo y su posterior implantacioacuten en paquetes para el software R como el famosopaquete forecast En este caso tambieacuten ha colaborado en la implantacioacuten de STR con el paquete stR(Dokumentov y Hyndman 2018)

225 Twitter

En Hochenbaum et al (2017) se aborda el problema de deteccioacuten de valores atiacutepicos en series detiempo introduciendo la idea de descomposicioacuten maacutes deteccioacuten como hemos comentado en la introduc-cioacuten de esta seccioacuten El equipo de Twitter plantea en su artiacuteculo utilizar en un primer momento STLcomo meacutetodo de descomposicioacuten para obtener los residuos sin embargo a la hora de trabajar con estemeacutetodo encuentran una serie de inconvenientes Estos inconvenientes estariacutean provocados por ciertasanomaliacuteas espurias producidas en el residuo

12 CAPIacuteTULO 2 MODELIZACIOacuteN DE SERIES TEMPORALES

Para corregir esta situacioacuten optan por utilizar la mediana de la serie de tiempo para representar latendencia ldquoestablerdquo que despueacutes seraacute utilizada para calcular el residuo

De este modo afirman que reemplazando la tendencia con la mediana se eliminan las anomaliacuteasespurias o ilegiacutetimas del residuo Los mismos desarrolladores publicaron un paquete en la plataformaGitHub (Twitter Inc 2015) que nos permitiacutea hacer uso de este mecanismo sin embargo su manteni-miento cesoacute a finales de 2015 y el paquete fue eliminado de la plataforma CRAN en marzo de 2019 Elpaquete Anomalize (Dancho y Vaughan 2019) recoge este mecanismo y seraacute el paquete que utilizaremosen este trabajo para utilizar esta modificacioacuten del meacutetodo STL bajo la funcioacuten decompose_twitter

23 RESUMEN MEacuteTODOS DE MODELIZACIOacuteN DE SERIES TEMPORALES 13

23 Resumen meacutetodos de modelizacioacuten de series temporales

Meacutetodo Ventajas Contras

X-13ARIMA-SEATS(2017)

Capaz de tratar con valores fal-tantesIntegra diversos tipos de descom-posicioacutenRaacutepida velocidad de ejecucioacuten

Disentildeado para trabajar solo conseries mensuales o trimestrales

TRAMO-SEATS(1997) Capaz de tratar con valores fal-tantesIntegra diversos tipos de descom-posicioacutenRaacutepida velocidad de ejecucioacuten

Disentildeado para trabajar solo conseries mensuales o trimestrales

STL(1990) Puede tratar series de cualquierfrecuenciaRaacutepidoCuenta con versioacuten robusta

No admite valores faltantesCarece de flexibilidad cuando elperiacuteodo estacional es largo y seobserva mucho ruido en la serieAuacuten con su versioacuten robusta pue-de verse afectado por la influen-cia de los atiacutepicos

STR(2015) Puede tratar series de cualquierfrecuenciaCuenta con versioacuten robustaAdmite valores faltantesSensible a cambios de estaciona-lidad

No puede seguir cambios bruscosen la tendenciaExtremadamente lento en com-paracioacuten al resto de meacutetodos

Twitter(2017) Puede tratar series de cualquierfrecuenciaElimina anomaliacuteas espuacutereas en lacomponente residualRaacutepido

No admite valores faltantesNo cuenta con versioacuten robusta

Cuadro 21 Resumen de los meacutetodos de modelizacioacuten de series temporales

14 CAPIacuteTULO 2 MODELIZACIOacuteN DE SERIES TEMPORALES

Capiacutetulo 3

Deteccioacuten de valores atiacutepicos

31 Conceptos baacutesicos

El problema que supone en la estadiacutestica la presencia de valores atiacutepicos aparecioacute muy pronto EnHawkins (1980) mencionan que este problema pudo haber surgido ya en los siglos XVIII y XIX enencuestas estadiacutesticas que se realizaban Las primeras decisiones de queacute hacer con ellos se basaron encriterios puramente subjetivos en los que era el propio analista el que decidiacutea descartar una observacioacutensi pareciacutea anoacutemala respecto al resto de los datos

Posteriormente se comenzaron a plantear posibles soluciones para tratar el problema bajo uncriterio La primera de ellas fue la presentada por Peirce (1852) basada en lo que se podriacutea entendercomo un test de razoacuten de verosimilitud donde todos los valores que superasen el umbral determinadopor cσ seriacutean rechazados siendo c una constante a calcular y σ la desviacioacuten tiacutepica de la muestraVarios autores realizaron criacuteticas a este meacutetodo y propusieron su correccioacuten a este criterio una de ellasfue la de Chauvenet (1963) Esta pasaba por calificar a una observacioacuten como atiacutepico si su valor sesituaba fuera del intervalo definido por 1(4n) puntos de la distribucioacuten Normal siendo n el tamantildeode la muestra

En ese momento surgen diversas propuestas no muy relevantes que trataron de abordar dichoproblema hasta que surgioacute la llevada a cabo por Thompson (1935) Su estudio condujo a descubrir ladistribucioacuten nula de un residuo estudentizado

xi minus xs

donde xi es la observacioacuten sospechosa de ser atiacutepica x la media muestral y s la desviacioacuten tiacutepica de lamuestra A partir de esto pudo deducir un procedimiento de deteccioacuten de atiacutepicos que rechazariacutea unaproporcioacuten fija de todos los datos buenos y devolveriacutea una tabla con los valores criacuteticos adecuados

Esta idea supuso el desarrollo del test de Grubbs (1950) el cual utilizando la misma notacioacutenanterior basaba su regla en los momentos muestrales de una normal

G =max1leilen|xi minus x|

s

Grubbs (1950) asocioacute G con una distribucioacuten t con el objetivo de encontrar un maacuteximo y un miacutenimo

15

16 CAPIacuteTULO 3 DETECCIOacuteN DE VALORES ATIacutePICOS

para localizar atiacutepicos Esta idea fue posteriormente ampliada dando lugar al meacutetodo GESD (Rosner1983) el cual se detalla en la siguiente seccioacuten

Posteriormente se presentoacute una de las herramientas maacutes comuacutenmente utilizadas para la identifi-cacioacuten de atiacutepicos el boxplot introducido en Tukey (1977) Sin embargo el objetivo inicial no fue ladeteccioacuten de atiacutepicos sino como un meacutetodo para trazar una idea del intervalo en el que se encuentranla gran parte de nuestros datos Ademaacutes la forma en la que se construye provoca dos grandes incon-venientes No se puede aplicar a distribuciones sesgadas y dado que no incluye el tamantildeo muestral ensu formulacioacuten tenderaacute a etiquetar falsos atiacutepicos cuanto maacutes grande sea la muestra

A la par que se iban presentando estas ideas para la buacutesqueda de valores atiacutepicos en un conjuntode datos se fueron presentando mecanismos enfocados a las series de tiempo

Uno de los primeros aportes al tratamiento de datos atiacutepicos en series de tiempo fue propuestopor G E P Box y Tiao (1975) Sin embargo este meacutetodo solamente permitiacutea modelar el efecto de laobservacioacuten atiacutepica si se conociacutea de antemano el momento de la intervencioacuten por lo que no se podriacuteaconsiderar una herramienta de deteccioacuten sino maacutes bien una herramienta de intervencioacuten

Posteriormente se propusieron diversos meacutetodos para abordar el problema de la estimacioacuten demodelos ARIMA en series bajo esta circunstancia El primero de ellos fue el de Abraham y Box(1979) que se basaba en proponer un enfoque bayesiano para resolver el problema partiendo de ideassimilares a las que se habiacutean propuesto en otros contextos por autores como Tukey (1977) Otro meacutetodoque buscaba resolver tambieacuten el mismo problema fue el propuesto por Chang y Tiao (1983) cuya idease centraba en aplicar un proceso iterativo

Fue en este artiacuteculo (Chang y Tiao 1983) donde se propuso por primera vez un meacutetodo de deteccioacutene identificacioacuten de atiacutepicos Tsay (1986) propuso su versioacuten que se basaba en combinar el procesoiterativo presentado en Chang y Tiao (1983) con la funcioacuten de autocorrelacioacuten muestral extendidadesarrollada en Tsay y Tiao (1984) la cual permite eliminar la necesidad de determinar el orden dediferenciacioacuten para producir una serie estacionaria que modelar

En Chen y Liu (1993) se reconocen los numerosos aportes hechos en los anteriores artiacuteculos citadospero matiza que algunos problemas seguiacutean estando vigentes

a La presencia de atiacutepicos puede resultar en un modelo inapropiado

b Incluso si el modelo es el apropiado los atiacutepicos pueden seguir produciendo sesgo en el paraacutemetroestimado y por tanto afectar a la deteccioacuten del atiacutepico

c Algunos atiacutepicos no van a ser identificados debido a un problema de enmascaramiento

Su objetivo era presentar un meacutetodo que fuese capaz de resolver los problemas b y c de modo quese pudiese generalizar para aplicar a los cuatro tipos de atiacutepicos en series temporales que se habiacutean idointroduciendo Los cuatro tipos son

IO (atiacutepico innovativo) existe un atiacutepico innovativo en el momento t cuando la innovacioacuten en esepunto esteacute directamente provocada por una cantidad desconocida debido a un suceso imprevisto

AO (atiacutepico aditivo) diremos que se produce un atiacutepico aditivo si en el momento t la serie segenera de manera diferente al resto

32 MEacuteTODOS DE DETECCIOacuteN DE VALORES ATIacutePICOS 17

LS (cambio de nivel) existe un cambio de nivel si en el momento t la serie experimenta unincremento de todos sus valores A diferencia del resto tiene un efecto permanente sobre la serieuna vez aparece

TC (cambio temporal) similar al cambio de nivel solo que el efecto no es permanente y decreceexponencialmente con el tiempo

X-13ARIMA-SEATS y TRAMO-SEATS basan su proceso de deteccioacuten de atiacutepicos en meacutetodosinspirados en el artiacuteculo de Chen y Liu (1993) cuya idea se fundamenta en integrar un mecanismoiterativo disentildeado para trabajar con series de tiempo que localiza e integra los atiacutepicos al modelo Porotra parte en la siguiente seccioacuten introducimos los meacutetodos de deteccioacuten de atiacutepicos que acompantildeana los procesos de descomposicioacuten de series de tiempo estos son GESD Isolation Forest y HDoutliersEstos meacutetodos son desarrollos de los mecanismos e ideas tratados al comienzo de esta seccioacuten como elmeacutetodo Grubbs (Grubbs 1950)

32 Meacutetodos de deteccioacuten de valores atiacutepicos

321 X-13ARIMA-SEATS

El anaacutelisis de diagnoacutestico del modelo regARIMA se realiza a traveacutes del anaacutelisis de los residuos delmodelo estimado Para el apartado de anaacutelisis de valores atiacutepicos X-13ARIMA-SEATS se fundamentaen Chang y Tiao (1983) con extensiones y modificaciones tratadas en Bell (1983) y Otto y Bell (1990)donde los valores atiacutepicos pueden ser de tres de los cuatro tipos antes mencionados AO LS y TC

El enfoque que plantea este mecanismo de deteccioacuten es similar a la regresioacuten paso a paso procedi-miento de regresioacuten en el que se construye el modelo a traveacutes de ir antildeadiendo o eliminando variablespredictoras en base a criterios de informacioacuten

En este caso las variables candidatas para la regresioacuten son las AO LS y TC para todos los puntosen los que la deteccioacuten de atiacutepicos se realiza Es decir se calcula el t-estadiacutestico para ver la significa-tividad de cada tipo de atiacutepico en cada instante temporal se busca significatividad entre todos estost-estadiacutesticos y se antildeade la correspondiente variable de regresioacuten (AO LS o TC) al modelo con el finde corregir los efectos que producen estas observaciones atiacutepicas De este modo se identifica e introduceel efecto de un momento atiacutepico en el modelo Mientras se produce el proceso de deteccioacuten de atiacutepicosse utiliza un estimador robusto de la desviacioacuten residual estaacutendar 148lowastla mediana del valor absolutode la desviacioacuten residual

X-13ARIMA-SEATS antildeade dos variaciones a este meacutetodo El meacutetodo addone en el que cada vezque se antildeade al modelo un atiacutepico se lleva a cabo una re-estimacioacuten del modelo y el meacutetodo addallque re-estima el modelo solo cuando un nuacutemero de variables atiacutepicas han sido antildeadidas al modelo

Este meacutetodo estaacute implantado en R a traveacutes de la funcioacuten x13 del paquete RJDemetra Dicha funcioacutenrequiere de un paraacutemetro de especificacioacuten spec en que se concreta el modelo que queremos introducirEste paraacutemetro es el que nos ofrece diversas posibilidades de modelizacioacuten de la serie como se recogeen la Figura 31 entre ellas los efectos de calendario o los atiacutepicos que presente la serie Dado quebuscamos sucesos atiacutepicos en su sentido maacutes amplio vamos a omitir incluir los efectos de calendarioy solamente introducir la deteccioacuten automaacutetica de atiacutepicos Esto provoca que en nuestro trabajo la

18 CAPIacuteTULO 3 DETECCIOacuteN DE VALORES ATIacutePICOS

especificacioacuten que nos interesa y con la que hemos trabajado sea RSA3 La opcioacuten RSA3 permiteajustar automaacuteticamente un modelo ARIMA identificando y corrigiendo las posibles observacionesanoacutemalas El resto de modificaciones que permite introducir el paraacutemetro de especificacioacuten de la funcioacutenx13 se recogen en la Figura 31 Por ejemplo si estuvieacutesemos interesados en modelizar nuestros datosa traveacutes de un modelo ARIMA de liacuteneas aeacutereas observariacuteamos en la Figura 31 que tendriacuteamos queescoger la especificacioacuten RSA0 Si ahora quisieacuteramos antildeadirle a dicho modelo deteccioacuten de atiacutepicostendriacuteamos que cambiar el paraacutemetro de especificacioacuten a RSA1 y si ademaacutes tambieacuten nos interesamodelar los efectos de calendario sobre dicho modelo introduciriacuteamos la especificacioacuten RSA2 El restode especificaciones ya trabajan sobre el ajuste de un modelo ARIMA de un modo automaacutetico la maacutessencilla es la que utilizamos nosotros en este trabajo RSA3 la cual ajusta un modelo ARIMA deforma automaacutetica incluyendo la deteccioacuten de atiacutepicos Las especificaciones RSA4 y RSA5 incorporanrespecto a RSA3 modelizar los efectos de calendario La diferencia entre ellas se encuentra en queRSA4 incluye en el modelo los efectos de calendario a traveacutes de dos variables que representan losdiacuteas laborables y los fines de semana y RSA5 incluye dichos efectos a traveacutes de siete variables cadadiacutea de la semana y ambas incluyen el efecto de la Pascua en el calendario Por uacuteltimo se encuentrala especificacioacuten RSAfull que incluye el ajuste automaacutetico de un modelo ARIMA y de los efectos decalendario e incorpora la deteccioacuten de atiacutepicos Todas estas especificaciones son las que se detallan enla Figura 31 para profundizar maacutes en ellas se puede consultar el manual de la libreriacutea RJDemetra (laTente Michalek Palate y Baeyens 2020)

Figura 31 Paraacutemetro de especificaciones a introducir al modelo X-13ARIMA-SEATS

322 TRAMO-SEATS

El mecanismo de deteccioacuten de atiacutepicos que utiliza el programa TRAMO-SEATS aborda el problemacon la intencioacuten de resolver los problemas b y c introducidos en el inicio del Capiacutetulo 3 dado queentiende que estos no se han resuelto de un modo satisfactorio en Chen y Liu (1993) En Goacutemez yTaguas (1995) explican que aunque este meacutetodo funciona de forma bastante satisfactoria su solucioacutenpresenta una serie de deficiencias

1 Se estima varias veces por maacutexima verosimilitud exacta lo que es costoso

2 No utiliza residuos exactos

3 El algoritmo es excesivamente complicado

4 Las regresiones muacuteltiples no se hacen filtrando los datos y las columnas de la matriz por un filtroexacto como el filtro de Kalman sino que se utiliza un filtro condicional

32 MEacuteTODOS DE DETECCIOacuteN DE VALORES ATIacutePICOS 19

Por tanto se presenta un mecanismo que pretende subsanar estas deficiencias a la par que corregirlos problemas b y c mencionados en Chen y Liu (1993) Ademaacutes si se utiliza de forma secuencial juntocon el procedimiento de especificacioacuten automaacutetica del programa supone un procedimiento alternativoal de Tsay (1986)

Al igual que X-13ARIMA-SEATS TRAMO-SEATS estaacute implementado en la libreriacutea RJDemetra

de R en la funcioacuten tramoseats Dicha funcioacuten tambieacuten requiere de un paraacutemetro de especificacioacutenspec en el que se concreta el modelo que queremos introducir La utilidad y mecanismo sobre el quetrabaja este paraacutemetro es ideacutentico al explicado en la Seccioacuten 321 para el meacutetodo X-13ARIMA-SEATSpor lo que utilizaremos la especificacioacuten RSA3 Esta especificacioacuten incluye el ajuste automaacutetico de unmodelo ARIMA corrigiendo las posibles observaciones atiacutepicas

El resto de posibles especificaciones que se pueden incluir en el modelo se recogen en la Figura32 El significado de esta figura es equivalente al de la Figura 31 dado que ambos modelos TRAMO-SEATS y X-13ARIMA-SEATS estaacuten implementados en la misma libreria RJDemetra y compartenel mismo paraacutemetro de especificacioacuten en la funcioacuten que estima sus modelos en R

Figura 32 Paraacutemetro de especificaciones a introducir al modelo TRAMO-SEATS

323 GESD

Introducido por Rosner (1983) como una mejora al por entonces conocido ESD (Rosner 1975) porsus siglas en ingleacutes Extreme Studentized Deviate A pesar de que ESD contaba con buenas propiedadesante una amplia alternativa de atiacutepicos presentaba una serie de defectos que le conduciacutean a etiquetarmaacutes candidatos a atiacutepicos que el nuacutemero apropiado Esto provocoacute que se quedase obsoleto en favor desu actualizacioacuten GESD General Extreme Studentized Deviate

Los pasos que sigue son los siguientes

1 Decidir un maacuteximo nuacutemero de posibles candidatos a atiacutepicos r La recomendacioacuten es de consi-derar el 20 del tamantildeo muestral

2 Comenzar las iteraciones i = 1

3 Calcular Ri = maxt|ximinusx|s siendo xi una observacioacuten sospechosa de ser anoacutemala x la media

muestral y s la desviacioacuten estaacutendar de la muestra respectivamente

4 Eliminar la observacioacuten que maximice xi minus x

5 Calcular el siguiente valor criacutetico λi =(nminusi)tpnminusi+1radic

(nminus1minus1+t2pnminusiminus1)(nminusi+1)

donde tpnminusi+1 es una distribucioacuten t con n minus i minus 1 grados de libertad y p = 1 minus α2(nminusi+1 siendo

α la probabilidad de cometer errores de tipo I

20 CAPIacuteTULO 3 DETECCIOacuteN DE VALORES ATIacutePICOS

6 Pasar a la siguiente iteracioacuten repetir los pasos 2 a 5 hasta i = r quedando r definido en el paso1

7 El nuacutemero de atiacutepicos detectados se determina al encontrar el mayor i tal que Ri gt λi dondeRi se define en el paso 2 y λi en el paso 5

GESD es principalmente el test de Grubbs (Grubbs 1950) aplicado de forma secuencial sin embargoexisten unas pequentildeas diferencias que premian su comportamiento GESD realiza ajustes del valorcriacutetico en base al nuacutemero de atiacutepicos a ser estudiado algo que el test de Grubbs no hace Ademaacutessi existe efecto de enmascaramiento aplicar el test de Grubbs de forma secuencial produciriacutea unadetencioacuten demasiado temprana del algoritmo de deteccioacuten lo que impediriacutea localizar algunos atiacutepicos

Los estudios de simulacioacuten realizados para estudiar el comportamiento de GESD indican que elmeacutetodo es muy preciso cuando contamos con tamantildeos muestrales n gt 25 por lo que en nuestrotrabajo no tendremos problema Sin embargo debido a que es un meacutetodo iterativo seraacute maacutes costosocomputacionalmente a medida que se incrementen los tamantildeos muestrales y es algo a tener en cuentacomo posible freno al crecimiento futuro del mecanismo de deteccioacuten

En R podemos encontrar la funcioacuten gesd dentro del paquete Anomalize (Dancho y Vaughan 2019)

324 Isolation Forest

Isolation Forest o iForest es el meacutetodo presentado por Liu Ting y Zhou (2009) donde se tratael tema de deteccioacuten de atiacutepicos desde un punto de vista diferente Ese punto de vista se basa en dospropiedades relacionadas con la idea de queacute es un valor atiacutepico son la minoriacutea de un conjunto y tienenunos atributos muy diferentes a los de las observaciones normales Es decir las anomaliacuteas son pocas ydiferentes lo que las hace maacutes propensas a encontrarse aisladas del resto

Por esta razoacuten los autores presentan un meacutetodo basado en construir un aacuterbol que aiacutesle cada ob-servacioacuten de tal modo que los valores atiacutepicos se encontraraacuten en ramas maacutes proacuteximas a la raiacutez y losvalores normales se encontraraacuten en zonas maacutes profundas del aacuterbol Es por ello que iForest (Liu et al2009) se distingue del resto de mecanismos basados en modelos distancias o densidades

Figura 33 Idea sobre la que se sustenta el mecanismo de Isolation Forest

32 MEacuteTODOS DE DETECCIOacuteN DE VALORES ATIacutePICOS 21

En la Figura 33 se puede observar la idea sobre la que se rige este mecanismo Un punto normalxi requiere maacutes particiones para ser aislado Y el opuesto tambieacuten es cierto donde un punto anoacutemalox0 requiere menos particiones para ser aislado Por lo que se trata de calcular la ldquolongitud del caminordquoa ser aislado dado que los valores atiacutepicos tendraacuten caminos maacutes cortos que los de los valores normales

Para definir como se calcula la ldquolongitud del caminordquo es necesario definir primero el aacuterbol deaislamiento Isolation Tree El aacuterbol de aislamiento seriacutea toda la estructura de ramas que trocean elconjunto de datos La longitud del camino h(x) path length de un punto x se mediriacutea por tanto comoel nuacutemero de ramas a atravesar desde la raiacutez del aacuterbol al punto

Es necesario definir una puntuacioacuten de cuaacuten anoacutemala es una observacioacuten score para ello se intro-duce c(n) como la media de h(x) siendo E el operador esperanza dado el tamantildeo de la muestra nDe tal modo que

Cuando E(h(x))rarr c(n) scorerarr 05

Cuando E(h(x))rarr 0 scorerarr 1

Cuando E(h(x))rarr nminus 1 scorerarr 0

Haciendo uso de la puntuacioacuten anoacutemala que recibe cada punto score tenemos que

Si score es cercano a 1 la observacioacuten es atiacutepica

Si la observacioacuten presenta valores de score inferiores a 05 pueden ser calificadas como observa-ciones normales

Si todas las observaciones devuelven un valor score asymp 05 entonces la muestra entera carece deatiacutepicos

En el artiacuteculo fijan como atiacutepicos potenciales observaciones con score ge 06 en este trabajo somosmaacutes estrictos y fijamos el umbral en score ge 075 Esta decisioacuten se toma tras probar diferentes umbralesy observar el comportamiento del meacutetodo en el estudio de simulacioacuten y en los datos reales Otrosumbrales que se barajaron y descartaron por los resultados mostrados fueron score ge 07 por serdemasiado laxo y score ge 08 por ser demasiado estricto

En R existen dos libreriacuteas que implantan dicho meacutetodo una es la implantada por la empresa H20 lacual ha desarrollado el algoritmo HDoutliers utilizado en este trabajo Y la otra es la libreriacutea solitude(Srikanth 2017) la cual hemos usado para el desarrollo de este trabajo

325 HDoutliers

HDoutliers (Wilkinson 2017) es un algoritmo que se puede aplicar en multitud de escenarios posi-bles desde el maacutes sencillo que seriacutea el caso univariante hasta maacutes complejos como el multidimensionalo el espacial La idea sobre la que se desarrolla es la de buscar espacios entre los valores ordenadosmaacutes que en la de buscar valores extremos De los meacutetodos que se centran en la idea de buscar valoresextremos como por ejemplo el test de Grubbs y por tanto GESD el autor hace una criacutetica y es queestos utilizan medidas como la media muestral o la desviacioacuten tiacutepica las cuales no son robustas frentea valores atiacutepicos

22 CAPIacuteTULO 3 DETECCIOacuteN DE VALORES ATIacutePICOS

El concepto anterior se puede explicar de un modo muy sencillo a traveacutes de un ejemplo que se recogeen Wilkinson (2017) En los resultados a un examen al que se presentaron 100 alumnos obtenemos unapuntuacioacuten media de 50 y una desviacioacuten estaacutendar de 5 Si entre todas las notas un alumno obtuvo un100 y la siguiente mejor nota es un 65 se podriacutea sospechar que ese alumno es un genio o un tramposoPor otra parte si la nota perfecta se encuentra en el punto maacutes alto de una serie de notas que difieren5 puntos entre ellas ese alumno ya no seriacutea tan sospechoso Los test claacutesicos de valores atiacutepicos no soncapaces de diferir entre ambas situaciones

Figura 34 El algoritmo de HDoutliers aplicado sobre el ejemplo anterior (Wilkinson 2017)

En la Figura 34 se representa este ejemplo En el caso de la izquierda estariacuteamos en la situacioacutenen la que no se sospecha que se hayan producido trampas por parte de ninguacuten alumno y el meacutetodoHDoutliers no detectariacutea ninguacuten candidato a atiacutepico A la derecha tendriacuteamos la situacioacuten en la quesospechariacuteamos de que existe un alumno brillante o tramposo y el meacutetodo detectariacutea una situacioacutenatiacutepica como se sentildeala con el punto rojo

La solucioacuten de buscar espacios permite identificar valores inusuales tanto en el medio de las dis-tribuciones como en los extremos Para ello HDoutliers calcula la distancia al vecino maacutes cercanoDespueacutes ajusta una distribucioacuten exponencial a la cola superior de las distancias calculadas y calcula elvalor 1minusα siendo α la probabilidad de cometer un error tipo I superior de la funcioacuten de distribucioacutenacumulada Por lo que cada observacioacuten que se encuentre significativamente alejada del resto basadaen este punto de corte se etiquetaraacute como atiacutepica

El autor menciona que este meacutetodo difiere de aquellos que se basan en hacer un ranking de candi-datos a atiacutepicos como podriacutea ser Local Outlier Factor (Breunig Kriegel Ng y Sander 2000) o quelos etiquetan bajo un liacutemite arbitrario como seriacutea el caso de Isolation Forest (Liu et al 2009) dadoque pueden conducir a resultados inconsistentes Para ello lo que hace es asignar una probabilidad ala creencia de que estamos ante un atiacutepico

En R podemos encontrar este meacutetodo en la libreriacutea HDoutliers (Fraley y Wilkinson 2020)

33 RESUMEN MEacuteTODOS DE DETECCIOacuteN DE VALORES ATIacutePICOS 23

33 Resumen meacutetodos de deteccioacuten de valores atiacutepicos

Meacutetodo Ventajas Contras

X-13ARIMA-SEATS(2017)

Califica el tipo de atiacutepicoRaacutepida velocidad de ejecucioacuten

Basado en modelos ARIMA

TRAMO-SEATS(1997) Califica el tipo de atiacutepicoRaacutepida velocidad de ejecucioacutenIdea similar a X-13ARIMA-SEATS pero profundizando maacutesen el desarrollo del mecanismo dedeteccioacuten de atiacutepicos

Basado en modelos ARIMA

GESD(1983) Elimina parte de la incertidum-bre de que se produzca un efectode enmascaramiento

Utiliza medidas como la media ola desviacioacuten tiacutepica medidas quese pueden ver distorsionadas porvalores atiacutepicosEs un proceso iterativo lo queimplica mayor coste computacio-nal a medida que se incrementeel tamantildeo de datos

Isolation Forest(2009) Escalable a conjuntos de gran di-mensioacutenDisentildeo sencillo

El usuario tiene que determinarel umbral de atiacutepico lo cual pue-de ser un inconveniente a veces

HDoutliers(2017) Identifica valores inusuales tantoen el medio de las distribucionescomo en los extremosEscalable a conjuntos de gran di-mensioacutenAlta velocidad de ejecucioacuten

Tendencia a calificar un excesode observaciones como atiacutepicassin serlo

Cuadro 31 Resumen de los meacutetodos de deteccioacuten de atiacutepicos

24 CAPIacuteTULO 3 DETECCIOacuteN DE VALORES ATIacutePICOS

34 Meacutetodos de deteccioacuten de valores atiacutepicos en series tempo-

rales

Dado que se han introducido diversos meacutetodos con diferentes enfoques respecto a la resolucioacuten delproblema de deteccioacuten de atiacutepicos en series de tiempo hemos decidido incluir este apartado al finaldel contenido principalmente teoacuterico del trabajo para asiacute centrar los meacutetodos que se utilizaraacuten en lossiguientes capiacutetulos Este apartado recoge todos los meacutetodos los ya existentes y nuevas propuestasrealizadas por nosotros que se utilizaraacuten en este trabajo

Los meacutetodos existentes son los pertenecientes a las libreriacuteas RJDemetra (la Tente et al 2020) yAnomalize (Dancho y Vaughan 2019) La libreriacutea RJDemetra es la que nos dota de las funcionesnecesarias para utilizar los modelos X-13ARIMA-SEATS y TRAMO-SEATS Mientras que la libreriacuteaAnomalize se ha convertido en uno de los paquetes de referencia en R para el anaacutelisis de valores atiacutepicosen series de tiempo A traveacutes de ella podemos utilizar el meacutetodo tratado en Hochenbaum et al (2017)basado en una combinacioacuten de Twitter+GESD y tambieacuten la otra opcioacuten que proponen a traveacutes decombinar STL+GESD

A partir de la idea desarrollada por autores como Hochenbaum et al (2017) o libreriacuteas comoAnomalize Dancho y Vaughan (2019) proponemos nuevos meacutetodos de deteccioacuten de atiacutepicos paraseries temporales El fundamento bajo el que se sostiene esta propuesta es muy sencillo Estos meca-nismos se fundamentan en aplicarle a la serie de tiempo un proceso de descomposicioacuten para extraer laestacionalidad y la tendencia para posteriormente aplicarle un meacutetodo de deteccioacuten de valores atiacutepicosal residuo Dado que se han propuesto mejoras en ambos campos tanto en los meacutetodos de descompo-sicioacuten de series temporales como en el de deteccioacuten de valores atiacutepicos creemos que su combinacioacutenpodriacutea suponer una mejora a las ya establecidas Teniendo en cuenta que se ha introducido un meacutetodode descomposicioacuten de series temporales STR (Dokumentov y Hyndman 2015) y dos meacutetodos de de-teccioacuten de valores atiacutepicos Isolation Forest (Liu et al 2009) y HDoutliers (Wilkinson 2017) lo que seharaacute seraacute obtener todas las combinaciones posibles a traveacutes de mezclar los procesos de descomposicioacutencon los meacutetodos de deteccioacuten dando lugar a las siguientes combinaciones

STL +iForest

STL +HDoutliers

STL (Robusto) +iForest

STL (Robusto) +HDoutliers

Twitter +iForest

Twitter +HDoutliers

STR + GESD

STR + iForest

STR + HDoutliers

34 MEacuteTODOS DE DETECCIOacuteN DE VALORES ATIacutePICOS EN SERIES TEMPORALES 25

STR (Robusto) + GESD

STR (Robusto) + iForest

STR (Robusto) + HDoutliers

Estos son los nuevos meacutetodos propuestos en el trabajo de los cuales estudiaremos su comporta-miento en el proacuteximo capiacutetulo a traveacutes de un estudio de simulacioacuten junto a los meacutetodos ya existentesX-13ARIMA-SEATS TRAMO-SEATS STL+GESD y Twitter+GESD

Existen otros meacutetodos populares en la deteccioacuten de atiacutepicos para el software R los cuales no se hanincluido en este trabajo debido a que planteaban peores resultados que los finalmente introducidospero que creemos que merecen una mencioacuten debido a que pueden ser de intereacutes para alguien quepretenda profundizar en este campo

El primero de ellos seriacutea el meacutetodo de deteccioacuten de atiacutepicos IQR incluido en la libreriacutea AnomalizeDancho y Vaughan (2019) el cual se ha descartado debido a que sus combinaciones con STL y Twittersuponiacutean una menor precisioacuten que las combinaciones con GESD (Datacamp 2018) Los autores lo hanincluido en dicha libreriacutea debido a que su coste computacional es mucho menor que el de GESD porlo que se puede plantear situaciones en las que sea uacutetil

El segundo seriacutea la funcioacuten tsoutliers del paquete forecast (Hyndman 2020) la cual hemosdescartado por presentar un mecanismo muy similar al que presentariacutea la combinacioacuten STL+IQR

Por uacuteltimo tambieacuten se ha descartado la funcioacuten tso del paquete tsoutliers (de Lacalle 2019)El motivo se debe a que su autor enfoca el proceso de deteccioacuten basaacutendose en las mismas ideas que lasdesarrolladas en los modelos X-13ARIMA-SEATS y TRAMO-SEATS pero comenta que este meacutetodono estaacute capacitado para trabajar con grandes y heterogeacuteneos conjuntos de series temporales comoX-13ARIMA-SEATS o TRAMO-SEATS sino maacutes bien para pequentildeas aplicaciones de un modo semi-automaacutetico (de Lacalle 2015)

26 CAPIacuteTULO 3 DETECCIOacuteN DE VALORES ATIacutePICOS

Capiacutetulo 4

Estudio de simulacioacuten

En este capiacutetulo se realiza un estudio de simulacioacuten con el objetivo de comparar la eficiencia delos diferentes meacutetodos expuestos en el apartado anterior En primer lugar se presenta un resumendel procedimiento seguido para realizar las simulaciones en los diferentes escenarios y el motivo deproponer cada escenario A continuacioacuten se introduce el Iacutendice de Youden medida que nos permitiraacutediscernir queacute meacutetodos presentan mejor comportamiento en el estudio Finalmente se presentan losresultados del estudio y las conclusiones extraiacutedas del mismo

41 Escenarios

El procedimiento para obtener las series simuladas ha sido el siguiente

1 Simular una serie de tiempo sin atiacutepicos

2 A la observacioacuten correspondiente al instante t sumarle el valor w el cual indicaraacute el tamantildeo delatiacutepico

3 Si se quiere introducir maacutes de un atiacutepico repetir los pasos 1 y 2

Se van a proponer ocho escenarios a continuacioacuten pasamos a justificar la eleccioacuten de cada uno deellos Los escenarios 1 2 y 3 son los planteados en Chen y Liu (1993) artiacuteculo utilizado para analizar laeficiencia de los mecanismos de deteccioacuten que inspiran los meacutetodos aplicados en X-13ARIMA-SEATS yTRAMO-SEATS El Escenario 4 plantea el modelo de liacuteneas aeacutereas utilizado ampliamente para datoseconoacutemicos como los que se van a tratar posteriormente Por uacuteltimo los escenarios 5 a 8 proponendiversos modelos que han sido generados a partir de seleccionar una serie del IGE aleatoriamente yaplicarle la funcioacuten autoarima del paquete forecast (Hyndman 2020) A continuacioacuten se recogentodos los escenarios planteados en el Cuadro 41 Los escenarios 1 a 3 se simulan a traveacutes de la funcioacuten deR arimasim mientras que los escenarios 4 a 8 a traveacutes de la funcioacuten simulate del paquete forecast

27

28 CAPIacuteTULO 4 ESTUDIO DE SIMULACIOacuteN

Escenario Modelo Motivo

Escenario 1 AR(1) Propuesto en el estudio de simu-lacioacuten de Chen y Liu (1993)

Escenario 2 MA(1) Propuesto en el estudio de simu-lacioacuten de Chen y Liu (1993)

Escenario 3 ARIMA(011) Propuesto en el estudio de simu-lacioacuten de Chen y Liu (1993)

Escenario 4 ARIMA(011)x(011)12 Modelos de liacuteneas aeacutereas muyutilizado en lo referente a datoseconoacutemicos

Escenario 5 ARIMA(101)x(012)12 Modelo extraiacutedo de aplicar lafuncioacuten autoarima a una seriedel IGE escogida aleatoriamente

Escenario 6 ARIMA(111)x(101)12 Modelo extraiacutedo de aplicar lafuncioacuten autoarima a una seriedel IGE escogida aleatoriamente

Escenario 7 ARIMA(112)x(011)12 Modelo extraiacutedo de aplicar lafuncioacuten autoarima a una seriedel IGE escogida aleatoriamente

Escenario 8 ARIMA(011)x(100)12 Modelo extraiacutedo de aplicar lafuncioacuten autoarima a una seriedel IGE escogida aleatoriamente

Cuadro 41 Resumen de los escenarios propuestos para el estudio de simulacioacuten

42 IacuteNDICE DE YOUDEN 29

En cada escenario se estudian cuatro casos

Caso 1 Serie con 100 observaciones y un atiacutepico en t = 40 el tamantildeo del atiacutepico es w = 35

Caso 2 Serie con 100 observaciones y un atiacutepico en t = 40 el tamantildeo del atiacutepico es w = 45

Caso 3 Serie con 100 observaciones y un atiacutepico en t = 2 el tamantildeo del atiacutepico es w = 4

Caso 4 Serie con 300 observaciones y dos atiacutepicos en t1 = 40 y t2 = 180 el tamantildeo de los atiacutepicoses w1 = 4 y w2 = 5

En el Escenario 4 hubo que modificar los valores del tamantildeo del atiacutepico introducido en cada casodebido a que no se obteniacutean resultados significativos para ninguacuten meacutetodo Por lo que finalmente solopara el Escenario 4 los valores introducidos fueron de w = 55 para el Caso 1 w = 65 para el Caso2 w = 6 para el Caso 1 w1 = 6 y w2 = 7 para el Caso 4

Los Casos 1 y 2 buscan estudiar la sensibilidad del meacutetodo de deteccioacuten dado que en lo uacutenico quese diferencian es en el tamantildeo del atiacutepico El Caso 3 plantea una situacioacuten complicada al encontrarseel atiacutepico al principio de la serie es maacutes difiacutecil detectar ese valor por dos motivos que el meacutetodo notenga todaviacutea la informacioacuten suficiente o que el meacutetodo vea afectada su estimacioacuten por este valor tantemprano El Caso 4 busca estudiar el comportamiento cuando se presenta maacutes de un atiacutepico

42 Iacutendice de Youden

Para comparar los resultados de los diferentes meacutetodos en las simulaciones vamos a utilizar lo queen otros campos como la investigacioacuten meacutedica se denomina test de diagnoacutestico En este tipo de testse compara la realidad con la prediccioacuten del mecanismo para analizar su funcionamiento Estos testde diagnoacutestico se presentan en lo que se denominan matrices de confusioacuten como la presentada en elCuadro 44 La idea de la matriz de confusioacuten es la de comparar las predicciones realizadas con larealidad de tal modo que se pueda observar cuando la prediccioacuten y la realidad coinciden y cuando no

Realidad

Negativo(0) Positivo (1)

PrediccioacutenNegativo(0) Verdadero Negativo (VN) Falso Negativo (FN)

Positivo(1) Falso Positivo (FP) Verdadero Positivo (VP)

Cuadro 42 Matriz de confusioacuten

En nuestro trabajo Negativo (0) representariacutea una observacioacuten normal y Positivo (1) una obser-vacioacuten atiacutepica La diagonal de la matriz estaacute representada por aquellas observaciones en las que larealidad y la prediccioacuten coinciden Los Falsos Negativos (FN) son aquellas observaciones en que el

30 CAPIacuteTULO 4 ESTUDIO DE SIMULACIOacuteN

mecanismo determinoacute que la observacioacuten era normal pero en realidad era atiacutepica Por otra parte losFalsos Positivos (FP) suceden cuando el mecanismo dictamina que la observacioacuten es atiacutepica pero larealidad es que es una observacioacuten normal

Los Falsos Positivos son tambieacuten conocidos como Error Tipo I la probabilidad de aceptar la hipoacute-tesis nula siendo esta falsa Y los Falsos Negativos son conocidos como Error Tipo II la probabilidadde no rechazar la hipoacutetesis nula siendo esta falsa

El iacutendice de Youden (Youden 1950) nacioacute con motivo de poder comparar los resultados de doso maacutes mecanismos de deteccioacuten y asiacute tener la capacidad de discernir cual de ellos tiene una mejorcapacidad discriminatoria Es decir el propoacutesito final del iacutendice es el de resumir la matriz de confusioacutenen un valor que consiga representar el comportamiento del mecanismo de deteccioacuten de tal modo quedos mecanismos se puedan comparar directamente

Este iacutendice considera con la misma importancia tanto los falsos positivos como los falsos negativosUtilizando otro campo de ejemplo la medicina un falso negativo supondriacutea no tratar la enfermedadde un paciente dado que establecemos que estaacute sano cuando la realidad es que estaacute enfermo Por otraparte un falso positivo supondriacutea un coste como podriacutea ser el monetario financiando el tratamiento oel emocional de un paciente que la realidad es que estaacute sano

Trasladando ese ejemplo a nuestro trabajo un falso negativo supondriacutea no calificar como atiacutepicauna observacioacuten que lo es Esto provocariacutea que estariacuteamos asumiendo como normal un comportamientoen el aacutembito socio-econoacutemico gallego que no lo fue estariacuteamos incurriendo en errores en posterioresanaacutelisis o estariacuteamos obviando sucesos relevantes

Los falsos positivos tambieacuten suponen un coste aquiacute cada observacioacuten que el meacutetodo detecte comoatiacutepica supondraacute la intervencioacuten de un analista para tratar de entender queacute ha sucedido Si finalmenteel analista concluye que la observacioacuten no es atiacutepica se habraacute desperdiciado una serie de horas y equipoque podriacutean haber sido invertidos para otro fin De ambos escenarios surgen dos medidas

Sensibilidad V PV P+FN refleja la proporcioacuten de verdaderos positivos sobre el total de positivos

Especifidad V NV N+FP refleja la proporcioacuten de verdaderos negativos sobre el total de negativos

El iacutendice de Youden se construye a partir de ambas medidas del siguiente modo

J = Sensibilidad + Especifidadminus 1 =V P

V P + FN+

V N

V N + FPminus 1

El rango en el que se utiliza este iacutendice es de 0 a 1 donde 1 representariacutea que el mecanismo escapaz de diferenciar perfectamente las observaciones atiacutepicas de las normales y 0 todo lo contrario

Sin embargo teoacutericamente este rango puede variar de minus1 a 1 (Shan G 2015) los valores menoresque cero no se suelen contemplar dado que no tienen una interpretacioacuten significativa En nuestrotrabajo sucede esta situacioacuten en la que se presentan mecanismos con valores negativos y si bien deforma general esto no tiene explicacioacuten en otros campos en este estudio si

Explicaacutendolo a traveacutes de lo que podriacutea ser un posible resultado de un mecanismo de deteccioacuten

42 IacuteNDICE DE YOUDEN 31

Realidad

Negativo(0) Positivo(1)

PrediccioacutenNegativo(0) 96 1

Positivo(1) 3 0

Cuadro 43 Ejemplo de posible resultado de un mecanismo de deteccioacuten en el que el iacutendice de Youdenseriacutea negativo

En el ejemplo del Cuadro 42 se analiza una serie de tiempo con 100 observaciones entre las cualesse encuentra un valor atiacutepico El mecanismo de deteccioacuten habriacutea detectado 3 posibles atiacutepicos peroninguno de ellos es el atiacutepico real Si calculamos el iacutendice de Youden obtenemos

J =0

0 + 1+

96

96 + 3minus 1 = minus003

El resultado es negativo debido a que el mecanismo de deteccioacuten nos situacutea en una posicioacuten peorque no clasificar nada como atiacutepico Por lo que si 1 refleja que el mecanismo es capaz de diferenciarperfectamente las dos clases y 0 que el mecanismo no nos ayuda en absoluto a diferenciar entre ellasun valor menor que 0 en nuestro trabajo supondriacutea que el mecanismo seriacutea peor que no clasificar nadadado que nos infunde un mayor error sobre la realidad

Un resultado de cero implicariacutea que el mecanismo no es uacutetil ya que no es capaz de diferenciar entrelo que es atiacutepico y lo que no En el Cuadro 43 se recoge un posible resultado que conduciriacutea a estasituacioacuten Este ejemplo recoge una situacioacuten en la que en una serie de tiempo de 100 observaciones seencuentran 5 valores atiacutepicos sin embargo el meacutetodo no es capaz de detectar ninguna de ellas

Realidad

Negativo(0) Positivo(1)

PrediccioacutenNegativo(0) 95 5

Positivo(1) 0 0

Cuadro 44 Ejemplo de posible resultado de un mecanismo de deteccioacuten en el que el iacutendice de Youdenseriacutea cero

J =0

0 + 5+

95

95 + 0minus 1 = 0

Finalmente el resultado perfecto implicariacutea que el mecanismo de deteccioacuten es capaz de diferenciarde forma precisa aquello que es atiacutepico de lo que no lo es En el Cuadro 44 se recoge un ejemplo de

32 CAPIacuteTULO 4 ESTUDIO DE SIMULACIOacuteN

esta situacioacuten En este ejemplo se plantea una serie de tiempo que cuenta con 100 observaciones delas cuales 5 son atiacutepicas igual que en el ejemplo anterior sin embargo el meacutetodo ahora es capaz dedetectar cada una de ellas sin incurrir en Falsos Positivos ni Falsos Negativos

Realidad

Negativo(0) Positivo(1)

PrediccioacutenNegativo(0) 95 0

Positivo(1) 0 5

Cuadro 45 Ejemplo de posible resultado de un mecanismo de deteccioacuten en el que el iacutendice de Youdenseriacutea uno

J =5

0 + 5+

95

95 + 0minus 1 = 1

Podemos observar como los valores fuera de la diagonal de la matriz aquellos que representan losFalsos Negativos y Falsos Positivos son cero En la diagonal de la matriz se encuentran los resultadosque muestran que el mecanismo ha conseguido identificar de forma perfecta aquellas observacionesque son atiacutepicas Esta seriacutea la situacioacuten ideal la cual representariacutea que el mecanismo de deteccioacuten deatiacutepicos funciona de forma idoacutenea

43 Resultados

A continuacioacuten se presentan los resultados para los ocho escenarios introducidos recogidos en elCuadro 41 Al introducir una gran cantidad de meacutetodos escenarios y casos el anaacutelisis de los resultadosse presenta confuso por lo que se decidioacute introducir un coacutedigo de color para resaltar los tres mejores ytres peores resultados en cada caso Los mejores resultados se asocian al color verde siendo el verde maacutesintenso el mejor resultado y decayendo gradualmente la intensidad del color seguacuten empeora Por otraparte los peores resultados estaacuten asociados al color rojo siendo el rojo maacutes intenso el peor resultadoy decayendo la intensidad seguacuten el resultado mejora

Se pensoacute en introducir un gradiente de color por cada caso de modo que fuese variando de mejora peor Finalmente se descartoacute debido a que su contribucioacuten a la comprensioacuten de los resultados eramenor que la idea finalmente escogida de resaltar los tres mejores y los tres peores resultados

Los resultados obtenidos para el iacutendice de Youden se muestran a continuacioacuten A mayores en elanexo se han incluido tablas referentes a los resultados que han presentado los distintos meacutetodos enbase a otras dos medidas que tambieacuten han resultado de utilidad a la hora de escoger los mecanismosadecuados La primera de esas medidas es la sensibilidad la cual hemos definido en este apartado yla otra es el exceso la cual se define como la media de detecciones incorrectas por simulacioacuten y cuyosresultados estaacuten incluidos en el anexo correspondiente

43 RESULTADOS 33

Caso 1 Caso 2 Caso 3 Caso 4

X-13ARIMA-SEATS 0495 0853 0699 0490

TRAMO-SEATS 0655 0926 0803 0494

STL+HDoutliers 0561 0830 0562 0727

STL+GESD 0265 0589 0236 0531

STL+iForest 0632 0882 0632 0788

STL(ROB)+HDoutliers 0550 0790 0666 0707

STL(ROB)+GESD 0623 0862 0732 0752

STL(ROB)+iForest 0634 0873 0741 0748

Twitter+HDoutliers 0462 0725 0588 0616

Twitter+GESD 0303 0587 0426 0433

Twitter+iForest 0524 0797 0647 0657

STR+Hdoutliers 0603 0833 0595 0667

STR+GESD 0344 0649 0292 0448

STR+iForest 0670 0882 0675 0719

STR(ROB)+Hdoutliers 0534 0803 0630 0654

STR(ROB)+GESD 0379 0683 0456 0557

STR(ROB)+iForest 0619 0859 0695 0711

Cuadro 46 Resultados Escenario 1Iacutendice de Youden AR(1)

En el Cuadro 46 se recogen los resultados al Escenario 1 escenario en el que se simula un AR(1)igual al realizado por Chen y Liu (1993) Los resultados muestran que en los casos 1 2 y 3 TRAMO-SEATS ejerce un papel superior al resto buen comportamiento que desaparece en el Caso 4 casoen el que se introducen dos atiacutepicos Si analizamos conjuntamente los resultados de los cuatro casospodriacuteamos decir que los meacutetodos que reflejan un mejor comportamiento global en el escenario seriacuteanSTR+iForest y STL(Rob)+iForest

34 CAPIacuteTULO 4 ESTUDIO DE SIMULACIOacuteN

Caso 1 Caso 2 Caso 3 Caso 4

X-13ARIMA-SEATS 0504 0828 0645 0494

TRAMO-SEATS 0667 0913 0741 0494

STL+HDoutliers 0465 0721 0473 0680

STL+GESD 0217 0457 0147 0428

STL+iForest 0502 0781 0521 0713

STL(ROB)+HDoutliers 0457 0723 0576 0642

STL(ROB)+GESD 0516 0761 0651 0667

STL(ROB)+iForest 0519 0798 0660 0713

Twitter+HDoutliers 0457 0690 0587 0640

Twitter+GESD 0346 0627 0480 0486

Twitter+iForest 0506 0774 0658 0689

STR+HDoutliers 0580 0814 0566 0658

STR+GESD 0297 0601 0247 0449

STR+iForest 0626 0866 0647 0719

STR(ROB)+HDoutliers 0514 0780 0603 0644

STR(ROB)+GESD 0335 0627 0405 0520

STR(ROB)+iForest 0578 0836 0687 0709

Cuadro 47 Resultados Escenario 2 Iacutendice de Youden MA(1)

En el Cuadro 47 se recogen los resultados al Escenario 2 escenario en el que se simula un MA(1)igual al realizado por Chen y Liu (1993) Los resultados que se observan son similares a los extraiacutedos delEscenario 1 TRAMO-SEATS es claramente superior en los casos 1 2 y 3 pero su buen comportamientodesaparece ante el Caso 4 Por otra parte STR+iForest presenta un comportamiento maacutes homogeacuteneoencontraacutendose en tres de los cuatro casos entre los tres mejores resultados Lo mismo sucede con suversioacuten robusta En esta ocasioacuten la combinacioacuten STL+iForest solamente se encuentra entre las mejoresen el Caso 4

43 RESULTADOS 35

Caso 1 Caso 2 Caso 3 Caso 4

X-13ARIMA-SEATS 0921 0970 0926 0500

TRAMO-SEATS 0921 0971 0921 0500

STL+HDoutliers 0306 0502 0234 0435

STL+GESD 0088 0229 0050 0152

STL+iForest 0338 0575 0279 0451

STL(ROB)+HDoutliers 0252 0426 0287 0328

STL(ROB)+GESD 0287 0504 0369 0316

STL(ROB)+iForest 0291 0495 0329 0358

Twitter+HDoutliers 0061 0109 0124 0064

Twitter+GESD 0015 0027 0056 0025

Twitter+iForest 0077 0127 0167 0068

STR+HDoutliers 0400 0556 0342 0436

STR+GESD 0202 0365 0108 0230

STR+iForest 0441 0614 0385 0492

STR(ROB)+HDoutliers 0237 0391 0248 0268

STR(ROB)+GESD 0199 0381 0215 0254

STR(ROB)+iForest 0277 0451 0279 0289

Cuadro 48 Resultados Escenario 3 Iacutendice de Youden ARIMA(011)

En el Cuadro 48 se recogen los resultados al Escenario 3 escenario en el que se simula un ARI-MA(011) igual al realizado por Chen y Liu (1993) En este escenario existe una hegemoniacutea de X-13ARIMA-SEATS y TRAMO-SEATS los cuales presentan resultados superiores a los de cualquierotro meacutetodo La combinacioacuten STR+iForest es el tercer meacutetodo que a pesar de la diferencia con losotros dos presenta mejores resultados

36 CAPIacuteTULO 4 ESTUDIO DE SIMULACIOacuteN

Caso 1 Caso 2 Caso 3 Caso 4

X-13ARIMA-SEATS 0402 0592 0067 0480

TRAMO-SEATS 0540 0705 0071 0481

STL+HDoutliers -0003 -0004 0008 0000

STL+GESD -0002 -0001 0002 -0001

STL+iForest -0004 -0004 0008 0001

STL(ROB)+HDoutliers -0005 -0005 0025 0000

STL(ROB)+GESD -0039 -0026 0052 0002

STL(ROB)+iForest 0004 -0002 0026 0000

Twitter+HDoutliers 0000 -0002 -0001 0007

Twitter+GESD -0025 -0019 -0016 0003

Twitter+iForest 0000 -0001 0004 0016

STR+HDoutliers 0359 0417 -0004 0083

STR+GESD 0409 0445 -0006 0124

STR+iForest 0411 0472 -0005 0097

STR(ROB)+HDoutliers 0014 0006 0002 0039

STR(ROB)+GESD 0019 0017 0008 0075

STR(ROB)+iForest 0014 0005 0002 0021

Cuadro 49 Resultados Escenario 4 Iacutendice de Youden ARIMA(011)x(011)12

En el Cuadro 49 se recogen los resultados al Escenario 4 escenario en el que se simula el modelo deliacuteneas aeacutereas (G Box y Jenkins 1976) Este modelo es famoso por su uso en series socio-econoacutemicasPor ello cabriacutea esperar un buen comportamiento de los modelos disentildeados para este fin X-13ARIMA-SEATS y TRAMO-SEATS El resto de combinaciones presentan resultados poco consistentes

43 RESULTADOS 37

Caso 1 Caso 2 Caso 3 Caso 4

X-13ARIMA-SEATS 0265 0628 0176 0409

TRAMO-SEATS 0398 0747 0248 0432

STL+HDoutliers 0238 0469 0281 0125

STL+GESD 0091 0258 0158 0024

STL+iForest 0263 0531 0305 0134

STL(ROB)+HDoutliers 0265 0475 0343 0097

STL(ROB)+GESD 0375 0662 0452 0114

STL(ROB)+iForest 0304 0545 0388 0128

Twitter+HDoutliers 0243 0429 0352 0103

Twitter+GESD 0168 0376 0309 0057

Twitter+iForest 0266 0479 0381 0126

STR+HDoutliers 0656 0885 0231 0755

STR+GESD 0424 0769 0064 0567

STR+iForest 0720 0936 0277 0798

STR(ROB)+HDoutliers 0189 0326 0212 0523

STR(ROB)+GESD 0174 0317 0192 0665

STR(ROB)+iForest 0229 0364 0232 0588

Cuadro 410 Resultados Escenario 5 Iacutendice de Youden ARIMA(101)x(012)12

En el Cuadro 410 se recogen los resultados al Escenario 5 escenario en el que se simula un modeloARIMA (101)x(012)12 a partir de aplicarle la funcioacuten autoarima a una serie del IGE escogidaaleatoriamente En este escenario predomina la descomposicioacuten STR ya que son las combinacionesjunto a los tres meacutetodos de deteccioacuten de atiacutepicos GESD iForest y HDoutliers los meacutetodos quepresentan mejores resultados En concreto la combinacioacuten STR+iForest supone la combinacioacuten maacutesinteresante para este escenario

38 CAPIacuteTULO 4 ESTUDIO DE SIMULACIOacuteN

Caso 1 Caso 2 Caso 3 Caso 4

X-13ARIMA-SEATS 0331 0659 0354 0425

TRAMO-SEATS 0457 0764 0477 0438

STL+HDoutliers 0513 0790 0494 0624

STL+GESD 0229 0558 0188 0328

STL+iForest 0560 0833 0567 0648

STL(ROB)+HDoutliers 0507 0776 0592 0595

STL(ROB)+GESD 0528 0815 0663 0560

STL(ROB)+iForest 0559 0838 0661 0645

Twitter+HDoutliers 0239 0416 0355 0208

Twitter+GESD 0101 0229 0185 0100

Twitter+iForest 0279 0452 0383 0227

STR+HDoutliers 0520 0779 0436 0636

STR+GESD 0278 0584 0151 0385

STR+iForest 0596 0822 0494 0682

STR(ROB)+HDoutliers 0399 0666 0490 0545

STR(ROB)+GESD 0274 0524 0349 0404

STR(ROB)+iForest 0457 0731 0568 0579

Cuadro 411 Resultados Escenario 6 Iacutendice de Youden ARIMA(111)x(101)12

En el Cuadro 411 se recogen los resultados al Escenario 6 escenario en el que se simula un modeloARIMA (111)x(101)12 a partir de aplicarle la funcioacuten autoarima a una serie del IGE escogidaaleatoriamente En este escenario los meacutetodos que muestran unos mejores resultados son STR+iForesty STL+iForest Tambieacuten muestra un buen comportamiento el meacutetodo STL(Rob)+GESD basado enla combinacioacuten de la versioacuten robusta de la descomposicioacuten STL y el meacutetodo de deteccioacuten de atiacutepicosGESD

43 RESULTADOS 39

Caso 1 Caso 2 Caso 3 Caso 4

X-13ARIMA-SEATS 0332 0673 0347 0422

TRAMO-SEATS 0426 0765 0425 0453

STL+HDoutliers 0451 0693 0414 0503

STL+GESD 0180 0438 0142 0219

STL+iForest 0509 0759 0458 0527

STL(ROB)+HDoutliers 0416 0655 0468 0489

STL(ROB)+GESD 0452 0702 0549 0457

STL(ROB)+iForest 0484 0717 0541 0525

Twitter+HDoutliers 0009 0018 0037 0037

Twitter+GESD -0024 -0014 0011 0010

Twitter+iForest 0007 0016 0050 0050

STR+HDoutliers 0469 0719 0369 0582

STR+GESD 0228 0495 0122 0329

STR+iForest 0511 0774 0438 0635

STR(ROB)+HDoutliers 0282 0495 0347 0330

STR(ROB)+GESD 0224 0432 0301 0285

STR(ROB)+iForest 0343 0557 0407 0385

Cuadro 412 Resultados Escenario 7 Iacutendice de Youden ARIMA(112)x(011)12

En el Cuadro 412 se recogen los resultados al Escenario 7 escenario en el que se simula un modeloARIMA (112)x(011)12 a partir de aplicarle la funcioacuten autoarima a una serie del IGE escogidaaleatoriamente En este escenario los meacutetodos que muestran unos mejores resultados vuelven a serSTL+iForest STR+iForest y cercano a ellos STL(Rob)+iForest El resto de resultados no muestranninguacuten meacutetodo estable para los cuatro casos

40 CAPIacuteTULO 4 ESTUDIO DE SIMULACIOacuteN

Caso 1 Caso 2 Caso 3 Caso 4

X-13ARIMA-SEATS 0298 0636 0334 0434

TRAMO-SEATS 0419 0712 0427 0481

STL+HDoutliers 0425 0697 0389 0620

STL+GESD 0176 0415 0108 0351

STL+iForest 0480 0734 0423 0662

STL(ROB)+HDoutliers 0429 0675 0483 0607

STL(ROB)+GESD 0449 0718 0543 0584

STL(ROB)+iForest 0486 0749 0559 0675

Twitter+HDoutliers 0271 0463 0378 0350

Twitter+GESD 0127 0286 0189 0147

Twitter+iForest 0300 0504 0424 0356

STR+HDoutliers 0448 0692 0459 0564

STR+GESD 0203 0438 0167 0274

STR+iForest 0492 0769 0502 0600

STR(ROB)+Hdoutliers 0416 0680 0503 0548

STR(ROB)+GESD 0260 0523 0329 0366

STR(ROB)+iForest 0460 0751 0573 0587

Cuadro 413 Resultados Escenario 8 Iacutendice de Youden ARIMA(011)x(100)12

En el Cuadro 413 se recogen los resultados al Escenario 8 escenario en el que se simula un mode-lo ARIMA(011)x(100)12 a partir de aplicarle la funcioacuten autoarima a una serie del IGE escogidaaleatoriamente Los resultados maacutes consistentes para los cuatro casos estaacuten formados por las combina-ciones de STR+iForest la misma combinacioacuten pero con la versioacuten robusta de la descomposicioacuten STRSTR(Rob)+iForest y la combinacioacuten STL+iForest y tambieacuten su versioacuten robusta STL (Rob)+iForest

44 CONCLUSIONES 41

44 Conclusiones

Los resultados de las simulaciones muestran dos realidades Por un lado nos encontramos con losresultados asociados a los escenarios 1 2 3 y 4 En estos escenarios prevalece el comportamientode TRAMO-SEATS por encima de todos los meacutetodos sin lugar a duda incluso tambieacuten podriacuteamosincluir a X-13ARIMA-SEATS aquiacute Cabe recordar que ambos parten de las mismas ideas pero esTRAMO-SEATS el que implanta una serie de mejoras a los meacutetodos de deteccioacuten de atiacutepicos en losque se inspiran ambos esto se trata en el Capiacutetulo 3 Por otra parte en los escenarios 5 6 7 y 8 ya noexiste tal hegemoniacutea de TRAMO-SEATS frente al resto de meacutetodos de hecho nos encontramos unosresultados bastante maacutes variados

Entre los meacutetodos de descomposicioacuten (STLTwitter y STR) el que presenta mejores resultados enlas simulaciones es STR En todos los escenarios presenta resultados que lo posicionan entre los tresprimeros Esto nos da una idea de que estamos ante un meacutetodo flexible capaz de entender la estructurasubyacente de series de tiempo muy diversas y adecuar una respuesta realista del mecanismo generadorSus buenos resultados son seguidos muy de cerca por la descomposicioacuten STL Este es un resultado queconcuerda con lo esperado debido a que siendo los dos meacutetodos similares plantean la misma idea perola ejecutan de distinta forma STR fue creado con el objetivo de suponer una mejora a STL

En lo que respecta a los meacutetodos de deteccioacuten GESD HDoutliers y iForest podemos extraerconclusiones acerca del comportamiento de cada uno

GESD es un buen meacutetodo de identificacioacuten de atiacutepicos Obtiene buenos resultados faacutecil deaplicar y es sencillo entender su mecanismo algo muy uacutetil para personas que quieran realizaro transmitir un estudio sin ahondar profundamente en materia Por otra parte sus buenosresultados en la deteccioacuten correcta de atiacutepicos se ven eclipsados por su tendencia a clasificaraltos valores de observaciones como anoacutemalas incorrectamente Si estamos realizando un anaacutelisisindividual esto podriacutea no ser un problema dado que se podriacutea intervenir modificando alguno desus paraacutemetros y conseguir mejores resultados Sin embargo en este trabajo buscamos un meacutetodoque nos sirva como filtro para analizar multitud de series con la menor intervencioacuten posible porlo que descartamos dicho mecanismo

HDoutliers supone una mejora a GESD Muestra mejor comportamiento en todas las combina-ciones con los meacutetodos de descomposicioacuten GESD solo consigue igualar o superar ligeramentesus resultados incurriendo en calificar una gran cantidad de observaciones como atiacutepicas lo queprovoca un incremento en el nuacutemero de observaciones calificadas erroacuteneamente esto se puede veren las tablas de exceso introducidas en el anexo Sin embargo pese a suponer una mejora noes el meacutetodo que presenta mejores resultados

Isolation Forest o iForest es el meacutetodo de deteccioacuten maacutes consistente a lo largo de los escenariosy para cada meacutetodo de descomposicioacuten Consigue un equilibrio entre buenos valores de deteccioacutencorrecta y bajas tasas de atiacutepicos sentildealados incorrectamente justo lo que se busca en un meacutetodode deteccioacuten de atiacutepicos La idea de aacuterbol bajo la que se desarrolla su mecanismo es faacutecil decomprender cada observacioacuten recibe una puntuacioacuten entre 0 y 1 de cuaacuten anoacutemala es esto permiteflexibilizar la decisioacuten del analista con el umbral en el que fija un valor como atiacutepico En Liu et

42 CAPIacuteTULO 4 ESTUDIO DE SIMULACIOacuteN

al (2009) califican como observaciones sospechosas de ser atiacutepicas aquellas cuya puntuacioacuten seamayor a 06 en este trabajo somos maacutes estrictos y fijamos un umbral superior 075 Ademaacutessu disentildeo le permite escalar a conjuntos de gran tamantildeo y dimensioacuten (big data) por lo que nosupone un freno ante situaciones futuras

Parece interesante tambieacuten recordar que los mecanismos que emplean los meacutetodos X-13ARIMA-SEATS y TRAMO-SEATS fueron analizados en estudios que planteaban simulaciones como las quese realizan en los escenarios 1 2 y 3 Ademaacutes tambieacuten cabe esperar un buen comportamiento que seespera de ellos en un modelo tan comuacuten como el de liacuteneas aacutereas (Escenario 4) Sin embargo cuando seaplican fuera de estos escenarios en modelos maacutes complejos solamente TRAMO-SEATS consigue noquedarse atraacutes

La simulacioacuten nos permite descartar la descomposicioacuten Twitter la cual estaacute quizaacutes maacutes enfocadaa datos de alta frecuencia datos que se producen en frecuencias de tiempo mucho maacutes pequentildeascomo minutos en vez de datos mensuales como los planteados en el estudio de simulacioacuten por lo querefleja peores resultados en escenarios de este aacutembito Tambieacuten nos permite descartar el meacutetodo X-13ARIMA-SEATS dado que supone una idea similar pero menos desarrollada en lo que a deteccioacuten deatiacutepicos se refiere a TRAMO-SEATS Finalmente el meacutetodo GESD tambieacuten es descartado debido asus resultados en los que muestra un comportamiento inferior frente a HDoutliers meacutetodo que suponeuna mejora a la idea sobre la que se basa GESD

Por lo que se concluye que los meacutetodos maacutes adecuados para la continuacioacuten del trabajo son elmodelo TRAMO-SEATS las descomposiciones de series temporales STL y STR y los meacutetodos dedeteccioacuten de atiacutepicos HDoutliers y iForest lo que conforman los siguientes mecanismos de deteccioacutende atiacutepicos

TRAMO-SEATS

STL+HDoutliers

STL+iForest

STR+HDoutliers

STR+iForest

Capiacutetulo 5

Aplicacioacuten a datos reales

En este capiacutetulo se aplican los meacutetodos que han mostrado unos mejores resultados en el estudiode simulacioacuten a las bases de datos del IGE comentadas en Capiacutetulo 1 Estos meacutetodos son TRAMO-SEATS STL+HDoutliers STL+iForest STR+HDoutliers y STL+iForest De este modo podemosanalizar el comportamiento de los meacutetodos con datos reales y extraer nuevas conclusiones que nosurgiacutean en el estudio de simulacioacuten Esto se debe a que si bien el estudio de simulacioacuten planteaba unadiversidad de escenarios amplia nunca seraacuten suficientes para recoger la multitud de naturalezas quecaracteriza a las series socio-econoacutemicas

El anaacutelisis de las datos del IGE se haraacute en dos niveles Un primer nivel mostraraacute el comportamientoglobal del conjunto mediante cuatro medidas el total de atiacutepicos detectados por cada meacutetodo en elconjunto el maacuteximo nuacutemero de atiacutepicos que detecta el meacutetodo en una serie del conjunto el nuacutemero deseries que no presentan atiacutepicos y la media de atiacutepicos detectados por cada meacutetodo El segundo nivelmostraraacute un anaacutelisis maacutes especiacutefico donde se analizaraacute el comportamiento de los meacutetodos respecto auna serie escogida del conjunto

Para finalizar el capiacutetulo introducimos una herramienta graacutefica disentildeada con el objetivo de eliminarla mayor incertidumbre posible que acompantildea a un campo como el de la deteccioacuten de valores atiacutepicosy analizamos su comportamiento

51 Anaacutelisis Series IGE

Los conjuntos utilizados para este trabajo han pasado primero por un proceso de filtrado en el quese han eliminado todas las series que presentan menos de 24 observaciones o maacutes de 24 ceros entre susobservaciones De este modo conseguimos quedarnos con series que recogen la informacioacuten suficientepara trabajar con ellas

A continuacioacuten se muestra el total de series perteneciente a cada conjunto

43

44 CAPIacuteTULO 5 APLICACIOacuteN A DATOS REALES

Conjunto 1 Conjunto 2 Conjunto 3 Conjunto 4 Conjunto 5 Conjunto 6 Conjunto 7

Pre-filtrado 108 72 55 42 162 165 55

Post-filtrado 84 60 50 42 90 165 47

Cuadro 51 Nuacutemero de series de tiempo perteneciente a cada conjunto antes y despueacutes del proceso defiltrado

Ademaacutes con el objetivo de capturar la influencia del Covid19 sobre las series de tiempo se procedea dividir el estudio en dos partes La primera analiza las series con datos hasta 2019 si el conjuntopresenta datos de frecuencia mensual esta fecha seraacute diciembre de 2019 por otra parte si el conjuntopresenta datos de frecuencia trimestral esta fecha seraacute el cuarto trimestre de 2019 La segunda analizalas series incluyendo el uacuteltimo dato actualizado el cual variacutea dependiendo del conjunto Los conjuntoscon datos trimestrales incluyen hasta el primer trimestre del 2020 mientras que los conjuntos condatos mensuales incluyen como uacuteltima actualizacioacuten fechas comprendidas entre abril y junio de 2020por lo que dicha fecha se concretaraacute en el momento que se analiza dicho conjunto Respecto a la fechade inicio de las series variacutea dependiendo del conjunto por lo que tambieacuten se especificaraacute en el iniciodel anaacutelisis del mismo

Para medir la influencia del Covid lo que se haraacute seraacute calcular la tasa de variacioacuten del total deatiacutepicos detectados entre ambos escenarios las series hasta 2019 y las series actualizadas al uacuteltimodato existente de 2020 la cual calcularemos como

Tasa de variacioacuten =

(Total atiacutepicos serie completaTotal atiacutepicos serie hasta 2019

minus 1

)lowast 100

Conjunto 1 (httpwwwigeeuigebdtigeapidatos3476)

Series de datos mensuales que contienen la informacioacuten de los viajeros noches y estancia media enestablecimientos hoteleros y de turismo rural en Espantildea Galicia y sus provincias Los datos de esteconjunto comienzan en enero de 1999 y finalizan en mayo de 2020

51 ANAacuteLISIS SERIES IGE 45

TRAMO -

SEATS

STL +

HDoutliers

STL +

iForest

STR +

HDoutliers

STR +

iForest

Atiacutepicos detectados 327 176 111 136 142

Max nuacutemero atip serie 17 11 3 8 4

Series con 0 atiacutepicos 13 20 11 23 3

Media de atiacutepicos detec 389 210 132 162 169

Cuadro 52 Resultados para el Conjunto 1 con datos hasta diciembre de 2019

Los resultados del Cuadro 52 se producen para un total de 18816 observaciones que muestra elconjunto con datos hasta diciembre de 2019 Ahora vamos a estudiar los resultados de forma quecada serie esteacute formada por el uacuteltimo dato actualizado y a realizar una comparacioacuten entre ambosescenarios En esta serie el uacuteltimo dato actualizado es mayo de 2020 lo que conforma un total de19172 observaciones

TRAMO -

SEATS

STL +

HDoutliers

STL +

iForest

STR +

HDoutliers

STR +

iForest

Atiacutepicos detectados 457 243 170 264 204

Max nuacutemero atip serie 17 11 4 15 5

Series con 0 atiacutepicos 1 6 1 10 3

Media de atiacutepicos detec 544 289 202 314 243

Cuadro 53 Resultados para el Conjunto 1 con datos hasta mayo de 2020

46 CAPIacuteTULO 5 APLICACIOacuteN A DATOS REALES

TRAMO -

SEATS

STL +

HDoutliers

STL +

iForest

STR +

HDoutliers

STR +

iForest

Hasta 2019 327 176 111 136 142

Hasta mayo 2020 457 243 170 264 204

Tasa de variacioacuten 3976 3807 5315 9412 4366

Cuadro 54 Total de atiacutepicos detectados por cada meacutetodo hasta diciembre de 2019 y abril 2020 y tasade variacioacuten que produce el efecto del Covid en el Conjunto 1

En el Cuadro 54 podemos ver como el efecto del Covid sobre el conjunto es muy notorio algoque cabriacutea esperar dado que estamos tratando series relacionadas con el Turismo en Galicia uno delos sectores maacutes afectados por la crisis del Covid El Cuadro 53 incorpora datos hasta mayo 2020lo que supone solamente un crecimiento del 189 del total de datos Sin embargo el crecimientoque experimenta el total de atiacutepicos detectado es muy superior en el caso maacutes suave representa uncrecimiento de maacutes del 38 llegando a suponer para alguacuten meacutetodo el 94

A continuacioacuten vamos a analizar un caso concreto de una serie del conjunto Hemos escogido laserie que hace referencia al nuacutemero de viajeros residentes en Espantildea hospedados en establecimientosde turismo rural en Espantildea El motivo de su eleccioacuten es que es la serie que provoca un mayor nuacutemerode atiacutepicos en el Cuadro 52 un total de 17 observaciones atiacutepicas sentildealadas por el meacutetodo TRAMO-SEATS

Figura 51 Serie de tiempo referente al nuacutemero de viajeros residentes en Espantildea hospedados en esta-blecimientos de turismo rural en Espantildea

La Figura 51 recoge la serie de tiempo referente al nuacutemero de viajeros residentes en Espantildea hos-

51 ANAacuteLISIS SERIES IGE 47

pedados en establecimientos de turismo rural en Espantildea La liacutenea vertical roja representa el comienzodel antildeo 2020 Observando dicha figura y centraacutendonos en la serie hasta 2019 nos encontramos con unaserie con mucha volatilidad debido al fuerte caraacutecter estacional que posee un sector como el turismoy con una ligera tendencia creciente que se estanca ligeramente en los antildeos posteriores a la crisis eco-noacutemica de 2011 para despueacutes continuar en aumento Sin embargo no parece que se encuentren valoresatiacutepicos en dicha serie La combinacioacuten STR+HDoutliers tambieacuten sentildeala un elevado nivel de atiacutepicosseis en total que se reduce con STR+iForest a tres posibles atiacutepicos Finalmente STL+HDoutliers ySTL+iForest coinciden en sentildealar un atiacutepico agosto de 2019

Si ahora observamos los resultados para la serie completa podemos comprobar que los resultadoscambian bruscamente con la introduccioacuten de cuatro nuevos datos enero febrero marzo y abril de2020 Ahora el meacutetodo TRAMO-SEATS sentildeala cuatro fechas de las que solo dos coinciden con lassentildealadas anteriormente Las combinaciones STL+HDoutliers y STL+iForest mantienen como atiacutepicoagosto de 2019 y antildeaden febrero marzo y abril 2020 y marzo y abril 2020 respectivamente Y ahorason las combinaciones STR+HDoutliers y STR+iForest las que sentildealan uacutenicamente agosto de 2019

Es interesante observar el comportamiento de los cinco meacutetodos en esta serie TRAMO-SEATS ylas combinaciones basadas en el proceso de descomposicioacuten STR soliacutean ser las que mejores resultadospresentaban sin embargo en este ejemplo son los meacutetodos basados en la descomposicioacuten STL que sibien presentaron buenos resultados en la simulacioacuten tendiacutean a ir por detraacutes de TRAMO-SEATS y losmeacutetodos basados en la descomposicioacuten STR los que presenta un comportamiento maacutes acorde con loque sucede en la serie De hecho son los meacutetodos basados en la descomposicioacuten STL los uacutenicos quesentildealan como atiacutepica la observacioacuten de abril 2020 la cual es la uacutenica que tiene un valor de 0 y esclaramente atiacutepica

La Figura 52 representa los atiacutepicos detectados por el meacutetodo STL+HDoutliers el cual es el meacutetodoque mejor comportamiento muestra para esta serie

Figura 52 Serie de tiempo referente al nuacutemero de viajeros residentes en Espantildea hospedados en esta-blecimientos de turismo rural en Espantildea analizada por el meacutetodo STL+HDoutliers

En la Figura 53 se muestran los resultados para la misma serie por el resto de meacutetodos utilizadosSTL+iForest STR+HDoutliers STR+iForest y TRAMO-SEATS

48 CAPIacuteTULO 5 APLICACIOacuteN A DATOS REALES

Figura 53 Serie de tiempo referente al nuacutemero de viajeros residentes en Espantildea hospedados en esta-blecimientos de turismo rural en Espantildea analizada por STL+iForest STR+HDoutliers STR+iForesty TRAMO-SEATS

Conjunto 2 (httpwwwigeeuigebdtigeapidatos6356)

Series de datos trimestrales acerca de la poblacioacuten de 16 y maacutes antildeos desglosados por sexo gruposde edad y relacioacuten con la actividad econoacutemica en Galicia Los datos de este conjunto comienzan en elprimer trimestre de 1996 y finalizan en el primer trimestre de 2020

TRAMO -

SEATS

STL +

HDoutliers

STL +

iForest

STR +

HDoutliers

STR +

iForest

Atiacutepicos detectados 56 70 61 62 66

Max nuacutemero atip serie 5 6 3 5 3

Series con 0 atiacutepicos 28 29 18 26 14

Media de atiacutepicos detec 093 117 102 103 110

Cuadro 55 Resultados para el Conjunto 2 con datos hasta el cuarto trimestre de 2019

Los resultados del Cuadro 55 se producen para un total de 5760 observaciones que muestra elconjunto con datos hasta el cuarto trimestre de 2019 Ahora vamos a estudiar los resultados de formaque cada serie esteacute formada por el uacuteltimo dato actualizado y a comparar ambos escenarios En estaserie el uacuteltimo dato actualizado es el primer trimestre de 2020 lo que conforma un total de 5820

51 ANAacuteLISIS SERIES IGE 49

observaciones

TRAMO -

SEATS

STL +

HDoutliers

STL +

iForest

STR +

HDoutliers

STR +

iForest

Atiacutepicos detectados 54 107 62 68 66

Max nuacutemero atip serie 5 45 3 4 3

Series con 0 atiacutepicos 28 30 15 20 12

Media de atiacutepicos detec 090 178 103 113 110

Cuadro 56 Resultados para el Conjunto 2 con datos hasta el primer trimestre de 2020

TRAMO -

SEATS

STL +

HDoutliers

STL +

iForest

STR +

HDoutliers

STR +

iForest

Hasta 2019 56 70 61 62 66

Hasta mayo 2020 54 107 62 68 66

Tasa de variacioacuten -357 5286 164 968 000

Cuadro 57 Total de atiacutepicos detectados por cada meacutetodo hasta el cuarto trimestre de 2019 y primertrimestre de 2020 y tasa de variacioacuten que produce el efecto del Covid en el Conjunto 2

En el Cuadro 57 podemos ver como el efecto del Covid sobre el conjunto es mucho menor que enlos datos del Conjunto 1 Esto se debe a la naturaleza trimestral de los datos por lo que situando lainfluencia del Covid en el contexto gallego a finales de marzo de 2020 su impacto es maacutes suave sobrelos datos Seriacutea interesante en el futuro ver que sucede con este conjunto una vez se antildeadan los datosdel segundo trimestre

A continuacioacuten vamos a analizar un caso concreto de una serie del conjunto Hemos escogido laserie que recoge los datos de hombres mayores de 55 antildeos y que forman parte de la poblacioacuten ocupada

En la Figura 54 se muestra la serie de tiempo referente a los hombres mayores de 55 antildeos queforma parte de la poblacioacuten ocupada La recta vertical roja diferencia los dos escenarios que estudiamosla serie hasta el cuarto trimestre de 2019 y la serie hasta el primer trimestre de 2020-

50 CAPIacuteTULO 5 APLICACIOacuteN A DATOS REALES

Figura 54 Serie de tiempo referente hombres mayores de 55 antildeos y que forman parte de la poblacioacutenocupada

El uacutenico dato que las diferencia el primer trimestre de 2020 sigue con lo que cabriacutea esperar Y losmeacutetodos de deteccioacuten de atiacutepicos concuerdan con lo que observamos no existen atiacutepicos ni antes nidespueacutes excepto en un caso Ahora son los meacutetodos basados en el proceso de descomposicioacuten STL losque sentildealan una fecha que parece discrepar con la realidad

En la serie con valores hasta 2019 son ambas combinaciones STL+HDoutliers y STL+iForestlas que sentildealan como posible atiacutepico julio 2013 Si nos trasladamos a la serie completa uacutenicamenteSTL+iForest sigue manteniendo ese posible atiacutepico mientras que STL+HDoutliers lo corrige Esta si-tuacioacuten en las que solo un meacutetodo sentildeala una fecha nos lleva a dudar de que realmente esta observacioacutensea atiacutepica

A continuacioacuten mostramos la serie referente a los hombres mayores de 55 antildeos y que forman partede la poblacioacuten ocupada analizada por el uacutenico meacutetodo que detecta atiacutepicos para la serie completaSTL+iForest

Figura 55 Serie de tiempo referente hombres mayores de 55 antildeos y que forman parte de la poblacioacutenocupada analizada por STL+iForest

51 ANAacuteLISIS SERIES IGE 51

Conjunto 3 (httpwwwigeeuigebdtigeapidatos308)

Series de datos mensuales acerca de contratos registrados seguacuten la modalidad del contrato Losdatos de este conjunto comienzan en enero de 1999 y finalizan en mayo de 2020

TRAMO -

SEATS

STL +

HDoutliers

STL +

iForest

STR +

HDoutliers

STR +

iForest

Atiacutepicos detectados 193 126 98 146 98

Max nuacutemero atip serie 9 14 5 10 4

Series con 0 atiacutepicos 5 9 1 7 2

Media de atiacutepicos detec 386 252 196 292 196

Cuadro 58 Resultados para el Conjunto 3 con datos hasta diciembre 2019

El Cuadro 58 recoge los resultados que se producen para un total de 12600 observaciones quemuestra el Conjunto 3 con datos hasta diciembre de 2019 Ahora vamos a estudiar los resultados deforma que cada serie esteacute conformada por el uacuteltimo dato actualizado y a realizar una comparativaentre ambas En esta serie el uacuteltimo dato actualizado es mayo de 2020 lo que conforma un total de12850 observaciones

TRAMO -

SEATS

STL +

HDoutliers

STL +

iForest

STR +

HDoutliers

STR +

iForest

Atiacutepicos detectados 242 144 107 153 121

Max nuacutemero atip serie 13 8 5 10 4

Series con 0 atiacutepicos 1 6 0 7 1

Media de atiacutepicos detec 484 288 214 306 242

Cuadro 59 Resultados para el Conjunto 3 con datos hasta mayo de 2020

52 CAPIacuteTULO 5 APLICACIOacuteN A DATOS REALES

TRAMO -

SEATS

STL +

HDoutliers

STL +

iForest

STR +

HDoutliers

STR +

iForest

Hasta 2019 193 126 98 146 98

Hasta mayo 2020 242 144 107 153 121

Tasa de variacioacuten 2539 1429 918 479 2350

Cuadro 510 Total de atiacutepicos detectados por cada meacutetodo hasta diciembre de 2019 y mayo de 2020y tasa de variacioacuten que produce el efecto del Covid en el Conjunto 3

En el Cuadro 510 podemos ver como el efecto del Covid sobre el conjunto es similar al que sepresentaba en los datos del Conjunto 1 Este conjunto vuelve a recoger datos de caraacutecter mensual porlo que la influencia de los meses de 2020 vuelven a reflejar un gran peso en los resultados Sin embargolas tasas de variacioacuten no son tan grandes como las que se produciacutean en el Conjunto 1 Esto podriacuteadeberse a que mientras el sector turiacutestico se redujo a cero en el mercado laboral se llevaron a cabopoliacuteticas contra la destruccioacuten masiva de empleo Estos resultados lo que hacen es aflorar que se haproducido un efecto en el conjunto de datos y que podriacutea ser de intereacutes para despueacutes desarrollar unestudio en profundidad

A continuacioacuten vamos a analizar la serie referente a las contrataciones eventuales por circunstanciasde la produccioacuten para la provincia de Ourense diferenciando a traveacutes de una recta roja vertical los dosescenarios analizados los datos hasta diciembre 2019 y los datos hasta mayo de 2020

Figura 56 Serie de tiempo referente a las contrataciones eventuales por circunstancias de la produccioacutenpara la provincia de Ourense

El meacutetodo TRAMO-SEATS sentildeala tres fechas atiacutepicas en ambas ocasiones en la serie hasta 2019

51 ANAacuteLISIS SERIES IGE 53

y hasta mayo de 2020 sin embargo ninguna de ellas es comuacuten Probablemente esto se deba al compor-tamiento que podemos apreciar en la Figura 56 donde se observa la caiacuteda que produce en la serie losmeses de marzo abril y mayo de 2020 La introduccioacuten de estos datos reajusta las prioridades sobrequeacute es un atiacutepico en la serie para TRAMO-SEATS de forma que pasa de identificar octubre 2001abril 2002 y enero 2012 a sentildealar como fechas atiacutepicas octubre 2007 y marzo y abril de 2020

Este suceso tambieacuten se presenta en el resto de meacutetodos STL+HDoutliers pasa de no identificarninguacuten dato en la serie hasta 2019 a sentildealar abril del 2002 y febrero abril y mayo de 2020 Otro meacutetodoque experimenta esta situacioacuten es STR+iForest que pasa de no calificar ninguna observacioacuten atiacutepicaa sentildealar abril y mayo en 2019 y en 2020 STL+iForest sentildeala dos y tres atiacutepicos en cada caso en laserie hasta 2019 sentildeala el mes de julio en 2018 y 2019 mientras que en la serie completa sentildeala losmeses de febrero abril y mayo de 2020 Por uacuteltimo STR+HDoutliers sentildeala como atiacutepico abril del2002 en la serie acortada observacioacuten que ya no es detectada al incluir la serie completa donde sentildealalos meses de abril y mayo para los antildeos 2019 y 2020 igual aquiacute que STR+iForest

Estos resultados conducen hacia un punto comuacuten mientras que en la serie recortada en 2019 noparece haber mucho acuerdo sobre los atiacutepicos o si existen atiacutepicos en la serie completa todos losmeacutetodos se ponen de acuerdo en que las situaciones de abril y mayo de 2020 son anoacutemalas Estosresultados se muestran en la Figura 57

Figura 57 Serie de tiempo referente a las contrataciones eventuales por circunstancias de la produccioacutenpara la provincia de Ourense sentildealizando las anomaliacuteas comunes a los cinco meacutetodos

Conjunto 4 (httpwwwigeeuigebdtigeapidatos9048)

Series de datos mensuales referidas al Iacutendice de produccioacuten industrial general y por destino eco-noacutemico de los bienes en Espantildea y Galicia Los distintos destinos econoacutemico son bienes de consumoduraderos y no duraderos bienes de equipo bienes intermedios y energiacutea Los datos del conjuntocomienzan en enero de 2002 y finalizan en mayo de 2020

54 CAPIacuteTULO 5 APLICACIOacuteN A DATOS REALES

TRAMO -

SEATS

STL +

HDoutliers

STL +

iForest

STR +

HDoutliers

STR +

iForest

Atiacutepicos detectados 288 129 73 212 64

Max nuacutemero atip serie 24 11 3 102 3

Series con 0 atiacutepicos 9 5 3 6 2

Media de atiacutepicos detec 686 307 174 505 152

Cuadro 511 Resultados para el Conjunto 4 con datos hasta diciembre de 2019

El Cuadro 511 recoge los resultados que se producen para un total de 8904 observaciones quemuestra el conjunto con datos hasta diciembre de 2019 Ahora vamos a estudiar los resultados deforma que cada serie esteacute conformada por el uacuteltimo dato actualizado y a analizar los cambios que seproducen entre ambos escenarios En este conjunto el uacuteltimo dato actualizado es mayo de 2020 lo queconforma un total de 9114 observaciones

TRAMO -

SEATS

STL +

HDoutliers

STL +

iForest

STR +

HDoutliers

STR +

iForest

Atiacutepicos detectados 282 92 78 144 79

Max nuacutemero atip serie 24 5 3 50 3

Series con 0 atiacutepicos 4 5 1 2 1

Media de atiacutepicos detec 672 219 186 343 189

Cuadro 512 Resultados para el Conjunto 4 con datos hasta mayo de 2020

51 ANAacuteLISIS SERIES IGE 55

TRAMO -

SEATS

STL +

HDoutliers

STL +

iForest

STR +

HDoutliers

STR +

iForest

Hasta 2019 288 129 73 212 64

Hasta mayo 2020 282 92 78 144 79

Tasa de variacioacuten -208 -2868 685 -3208 2344

Cuadro 513 Total de atiacutepicos detectados por cada meacutetodo hasta diciembre de 2019 y mayo de 2020y tasa de variacioacuten que produce el efecto del Covid en el Conjunto 4

En el Cuadro 513 podemos ver el efecto del Covid sobre el conjunto sin embargo en esta ocasioacuten nopodemos ver una direccioacuten clara Los meacutetodos difieren y mientras unos meacutetodos muestran crecimientosen el nuacutemero de atiacutepicos detectados para el conjunto otros decrecen y muestran ahora menos atiacutepicosSin embargo esto no implica que el efecto del Covid sobre el conjunto sea menor que por ejemplo en elConjunto 3 Las variaciones entre las series las que incluyen datos de 2020 y las que no son notoriaslo cual implica que el efecto existe

A continuacioacuten vamos a analizar la serie referente a la produccioacuten industrial destinada a bienesintermedios de Galicia diferenciando a traveacutes de una recta vertical roja los dos escenarios los datoshasta diciembre de 2019 y la serie hasta mayo 2020

Figura 58 Serie de tiempo referente a la produccioacuten industrial destinada a bienes intermedios deGalicia

El comportamiento que muestran los meacutetodos con esta serie nos ayuda a plasmar una idea quedesarrollaremos maacutes adelante en el siguiente apartado Si observamos los datos para la serie recortada

56 CAPIacuteTULO 5 APLICACIOacuteN A DATOS REALES

en diciembre de 2019 obtenemos que salvo TRAMO-SEATS que no detecta ninguacuten atiacutepico los otroscuatro meacutetodos concuerdan en dos fechas marzo y julio de 2008 Por otra parte en la serie completacinco meacutetodos sentildealan abril 2020 y cuatro sentildealan marzo de 2008 Estos dos atiacutepicos abril de 2020 ymarzo de 2008 los representamos en la Figura 59

Analizando la Figura 59 el atiacutepico sentildealado en marzo de 2008 parece dudoso sin embargo siprofundizamos en los datos observamos que esta fecha rompe una clara tendencia creciente respecto alos meses de marzo de antildeos anteriores

Este suceso en el que varios meacutetodos coinciden en identificar una fecha proveen al analista de unaseguridad a la hora de calificar una observacioacuten como anoacutemala Este concepto de seguridad eliminandola incertidumbre asociada al campo de la deteccioacuten de valores atiacutepicos seraacute desarrollado maacutes adelante

Figura 59 Serie de tiempo referente a la produccioacuten industrial destinada a bienes intermedios deGalicia con los dos atiacutepicos

Conjunto 5 (httpwwwigeeuigebdtigeapidatos4052)

Series de datos trimestrales de nuacutemero de transacciones inmobiliarias por reacutegimen (Libre Protegiday Total de viviendas) y tipo de vivienda (Nuevas segunda mano y total de viviendas) Las medidas enlas que se toman los datos son por nuacutemero de viviendas su valor total (en miles de euros) o su valormedio (en euros) Los datos se presentan a nivel Espantildea Galicia y las provincias gallegas Los datosse recogen entre el primer trimestre de 2004 hasta el primer trimestre de 2020

51 ANAacuteLISIS SERIES IGE 57

TRAMO -

SEATS

STL +

HDoutliers

STL +

iForest

STR +

HDoutliers

STR +

iForest

Atiacutepicos detectados 184 122 105 94 97

Max nuacutemero atip serie 7 8 2 6 2

Series con 0 atiacutepicos 13 41 12 47 11

Media de atiacutepicos detec 204 136 117 104 107

Cuadro 514 Resultados para el Conjunto 5 con datos hasta el cuarto trimestre de 2019

Los resultados que recoge el Cuadro 514 se producen para un total de 5760 observaciones que mues-tra el Conjunto 5 con datos hasta el cuarto trimestre de 2019 Ahora vamos a estudiar los resultadosde forma que cada serie esteacute conformada por el uacuteltimo dato actualizado y a realizar una comparacioacutenentre ambos escenarios En esta serie el uacuteltimo dato actualizado es el primer trimestre de 2020 lo queconforma un total de 5850 observaciones

TRAMO -

SEATS

STL +

HDoutliers

STL +

iForest

STR +

HDoutliers

STR +

iForest

Atiacutepicos detectados 184 106 108 90 93

Max nuacutemero atip serie 9 8 2 5 3

Series con 0 atiacutepicos 12 42 11 43 13

Media de atiacutepicos detec 204 118 120 100 103

Cuadro 515 Resultados para el Conjunto 5 con datos hasta el primer trimestre de 2020

58 CAPIacuteTULO 5 APLICACIOacuteN A DATOS REALES

TRAMO -

SEATS

STL +

HDoutliers

STL +

iForest

STR +

HDoutliers

STR +

iForest

Hasta 2019 184 122 105 94 97

Hasta mayo 2020 184 106 108 90 93

Tasa de variacioacuten 000 -1311 286 -426 -412

Cuadro 516 Total de atiacutepicos detectados por cada meacutetodo hasta cuarto trimestre de 2019 y primertrimestre de 2020 y tasa de variacioacuten que produce el efecto del Covid en el Conjunto 5

En el Cuadro 516 podemos ver que el efecto del Covid sobre las series trimestrales vuelve a sermuy pequentildeo similar a las conclusiones obtenidas para el Conjunto 2 Si comparamos las tablas 514y 515 podemos similitudes en los resultados para las diferentes medidas que se toman Por ejemplo sinos fijamos en la fila que mide el nuacutemero de series que son identificadas con cero atiacutepicos los meacutetodosapenas difieren en sus resultados Lo mismo sucede con la media de atiacutepicos detectados en cada serieEstos resultados sostienen la idea de que el Covid repercutioacute en menor medida en las series trimestralesen el primer trimestre del antildeo y es de intereacutes realizar este mismo estudio una vez se incorporen losdatos del segundo trimestre

A continuacioacuten vamos a analizar la serie referente al nuacutemero de viviendas transmitidas de segundamano en reacutegimen libre para la provincia de Lugo diferenciando los dos escenarios analizados a traveacutesde una recta vertical roja los datos hasta el cuarto trimestre de 2019 y los datos incluyendo el primertrimestre de 2020

Figura 510 Serie de tiempo referente al nuacutemero de viviendas transmitidas de segunda mano en reacutegimenlibre para la provincia de Lugo

51 ANAacuteLISIS SERIES IGE 59

Observando la Figura 510 parece que el dato incluido referente al primer trimestre de 2020 su-pone una caiacuteda una situacioacuten anoacutemala sin embargo si observamos la evolucioacuten histoacuterica de la seriepodemos comprobar que solamente en dos ocasiones se han mostrado valores superiores en este pri-mer trimestre Para ambos escenarios la serie hasta 2019 y la serie completa uacutenicamente un meacutetododetecta atiacutepicos TRAMO-SEATS que sentildeala en ambas ocasiones octubre de 2010 y 2012 El resto demeacutetodos concuerdan en que la serie no presenta en ninguacuten caso ninguna situacioacuten anoacutemala

La Figura 511 muestra las dos fechas que sentildeala como atiacutepicas el meacutetodo TRAMO-SEATS cuartotrimestre de 2010 y 2012 que si bien reflejan un pico en los espacios temporales en los que se producenno parecen ser atiacutepicas respecto a la serie completa

Figura 511 Serie de tiempo referente al nuacutemero de viviendas transmitidas de segunda mano en reacutegimenlibre para la provincia de Lugo

Conjunto 6 (httpwwwigeeuigebdtigeapidatos1243)

Series de datos mensuales referentes a las bajas de demandas de empleo seguacuten geacutenero y duracioacutende la demanda en Galicia y sus provincias Los datos de la serie se recogen desde enero de 2009 hastajunio de 2020

60 CAPIacuteTULO 5 APLICACIOacuteN A DATOS REALES

TRAMO -

SEATS

STL +

HDoutliers

STL +

iForest

STR +

HDoutliers

STR +

iForest

Atiacutepicos detectados 154 271 228 288 228

Max nuacutemero atip serie 7 11 4 7 3

Series con 0 atiacutepicos 85 44 16 40 12

Media de atiacutepicos detec 093 164 138 174 138

Cuadro 517 Resultados para el Conjunto 6 con datos hasta diciembre de 2019

Los resultados del Cuadro 517 se producen para un total de 21780 observaciones que muestra elconjunto con datos hasta diciembre de 2019 Ahora vamos a estudiar los resultados de forma que cadaserie esteacute conformada por el uacuteltimo dato actualizado y a comparar ambas situaciones En esta serie eluacuteltimo dato actualizado es junio de 2020 lo que conforma un total de 22770 observaciones

TRAMO -

SEATS

STL +

HDoutliers

STL +

iForest

STR +

HDoutliers

STR +

iForest

Atiacutepicos detectados 484 502 336 504 334

Max nuacutemero atip serie 9 12 4 11 4

Series con 0 atiacutepicos 1 10 3 15 5

Media de atiacutepicos detec 293 304 204 305 202

Cuadro 518 Resultados para el Conjunto 6 con datos hasta junio de 2020

51 ANAacuteLISIS SERIES IGE 61

TRAMO -

SEATS

STL +

HDoutliers

STL +

iForest

STR +

HDoutliers

STR +

iForest

Hasta 2019 154 271 228 288 228

Hasta mayo 2020 484 502 336 504 334

Tasa de variacioacuten 21429 8524 4737 7500 4649

Cuadro 519 Total de atiacutepicos detectados por cada meacutetodo hasta diciembre de 2019 y junio de 2020 ytasa de variacioacuten que produce el efecto del Covid en el Conjunto 6

En el Cuadro 519 podemos ver el efecto que supone la primera mitad del antildeo 2020 en la aparicioacutende valores atiacutepicos en este conjunto El incremento en el nuacutemero de datos a analizar no llega a serdel 5 pero esa miacutenima cantidad de datos nuevos dispara las fechas anoacutemalas que se suceden en lasseries En el Cuadro 518 se puede observar que apenas existen series sin atiacutepicos independientementedel meacutetodo que seleccionemos algo todaviacutea maacutes sorprendente si recordamos que este es el conjuntoque posee maacutes series un total de 165 series

A continuacioacuten analizamos un caso concreto utilizando la serie referente a las bajas de la demandade empleo en mujeres con una duracioacuten de la demanda entre 12 y 18 meses en Ourense La rectavertical roja indica el inicio del antildeo 2020 sirviendo asiacute para indicar la diferencia entre los dos escenariosanalizados en los Cuadros 517 y 518

Figura 512 Serie de tiempo referente a las bajas de la demanda de empleo en mujeres con una duracioacutende la demanda entre 12 y 18 meses en Ourense

Esta serie es de intereacutes por diversos motivos El primero es que posee claros atiacutepicos en ambos

62 CAPIacuteTULO 5 APLICACIOacuteN A DATOS REALES

escenarios En la serie con duracioacuten hasta 2019 se puede observar un valor cercano al inicio de 2014con claro aspecto de ser atiacutepico La serie con todos los datos muestra el atiacutepico anterior pero tambieacutennuevos valores con claro comportamiento discordante al resto de la serie

Para la serie recortada cinco meacutetodos coinciden en sus resultados julio de 2013 es atiacutepico uacutenica-mente TRAMO-SEATS difiere el cual no sentildeala ninguacuten atiacutepico en la serie Si ahora nos trasladamosa la serie completa TRAMO-SEATS sentildeala marzo de 2020 como atiacutepico mientras que el resto demeacutetodos vuelven a concordar sentildealando julio de 2013 y febrero de 2020 En la Figura 513 se muestrala serie sentildealizando dichos atiacutepicos julio de 2013 y febrero y marzo de 2020

Figura 513 Serie de tiempo referente a las bajas de la demanda de empleo en mujeres con una duracioacutende la demanda entre 12 y 18 meses en Ourense con los atiacutepicos identificados

Si observamos los datos de la serie podemos calificar todas estas fechas como atiacutepicas julio 2013febrero 2020 y marzo 2020 Sin embargo ninguacuten meacutetodo ha calificado los meses de abril mayo yjunio de 2020 siendo claramente atiacutepicos Estamos frente a una situacioacuten completamente inusual unasituacioacuten que se produce en multitud de series del IGE y es la secuencia de varias observacionesconsecutivas muy atiacutepicas que ejercen un gran peso en la serie

Este gran peso provoca que los meacutetodos no consigan analizar correctamente este escenario Losmodelos de series temporales como TRAMO-SEATS interpretan que se estaacute produciendo un cambiode nivel permanente en la serie mencionado en el Capiacutetulo 3 como Level Shift (LS) y modelizan laserie como tal Los procesos de descomposicioacuten de series temporales utilizados STL y STR entiendenlo que estaacute sucediendo como un cambio en la tendencia es decir en su proceso de extraccioacuten de laestacionalidad y la tendencia estiman una tendencia decreciente en la serie Y por uacuteltimo los meacutetodosde deteccioacuten de valores atiacutepicos HDoutliers y iForest sufren un grave problema de enmascaramientoLa idea del mecanismo de iForest reside en buscar valores aislados mientras que la de HDoutliers sefundamenta en buscar espacios entre los valores ordenados estas dos ideas son consistentes con la ideade la buacutesqueda de atiacutepicos sin embargo ven disminuida su eficiencia ante una situacioacuten tan atiacutepica quepermanece durante varias observaciones consecutivas llevando a provocar que observaciones atiacutepicaspuedan pasar desapercibidas para el mecanismo

51 ANAacuteLISIS SERIES IGE 63

Conjunto 7 (httpwwwigeeuigebdtigeapidatos4885)

Series de datos mensuales referentes a las afiliaciones a la seguridad social el uacuteltimo diacutea de mes enGalicia y sus provincias por regiacutemenes Los datos comienzan en enero de 1990 y finalizan en mayo de2020

TRAMO -

SEATS

STL +

HDoutliers

STL +

iForest

STR +

HDoutliers

STR +

iForest

Atiacutepicos detectados 288 96 118 136 121

Max nuacutemero atip serie 24 8 5 10 5

Series con 0 atiacutepicos 4 10 0 4 0

Media de atiacutepicos detec 613 204 251 289 257

Cuadro 520 Resultados para el Conjunto 7 con datos hasta diciembre de 2019

El Cuadro 520 muestra los resultado que se producen para un total de 16920 observaciones quemuestra el conjunto con datos hasta diciembre de 2019 Ahora vamos a estudiar los resultados de formaque cada serie esteacute conformada por el uacuteltimo dato actualizado y comparar ambas situaciones En estaserie el uacuteltimo dato actualizado es junio de 2020 lo que conforma un total de 17155 observaciones

TRAMO -

SEATS

STL +

HDoutliers

STL +

iForest

STR +

HDoutliers

STR +

iForest

Atiacutepicos detectados 333 179 128 118 136

Max nuacutemero atip serie 24 14 5 11 6

Series con 0 atiacutepicos 0 6 0 3 0

Media de atiacutepicos detec 709 380 272 251 289

Cuadro 521 Resultados para el Conjunto 7 con datos hasta mayo de 2020

64 CAPIacuteTULO 5 APLICACIOacuteN A DATOS REALES

TRAMO -

SEATS

STL +

HDoutliers

STL +

iForest

STR +

HDoutliers

STR +

iForest

Hasta 2019 288 96 118 136 121

Hasta mayo 2020 333 179 128 118 136

Tasa de variacioacuten 1563 8646 847 -1324 1240

Cuadro 522 Total de atiacutepicos detectados por cada meacutetodo hasta diciembre de 2019 y mayo de 2020y tasa de variacioacuten que produce el efecto del Covid en el Conjunto 7

En el Cuadro 522 podemos ver que el efecto que supone la primera mitad del antildeo 2020 en laaparicioacuten de valores atiacutepicos en este conjunto La variacioacuten que supone en el nuacutemero de valores detec-tados como anoacutemalos es considerable todaviacutea maacutes si lo comparamos con la variacioacuten de nuevos datosintroducidos en el anaacutelisis los cuales han aumentado solamente un 138 De este modo podemosafirmar que la presencia del Covid ha provocado un gran impacto en el incremento del nuacutemero deobservaciones atiacutepicas de los conjuntos que presentan datos de frecuencia mensual

A continuacioacuten analizamos un caso concreto utilizando la serie referente a las afiliaciones a laseguridad social en reacutegimen mar para la provincia de Lugo La Figura 514 muestra la representacioacutengraacutefica de dicha serie indicando mediante una recta vertical roja el inicio del 2020

Figura 514 Serie de tiempo referente a las afiliaciones a la seguridad social en reacutegimen mar para laprovincia de Lugo

El motivo de seleccionar esta serie reside en una idea que se va desarrollando a lo largo de todoeste apartado y que da lugar a la herramienta que se introduce en el siguiente Las series socio-econoacutemicas son complejas dado que se ven afectadas por multitud de factores externos que condicionansu desarrollo Este caraacutecter uacutenico de cada serie maacutes los resultados obtenidos a lo largo del trabajo

51 ANAacuteLISIS SERIES IGE 65

nos conduce a la conclusioacuten de que no existe un meacutetodo de deteccioacuten de atiacutepicos con una capacidadde clasificacioacuten superior al resto

Los resultados para esta serie son diversos Por ejemplo la combinacioacuten STR+HDoutliers muestrahasta ocho atiacutepicos para la serie delimitada en el antildeo 2019 sin embargo al introducir la serie completaesta cifra se reduce solamente a dos Sucede lo contrario con la combinacioacuten STL+HDoutliers quesi bien en la serie recortada califica dos observaciones en la completa sentildeala un total de siete Porsu parte TRAMO-SEATS identifica un total de siete atiacutepicos Sin embargo todos los meacutetodos dedeteccioacuten sentildealan dos fechas como atiacutepicas en los dos casos agosto de 2006 y junio de 2008 como serepresenta en la Figura 515 Esto dota al estudio de confianza si todos los mecanismos sospechan dedos fechas deberaacute haber un motivo de peso algo ha sucedido en la serie para que todos concuerdenEsta idea dio lugar al desarrollo de la herramienta que se introduce en el siguiente apartado

Figura 515 Serie de tiempo referente a las afiliaciones a la seguridad social en reacutegimen mar parala provincia de Lugo identificando los atiacutepicos sentildealados de forma comuacuten por los cinco meacutetodos dedeteccioacuten

Por uacuteltimo el Cuadro 523 recoge el total de atiacutepicos detectados por cada meacutetodo en los dosescenarios con los que se ha trabajado en este capiacutetulo El primer escenario incluye datos hasta lauacuteltima fecha de 2019 si las series son mensuales este dato es el correspondiente a diciembre de 2019si son series trimestrales el uacuteltimo dato seraacute el cuarto trimestre de 2019 En el Cuadro 523 se recogede modo general para todos los conjuntos bajo el teacutermino ldquodatos hasta 2019rdquo El segundo escenariorecoge los datos hasta su uacuteltima actualizacioacuten aquiacute existe un mayor abanico de fechas como vimos alo largo de todo este capiacutetulo Los conjuntos con datos de frecuencia trimestral presentan su uacuteltimodato en el primer trimestre de 2020 por su parte los conjuntos de datos mensuales variacutean su uacuteltimaactualizacioacuten entre los meses de abril mayo o junio de 2020 En el Cuadro 523 se recoge de modogeneral para todos ellos bajo el teacutermino ldquodatos hasta 2020rdquo

66 CAPIacuteTULO 5 APLICACIOacuteN A DATOS REALES

TRAMO -SEATS

STL +HDoutliers

STL +iForest

STR +HDoutliers

STR +iForest

Tiempo de ejecucioacuten (2019) 1332 24 1782 7234 8805Tiempo de ejecucioacuten (2020) 1503 21 2042 8043 10764Atiacutepicos detectados (2019) 1490 990 794 1074 816Atiacutepicos detectados (2020) 2036 1373 989 1341 1033

Tasa de variacioacuten 3664 3869 2456 2486 2659

Cuadro 523 Tiempo de ejecucioacuten (en segundos) y total de atiacutepicos detectados por cada meacutetodo hastael uacuteltimo dato de 2019 y hasta uacuteltima actualizacioacuten de 2020 y tasa de variacioacuten que produce el efectodel Covid en los siete conjuntos de datos

El Cuadro 523 nos permite concluir que el efecto global del Covid ha supuesto un incremento enel nuacutemero de observaciones atiacutepicas puesto que todos los meacutetodos experimentan una tasa de variacioacutenpositiva sobre sus cifras de valores atiacutepicos detectados Las cifras de tasas de variacioacuten que se muestranen el Cuadro 523 sorprenden todaviacutea maacutes si analizamos el incremento en el nuacutemero de observacionesanalizadas El escenario que analiza el conjunto de datos hasta 2019 presentan un total de 90540observaciones mientras que el escenario que incluye hasta el uacuteltimo dato actualizado recoge un totalde 92731 Es decir el nuacutemero total de datos analizados se ha incrementado en poco maacutes del 2 sinembargo la tasa de variacioacuten maacutes pequentildea muestra un incremento del maacutes del 24 del nuacutemero deatiacutepicos que se presentan en el conjunto de datos

Otra medida que incluye el Cuadro 523 es el tiempo que tarda en analizar los siete conjuntosde datos cada meacutetodo recogida bajo el nombre de ldquotiempo de ejecucioacutenrdquo A traveacutes de ella podemosobservar que la diferencia entre el tiempo de ejecucioacuten es pequentildea pero existe por lo que muestra quela presencia de atiacutepicos dificulta la modelizacioacuten de la series temporales Tambieacuten podemos comprobarcomo todos los meacutetodos presentan buenas cifras en este medida los que peores resultados muestranson los meacutetodos que utilizan la descomposicioacuten STR la cual ya mencionamos su posible problemade lentitud en el Capiacutetulo 2 Por uacuteltimo es sorprendente la combinacioacuten de STL+HDoutliers que escapaz de analizar las 538 en un tiempo inferior a los tres segundos en ambos casos

52 Anaacutelisis Graacutefico

El campo de la deteccioacuten de valores atiacutepicos estaacute caracterizado por una constante incertidumbrePartiendo del inicio del trabajo ni siquiera existe una definicioacuten exacta de queacute es un valor atiacutepicosino maacutes bien se trazan definiciones en base a ideas de lo que se espera que sea un valor atiacutepico enun conjunto de datos Es por ello que dependiendo de los escenarios y las complejidades asociadas auna serie unos meacutetodos resulten maacutes efectivos que otros Este es el motivo por el que surgioacute la ideade crear una herramienta de anaacutelisis graacutefico para el estudio de series de tiempo

El objetivo de esta herramienta es la de dotar al analista de un mecanismo sencillo de implantarque le permita trazar una idea de los posibles atiacutepicos con los que podriacutea contar la serie Para ello seha creado una funcioacuten en R que solo necesita introducir la serie de tiempo para devolver el graacutefico

52 ANAacuteLISIS GRAacuteFICO 67

Ademaacutes dado que esta herramienta estaacute disentildeada especiacuteficamente para trabajar con series de tiemposu representacioacuten dariacutea lugar a lo que podriacutea denominarse un mapa de calor para zonas atiacutepicas estose muestra maacutes adelante mediante ejemplos

Esta herramienta estaacute compuesta por los meacutetodos que han mostrado mejores resultados en el estudiode simulacioacuten Cada meacutetodo ocupa una fila mostrando a lo largo de ella sus atiacutepicos sentildealados y cadacolumna es una fecha detectada por un meacutetodo De tal modo que si una fecha es detectada por todoslos meacutetodos mostraraacute una columna verde y seraacute sospecha clara de que esa fecha es atiacutepica Por otraparte si una fecha es detectada por solo un meacutetodo mostraraacute solo de color verde la celda asociada aese meacutetodo y no seraacute sentildeal tan evidente de situacioacuten atiacutepica

Para la composicioacuten del graacutefico se utilizan los meacutetodos del apartado anterior y a mayores seintroducen las versiones robustas de los meacutetodos de descomposicioacuten de series temporales STL y STREl motivo de su uso en este apartado se debe a que si bien no mostraron los mejores resultados enel estudio de simulacioacuten ahora pueden resultar de utilidad Los meacutetodos robustos pueden generaranomaliacuteas espurias cuando no existen atiacutepicos debido a que resaltan el tamantildeo del residuo de unaobservacioacuten provocando su identificacioacuten como atiacutepico sin esta serlo Sin embargo cuando se producenanomaliacuteas que ejercen un gran peso en la serie como lo sucedido durante el Covid este tipo deestimaciones son de gran intereacutes esta situacioacuten tambieacuten se justificaraacute mediante un ejemplo praacutectico

El primer ejemplo lo extraemos a traveacutes de la serie referente a la estancia media de viajeros de todaslas procedencias en establecimientos hoteleros en Galicia perteneciente al Conjunto 1 En la Figura516 mostramos la representacioacuten de la misma ahora ya mostramos hasta el uacuteltimo dato actualizadoen este caso mayo de 2020

Figura 516 Estancia media de viajeros de todas las procedencias en establecimientos hoteleros enGalicia

Esta serie parece contar con dos atiacutepicos los relacionados con las dos uacuteltimas observaciones de laserie sin embargo vamos a analizar los resultados del graacutefico comparativo

68 CAPIacuteTULO 5 APLICACIOacuteN A DATOS REALES

Figura 517 Resultados para la serie estancia media de viajeros de todas las procedencias en estable-cimientos hoteleros en Galicia del Conjunto 1

La Figura 517 muestra el graacutefico que hemos desarrollado el cual vamos a desgranar ahora paraentender su utilidad Si hubieacutesemos escogido el meacutetodo TRAMO-SEATS hubieacutesemos sentildealado tresobservaciones atiacutepicas una de ellas seriacutea enero de 2003 Sin embargo analizando los datos podemoscomprobar que este dato parece normal y estariacuteamos identificaacutendolo erroacuteneamente como anoacutemalo Dehecho solo TRAMO-SEATS sentildeala esta fecha Lo mismo sucede con otras fechas como octubre delantildeo 2000 sentildealada por solo dos meacutetodos Por otra parte todos los meacutetodos sentildealan los meses deabril y mayo de 2020 las dos uacuteltimas observaciones de la serie que en la Figura 516 mostraban uncomportamiento totalmente discordante al resto del conjunto de datos Es decir el graacutefico permitetrazar una idea concisa al analista de queacute es anoacutemalo en la serie y que pueden ser falsos positivos

Observando el graacutefico podemos tambieacuten extraer una conclusioacuten raacutepida de la posible presenciade valores atiacutepicos en la serie Se muestran dos comportamientos muy marcados El primero estariacuteadeterminado por la serie hasta el antildeo 2020 en el cual la aparicioacuten de atiacutepicos es dispersa pococoncluyente el analista puede dudar de que estas observaciones sean realmente anoacutemalas El segundoson los datos de 2020 dos columnas enteras de color verde una imagen que comunica que en eseintervalo de tiempo estaacute sucediendo algo realmente anoacutemalo

Vamos a utilizar el graacutefico con otra serie para analizar otra de las caracteriacutesticas que muestran elintereacutes de analizar una serie de tiempo a traveacutes de este graacutefico En la Figura 518 se muestra la serie detiempo perteneciente al Conjunto 3 que recoge la evolucioacuten de los contratos iniciales en Galicia Dichaserie cuenta con tres atiacutepicos claros marzo abril y mayo de 2020

52 ANAacuteLISIS GRAacuteFICO 69

Figura 518 Contratos iniciales registrados en Galicia

Haciendo uso del graacutefico comparativo Figura 519 volvemos a obtener un escenario en el queresulta de intereacutes esta herramienta En este caso el meacutetodo compuesto por STR+HDoutliers muestraun comportamiento erraacutetico que le conduce a identificar una gran cantidad de atiacutepicos de modoincorrecto Lo mismo sucede con TRAMO-SEATS que es el uacutenico que sentildeala enero de 2001 comoatiacutepico sin existir motivo en los datos para esta calificacioacuten

Por otra parte este escenario nos permite observar la utilidad de incorporar las versiones robustasSi bien se equivocan en alguacuten caso por ejemplo el meacutetodo STR+HDoutliers(Rob) sentildealando junio de2002 nos permiten calificar marzo de 2020 como atiacutepico algo que los meacutetodos que utilizan las versionesno robustas de los meacutetodos de descomposicioacuten de series temporales STR y STR no logran Todasellas se ponen de acuerdo junto a TRAMO-SEATS para la sentildealizacioacuten de este mes

Ademaacutes dado que estamos trabajando con series temporales los resultados de la graacutefica se muestranen orden cronoloacutegico en vez de por cuaacuten anoacutemala es la observacioacuten como se hace en TRAMO-SEATSo en iForest Esto nos permite entender la graacutefica como un mapa de calor Al analizar la serie siexiste un intervalo de tiempo en el que se han producido situaciones anoacutemalas como por ejemplo eneste caso los meses relacionados al Covid se veraacute reflejado en el graacutefico por una serie de columnascon muchas celdas verdes lo que daraacute a entender de manera raacutepida al analista que en ese intervalode tiempo se han producido situaciones excepcionales De este modo tambieacuten conseguimos corregirel problema de enmascaramiento que pueden sufrir los meacutetodos cuando se suceden varias situacionesatiacutepicas consecutivas

70 CAPIacuteTULO 5 APLICACIOacuteN A DATOS REALES

Figura 519 Resultados para la serie Contratos iniciales registrados en Galicia del Conjunto 3

Capiacutetulo 6

Conclusiones

El IGE cuenta con una ampliacutea base de datos que se utiliza para el estudio del contexto socio-econoacutemico en Galicia Estos datos tienen una base temporal es decir son datos referidos a un intervalode tiempo en la mayoriacutea de los casos esta periodicidad es anual trimestral o mensual La manipulacioacutende los datos puede conllevar a que se introduzcan errores humanos o de medicioacuten que provoquen quese incluyan cifras incorrectas a las bases de datos Estos errores pueden distorsionar las conclusionesde un estudio o conducir haciacutea resultados alejados de la verdadera realidad Es por ello que resultanecesario el incorporar una herramienta de deteccioacuten de valores atiacutepicos al anaacutelisis de las bases dedatos del IGE

Para ello se planteoacute una revisioacuten bibliograacutefica de los principales meacutetodos de deteccioacuten de atiacutepicosen series temporales Esta revisioacuten nos permitioacute conocer la existencia de un amplio abanico de meacuteto-dos disponibles con los cuales empezamos a trabajar para analizar su comportamiento Es aquiacute dondedecidimos descartar una serie de meacutetodos mencionados al final del Apartado 34 debido a que sufuncionamiento y sus resultados correspondiacutean a versiones inferiores de otros meacutetodos que finalmenteadoptamos Este primer estudio nos proporcionoacute los meacutetodos de deteccioacuten de atiacutepicos en series tem-porales que supondriacutean el punto de partida del trabajo X-13ARIMA-SEATS TRAMO-SEATS y lalibreriacutea de R Anomalize

La libreriacutea Anomalize tambieacuten nos sirvioacute de ayuda en el desarrollo de nuestros propios meacutetodos dedeteccioacuten de atiacutepicos para series temporales La idea sobre la que se fundamenta esta libreriacutea es la deaplicar un proceso de descomposicioacuten de series de tiempo a una serie para extraer las componentes dela estacionalidad la tendencia y un residuo para despueacutes aplicar un meacutetodo de deteccioacuten de atiacutepicossobre el residuo Dado que se han producido mejoras a los meacutetodos de descomposicioacuten y deteccioacutenque se utilizan en la libreriacutea Anomalize consideramos que una nueva combinacioacuten podriacutea reflejar unamejora en los resultados

Para comparar todos los meacutetodos de deteccioacuten de atiacutepicos en series temporales los que sirven depunto de partida del trabajo y los desarrollados por nosotros decidimos llevar a cabo un ambiciosoestudio de simulacioacuten El estudio de simulacioacuten recoge diferentes escenarios con la finalidad de repre-sentar la heterogeneidad propia de las series de tiempo referentes a variables sociales y econoacutemicas Losresultados del estudio de simulacioacuten confirman nuestra idea acerca de que una nueva combinacioacuten pue-de suponer una mejora en los resultados debido a que varias de nuestras combinaciones reflejan mejores

71

72 CAPIacuteTULO 6 CONCLUSIONES

resultados que las propuestas en la libreriacutea Anomalize Tambieacuten nos permite observar que nuestraspropuestas compiten en los resultados con un modelo tan desarrollado como TRAMO-SEATS Final-mente nos permiten descartar otros meacutetodos que siendo uacutetiles en otros campos no parecen resultaridoacuteneos para el nuestro

Tras el estudio de simulacioacuten comenzamos a utilizar los meacutetodos que habiacutean mostrado mejoresresultados con los datos proporcionados por el IGE Fue en este momento cuando nos encontramos conuna situacioacuten no contemplada en ninguacuten momento en ninguacuten escenario del estudio de simulacioacuten yen general en ninguacuten momento de lo que podriacutea ser la historia reciente como fue la crisis del Covid19Esta crisis provoca un efecto enorme en los datos del contexto gallego como se recoge a lo largo delCapiacutetulo 5 y supone un nuevo escenario en lo que a deteccioacuten de valores atiacutepicos en series temporalesse refiere

Este nuevo escenario se caracteriza por reflejar durante varios periacuteodos de tiempo consecutivosobservaciones enormemente anoacutemalas y los modelos ven empeorado su comportamiento TRAMO-SEATS y los modelos de descomposicioacuten de series de tiempo STL y STR entienden que lo que seestaacute produciendo es una tendencia decreciente de la serie Por su parte los meacutetodos de deteccioacuten deatiacutepicos HDoutliers y iForest sufren un fenoacutemeno de enmascaramiento en el que son incapaces desentildealizar todos los atiacutepicos Fue aquiacute donde decidimos crear una nueva herramienta para el anaacutelisis

El objetivo con el que creamos esta herramienta de anaacutelisis graacutefico fue el de reducir la incertidumbreque supone el campo de la deteccioacuten de atiacutepicos de un modo sencillo y directo para el analista que lautilice Ademaacutes su disentildeo estaacute pensado para el trabajo con series temporales de modo que si se sucedeun periacuteodo convulso como el actual la graacutefica podraacute ser analizada como un mapa de calor un mapade calor que transmite visualmente la idea de en queacute intervalo de tiempo la serie estaacute experimentandocomportamientos atiacutepicos

Apeacutendice A

Tablas

A1 Tablas de sensibilidad

73

74 APEacuteNDICE A TABLAS

Caso 1 Caso 2 Caso 3 Caso 4

X-13ARIMA-SEATS 0496 0854 0700 0826

TRAMO-SEATS 0657 0928 0805 0851

STL+HDoutliers 0569 0838 0570 0732

STL+GESD 0266 0590 0236 0532

STL+iForest 0636 0885 0636 0790

STL(ROB)+HDoutliers 0562 0803 0678 0712

STL(ROB)+GESD 0637 0876 0746 0754

STL(ROB)+iForest 0640 0878 0747 0786

Twitter+HDoutliers 0471 0735 0597 0620

Twitter+GESD 0306 0590 0429 0434

Twitter+iForest 0529 0801 0652 0660

STR+HDoutliers 0611 0841 0603 0672

STR+GESD 0345 0650 0292 0448

STR+iForest 0674 0885 0679 0721

STR(ROB)+HDoutliers 0542 0812 0638 0658

STR(ROB)+GESD 0381 0685 0458 0558

STR(ROB)+iForest 0623 0862 0699 0714

Cuadro A1 Resultados Escenario 1Sensibilidad AR(1)

A1 TABLAS DE SENSIBILIDAD 75

Caso 1 Caso 2 Caso 3 Caso 4

X-13ARIMA-SEATS 0505 0829 0646 0875

TRAMO-SEATS 0668 0914 0743 0888

STL+HDoutliers 0472 0729 0481 0684

STL+GESD 0217 0457 0148 0428

STL+iForest 0506 0784 0525 0716

STL(ROB)+HDoutliers 0469 0735 0588 0648

STL(ROB)+GESD 0529 0775 0665 0668

STL(ROB)+iForest 0526 0803 0666 0716

Twitter+HDoutliers 0465 0698 0596 0646

Twitter+GESD 0349 0630 0483 0486

Twitter+iForest 0512 0778 0663 0692

STR+HDoutliers 0588 0823 0573 0664

STR+GESD 0298 0602 0247 0449

STR+iForest 0630 0869 0651 0721

STR(ROB)+HDoutliers 0521 0788 0611 0649

STR(ROB)+GESD 0336 0628 0406 0520

STR(ROB)+iForest 0582 0839 0691 0711

Cuadro A2 Resultados Escenario 2 Sensibilidad MA(1)

76 APEacuteNDICE A TABLAS

Caso 1 Caso 2 Caso 3 Caso 4

X-13ARIMA-SEATS 0922 0971 0927 0983

TRAMO-SEATS 0923 0972 0923 0982

STL+HDoutliers 0312 0508 0241 0440

STL+GESD 0089 0230 0051 0152

STL+iForest 0343 0578 0284 0454

STL(ROB)+HDoutliers 0261 0435 0297 0333

STL(ROB)+GESD 0311 0527 0393 0322

STL(ROB)+iForest 0298 0501 0336 0362

Twitter+HDoutliers 0064 0112 0127 0066

Twitter+GESD 0028 0040 0069 0032

Twitter+iForest 0079 0129 0169 0070

STR+HDoutliers 0407 0563 0348 0440

STR+GESD 0204 0367 0109 0230

STR+iForest 0445 0617 0389 0495

STR(ROB)+HDoutliers 0243 0397 0254 0272

STR(ROB)+GESD 0209 0391 0225 0259

STR(ROB)+iForest 0282 0455 0284 0293

Cuadro A3 Resultados Escenario 3 Sensibilidad ARIMA(011)

A1 TABLAS DE SENSIBILIDAD 77

Caso 1 Caso 2 Caso 3 Caso 4

X-13ARIMA-SEATS 0403 0593 0068 0816

TRAMO-SEATS 0542 0707 0072 0814

STL+HDoutliers 0005 0004 0016 0004

STL+GESD 0000 0001 0004 0000

STL+iForest 0003 0003 0015 0005

STL(ROB)+HDoutliers 0007 0007 0037 0004

STL(ROB)+GESD 0009 0021 0099 0029

STL(ROB)+iForest 0006 0008 0036 0005

Twitter+HDoutliers 0001 0000 0001 0008

Twitter+GESD 0006 0009 0012 0023

Twitter+iForest 0001 0000 0005 0018

STR+HDoutliers 0370 0428 0006 0088

STR+GESD 0424 0462 0000 0138

STR+iForest 0418 0479 0004 0103

STR(ROB)+HDoutliers 0028 0019 0011 0076

STR(ROB)+GESD 0064 0063 0051 0140

STR(ROB)+iForest 0022 0014 0010 0027

Cuadro A4 Resultados Escenario 4 Sensibilidad ARIMA(011)x(011)12

78 APEacuteNDICE A TABLAS

Caso 1 Caso 2 Caso 3 Caso 4

X-13ARIMA-SEATS 0266 0629 0177 0574

TRAMO-SEATS 0400 0750 0251 0618

STL+HDoutliers 0247 0477 0291 0130

STL+GESD 0093 0260 0160 0024

STL+iForest 0270 0536 0312 0138

STL(ROB)+HDoutliers 0278 0489 0358 0102

STL(ROB)+GESD 0400 0688 0478 0132

STL(ROB)+iForest 0314 0553 0398 0133

Twitter+HDoutliers 0254 0439 0363 0108

Twitter+GESD 0176 0385 0317 0064

Twitter+iForest 0274 0486 0388 0131

STR+HDoutliers 0664 0895 0240 0760

STR+GESD 0425 0770 0065 0567

STR+iForest 0724 0939 0283 0800

STR(ROB)+HDoutliers 0197 0334 0220 0529

STR(ROB)+GESD 0190 0333 0207 0692

STR(ROB)+iForest 0235 0369 0238 0591

Cuadro A5 Resultados Escenario 5 Sensibilidad ARIMA(101)x(012)12

A1 TABLAS DE SENSIBILIDAD 79

Caso 1 Caso 2 Caso 3 Caso 4

X-13ARIMA-SEATS 0333 0662 0355 0618

TRAMO-SEATS 0460 0767 0480 0656

STL+HDoutliers 0521 0798 0502 0629

STL+GESD 0230 0559 0188 0328

STL+iForest 0565 0836 0572 0651

STL(ROB)+HDoutliers 0519 0788 0605 0601

STL(ROB)+GESD 0541 0828 0676 0561

STL(ROB)+iForest 0566 0843 0668 0648

Twitter+HDoutliers 0246 0423 0362 0212

Twitter+GESD 0104 0232 0187 0102

Twitter+iForest 0284 0456 0398 0230

STR+HDoutliers 0527 0788 0444 0641

STR+GESD 0279 0585 0152 0386

STR+iForest 0600 0825 0499 0685

STR(ROB)+HDoutliers 0407 0674 0497 0550

STR(ROB)+GESD 0277 0527 0352 0404

STR(ROB)+iForest 0462 0735 0573 0582

Cuadro A6 Resultados Escenario 6 Sensibilidad ARIMA(111)x(101)12

80 APEacuteNDICE A TABLAS

Caso 1 Caso 2 Caso 3 Caso 4

X-13ARIMA-SEATS 0299 0638 0335 0632

TRAMO-SEATS 0424 0717 0432 0801

STL+HDoutliers 0432 0705 0397 0626

STL+GESD 0177 0416 0109 0351

STL+iForest 0514 0762 0463 0530

STL(ROB)+HDoutliers 0441 0686 0494 0613

STL(ROB)+GESD 0461 0731 0556 0584

STL(ROB)+iForest 0491 0723 0548 0528

Twitter+HDoutliers 0280 0471 0387 0354

Twitter+GESD 0129 0288 0191 0147

Twitter+iForest 0008 0017 0051 0050

STR+HDoutliers 0456 0700 0467 0568

STR+GESD 0203 0439 0167 0274

STR+iForest 0515 0778 0443 0638

STR(ROB)+HDoutliers 0424 0687 0510 0554

STR(ROB)+GESD 0262 0524 0330 0366

STR(ROB)+iForest 0349 0562 0413 0388

Cuadro A7 Resultados Escenario 7 Sensibilidad ARIMA(112)x(011)12

A1 TABLAS DE SENSIBILIDAD 81

Caso 1 Caso 2 Caso 3 Caso 4

X-13ARIMA-SEATS 0299 0638 0335 0632

TRAMO-SEATS 0424 0717 0432 0801

STL+HDoutliers 0432 0705 0397 0626

STL+GESD 0177 0416 0109 0351

STL+iForest 0485 0738 0428 0665

STL(ROB)+HDoutliers 0441 0686 0494 0613

STL(ROB)+GESD 0461 0731 0556 0584

STL(ROB)+iForest 0494 0755 0566 0678

Twitter+HDoutliers 0280 0471 0387 0354

Twitter+GESD 0129 0288 0191 0147

Twitter+iForest 0306 0509 0430 0359

STR+HDoutliers 0456 0700 0467 0568

STR+GESD 0203 0439 0167 0274

STR+iForest 0497 0772 0507 0602

STR(ROB)+HDoutliers 0424 0687 0510 0554

STR(ROB)+GESD 0262 0524 0330 0366

STR(ROB)+iForest 0465 0755 0577 0590

Cuadro A8 Resultados Escenario 8 Sensibilidad ARIMA(011)x(100)12

82 APEacuteNDICE A TABLAS

A2 Tablas de exceso

Caso 1 Caso 2 Caso 3 Caso 4

X-13ARIMA-SEATS 0078 0077 0066 0042

TRAMO-SEATS 0211 0208 0222 0056

STL+HDoutliers 0788 0829 0805 1534

STL+GESD 0056 0055 0045 0031

STL+iForest 0406 0300 0404 0659

STL(ROB)+HDoutliers 1162 1242 1212 1714

STL(ROB)+GESD 1411 1417 1416 0461

STL(ROB)+iForest 0637 0468 0575 0859

Twitter+HDoutliers 0930 0955 0905 1487

Twitter+GESD 0257 0273 0254 0069

Twitter+iForest 0538 0412 0490 0776

STR+HDoutliers 0759 0810 0759 1464

STR+GESD 0053 0062 0046 0024

STR+iForest 0403 0301 0381 0725

STR(ROB)+HDoutliers 0749 0842 0758 1460

STR(ROB)+GESD 0199 0196 0192 0099

STR(ROB)+iForest 0427 0315 0413 0749

Cuadro A9 Resultados Escenario 1 Exceso AR(1)

A2 TABLAS DE EXCESO 83

Caso 1 Caso 2 Caso 3 Caso 4

X-13ARIMA-SEATS 0054 0058 0066 0058

TRAMO-SEATS 0144 0138 0175 0061

STL+HDoutliers 0695 0772 0759 1472

STL+GESD 0034 0038 0050 0016

STL+iForest 0443 0318 0425 0706

STL(ROB)+HDoutliers 1168 1221 1180 1703

STL(ROB)+GESD 1309 1349 1415 0418

STL(ROB)+iForest 0682 0528 0621 0877

Twitter+HDoutliers 0836 0832 0911 1577

Twitter+GESD 0313 0329 0334 0061

Twitter+iForest 0552 0417 0483 0755

STR+HDoutliers 0798 0885 0694 1541

STR+GESD 0054 0064 0044 0018

STR+iForest 0407 0302 0396 0724

STR(ROB)+HDoutliers 0725 0776 0745 1516

STR(ROB)+GESD 0134 0143 0142 0076

STR(ROB)+iForest 0435 0312 0372 0727

Cuadro A10 Resultados Escenario 2 Exceso MA(1)

84 APEacuteNDICE A TABLAS

Caso 1 Caso 2 Caso 3 Caso 4

X-13ARIMA-SEATS 0106 0060 0101 0070

TRAMO-SEATS 0179 0123 0175 0085

STL+HDoutliers 0638 0635 0686 1376

STL+GESD 0052 0054 0067 0020

STL+iForest 0448 0346 0468 0867

STL(ROB)+HDoutliers 0932 0905 1010 1604

STL(ROB)+GESD 2339 2311 2338 1863

STL(ROB)+iForest 0705 0573 0695 1281

Twitter+HDoutliers 0311 0285 0311 0743

Twitter+GESD 1302 1282 1331 1946

Twitter+iForest 0167 0153 0175 0645

STR+HDoutliers 0672 0703 0623 1364

STR+GESD 0180 0183 0119 0050

STR+iForest 0372 0297 0393 0899

STR(ROB)+HDoutliers 0598 0568 0588 1225

STR(ROB)+GESD 1030 1008 0999 1341

STR(ROB)+iForest 0463 0383 0464 1108

Cuadro A11 Resultados Escenario 3 Exceso ARIMA(011)

A2 TABLAS DE EXCESO 85

Caso 1 Caso 2 Caso 3 Caso 4

X-13ARIMA-SEATS 0132 0120 0062 0274

TRAMO-SEATS 0198 0180 0075 0274

STL+HDoutliers 0832 0823 0837 1337

STL+GESD 0231 0225 0226 0165

STL+iForest 0727 0710 0718 1237

STL(ROB)+HDoutliers 1197 1152 1186 1230

STL(ROB)+GESD 4756 4699 4689 7954

STL(ROB)+iForest 0992 0993 0983 1514

Twitter+HDoutliers 0144 0162 0182 0376

Twitter+GESD 3050 2761 2813 6058

Twitter+iForest 0123 0128 0121 0508

STR+HDoutliers 1108 1135 1027 1454

STR+GESD 1469 1679 0582 4430

STR+iForest 0732 0674 0882 1653

STR(ROB)+HDoutliers 1382 1266 0876 10915

STR(ROB)+GESD 4452 4583 4289 19321

STR(ROB)+iForest 0831 0845 0828 1858

Cuadro A12 Resultados Escenario 4 Exceso ARIMA(011)x(011)12

86 APEacuteNDICE A TABLAS

Caso 1 Caso 2 Caso 3 Caso 4

X-13ARIMA-SEATS 0109 0123 0111 0069

TRAMO-SEATS 0239 0301 0312 0139

STL+HDoutliers 0869 0762 0986 1367

STL+GESD 0170 0170 0198 0244

STL+iForest 0667 0475 0712 1291

STL(ROB)+HDoutliers 1328 1357 1499 1287

STL(ROB)+GESD 2517 2530 2919 5438

STL(ROB)+iForest 0992 0813 0978 1444

Twitter+HDoutliers 1041 0966 1065 1383

Twitter+GESD 0796 0854 0830 2221

Twitter+iForest 0808 0655 0735 1412

STR+HDoutliers 0799 0979 0846 1551

STR+GESD 0101 0087 0083 0029

STR+iForest 0383 0286 0619 0669

STR(ROB)+HDoutliers 0764 0759 0755 1692

STR(ROB)+GESD 1600 1591 1490 8145

STR(ROB)+iForest 0603 0492 0593 0894

Cuadro A13 Resultados Escenario 5 Exceso ARIMA(101)x(012)12

A2 TABLAS DE EXCESO 87

Caso 1 Caso 2 Caso 3 Caso 4

X-13ARIMA-SEATS 0179 0167 0141 0096

TRAMO-SEATS 0307 0299 0297 0127

STL+HDoutliers 0792 0783 0775 1598

STL+GESD 0052 0050 0049 0030

STL+iForest 0452 0306 0459 0748

STL(ROB)+HDoutliers 1193 1207 1269 1697

STL(ROB)+GESD 1290 1324 1270 0437

STL(ROB)+iForest 0708 0531 0670 0952

Twitter+HDoutliers 0690 0698 0676 1157

Twitter+GESD 0266 0257 0225 0523

Twitter+iForest 0538 0416 0459 1063

STR+HDoutliers 0740 0853 0796 1429

STR+GESD 0065 0077 0063 0036

STR+iForest 0432 0311 0493 0750

STR(ROB)+HDoutliers 0749 0799 0717 1477

STR(ROB)+GESD 0317 0291 0254 0167

STR(ROB)+iForest 0502 0373 0463 0839

Cuadro A14 Resultados Escenario 6 Exceso ARIMA(111)x(101)12

88 APEacuteNDICE A TABLAS

Caso 1 Caso 2 Caso 3 Caso 4

X-13ARIMA-SEATS 0147 0138 0115 0081

TRAMO-SEATS 0278 0285 0287 0261

STL+HDoutliers 0788 0815 0776 1392

STL+GESD 0045 0047 0042 0031

STL+iForest 0471 0337 0478 0842

STL(ROB)+HDoutliers 1122 1183 1194 1785

STL(ROB)+GESD 1364 1387 1340 0670

STL(ROB)+iForest 0720 0559 0711 1100

Twitter+HDoutliers 0125 0109 0084 0092

Twitter+GESD 3247 3207 3185 7613

Twitter+iForest 0087 0066 0073 0294

STR+HDoutliers 0854 0807 0773 1430

STR+GESD 0069 0069 0050 0036

STR+iForest 0438 0357 0484 0793

STR(ROB)+HDoutliers 0765 0755 0725 1370

STR(ROB)+GESD 0434 0489 0510 0536

STR(ROB)+iForest 0581 0471 0547 1064

Cuadro A15 Resultados Escenario 7 Exceso ARIMA(112)x(011)12

A2 TABLAS DE EXCESO 89

Caso 1 Caso 2 Caso 3 Caso 4

X-13ARIMA-SEATS 0090 0095 0104 0056

TRAMO-SEATS 0487 0475 0494 0446

STL+HDoutliers 0734 0814 0749 1507

STL+GESD 0068 0059 0052 0025

STL+iForest 0496 0352 0479 0747

STL(ROB)+HDoutliers 1157 1098 1083 1660

STL(ROB)+GESD 1232 1281 1260 0294

STL(ROB)+iForest 0764 0566 0687 0918

Twitter+HDoutliers 0859 0822 0860 1415

Twitter+GESD 0214 0209 0217 0114

Twitter+iForest 0606 0526 0550 1031

STR+HDoutliers 0797 0792 0778 1469

STR+GESD 0048 0059 0042 0017

STR+iForest 0461 0336 0464 0782

STR(ROB)+HDoutliers 0786 0726 0699 1494

STR(ROB)+GESD 0159 0146 0145 0072

STR(ROB)+iForest 0520 0359 0433 0830

Cuadro A16 Resultados Escenario 8 Exceso ARIMA(011)x(100)12

90 APEacuteNDICE A TABLAS

Bibliografiacutea

Abraham B y Box G E P (1979) Bayesian analysis of some outlier problems in time seriesBiometrika 66 (2) 229ndash236

Barnett V y Lewis T (1996) Outliers in statistical data 3rd edition (John Wiley amp Sons Chi-chester) 584 pp [UK pound]5500 ISBN 0-471-93094-6 International Journal of Forecasting 12 (1) 175-176

Bell W (1983) A computer program for detecting outliers in time series Proceedings of the AmericanStatistical Association Business and Economic Statistics Section 634-639

Box G y Jenkins G (1976) Time series analysis forecasting and control En (Vol 134) doi1023072344246

Box G E P y Tiao G C (1975) Intervention analysis with applications to economic and environ-mental problems Journal of the American Statistical Association 70 (349) 70ndash79

Breunig M Kriegel H-P Ng R y Sander J (2000) Lof Identifying density-based local outliersEn (Vol 29 p 93-104) doi 101145342009335388

Chang I Tiao G y Chen C (1988) Estimation of time series parameters in the presence of outliersTechnometrics 30 193-204 doi 10108000401706198810488367

Chang I y Tiao G C (1983) Estimation of time series parameters in the presence of outliersTechnical Report 8 University of Chicago Statistics Research Center 30

Chauvenet W (1963) A manual of spherical and practical astronomy volume 2 474-566Chen C y Liu L-M (1993) Joint estimation of model parameters and outlier effects in time series

Journal of the American Statistical Association 88 (421) 284ndash297Cleveland R B Cleveland W S McRae J E y Terpenning I (1990) STL A seasonal-trend

decomposition procedure based on Loess Journal of Official Statistics 6 Dancho M y Vaughan D (2019) Anomalize Tidy anomaly detection [Manual de software informaacute-

tico]Datacamp (2018) Detect anomalies with anomalize in r httpswwwdatacampcomcommunity

tutorialsdetect-anomalies-anomalize-r (Visitado 2020-06-16)de Lacalle J L (2015) Detection of outliers in time series with r httpsjalobecomtsoutliers

(Visitado 2020-03-16)de Lacalle J L (2019) Detection of outliers in time series [Manual de software informaacutetico] https

cranr-projectorgwebpackagestsoutlierstsoutlierspdfDokumentov A y Hyndman R J (2015) STR A seasonal-trend decomposition procedure based

on Regression

91

92 BIBLIOGRAFIacuteA

Dokumentov A y Hyndman R J (2018) str Str decomposition [Manual de software informaacutetico](httpscranr-projectorgwebpackagesstRindexhtml)

Fraley C y Wilkinson L (2020) Hdoutliers Leland wilkinsonrsquos algorithm for detecting multidimen-sionaloutliers [Manual de software informaacutetico]

Goacutemez V y Maravall A (1997) Programs tramo and seats instructions for the user Mimeo Bancode Espantildea

Goacutemez V y Taguas D (1995) Deteccioacuten y correccioacuten automaacutetica de outliers con tramo Unaaplicacioacuten al ipc de bienes industriales no energeacuteticos

Grubbs F (1950) Sample criteria for testing outlying observations The Annals of MathematicalStatistics 21 doi 101214aoms1177729885

Hawkins D (1980) Identification of outliers London [ua] Chapman and HallHochenbaum J Vallis O y Kejariwal A (2017) Automatic anomaly detection in the cloud via

statistical learningHoerl A y Kennard R (1970) Ridge regression Biased estimation for nonorthogonal problems

Technometrics 8 27-51Hyndman R (2020) Forecasting functions for time series and linear models [Manual de software

informaacutetico] httpscranr-projectorgwebpackagesforecastforecastpdfla Tente A Q Michalek A Palate J y Baeyens R (2020) Rjdemetra Interface to rsquojdemetra+rsquo

seasonal adjustment software [Manual de software informaacutetico]Liu F T Ting K y Zhou Z-H (2009) Isolation forest En (p 413 - 422) doi 101109

ICDM200817Mahdavinejad M S Rezvan M Barekatain M Adibi P Barnaghi P y Sheth A P (2018)

Machine learning for internet of things data analysis a survey Digital Communications andNetworks 4 (3) 161 - 175 doi httpsdoiorg101016jdcan201710002

Moore D y McCabe G (1999) Introduction to the practice of statistics WH FreemanOtto M y Bell W (1990) Two issues in time series outlier detection using indicator variables

Proceedings of the American Statistical Association Business and Economic Statistics Section182-187

Peirce B (1852) Criterion for rejection of doubtful observations The Astronomical Journal 2 161-163 doi 101086100259

Pentildea D (2010) Anaacutelisis de series temporales Alianza EditorialRosner B (1975) On the detection of many outliers Technometrics 17 221-227 doi 101080

00401706197510489305Rosner B (1983) Percentagepoints for a generalized esd many-outier procedure Technometrics 25

165-172 doi 10108000401706198310487848Rousseeuw P y Hubert M (2011) Robust statistics for outlier detection Wiley Interdisc Rew

Data Mining and Knowledge Discovery 1 73-79 doi 101002widm2Shan G (2015) Improved confidence intervals for the youden index

doi 01371journalpone0127272Shiskin J Young A y Musgrave J (1967) The x-11 variant of the census method ii seasonal

adjustment program

BIBLIOGRAFIacuteA 93

Srikanth K S (2017) solitude An implementation of isolation forest [Manual de software informaacutetico](R package version 021 mdash For new features see the rsquoSolitudersquo file (in the package source))

Thompson W (1935) On a criterion for the rejection of observations and the distribution of theratio of deviation to sample standard deviation The Annals of Mathematical Statistics 6 doi101214aoms1177732567

Tibshirani R (1996) Regression shrinkage and selection via the lasso Journal of the Royal StatisticalSociety Series B (Methodological) 58 267-288 doi 101111j2517-61611996tb02080x

Time Series Research Staff (2017) X-13ARIMA-SEATS Reference Manual Center for StatisticalResearch and Methodology

Tsay R S (1986) Time series model specification in the presence of outliers Journal of the AmericanStatistical Association 81 (393) 132ndash141

Tsay R S y Tiao G C (1984) Consistent estimates of autoregressive parameters and extendedsample autocorrelation function for stationary and nonstationary arma models Journal of theAmerican Statistical Association 79 (385) 84ndash96

Tukey J W (1977) Exploratory data analysis Addison-WesleyTwitter Inc (2015) Anomalydetection r package GitHub (httpsgithubcomtwitter

AnomalyDetection)Wilkinson L (2017) Visualizing big data outliers through distributed aggregation IEEE Transactions

on Visualization and Computer Graphics PP 1-1 doi 101109TVCG20172744685Woodward W A Gray H L y Elliott A C (2017) Applied time series analysis with r second

edition Journal of Time Series Analysis 39 618 doi 101111jtsa12273Youden W (1950) Youden wjindex for rating diagnostic tests cancer 3(1) 32-35 Cancer 3 32-5

doi 1010021097-0142(1950)3130CO2-3

  • Resumen
  • Introduccioacuten
  • Modelizacioacuten de series temporales
    • Conceptos baacutesicos
    • Meacutetodos de modelizacioacuten de series temporales
      • X-13ARIMA-SEATS
      • TRAMO-SEATS
      • STL
      • STR
      • Twitter
        • Resumen meacutetodos de modelizacioacuten de series temporales
          • Deteccioacuten de valores atiacutepicos
            • Conceptos baacutesicos
            • Meacutetodos de deteccioacuten de valores atiacutepicos
              • X-13ARIMA-SEATS
              • TRAMO-SEATS
              • GESD
              • Isolation Forest
              • HDoutliers
                • Resumen meacutetodos de deteccioacuten de valores atiacutepicos
                • Meacutetodos de deteccioacuten de valores atiacutepicos en series temporales
                  • Estudio de simulacioacuten
                    • Escenarios
                    • Iacutendice de Youden
                    • Resultados
                    • Conclusiones
                      • Aplicacioacuten a datos reales
                        • Anaacutelisis Series IGE
                        • Anaacutelisis Graacutefico
                          • Conclusiones
                          • Tablas
                            • Tablas de sensibilidad
                            • Tablas de exceso
                              • Bibliografiacutea
Page 11: Trabajo Fin de Máster - USC

Capiacutetulo 1

Introduccioacuten

El Instituto Galego de Estadiacutestica (IGE) es un organismo autoacutenomo de la Xunta de Galicia creadoen el antildeo 1988 cuyo objetivo es el de promover el desarrollo del sistema estadiacutestico de la comunidadautoacutenoma mediante servicios de recopilacioacuten y difusioacuten de la documentacioacuten estadiacutestica disponibledesenvolver bases de datos de intereacutes puacuteblico analizar las necesidades y la evolucioacuten de la demandade estadiacutesticas y asegurar su difusioacuten El IGE se erige por tanto como una de las principales fuentesde informacioacuten de datos de caraacutecter socioeconoacutemico de Galicia y de sus divisiones territoriales

Al igual que el resto de organismos del mismo aacutembito el IGE estaacute experimentando un incrementocontinuo tanto en la generacioacuten como en el almacenamiento de datos Es por esto que se hace devital importancia el incorporar una herramienta que nos permita identificar de un modo automaacuteticoposibles candidatos a valores atiacutepicos dentro de nuestros conjuntos de datos

Un dato atiacutepico o outlier en ingleacutes es una observacioacuten anoacutemala en comparacioacuten con el restode datos contenidos en un determinado conjunto de datos Puede deberse a diversos motivos desdeerrores humanos errores relacionados con la medicioacuten grabacioacuten e introduccioacuten de los datos hastacausas como que el dato procede de una poblacioacuten diferente de la que se pretende estudiar

Existen multitud de definiciones que nos permiten dibujarnos una idea de a queacute nos referimoscuando hablamos de valores atiacutepicos

ldquoUn dato atiacutepico es una observacioacuten que se desviacutea tanto del resto de observaciones como paracrear la sospecha de que fue creada por un mecanismo generador diferenterdquo - Hawkins (1980)

ldquoUn dato atiacutepico es una observacioacuten (o conjunto de observaciones) que son inconsistentes con elresto de datosrdquo - Barnett y Lewis (1996)

ldquoUn outlier es una observacioacuten que se encuentra fuera del patroacuten general de una distribucioacutenrdquo-Moore y McCabe (1999)

ldquoLos datos atiacutepicos pueden ser dependiendo de la circunstancia errores no deseados que puedenafectar negativamente al resultado o valiosas pepitas de informacioacuten inesperadardquo- Rousseeuw yHubert (2011)

Eliminar un dato de una muestra por haberlo considerado atiacutepico puede llevar a perder informacioacutenrelevante debido a una singularidad del mecanismo generador y a su vez incluir un dato atiacutepico en una

1

2 CAPIacuteTULO 1 INTRODUCCIOacuteN

muestra puede confundir los resultados Ambos casos alteran los anaacutelisis posteriores y pueden dirigira conclusiones incorrectas si se llegara a tomar la decisioacuten equivocada Por lo tanto la importanciareside en identificar de manera adecuada queacute datos son atiacutepicos y cuaacuteles no

Esta identificacioacuten seraacute de gran utilidad dado que permitiraacute tanto realizar mejores anaacutelisis comopoder interpretar sucesos relevantes en el contexto socio-econoacutemico gallego

El problema de la deteccioacuten de atiacutepicos es un tema ampliamente tratado en la literatura por loque nuestro trabajo consistiraacute en realizar un estudio comparativo de los meacutetodos maacutes comunes en laactualidad y plantear posibles mejoras

Uno de los criterios a los que le prestaremos mayor atencioacuten en este estudio seraacute a la sensibilidaddel meacutetodo dado que si este es muy sensible e identifica muchos candidatos como atiacutepicos no serviraacute degran ayuda Por otra parte si apenas sentildeala ninguacuten caso seraacute similar a no aplicar ninguna herramientade deteccioacuten

Para estudiar este comportamiento realizaremos un estudio de simulacioacuten en el que a traveacutes devalores atiacutepicos previamente identificados podremos analizar el comportamiento de cada meacutetodoAdemaacutes dado que trabajamos con un gran volumen de datos una caracteriacutestica que se les exigiraacute alos meacutetodos seraacute una raacutepida velocidad de ejecucioacuten

La deteccioacuten de datos atiacutepicos tiene aplicaciones en muchos aacutembitos deteccioacuten de operacionesfraudulentas en tarjetas de creacutedito solicitudes para preacutestamos de clientes potencialmente morososdeteccioacuten de intrusiones en redes de comunicacioacuten monitorizacioacuten de paraacutemetros de fabricacioacuten paradeteccioacuten de producciones defectuosas anomaliacuteas en monitorizaciones meacutedicas anaacutelisis electoraleslimpieza de datos prediccioacuten del tiempo o hasta en astronomiacutea donde un punto anoacutemalo puedeimplicar el descubrimiento de una nueva estrella

En este trabajo nos centraremos en datos reales provenientes de la paacutegina web del IGE recogidosen siete conjuntos

Conjunto 1 Viajeros noches y estancia media en establecimientos hoteleros y de turismo ruralen Espantildea Galicia y sus provincias Datos mensuales Los datos proceden del Instituto Nacio-nal de Estadiacutestica (INE) de la Encuesta de ocupacioacuten hotelera y la Encuesta de ocupacioacuten enalojamientos de turismo rural (httpwwwigeeuigebdtigeapidatos3476)

Conjunto 2 Poblacioacuten de 16 y maacutes antildeos por sexo grupos de edad y relacioacuten con la actividadeconoacutemica en Galicia Datos trimestrales Los datos proceden de la Encuesta de Poblacioacuten Activa(EPA) elaborada conjuntamente entre el INE y el IGE (httpwwwigeeuigebdtigeapidatos6356)

Conjunto 3 Contratos registrados seguacuten su modalidad Datos mensuales Esta informacioacuten proce-de de la Estadiacutestica de contratos registrados elaborada por el Servicio Puacuteblico de Empleo Estatal(SEPE) (httpwwwigeeuigebdtigeapidatos308)

Conjunto 4 Iacutendice de produccioacuten industrial general y por destino econoacutemico de los bienes en Ga-licia (Base 2015) Datos mensuales La informacioacuten procede del Iacutendice de Produccioacuten Industrialoperacioacuten estadiacutestica ejecutada por el INE (httpwwwigeeuigebdtigeapidatos9048)

Conjunto 5 Transacciones inmobiliarias por reacutegimen y tipo de vivienda Nuacutemero valor totaly valor medio Datos trimestrales La fuente de esta informacioacuten es el Ministerio de Fomento y

3

hace referencia a la compraventa de viviendas elevadas a escritura puacuteblica ante notario (httpwwwigeeuigebdtigeapidatos4052)

Conjunto 6 Bajas de demandas de empleo seguacuten geacutenero y duracioacuten de la demanda en Galiciay sus provincias Datos mensuales La fuente de esta informacioacuten es el SEPE y hace referenciaa las bajas que los servicios de empleo puacuteblico tuvieron debido a una colocacioacuten no hacer larenovacioacuten de la demanda en el periodo establecido o por otras causas (httpwwwigeeuigebdtigeapidatos1243)

Conjunto 7 Afiliaciones a la Seguridad Social uacuteltimo diacutea del mes en Galicia y sus provinciasDatos mensuales La informacioacuten procede del Ministerio de Seguridad Social y Migraciones yhace referencia a las personas trabajadoras que estaacuten en alta en la Seguridad Social (httpwwwigeeuigebdtigeapidatos4885)

Los motivos por los que se han escogido estos conjuntos obedece a diversas razones En primerlugar el maacutes importante incluir series en las que existe el conocimiento de que se presentan atiacutepicosA partir de ahiacute se ha conformado un conjunto de series que permitiesen recoger la mayor amalgamade naturalezas posibles que se presentan en las series que trata el IGE mercado laboral turismoconstruccioacuten o industria Seriacutean aacutembitos que se recogen a lo largo de la seleccioacuten de datos realizadaAdemaacutes se han incorporado series con distinta frecuencia de obtencioacuten tanto series mensuales comotrimestrales

En este trabajo se recoge una comparativa de meacutetodos los cuales se pueden englobar bajo dosvisiones de coacutemo abordar la identificacioacuten de anomaliacuteas en series de tiempo Por un lado existen losmeacutetodos cuyo mecanismo se fundamenta en modelos de series temporales que realizan un procesoiterativo para estimar el modelo integrando la posible influencia de observaciones atiacutepicas Por el otrouna visioacuten maacutes reciente se plantea a traveacutes de realizar un proceso de deteccioacuten en dos partes en laprimera se le aplica a la serie de tiempo un meacutetodo de descomposicioacuten para despueacutes aplicar un meacutetodode deteccioacuten de atiacutepicos sobre el residuo

Dado que ambos enfoques comparten un nexo comuacuten como es la modelizacioacuten de la serie de tiempoy la localizacioacuten de atiacutepicos las podemos tratar conjuntamente en dos capiacutetulos el Capiacutetulo 2 y elCapiacutetulo 3

En el Capiacutetulo 2 se estudian las propiedades de modelizacioacuten de cada meacutetodo La importancia deun buen meacutetodo de modelizacioacuten de series temporales reside en que cuanto mejor se consiga extraer elmecanismo generador de la serie de tiempo maacutes resaltaraacuten las observaciones atiacutepicas En el Capiacutetulo 3se describen los meacutetodos de deteccioacuten de atiacutepicos Estos dos capiacutetulos conforman la parte teoacuterica deltrabajo

Para estudiar el comportamiento de los diferentes meacutetodos se plantea un profundo estudio desimulacioacuten en el Capiacutetulo 4 en el que se utiliza el Iacutendice de Youden como herramienta discriminatoriaacerca de queacute meacutetodos ofrecen mejores resultados En el Capiacutetulo 5 se tratan los datos proporcionadospor el IGE a traveacutes de los meacutetodos que han presentado un mejor comportamiento en el estudio desimulacioacuten Para finalizar el Capiacutetulo 6 expone las conclusiones que hemos extraiacutedo a lo largo de larealizacioacuten de este trabajo

4 CAPIacuteTULO 1 INTRODUCCIOacuteN

Capiacutetulo 2

Modelizacioacuten de series temporales

21 Conceptos baacutesicos

En este apartado definiremos los elementos principales que rodean a las series de tiempo Para ellopodemos echar mano de infinidad de manuales dado que las mismas son objeto de estudio en multitudde campos desde las ciencias sociales y econoacutemicas hasta ramas que requieren de un bagaje muchomaacutes matemaacutetico En este trabajo haremos uso de Pentildea (2010) y Woodward Gray y Elliott (2017)

En la estadiacutestica baacutesica estamos acostumbrados a trabajar con una muestra donde las observacio-nes X1 X2 Xn son variables aleatorias independientes e ideacutenticamente distribuidas Sin embargocuando las muestras se extraen en base a instantes de tiempo es muy probable que las observacionesesteacuten correlacionadas entre si Este tipo de muestras con dependencia temporal se denominan series detiempo Es decir una serie de tiempo es una secuencia de observaciones ordenadas cronoloacutegicamente

Este tipo de datos se utilizan en muacuteltiples disciplinas algunos ejemplos podriacutean incluir desde elaacutembito econoacutemico como la evolucioacuten del Producto Interior Bruto (PIB) o del precio del petroacuteleo hastaaacutembitos como la meteorologiacutea midiendo la temperatura de una localidad durante un periacuteodo de tiempoo el aacutembito sanitario siguiendo la evolucioacuten de una enfermedad en un paciente

Uno de los principales inconvenientes a la hora de trabajar con series temporales son los datos atiacute-picos Estos datos atiacutepicos pueden tener dos naturalezas errores no deseados o pepitas de informacioacuten(Rousseeuw y Hubert 2011) Estas pepitas de informacioacuten pueden servirnos por ejemplo para locali-zar sucesos importantes como huelgas medidas de poliacutetica econoacutemica o desastres naturales (Goacutemez yTaguas 1995) Al igual que en el resto de campos de la estadiacutestica que en nuestro conjunto de datos seencuentren valores atiacutepicos puede llevarnos a incurrir en errores de especificacioacuten Como se mencionaen Chang Tiao y Chen (1988) es importante ser capaz de identificar estos sucesos para comprendermejor la estructura subyacente de la serie

Uno de los modelos maacutes comuacutenmente usado y utilizado como punto de partida en el anaacutelisisde series temporales es el modelo ARIMA Los modelos ARIMA ajustan los valores de la serie enbase a las observaciones previas y errores aleatorios con una estructura que le permite incluir tantocomponentes ciacuteclicos como estacionales Siendo Xtt una serie de tiempo un modelo ARIMA seriacuteaaquel que admite una representacioacuten

5

6 CAPIacuteTULO 2 MODELIZACIOacuteN DE SERIES TEMPORALES

φ(B)(1minusB)dXt = c+ θ(B)at

donde Xt es la observacioacuten t de la serie de tiempo B el operador retardo definido por BXt = Xtminus1φ(B) = (1minusφ1(B)minusφ2B

2minusminusφpBp) φ(B) = (1minusθ1Bminusθ2B2minusminusθqBq) cφ1 φ2 φpθ1 θ2 θp

son constantes d es el nuacutemero de diferencias necesarias para eliminar la tendencia de la serie at esruido blanco y p y q los oacuterdenes de los procesos autorregresivos (AR) y de medias moviles (MA)

Con esta representacioacuten del modelo ARIMA se puede deducir raacutepidamente que estos no son maacutes quela mezcla de los dos primeros modelos de series temporales formulados los modelos AR y los modelosMA Ademaacutes si el proceso que genera la serie de tiempo presenta la posibilidad de estar formado porcomponentes de largo periacuteodo temporal se debe hacer uso de los ARIMA estacional muacuteltiplicativoARIMA(pdq)x(PDQ) cuya representacioacuten seriacutea

φ(B)Φ(Bs)(1minusB)d(1minusBs)DXt = c+ θ(B)Θ(Bs)at

En esta nueva formulacioacuten D es el nuacutemero de diferenciaciones estacionales aplicadas para eliminarla componente estacional Φi y Θj las constantes respectivas a la parte estacional para i = 1 2 P yj = 1 2 Q con P igual al orden del proceso AR estacional y Q al orden del proceso MA estacional

Sin embargo la presencia de atiacutepicos puede llevar a un incorrecto ajuste de los paraacutemetros delmodelo debido a que se pueden ver sesgados por el efecto del atiacutepico La mala estimacioacuten de losparaacutemetros nos conduce a diversos errores dado que podemos no diseccionar bien la estructura dela serie como para entender su comportamiento Ademaacutes en el caso de que el atiacutepico se produzcaen la uacuteltima parte de la serie afectariacutea a las estimaciones futuras incurriendo en un error mayor deprediccioacuten

Por ello surgieron meacutetodos como X-13ARIMA-SEATS o TRAMO-SEATS que parten de los mo-delos ARIMA e introducen mejoras como la deteccioacuten y correccioacuten de atiacutepicos Estos meacutetodos fueronampliamente utilizados durante mucho tiempo para la modelizacioacuten de series temporales Sin embargoel desarrollo de la tecnologiacutea provocoacute la creacioacuten del Internet de las Cosas (Mahdavinejad et al 2018)un entorno en el que casi la totalidad de los objetos y personas estaacute conectado a internet dejandohuella de su comportamiento Las caracteriacutesticas de esta red provocaron un incremento enorme en lacreacioacuten y obtencioacuten de datos unas caracteriacutesticas para las cuales no estaban preparados estos meacutetodosdisentildeados para escalar a conjuntos de tamantildeo pequentildeo o mediano

Es aquiacute donde surge un nuevo enfoque para la deteccioacuten de valores atiacutepicos en series de tiempobasado en aplicar un proceso de descomposicioacuten y analizar los residuos Los procesos de descomposicioacutentienen por objetivo diseccionar una serie en tres componentes tendencia estacionalidad y residuo demodo que se pueda establecer un patroacuten de como se comporta En este trabajo el objetivo no es buscarel modelo maacutes preciso sino aquel que consiga trazar mejor la estructura subyacente de la serie de formaque resalte los posibles valores atiacutepicos en su componente residual y es por ello que estos modelosresultan de tanto intereacutes El primer meacutetodo basado en esta idea que recibioacute cierta repercusioacuten fue elpresentado por el equipo de Twitter (Hochenbaum Vallis y Kejariwal 2017) el cual fue maacutes tardeampliado en el paquete Anomalize de R (Dancho y Vaughan 2019)

Esta forma de proceder en dos partes descomposicioacuten maacutes deteccioacuten se debe a la idea de quevisualizar o localizar atiacutepicos en una serie es complicado debido a causas como la estacionalidad o

21 CONCEPTOS BAacuteSICOS 7

tendencia de la serie Aplicarle a la serie un proceso de descomposicioacuten permite extraer estas compo-nentes y resaltar las posibles anomaliacuteas A continuacioacuten en la Figura 21 mostramos un ejemplo deeste procedimiento utilizando uno de los meacutetodos que se emplearaacuten posteriormente en el trabajo STL

Figura 21 A la izquierda la serie referente al Nuacutemero Total de Afiliaciones a la Seguridad Social eluacuteltimo diacutea de mes en Pontevedra perteneciente al Conjunto 7 A la derecha los residuos obtenidos trasaplicarle la descomposicioacuten STL

Como se puede apreciar en la Figura 21 observar alguacuten comportamiento extrantildeo en la serie detiempo es complicado debido a las fluctuaciones que va sufriendo a lo largo de los antildeos Sin embargouna vez aplicado el proceso de descomposicioacuten y eliminado los efectos de estacionalidad y tendenciapodemos ver el efecto de la crisis del Covid-19 apareciendo en los uacuteltimos datos de la serie Esta crisisprovoca que los datos reales de esos meses disten mucho de los esperados lo que se traduce en fuertesincrementos en el tamantildeo del residuo

Lo interesante de estos meacutetodos es que los procesos de descomposicioacuten de series de tiempo soncapaces de analizar multitud de series de caracteriacutesticas muy diferentes y filtrarlas de tal modo que elproblema acabe residiendo en lo que aparentemente es un sencillo problema de deteccioacuten de valoresatiacutepicos en el caso univariante Mientras que los meacutetodos como X-13ARIMA-SEATS o TRAMO-SEATS se encuentran limitados en su disentildeo a trabajar solamente con series con frecuencias mensualeso trimestrales

Sin embargo Wilkinson (2017) resalta que el problema de la deteccioacuten de valores atiacutepicos en elcaso univariante es engantildeosamente sencillo lo cual puede llevarnos a cometer errores en la deteccioacutende atiacutepicos pese a haber realizado una buena descomposicioacuten de la serie Por ello en este trabajo seplantea un capiacutetulo dedicado a analizar las propiedades de diferentes meacutetodos de deteccioacuten

Por tanto en el trabajo coexisten dos mecanismos de deteccioacuten de atiacutepicos en series temporalesPor un lado los meacutetodos de ajuste de series temporales que incorporan la deteccioacuten y correccioacuten deatiacutepicos al modelo de modo automaacutetico Y por el otro aquellos meacutetodos de deteccioacuten de atiacutepicos cuyaidea se centra en aplicar un proceso de descomposicioacuten maacutes anaacutelisis del residuo

En la Seccioacuten 22 se describen los procesos de modelizacioacuten de series temporales utilizados y en elCapiacutetulo 3 se describen los procesos de deteccioacuten de atiacutepicos

8 CAPIacuteTULO 2 MODELIZACIOacuteN DE SERIES TEMPORALES

22 Meacutetodos de modelizacioacuten de series temporales

221 X-13ARIMA-SEATS

El meacutetodo X-13ARIMA-SEATS es la versioacuten actualizada y mejorada del modelo X-11 desarrolladopor Shiskin Young y Musgrave (1967) X-13ARIMA-SEATS fue creado por el Censo de los EstadosUnidos (US Census Bureau) y forma parte de una familia de modelos de ajuste para series temporalesque se han ido desarrollando y estaacuten disentildeados para trabajar con series econoacutemicas estacionales Unaexplicacioacuten completa del meacutetodo y de coacutemo ha de implantarse se puede encontrar en Time SeriesResearch Staff (2017)

Este modelo se basa en la estimacioacuten de lo que sus autores denominan modelos regARIMA Estosson modelos de regresioacuten con errores ARIMA En concreto la media de la serie estaacute descrita por unacombinacioacuten lineal de regresores y la matriz de covarianzas es la de un proceso ARIMA Se incluyenregresores para modelar efectos de calendario como festivos vacaciones o diacutea de la semana Ademaacutestambieacuten se incluyen otro tipo de regresores para modelar el efecto de las anomaliacuteas que se puedanpresentar El modo en que se aborda este campo lo trataremos en profundidad en el Capiacutetulo 3 conel resto de meacutetodos de deteccioacuten

El proceso de ajuste comienza por un pre-ajuste de la serie a traveacutes de eliminar el efecto determiniacutes-tico mediante un modelo de regresioacuten con errores ARIMA En el siguiente paso la serie pre-ajustada sedescompone en tendencia (t) estacionalidad (s) y residuo (i) Esta descomposicioacuten puede ser aditiva(y = t+s+i) multiplicativa (y = tlowastslowasti) log-aditiva (log(y) = log(t)+log(s)+log(i)) o pseudo-aditiva(y = t lowast (s+ iminus 1)) Este paso en el que se aplica el proceso de descomposicioacuten se basa en el uso delalgoritmo X11 que descompone la serie a traveacutes de filtros lineales La serie final ajustada debe estarlibre de estacionalidad y efectos de calendario

X-13ARIMA-SEATS estaacute implementado en la libreriacutea RJDemetra de R en la funcioacuten x13 y lasespecificaciones necesarias para llevar a cabo la deteccioacuten de atiacutepicos se tratan en el Capiacutetulo 3 juntocon la explicacioacuten del proceso de deteccioacuten

222 TRAMO-SEATS

El meacutetodo TRAMO-SEATS (Goacutemez y Maravall 1997) fue disentildeado por el Banco de Espantildea parael anaacutelisis de series de tiempo Esta herramienta estaacute formada por dos mecanismos La parte TRAMO(Time Series Regression with Arima noise Missing Observations and Outliers) y la parte SEATS(Signal Extraction in ARIMA Time Series)

Como se introduce en Goacutemez y Taguas (1995) el programa TRAMO puede ser utilizado inde-pendientemente de SEATS sin embargo SEATS ha sido disentildeado para trabajar conjuntamente conTRAMO Su finalidad es la de realizar un anaacutelisis detallado de series temporales ya que cuenta conmecanismos para realizar tareas de estimacioacuten prediccioacuten interpolacioacuten de modelos de regresioacuten convalores ausentes con errores ARIMA y correccioacuten de valores atiacutepicos El programa incluye variables deregresioacuten para modelizar los diacuteas de calendario que pueden influir en el comportamiento de la serie co-mo puede ser la Pascua y variables de intervencioacuten que permiten corregir el efecto de las observacionesatiacutepicas La idea en la que se basa el modelo es muy similar a la del modelo X-13ARIMA-SEATS

TRAMO elimina de la serie los efectos especiales identifica y elimina automaacuteticamente los efectos

22 MEacuteTODOS DE MODELIZACIOacuteN DE SERIES TEMPORALES 9

de varios tipos de atiacutepicos e interpola las observaciones ausentes Tambieacuten cuenta con un moacuteduloque permite la identificacioacuten automaacutetica de modelos herramienta que imitaron los desarrolladores deX-13ARIMA-SEATS y que en su momento le permitioacute relevar de tareas monoacutetonas a los analistasEste procedimiento de identificacioacuten automaacutetica estaacute basado en estimar primero las raiacuteces unitarias yutilizar despueacutes el Criterio de Informacioacuten Bayesiano (BIC ) para especificar un modelo ARMA a laserie diferenciada

Figura 22 Esquema de funcionamiento de TRAMO-SEATS (Goacutemez y Maravall 1997)

La Figura 22 (Goacutemez y Maravall 1997) muestra como se integran ambas partes TRAMO ySEATS para formar en conjunto el mecanismo completo de modelizacioacuten

SEATS fue disentildeado originalmente para desestacionalizar series temporales El programa descom-pone una serie que sigue un modelo ARIMA en varios componentes tendencia componente estacionalciclo y componente irregular La descomposicioacuten puede ser aditiva o multiplicativa La descomposicioacutenparte de la hipoacutetesis de ortogonalidad de los componentes que a su vez siguen modelos ARIMA Paraidentificar los componentes se requiere que excepto el irregular esteacuten limpios de ruido blanco De estemodo se maximiza la varianza de este uacuteltimo y al contrario la tendencia el componente estacional yel ciclo son lo maacutes estables posibles

El modelo tratado por SEATS es el de una serie integrada lineal con innovaciones gaussianas Estahipoacutetesis puede no ser cierta en muacuteltiples ocasiones pero siempre es necesario extraer un modelo espor ello que SEATS fue disentildeada para ser utilizada de forma conjunta con TRAMO

TRAMO-SEATS estaacute implementado en la libreriacutea RJDemetra de R en la funcioacuten tramoseats y las

10 CAPIacuteTULO 2 MODELIZACIOacuteN DE SERIES TEMPORALES

especificaciones necesarias para llevar a cabo la deteccioacuten de atiacutepicos se tratan en el capiacutetulo 3 juntocon la explicacioacuten del proceso de deteccioacuten

223 STL

STL es un proceso de filtrado para descomponer series de tiempo en tendencia estacionalidad yresiduo cuyo nombre se debe a sus siglas en ingleacutes Seasonal-Trend decomposition based on Loessintroducido por Cleveland Cleveland McRae y Terpenning (1990) El propoacutesito de este meacutetodo fue elde desarrollar un meacutetodo de descomposicioacuten de series de tiempo que cumpliese los siguientes requisitos

1 Disentildeo sencillo y uso inmediato

2 Flexibilidad a la hora de especificar las variaciones en la tendencia y estacionalidad

3 Poder descomponer series de tiempo con valores faltantes

4 Tendencia y estacionalidad robusta de modo que no se vea distorsionada por datos anoacutemalos

5 Raacutepida computacioacuten y faacutecil implementacioacuten incluso para series temporales largas

El procedimiento de STL consiste en una secuencia de operaciones de suavizado realizadas todasellas salvo una por el mismo suavizador loess El mecanismo consiste en dos bucles uno interno yotro externo

Cada vuelta del bucle interno consiste en un suavizado estacional que actualiza dicha componenteseguido de un suavizado de la tendencia que actualiza la componente asociada con la tendencia Porotra parte cada vuelta del bucle externo consiste en aplicarle una serie de pesos robustos al bucleinterno Estos pesos se utilizan en la siguiente vuelta del bucle interno para reducir la influencia de losdatos anoacutemalos

La aplicacioacuten de la estimacioacuten robusta seraacute necesaria cuando exista un conocimiento previo de quelos datos tienen un comportamiento no gaussiano que conduce a una variacioacuten transitoria extrema delo contrario se pueden omitir las iteraciones del bucle externo y STL consistiriacutea solamente en el bucleinterno

A diferencia de otros meacutetodos como TRAMO-SEATS o X-13ARIMA-SEATS STL puede tratarcualquier tipo de estacionalidad en vez de estar atado a estacionalidades mensuales o trimestrales Sucomponente estacional es capaz de cambiar a lo largo del tiempo y dicho cambio puede ser controladopor el usuario Lo mismo sucede con el suavizado de la componente relacionada con la tendencia Unode sus inconvenientes es que no opera si en la serie se encuentran valores faltantes

En R encontramos este meacutetodo bajo la funcioacuten stl a la cual solo habraacute que especificarle unparaacutemetro Dicho paraacutemetro es el relacionado con el suavizado de la componente estacional e indicaal mecanismo el nuacutemero de observaciones consecutivas a utilizar para estimar los valores de dichacomponente Se podriacutea introducir un valor numeacuterico si tenemos alguacuten indicio sobre el posible desarrollode la componente estacional sin embargo dado que vamos a aplicarlo a un gran nuacutemero de series elanaacutelisis individual seriacutea costoso La solucioacuten utilizada en este trabajo pasa por fijar este paraacutemetrocomo perioacutedico lo cual asume que la evolucioacuten de la componente estacional es ideacutentica a lo largo delos antildeos que se desarrolla la serie

22 MEacuteTODOS DE MODELIZACIOacuteN DE SERIES TEMPORALES 11

224 STR

STR es un meacutetodo de descomposicioacuten de series de tiempo presentado por Dokumentov y Hyndman(2015) Sus siglas se deben a su nombre en ingleacutes Seasonal-Trend decomposition procedure based onRegression similar a la idea de STL salvo que ahora en vez de basarse en loess lo hace en regresioacutenEn concreto seguacuten los autores STR es similar a la regresioacuten Ridge (Hoerl y Kennard 1970) y suversioacuten robusta Robust STR (Dokumentov y Hyndman 2015) se podriacutea relacionar con una regresioacutenLASSO (Tibshirani 1996)

La idea de su desarrollo se originoacute debido a que los autores consideran que a pesar de existir variosalgoritmos de descomposicioacuten de series de tiempo existen muchas caracteriacutesticas en ellas que dichosalgoritmos son incapaces de tratar Las principales deficiencias que encuentran son

Incapacidad para proporcionar un modelo estadiacutestico significativo y simple

Incapacidad (o dificultad) para calcular intervalos de confianza

Incapacidad para tener en cuenta regresores

Incapacidad para tener en cuenta estacionalidad fraccionada

Incapacidad para tener en cuenta muacuteltiples estacionalidades

Incapacidad para tener en cuenta estacionalidades complejas y regresores que afecten a los datosde un modo estacional

El objetivo con el que se desarrolloacute STR fue el de corregir estas deficiencias a la par que presentar unmeacutetodo claro geneacuterico simple y robusto si fuera necesario Para solucionar estas deficiencias enfocan ladescomposicioacuten como un problema a resolver a traveacutes de una regresioacuten cuantil o de miacutenimos cuadradosordinarios

De acuerdo a sus desarrolladores STR constituye el meacutetodo de descomposicioacuten de series de tiempomaacutes geneacuterico disponible en el momento de su publicacioacuten Sin embargo matizan una gran desventajaque presenta el meacutetodo y es su ineficiencia o la ralentizacioacuten que sufre el mecanismo a la hora de tratarcasos en los que se utilizan varios componentes o predictores estacionales

Uno de sus desarrolladores Rob J Hyndman es conocido por sus aportaciones en el campo delas series de tiempo y su posterior implantacioacuten en paquetes para el software R como el famosopaquete forecast En este caso tambieacuten ha colaborado en la implantacioacuten de STR con el paquete stR(Dokumentov y Hyndman 2018)

225 Twitter

En Hochenbaum et al (2017) se aborda el problema de deteccioacuten de valores atiacutepicos en series detiempo introduciendo la idea de descomposicioacuten maacutes deteccioacuten como hemos comentado en la introduc-cioacuten de esta seccioacuten El equipo de Twitter plantea en su artiacuteculo utilizar en un primer momento STLcomo meacutetodo de descomposicioacuten para obtener los residuos sin embargo a la hora de trabajar con estemeacutetodo encuentran una serie de inconvenientes Estos inconvenientes estariacutean provocados por ciertasanomaliacuteas espurias producidas en el residuo

12 CAPIacuteTULO 2 MODELIZACIOacuteN DE SERIES TEMPORALES

Para corregir esta situacioacuten optan por utilizar la mediana de la serie de tiempo para representar latendencia ldquoestablerdquo que despueacutes seraacute utilizada para calcular el residuo

De este modo afirman que reemplazando la tendencia con la mediana se eliminan las anomaliacuteasespurias o ilegiacutetimas del residuo Los mismos desarrolladores publicaron un paquete en la plataformaGitHub (Twitter Inc 2015) que nos permitiacutea hacer uso de este mecanismo sin embargo su manteni-miento cesoacute a finales de 2015 y el paquete fue eliminado de la plataforma CRAN en marzo de 2019 Elpaquete Anomalize (Dancho y Vaughan 2019) recoge este mecanismo y seraacute el paquete que utilizaremosen este trabajo para utilizar esta modificacioacuten del meacutetodo STL bajo la funcioacuten decompose_twitter

23 RESUMEN MEacuteTODOS DE MODELIZACIOacuteN DE SERIES TEMPORALES 13

23 Resumen meacutetodos de modelizacioacuten de series temporales

Meacutetodo Ventajas Contras

X-13ARIMA-SEATS(2017)

Capaz de tratar con valores fal-tantesIntegra diversos tipos de descom-posicioacutenRaacutepida velocidad de ejecucioacuten

Disentildeado para trabajar solo conseries mensuales o trimestrales

TRAMO-SEATS(1997) Capaz de tratar con valores fal-tantesIntegra diversos tipos de descom-posicioacutenRaacutepida velocidad de ejecucioacuten

Disentildeado para trabajar solo conseries mensuales o trimestrales

STL(1990) Puede tratar series de cualquierfrecuenciaRaacutepidoCuenta con versioacuten robusta

No admite valores faltantesCarece de flexibilidad cuando elperiacuteodo estacional es largo y seobserva mucho ruido en la serieAuacuten con su versioacuten robusta pue-de verse afectado por la influen-cia de los atiacutepicos

STR(2015) Puede tratar series de cualquierfrecuenciaCuenta con versioacuten robustaAdmite valores faltantesSensible a cambios de estaciona-lidad

No puede seguir cambios bruscosen la tendenciaExtremadamente lento en com-paracioacuten al resto de meacutetodos

Twitter(2017) Puede tratar series de cualquierfrecuenciaElimina anomaliacuteas espuacutereas en lacomponente residualRaacutepido

No admite valores faltantesNo cuenta con versioacuten robusta

Cuadro 21 Resumen de los meacutetodos de modelizacioacuten de series temporales

14 CAPIacuteTULO 2 MODELIZACIOacuteN DE SERIES TEMPORALES

Capiacutetulo 3

Deteccioacuten de valores atiacutepicos

31 Conceptos baacutesicos

El problema que supone en la estadiacutestica la presencia de valores atiacutepicos aparecioacute muy pronto EnHawkins (1980) mencionan que este problema pudo haber surgido ya en los siglos XVIII y XIX enencuestas estadiacutesticas que se realizaban Las primeras decisiones de queacute hacer con ellos se basaron encriterios puramente subjetivos en los que era el propio analista el que decidiacutea descartar una observacioacutensi pareciacutea anoacutemala respecto al resto de los datos

Posteriormente se comenzaron a plantear posibles soluciones para tratar el problema bajo uncriterio La primera de ellas fue la presentada por Peirce (1852) basada en lo que se podriacutea entendercomo un test de razoacuten de verosimilitud donde todos los valores que superasen el umbral determinadopor cσ seriacutean rechazados siendo c una constante a calcular y σ la desviacioacuten tiacutepica de la muestraVarios autores realizaron criacuteticas a este meacutetodo y propusieron su correccioacuten a este criterio una de ellasfue la de Chauvenet (1963) Esta pasaba por calificar a una observacioacuten como atiacutepico si su valor sesituaba fuera del intervalo definido por 1(4n) puntos de la distribucioacuten Normal siendo n el tamantildeode la muestra

En ese momento surgen diversas propuestas no muy relevantes que trataron de abordar dichoproblema hasta que surgioacute la llevada a cabo por Thompson (1935) Su estudio condujo a descubrir ladistribucioacuten nula de un residuo estudentizado

xi minus xs

donde xi es la observacioacuten sospechosa de ser atiacutepica x la media muestral y s la desviacioacuten tiacutepica de lamuestra A partir de esto pudo deducir un procedimiento de deteccioacuten de atiacutepicos que rechazariacutea unaproporcioacuten fija de todos los datos buenos y devolveriacutea una tabla con los valores criacuteticos adecuados

Esta idea supuso el desarrollo del test de Grubbs (1950) el cual utilizando la misma notacioacutenanterior basaba su regla en los momentos muestrales de una normal

G =max1leilen|xi minus x|

s

Grubbs (1950) asocioacute G con una distribucioacuten t con el objetivo de encontrar un maacuteximo y un miacutenimo

15

16 CAPIacuteTULO 3 DETECCIOacuteN DE VALORES ATIacutePICOS

para localizar atiacutepicos Esta idea fue posteriormente ampliada dando lugar al meacutetodo GESD (Rosner1983) el cual se detalla en la siguiente seccioacuten

Posteriormente se presentoacute una de las herramientas maacutes comuacutenmente utilizadas para la identifi-cacioacuten de atiacutepicos el boxplot introducido en Tukey (1977) Sin embargo el objetivo inicial no fue ladeteccioacuten de atiacutepicos sino como un meacutetodo para trazar una idea del intervalo en el que se encuentranla gran parte de nuestros datos Ademaacutes la forma en la que se construye provoca dos grandes incon-venientes No se puede aplicar a distribuciones sesgadas y dado que no incluye el tamantildeo muestral ensu formulacioacuten tenderaacute a etiquetar falsos atiacutepicos cuanto maacutes grande sea la muestra

A la par que se iban presentando estas ideas para la buacutesqueda de valores atiacutepicos en un conjuntode datos se fueron presentando mecanismos enfocados a las series de tiempo

Uno de los primeros aportes al tratamiento de datos atiacutepicos en series de tiempo fue propuestopor G E P Box y Tiao (1975) Sin embargo este meacutetodo solamente permitiacutea modelar el efecto de laobservacioacuten atiacutepica si se conociacutea de antemano el momento de la intervencioacuten por lo que no se podriacuteaconsiderar una herramienta de deteccioacuten sino maacutes bien una herramienta de intervencioacuten

Posteriormente se propusieron diversos meacutetodos para abordar el problema de la estimacioacuten demodelos ARIMA en series bajo esta circunstancia El primero de ellos fue el de Abraham y Box(1979) que se basaba en proponer un enfoque bayesiano para resolver el problema partiendo de ideassimilares a las que se habiacutean propuesto en otros contextos por autores como Tukey (1977) Otro meacutetodoque buscaba resolver tambieacuten el mismo problema fue el propuesto por Chang y Tiao (1983) cuya idease centraba en aplicar un proceso iterativo

Fue en este artiacuteculo (Chang y Tiao 1983) donde se propuso por primera vez un meacutetodo de deteccioacutene identificacioacuten de atiacutepicos Tsay (1986) propuso su versioacuten que se basaba en combinar el procesoiterativo presentado en Chang y Tiao (1983) con la funcioacuten de autocorrelacioacuten muestral extendidadesarrollada en Tsay y Tiao (1984) la cual permite eliminar la necesidad de determinar el orden dediferenciacioacuten para producir una serie estacionaria que modelar

En Chen y Liu (1993) se reconocen los numerosos aportes hechos en los anteriores artiacuteculos citadospero matiza que algunos problemas seguiacutean estando vigentes

a La presencia de atiacutepicos puede resultar en un modelo inapropiado

b Incluso si el modelo es el apropiado los atiacutepicos pueden seguir produciendo sesgo en el paraacutemetroestimado y por tanto afectar a la deteccioacuten del atiacutepico

c Algunos atiacutepicos no van a ser identificados debido a un problema de enmascaramiento

Su objetivo era presentar un meacutetodo que fuese capaz de resolver los problemas b y c de modo quese pudiese generalizar para aplicar a los cuatro tipos de atiacutepicos en series temporales que se habiacutean idointroduciendo Los cuatro tipos son

IO (atiacutepico innovativo) existe un atiacutepico innovativo en el momento t cuando la innovacioacuten en esepunto esteacute directamente provocada por una cantidad desconocida debido a un suceso imprevisto

AO (atiacutepico aditivo) diremos que se produce un atiacutepico aditivo si en el momento t la serie segenera de manera diferente al resto

32 MEacuteTODOS DE DETECCIOacuteN DE VALORES ATIacutePICOS 17

LS (cambio de nivel) existe un cambio de nivel si en el momento t la serie experimenta unincremento de todos sus valores A diferencia del resto tiene un efecto permanente sobre la serieuna vez aparece

TC (cambio temporal) similar al cambio de nivel solo que el efecto no es permanente y decreceexponencialmente con el tiempo

X-13ARIMA-SEATS y TRAMO-SEATS basan su proceso de deteccioacuten de atiacutepicos en meacutetodosinspirados en el artiacuteculo de Chen y Liu (1993) cuya idea se fundamenta en integrar un mecanismoiterativo disentildeado para trabajar con series de tiempo que localiza e integra los atiacutepicos al modelo Porotra parte en la siguiente seccioacuten introducimos los meacutetodos de deteccioacuten de atiacutepicos que acompantildeana los procesos de descomposicioacuten de series de tiempo estos son GESD Isolation Forest y HDoutliersEstos meacutetodos son desarrollos de los mecanismos e ideas tratados al comienzo de esta seccioacuten como elmeacutetodo Grubbs (Grubbs 1950)

32 Meacutetodos de deteccioacuten de valores atiacutepicos

321 X-13ARIMA-SEATS

El anaacutelisis de diagnoacutestico del modelo regARIMA se realiza a traveacutes del anaacutelisis de los residuos delmodelo estimado Para el apartado de anaacutelisis de valores atiacutepicos X-13ARIMA-SEATS se fundamentaen Chang y Tiao (1983) con extensiones y modificaciones tratadas en Bell (1983) y Otto y Bell (1990)donde los valores atiacutepicos pueden ser de tres de los cuatro tipos antes mencionados AO LS y TC

El enfoque que plantea este mecanismo de deteccioacuten es similar a la regresioacuten paso a paso procedi-miento de regresioacuten en el que se construye el modelo a traveacutes de ir antildeadiendo o eliminando variablespredictoras en base a criterios de informacioacuten

En este caso las variables candidatas para la regresioacuten son las AO LS y TC para todos los puntosen los que la deteccioacuten de atiacutepicos se realiza Es decir se calcula el t-estadiacutestico para ver la significa-tividad de cada tipo de atiacutepico en cada instante temporal se busca significatividad entre todos estost-estadiacutesticos y se antildeade la correspondiente variable de regresioacuten (AO LS o TC) al modelo con el finde corregir los efectos que producen estas observaciones atiacutepicas De este modo se identifica e introduceel efecto de un momento atiacutepico en el modelo Mientras se produce el proceso de deteccioacuten de atiacutepicosse utiliza un estimador robusto de la desviacioacuten residual estaacutendar 148lowastla mediana del valor absolutode la desviacioacuten residual

X-13ARIMA-SEATS antildeade dos variaciones a este meacutetodo El meacutetodo addone en el que cada vezque se antildeade al modelo un atiacutepico se lleva a cabo una re-estimacioacuten del modelo y el meacutetodo addallque re-estima el modelo solo cuando un nuacutemero de variables atiacutepicas han sido antildeadidas al modelo

Este meacutetodo estaacute implantado en R a traveacutes de la funcioacuten x13 del paquete RJDemetra Dicha funcioacutenrequiere de un paraacutemetro de especificacioacuten spec en que se concreta el modelo que queremos introducirEste paraacutemetro es el que nos ofrece diversas posibilidades de modelizacioacuten de la serie como se recogeen la Figura 31 entre ellas los efectos de calendario o los atiacutepicos que presente la serie Dado quebuscamos sucesos atiacutepicos en su sentido maacutes amplio vamos a omitir incluir los efectos de calendarioy solamente introducir la deteccioacuten automaacutetica de atiacutepicos Esto provoca que en nuestro trabajo la

18 CAPIacuteTULO 3 DETECCIOacuteN DE VALORES ATIacutePICOS

especificacioacuten que nos interesa y con la que hemos trabajado sea RSA3 La opcioacuten RSA3 permiteajustar automaacuteticamente un modelo ARIMA identificando y corrigiendo las posibles observacionesanoacutemalas El resto de modificaciones que permite introducir el paraacutemetro de especificacioacuten de la funcioacutenx13 se recogen en la Figura 31 Por ejemplo si estuvieacutesemos interesados en modelizar nuestros datosa traveacutes de un modelo ARIMA de liacuteneas aeacutereas observariacuteamos en la Figura 31 que tendriacuteamos queescoger la especificacioacuten RSA0 Si ahora quisieacuteramos antildeadirle a dicho modelo deteccioacuten de atiacutepicostendriacuteamos que cambiar el paraacutemetro de especificacioacuten a RSA1 y si ademaacutes tambieacuten nos interesamodelar los efectos de calendario sobre dicho modelo introduciriacuteamos la especificacioacuten RSA2 El restode especificaciones ya trabajan sobre el ajuste de un modelo ARIMA de un modo automaacutetico la maacutessencilla es la que utilizamos nosotros en este trabajo RSA3 la cual ajusta un modelo ARIMA deforma automaacutetica incluyendo la deteccioacuten de atiacutepicos Las especificaciones RSA4 y RSA5 incorporanrespecto a RSA3 modelizar los efectos de calendario La diferencia entre ellas se encuentra en queRSA4 incluye en el modelo los efectos de calendario a traveacutes de dos variables que representan losdiacuteas laborables y los fines de semana y RSA5 incluye dichos efectos a traveacutes de siete variables cadadiacutea de la semana y ambas incluyen el efecto de la Pascua en el calendario Por uacuteltimo se encuentrala especificacioacuten RSAfull que incluye el ajuste automaacutetico de un modelo ARIMA y de los efectos decalendario e incorpora la deteccioacuten de atiacutepicos Todas estas especificaciones son las que se detallan enla Figura 31 para profundizar maacutes en ellas se puede consultar el manual de la libreriacutea RJDemetra (laTente Michalek Palate y Baeyens 2020)

Figura 31 Paraacutemetro de especificaciones a introducir al modelo X-13ARIMA-SEATS

322 TRAMO-SEATS

El mecanismo de deteccioacuten de atiacutepicos que utiliza el programa TRAMO-SEATS aborda el problemacon la intencioacuten de resolver los problemas b y c introducidos en el inicio del Capiacutetulo 3 dado queentiende que estos no se han resuelto de un modo satisfactorio en Chen y Liu (1993) En Goacutemez yTaguas (1995) explican que aunque este meacutetodo funciona de forma bastante satisfactoria su solucioacutenpresenta una serie de deficiencias

1 Se estima varias veces por maacutexima verosimilitud exacta lo que es costoso

2 No utiliza residuos exactos

3 El algoritmo es excesivamente complicado

4 Las regresiones muacuteltiples no se hacen filtrando los datos y las columnas de la matriz por un filtroexacto como el filtro de Kalman sino que se utiliza un filtro condicional

32 MEacuteTODOS DE DETECCIOacuteN DE VALORES ATIacutePICOS 19

Por tanto se presenta un mecanismo que pretende subsanar estas deficiencias a la par que corregirlos problemas b y c mencionados en Chen y Liu (1993) Ademaacutes si se utiliza de forma secuencial juntocon el procedimiento de especificacioacuten automaacutetica del programa supone un procedimiento alternativoal de Tsay (1986)

Al igual que X-13ARIMA-SEATS TRAMO-SEATS estaacute implementado en la libreriacutea RJDemetra

de R en la funcioacuten tramoseats Dicha funcioacuten tambieacuten requiere de un paraacutemetro de especificacioacutenspec en el que se concreta el modelo que queremos introducir La utilidad y mecanismo sobre el quetrabaja este paraacutemetro es ideacutentico al explicado en la Seccioacuten 321 para el meacutetodo X-13ARIMA-SEATSpor lo que utilizaremos la especificacioacuten RSA3 Esta especificacioacuten incluye el ajuste automaacutetico de unmodelo ARIMA corrigiendo las posibles observaciones atiacutepicas

El resto de posibles especificaciones que se pueden incluir en el modelo se recogen en la Figura32 El significado de esta figura es equivalente al de la Figura 31 dado que ambos modelos TRAMO-SEATS y X-13ARIMA-SEATS estaacuten implementados en la misma libreria RJDemetra y compartenel mismo paraacutemetro de especificacioacuten en la funcioacuten que estima sus modelos en R

Figura 32 Paraacutemetro de especificaciones a introducir al modelo TRAMO-SEATS

323 GESD

Introducido por Rosner (1983) como una mejora al por entonces conocido ESD (Rosner 1975) porsus siglas en ingleacutes Extreme Studentized Deviate A pesar de que ESD contaba con buenas propiedadesante una amplia alternativa de atiacutepicos presentaba una serie de defectos que le conduciacutean a etiquetarmaacutes candidatos a atiacutepicos que el nuacutemero apropiado Esto provocoacute que se quedase obsoleto en favor desu actualizacioacuten GESD General Extreme Studentized Deviate

Los pasos que sigue son los siguientes

1 Decidir un maacuteximo nuacutemero de posibles candidatos a atiacutepicos r La recomendacioacuten es de consi-derar el 20 del tamantildeo muestral

2 Comenzar las iteraciones i = 1

3 Calcular Ri = maxt|ximinusx|s siendo xi una observacioacuten sospechosa de ser anoacutemala x la media

muestral y s la desviacioacuten estaacutendar de la muestra respectivamente

4 Eliminar la observacioacuten que maximice xi minus x

5 Calcular el siguiente valor criacutetico λi =(nminusi)tpnminusi+1radic

(nminus1minus1+t2pnminusiminus1)(nminusi+1)

donde tpnminusi+1 es una distribucioacuten t con n minus i minus 1 grados de libertad y p = 1 minus α2(nminusi+1 siendo

α la probabilidad de cometer errores de tipo I

20 CAPIacuteTULO 3 DETECCIOacuteN DE VALORES ATIacutePICOS

6 Pasar a la siguiente iteracioacuten repetir los pasos 2 a 5 hasta i = r quedando r definido en el paso1

7 El nuacutemero de atiacutepicos detectados se determina al encontrar el mayor i tal que Ri gt λi dondeRi se define en el paso 2 y λi en el paso 5

GESD es principalmente el test de Grubbs (Grubbs 1950) aplicado de forma secuencial sin embargoexisten unas pequentildeas diferencias que premian su comportamiento GESD realiza ajustes del valorcriacutetico en base al nuacutemero de atiacutepicos a ser estudiado algo que el test de Grubbs no hace Ademaacutessi existe efecto de enmascaramiento aplicar el test de Grubbs de forma secuencial produciriacutea unadetencioacuten demasiado temprana del algoritmo de deteccioacuten lo que impediriacutea localizar algunos atiacutepicos

Los estudios de simulacioacuten realizados para estudiar el comportamiento de GESD indican que elmeacutetodo es muy preciso cuando contamos con tamantildeos muestrales n gt 25 por lo que en nuestrotrabajo no tendremos problema Sin embargo debido a que es un meacutetodo iterativo seraacute maacutes costosocomputacionalmente a medida que se incrementen los tamantildeos muestrales y es algo a tener en cuentacomo posible freno al crecimiento futuro del mecanismo de deteccioacuten

En R podemos encontrar la funcioacuten gesd dentro del paquete Anomalize (Dancho y Vaughan 2019)

324 Isolation Forest

Isolation Forest o iForest es el meacutetodo presentado por Liu Ting y Zhou (2009) donde se tratael tema de deteccioacuten de atiacutepicos desde un punto de vista diferente Ese punto de vista se basa en dospropiedades relacionadas con la idea de queacute es un valor atiacutepico son la minoriacutea de un conjunto y tienenunos atributos muy diferentes a los de las observaciones normales Es decir las anomaliacuteas son pocas ydiferentes lo que las hace maacutes propensas a encontrarse aisladas del resto

Por esta razoacuten los autores presentan un meacutetodo basado en construir un aacuterbol que aiacutesle cada ob-servacioacuten de tal modo que los valores atiacutepicos se encontraraacuten en ramas maacutes proacuteximas a la raiacutez y losvalores normales se encontraraacuten en zonas maacutes profundas del aacuterbol Es por ello que iForest (Liu et al2009) se distingue del resto de mecanismos basados en modelos distancias o densidades

Figura 33 Idea sobre la que se sustenta el mecanismo de Isolation Forest

32 MEacuteTODOS DE DETECCIOacuteN DE VALORES ATIacutePICOS 21

En la Figura 33 se puede observar la idea sobre la que se rige este mecanismo Un punto normalxi requiere maacutes particiones para ser aislado Y el opuesto tambieacuten es cierto donde un punto anoacutemalox0 requiere menos particiones para ser aislado Por lo que se trata de calcular la ldquolongitud del caminordquoa ser aislado dado que los valores atiacutepicos tendraacuten caminos maacutes cortos que los de los valores normales

Para definir como se calcula la ldquolongitud del caminordquo es necesario definir primero el aacuterbol deaislamiento Isolation Tree El aacuterbol de aislamiento seriacutea toda la estructura de ramas que trocean elconjunto de datos La longitud del camino h(x) path length de un punto x se mediriacutea por tanto comoel nuacutemero de ramas a atravesar desde la raiacutez del aacuterbol al punto

Es necesario definir una puntuacioacuten de cuaacuten anoacutemala es una observacioacuten score para ello se intro-duce c(n) como la media de h(x) siendo E el operador esperanza dado el tamantildeo de la muestra nDe tal modo que

Cuando E(h(x))rarr c(n) scorerarr 05

Cuando E(h(x))rarr 0 scorerarr 1

Cuando E(h(x))rarr nminus 1 scorerarr 0

Haciendo uso de la puntuacioacuten anoacutemala que recibe cada punto score tenemos que

Si score es cercano a 1 la observacioacuten es atiacutepica

Si la observacioacuten presenta valores de score inferiores a 05 pueden ser calificadas como observa-ciones normales

Si todas las observaciones devuelven un valor score asymp 05 entonces la muestra entera carece deatiacutepicos

En el artiacuteculo fijan como atiacutepicos potenciales observaciones con score ge 06 en este trabajo somosmaacutes estrictos y fijamos el umbral en score ge 075 Esta decisioacuten se toma tras probar diferentes umbralesy observar el comportamiento del meacutetodo en el estudio de simulacioacuten y en los datos reales Otrosumbrales que se barajaron y descartaron por los resultados mostrados fueron score ge 07 por serdemasiado laxo y score ge 08 por ser demasiado estricto

En R existen dos libreriacuteas que implantan dicho meacutetodo una es la implantada por la empresa H20 lacual ha desarrollado el algoritmo HDoutliers utilizado en este trabajo Y la otra es la libreriacutea solitude(Srikanth 2017) la cual hemos usado para el desarrollo de este trabajo

325 HDoutliers

HDoutliers (Wilkinson 2017) es un algoritmo que se puede aplicar en multitud de escenarios posi-bles desde el maacutes sencillo que seriacutea el caso univariante hasta maacutes complejos como el multidimensionalo el espacial La idea sobre la que se desarrolla es la de buscar espacios entre los valores ordenadosmaacutes que en la de buscar valores extremos De los meacutetodos que se centran en la idea de buscar valoresextremos como por ejemplo el test de Grubbs y por tanto GESD el autor hace una criacutetica y es queestos utilizan medidas como la media muestral o la desviacioacuten tiacutepica las cuales no son robustas frentea valores atiacutepicos

22 CAPIacuteTULO 3 DETECCIOacuteN DE VALORES ATIacutePICOS

El concepto anterior se puede explicar de un modo muy sencillo a traveacutes de un ejemplo que se recogeen Wilkinson (2017) En los resultados a un examen al que se presentaron 100 alumnos obtenemos unapuntuacioacuten media de 50 y una desviacioacuten estaacutendar de 5 Si entre todas las notas un alumno obtuvo un100 y la siguiente mejor nota es un 65 se podriacutea sospechar que ese alumno es un genio o un tramposoPor otra parte si la nota perfecta se encuentra en el punto maacutes alto de una serie de notas que difieren5 puntos entre ellas ese alumno ya no seriacutea tan sospechoso Los test claacutesicos de valores atiacutepicos no soncapaces de diferir entre ambas situaciones

Figura 34 El algoritmo de HDoutliers aplicado sobre el ejemplo anterior (Wilkinson 2017)

En la Figura 34 se representa este ejemplo En el caso de la izquierda estariacuteamos en la situacioacutenen la que no se sospecha que se hayan producido trampas por parte de ninguacuten alumno y el meacutetodoHDoutliers no detectariacutea ninguacuten candidato a atiacutepico A la derecha tendriacuteamos la situacioacuten en la quesospechariacuteamos de que existe un alumno brillante o tramposo y el meacutetodo detectariacutea una situacioacutenatiacutepica como se sentildeala con el punto rojo

La solucioacuten de buscar espacios permite identificar valores inusuales tanto en el medio de las dis-tribuciones como en los extremos Para ello HDoutliers calcula la distancia al vecino maacutes cercanoDespueacutes ajusta una distribucioacuten exponencial a la cola superior de las distancias calculadas y calcula elvalor 1minusα siendo α la probabilidad de cometer un error tipo I superior de la funcioacuten de distribucioacutenacumulada Por lo que cada observacioacuten que se encuentre significativamente alejada del resto basadaen este punto de corte se etiquetaraacute como atiacutepica

El autor menciona que este meacutetodo difiere de aquellos que se basan en hacer un ranking de candi-datos a atiacutepicos como podriacutea ser Local Outlier Factor (Breunig Kriegel Ng y Sander 2000) o quelos etiquetan bajo un liacutemite arbitrario como seriacutea el caso de Isolation Forest (Liu et al 2009) dadoque pueden conducir a resultados inconsistentes Para ello lo que hace es asignar una probabilidad ala creencia de que estamos ante un atiacutepico

En R podemos encontrar este meacutetodo en la libreriacutea HDoutliers (Fraley y Wilkinson 2020)

33 RESUMEN MEacuteTODOS DE DETECCIOacuteN DE VALORES ATIacutePICOS 23

33 Resumen meacutetodos de deteccioacuten de valores atiacutepicos

Meacutetodo Ventajas Contras

X-13ARIMA-SEATS(2017)

Califica el tipo de atiacutepicoRaacutepida velocidad de ejecucioacuten

Basado en modelos ARIMA

TRAMO-SEATS(1997) Califica el tipo de atiacutepicoRaacutepida velocidad de ejecucioacutenIdea similar a X-13ARIMA-SEATS pero profundizando maacutesen el desarrollo del mecanismo dedeteccioacuten de atiacutepicos

Basado en modelos ARIMA

GESD(1983) Elimina parte de la incertidum-bre de que se produzca un efectode enmascaramiento

Utiliza medidas como la media ola desviacioacuten tiacutepica medidas quese pueden ver distorsionadas porvalores atiacutepicosEs un proceso iterativo lo queimplica mayor coste computacio-nal a medida que se incrementeel tamantildeo de datos

Isolation Forest(2009) Escalable a conjuntos de gran di-mensioacutenDisentildeo sencillo

El usuario tiene que determinarel umbral de atiacutepico lo cual pue-de ser un inconveniente a veces

HDoutliers(2017) Identifica valores inusuales tantoen el medio de las distribucionescomo en los extremosEscalable a conjuntos de gran di-mensioacutenAlta velocidad de ejecucioacuten

Tendencia a calificar un excesode observaciones como atiacutepicassin serlo

Cuadro 31 Resumen de los meacutetodos de deteccioacuten de atiacutepicos

24 CAPIacuteTULO 3 DETECCIOacuteN DE VALORES ATIacutePICOS

34 Meacutetodos de deteccioacuten de valores atiacutepicos en series tempo-

rales

Dado que se han introducido diversos meacutetodos con diferentes enfoques respecto a la resolucioacuten delproblema de deteccioacuten de atiacutepicos en series de tiempo hemos decidido incluir este apartado al finaldel contenido principalmente teoacuterico del trabajo para asiacute centrar los meacutetodos que se utilizaraacuten en lossiguientes capiacutetulos Este apartado recoge todos los meacutetodos los ya existentes y nuevas propuestasrealizadas por nosotros que se utilizaraacuten en este trabajo

Los meacutetodos existentes son los pertenecientes a las libreriacuteas RJDemetra (la Tente et al 2020) yAnomalize (Dancho y Vaughan 2019) La libreriacutea RJDemetra es la que nos dota de las funcionesnecesarias para utilizar los modelos X-13ARIMA-SEATS y TRAMO-SEATS Mientras que la libreriacuteaAnomalize se ha convertido en uno de los paquetes de referencia en R para el anaacutelisis de valores atiacutepicosen series de tiempo A traveacutes de ella podemos utilizar el meacutetodo tratado en Hochenbaum et al (2017)basado en una combinacioacuten de Twitter+GESD y tambieacuten la otra opcioacuten que proponen a traveacutes decombinar STL+GESD

A partir de la idea desarrollada por autores como Hochenbaum et al (2017) o libreriacuteas comoAnomalize Dancho y Vaughan (2019) proponemos nuevos meacutetodos de deteccioacuten de atiacutepicos paraseries temporales El fundamento bajo el que se sostiene esta propuesta es muy sencillo Estos meca-nismos se fundamentan en aplicarle a la serie de tiempo un proceso de descomposicioacuten para extraer laestacionalidad y la tendencia para posteriormente aplicarle un meacutetodo de deteccioacuten de valores atiacutepicosal residuo Dado que se han propuesto mejoras en ambos campos tanto en los meacutetodos de descompo-sicioacuten de series temporales como en el de deteccioacuten de valores atiacutepicos creemos que su combinacioacutenpodriacutea suponer una mejora a las ya establecidas Teniendo en cuenta que se ha introducido un meacutetodode descomposicioacuten de series temporales STR (Dokumentov y Hyndman 2015) y dos meacutetodos de de-teccioacuten de valores atiacutepicos Isolation Forest (Liu et al 2009) y HDoutliers (Wilkinson 2017) lo que seharaacute seraacute obtener todas las combinaciones posibles a traveacutes de mezclar los procesos de descomposicioacutencon los meacutetodos de deteccioacuten dando lugar a las siguientes combinaciones

STL +iForest

STL +HDoutliers

STL (Robusto) +iForest

STL (Robusto) +HDoutliers

Twitter +iForest

Twitter +HDoutliers

STR + GESD

STR + iForest

STR + HDoutliers

34 MEacuteTODOS DE DETECCIOacuteN DE VALORES ATIacutePICOS EN SERIES TEMPORALES 25

STR (Robusto) + GESD

STR (Robusto) + iForest

STR (Robusto) + HDoutliers

Estos son los nuevos meacutetodos propuestos en el trabajo de los cuales estudiaremos su comporta-miento en el proacuteximo capiacutetulo a traveacutes de un estudio de simulacioacuten junto a los meacutetodos ya existentesX-13ARIMA-SEATS TRAMO-SEATS STL+GESD y Twitter+GESD

Existen otros meacutetodos populares en la deteccioacuten de atiacutepicos para el software R los cuales no se hanincluido en este trabajo debido a que planteaban peores resultados que los finalmente introducidospero que creemos que merecen una mencioacuten debido a que pueden ser de intereacutes para alguien quepretenda profundizar en este campo

El primero de ellos seriacutea el meacutetodo de deteccioacuten de atiacutepicos IQR incluido en la libreriacutea AnomalizeDancho y Vaughan (2019) el cual se ha descartado debido a que sus combinaciones con STL y Twittersuponiacutean una menor precisioacuten que las combinaciones con GESD (Datacamp 2018) Los autores lo hanincluido en dicha libreriacutea debido a que su coste computacional es mucho menor que el de GESD porlo que se puede plantear situaciones en las que sea uacutetil

El segundo seriacutea la funcioacuten tsoutliers del paquete forecast (Hyndman 2020) la cual hemosdescartado por presentar un mecanismo muy similar al que presentariacutea la combinacioacuten STL+IQR

Por uacuteltimo tambieacuten se ha descartado la funcioacuten tso del paquete tsoutliers (de Lacalle 2019)El motivo se debe a que su autor enfoca el proceso de deteccioacuten basaacutendose en las mismas ideas que lasdesarrolladas en los modelos X-13ARIMA-SEATS y TRAMO-SEATS pero comenta que este meacutetodono estaacute capacitado para trabajar con grandes y heterogeacuteneos conjuntos de series temporales comoX-13ARIMA-SEATS o TRAMO-SEATS sino maacutes bien para pequentildeas aplicaciones de un modo semi-automaacutetico (de Lacalle 2015)

26 CAPIacuteTULO 3 DETECCIOacuteN DE VALORES ATIacutePICOS

Capiacutetulo 4

Estudio de simulacioacuten

En este capiacutetulo se realiza un estudio de simulacioacuten con el objetivo de comparar la eficiencia delos diferentes meacutetodos expuestos en el apartado anterior En primer lugar se presenta un resumendel procedimiento seguido para realizar las simulaciones en los diferentes escenarios y el motivo deproponer cada escenario A continuacioacuten se introduce el Iacutendice de Youden medida que nos permitiraacutediscernir queacute meacutetodos presentan mejor comportamiento en el estudio Finalmente se presentan losresultados del estudio y las conclusiones extraiacutedas del mismo

41 Escenarios

El procedimiento para obtener las series simuladas ha sido el siguiente

1 Simular una serie de tiempo sin atiacutepicos

2 A la observacioacuten correspondiente al instante t sumarle el valor w el cual indicaraacute el tamantildeo delatiacutepico

3 Si se quiere introducir maacutes de un atiacutepico repetir los pasos 1 y 2

Se van a proponer ocho escenarios a continuacioacuten pasamos a justificar la eleccioacuten de cada uno deellos Los escenarios 1 2 y 3 son los planteados en Chen y Liu (1993) artiacuteculo utilizado para analizar laeficiencia de los mecanismos de deteccioacuten que inspiran los meacutetodos aplicados en X-13ARIMA-SEATS yTRAMO-SEATS El Escenario 4 plantea el modelo de liacuteneas aeacutereas utilizado ampliamente para datoseconoacutemicos como los que se van a tratar posteriormente Por uacuteltimo los escenarios 5 a 8 proponendiversos modelos que han sido generados a partir de seleccionar una serie del IGE aleatoriamente yaplicarle la funcioacuten autoarima del paquete forecast (Hyndman 2020) A continuacioacuten se recogentodos los escenarios planteados en el Cuadro 41 Los escenarios 1 a 3 se simulan a traveacutes de la funcioacuten deR arimasim mientras que los escenarios 4 a 8 a traveacutes de la funcioacuten simulate del paquete forecast

27

28 CAPIacuteTULO 4 ESTUDIO DE SIMULACIOacuteN

Escenario Modelo Motivo

Escenario 1 AR(1) Propuesto en el estudio de simu-lacioacuten de Chen y Liu (1993)

Escenario 2 MA(1) Propuesto en el estudio de simu-lacioacuten de Chen y Liu (1993)

Escenario 3 ARIMA(011) Propuesto en el estudio de simu-lacioacuten de Chen y Liu (1993)

Escenario 4 ARIMA(011)x(011)12 Modelos de liacuteneas aeacutereas muyutilizado en lo referente a datoseconoacutemicos

Escenario 5 ARIMA(101)x(012)12 Modelo extraiacutedo de aplicar lafuncioacuten autoarima a una seriedel IGE escogida aleatoriamente

Escenario 6 ARIMA(111)x(101)12 Modelo extraiacutedo de aplicar lafuncioacuten autoarima a una seriedel IGE escogida aleatoriamente

Escenario 7 ARIMA(112)x(011)12 Modelo extraiacutedo de aplicar lafuncioacuten autoarima a una seriedel IGE escogida aleatoriamente

Escenario 8 ARIMA(011)x(100)12 Modelo extraiacutedo de aplicar lafuncioacuten autoarima a una seriedel IGE escogida aleatoriamente

Cuadro 41 Resumen de los escenarios propuestos para el estudio de simulacioacuten

42 IacuteNDICE DE YOUDEN 29

En cada escenario se estudian cuatro casos

Caso 1 Serie con 100 observaciones y un atiacutepico en t = 40 el tamantildeo del atiacutepico es w = 35

Caso 2 Serie con 100 observaciones y un atiacutepico en t = 40 el tamantildeo del atiacutepico es w = 45

Caso 3 Serie con 100 observaciones y un atiacutepico en t = 2 el tamantildeo del atiacutepico es w = 4

Caso 4 Serie con 300 observaciones y dos atiacutepicos en t1 = 40 y t2 = 180 el tamantildeo de los atiacutepicoses w1 = 4 y w2 = 5

En el Escenario 4 hubo que modificar los valores del tamantildeo del atiacutepico introducido en cada casodebido a que no se obteniacutean resultados significativos para ninguacuten meacutetodo Por lo que finalmente solopara el Escenario 4 los valores introducidos fueron de w = 55 para el Caso 1 w = 65 para el Caso2 w = 6 para el Caso 1 w1 = 6 y w2 = 7 para el Caso 4

Los Casos 1 y 2 buscan estudiar la sensibilidad del meacutetodo de deteccioacuten dado que en lo uacutenico quese diferencian es en el tamantildeo del atiacutepico El Caso 3 plantea una situacioacuten complicada al encontrarseel atiacutepico al principio de la serie es maacutes difiacutecil detectar ese valor por dos motivos que el meacutetodo notenga todaviacutea la informacioacuten suficiente o que el meacutetodo vea afectada su estimacioacuten por este valor tantemprano El Caso 4 busca estudiar el comportamiento cuando se presenta maacutes de un atiacutepico

42 Iacutendice de Youden

Para comparar los resultados de los diferentes meacutetodos en las simulaciones vamos a utilizar lo queen otros campos como la investigacioacuten meacutedica se denomina test de diagnoacutestico En este tipo de testse compara la realidad con la prediccioacuten del mecanismo para analizar su funcionamiento Estos testde diagnoacutestico se presentan en lo que se denominan matrices de confusioacuten como la presentada en elCuadro 44 La idea de la matriz de confusioacuten es la de comparar las predicciones realizadas con larealidad de tal modo que se pueda observar cuando la prediccioacuten y la realidad coinciden y cuando no

Realidad

Negativo(0) Positivo (1)

PrediccioacutenNegativo(0) Verdadero Negativo (VN) Falso Negativo (FN)

Positivo(1) Falso Positivo (FP) Verdadero Positivo (VP)

Cuadro 42 Matriz de confusioacuten

En nuestro trabajo Negativo (0) representariacutea una observacioacuten normal y Positivo (1) una obser-vacioacuten atiacutepica La diagonal de la matriz estaacute representada por aquellas observaciones en las que larealidad y la prediccioacuten coinciden Los Falsos Negativos (FN) son aquellas observaciones en que el

30 CAPIacuteTULO 4 ESTUDIO DE SIMULACIOacuteN

mecanismo determinoacute que la observacioacuten era normal pero en realidad era atiacutepica Por otra parte losFalsos Positivos (FP) suceden cuando el mecanismo dictamina que la observacioacuten es atiacutepica pero larealidad es que es una observacioacuten normal

Los Falsos Positivos son tambieacuten conocidos como Error Tipo I la probabilidad de aceptar la hipoacute-tesis nula siendo esta falsa Y los Falsos Negativos son conocidos como Error Tipo II la probabilidadde no rechazar la hipoacutetesis nula siendo esta falsa

El iacutendice de Youden (Youden 1950) nacioacute con motivo de poder comparar los resultados de doso maacutes mecanismos de deteccioacuten y asiacute tener la capacidad de discernir cual de ellos tiene una mejorcapacidad discriminatoria Es decir el propoacutesito final del iacutendice es el de resumir la matriz de confusioacutenen un valor que consiga representar el comportamiento del mecanismo de deteccioacuten de tal modo quedos mecanismos se puedan comparar directamente

Este iacutendice considera con la misma importancia tanto los falsos positivos como los falsos negativosUtilizando otro campo de ejemplo la medicina un falso negativo supondriacutea no tratar la enfermedadde un paciente dado que establecemos que estaacute sano cuando la realidad es que estaacute enfermo Por otraparte un falso positivo supondriacutea un coste como podriacutea ser el monetario financiando el tratamiento oel emocional de un paciente que la realidad es que estaacute sano

Trasladando ese ejemplo a nuestro trabajo un falso negativo supondriacutea no calificar como atiacutepicauna observacioacuten que lo es Esto provocariacutea que estariacuteamos asumiendo como normal un comportamientoen el aacutembito socio-econoacutemico gallego que no lo fue estariacuteamos incurriendo en errores en posterioresanaacutelisis o estariacuteamos obviando sucesos relevantes

Los falsos positivos tambieacuten suponen un coste aquiacute cada observacioacuten que el meacutetodo detecte comoatiacutepica supondraacute la intervencioacuten de un analista para tratar de entender queacute ha sucedido Si finalmenteel analista concluye que la observacioacuten no es atiacutepica se habraacute desperdiciado una serie de horas y equipoque podriacutean haber sido invertidos para otro fin De ambos escenarios surgen dos medidas

Sensibilidad V PV P+FN refleja la proporcioacuten de verdaderos positivos sobre el total de positivos

Especifidad V NV N+FP refleja la proporcioacuten de verdaderos negativos sobre el total de negativos

El iacutendice de Youden se construye a partir de ambas medidas del siguiente modo

J = Sensibilidad + Especifidadminus 1 =V P

V P + FN+

V N

V N + FPminus 1

El rango en el que se utiliza este iacutendice es de 0 a 1 donde 1 representariacutea que el mecanismo escapaz de diferenciar perfectamente las observaciones atiacutepicas de las normales y 0 todo lo contrario

Sin embargo teoacutericamente este rango puede variar de minus1 a 1 (Shan G 2015) los valores menoresque cero no se suelen contemplar dado que no tienen una interpretacioacuten significativa En nuestrotrabajo sucede esta situacioacuten en la que se presentan mecanismos con valores negativos y si bien deforma general esto no tiene explicacioacuten en otros campos en este estudio si

Explicaacutendolo a traveacutes de lo que podriacutea ser un posible resultado de un mecanismo de deteccioacuten

42 IacuteNDICE DE YOUDEN 31

Realidad

Negativo(0) Positivo(1)

PrediccioacutenNegativo(0) 96 1

Positivo(1) 3 0

Cuadro 43 Ejemplo de posible resultado de un mecanismo de deteccioacuten en el que el iacutendice de Youdenseriacutea negativo

En el ejemplo del Cuadro 42 se analiza una serie de tiempo con 100 observaciones entre las cualesse encuentra un valor atiacutepico El mecanismo de deteccioacuten habriacutea detectado 3 posibles atiacutepicos peroninguno de ellos es el atiacutepico real Si calculamos el iacutendice de Youden obtenemos

J =0

0 + 1+

96

96 + 3minus 1 = minus003

El resultado es negativo debido a que el mecanismo de deteccioacuten nos situacutea en una posicioacuten peorque no clasificar nada como atiacutepico Por lo que si 1 refleja que el mecanismo es capaz de diferenciarperfectamente las dos clases y 0 que el mecanismo no nos ayuda en absoluto a diferenciar entre ellasun valor menor que 0 en nuestro trabajo supondriacutea que el mecanismo seriacutea peor que no clasificar nadadado que nos infunde un mayor error sobre la realidad

Un resultado de cero implicariacutea que el mecanismo no es uacutetil ya que no es capaz de diferenciar entrelo que es atiacutepico y lo que no En el Cuadro 43 se recoge un posible resultado que conduciriacutea a estasituacioacuten Este ejemplo recoge una situacioacuten en la que en una serie de tiempo de 100 observaciones seencuentran 5 valores atiacutepicos sin embargo el meacutetodo no es capaz de detectar ninguna de ellas

Realidad

Negativo(0) Positivo(1)

PrediccioacutenNegativo(0) 95 5

Positivo(1) 0 0

Cuadro 44 Ejemplo de posible resultado de un mecanismo de deteccioacuten en el que el iacutendice de Youdenseriacutea cero

J =0

0 + 5+

95

95 + 0minus 1 = 0

Finalmente el resultado perfecto implicariacutea que el mecanismo de deteccioacuten es capaz de diferenciarde forma precisa aquello que es atiacutepico de lo que no lo es En el Cuadro 44 se recoge un ejemplo de

32 CAPIacuteTULO 4 ESTUDIO DE SIMULACIOacuteN

esta situacioacuten En este ejemplo se plantea una serie de tiempo que cuenta con 100 observaciones delas cuales 5 son atiacutepicas igual que en el ejemplo anterior sin embargo el meacutetodo ahora es capaz dedetectar cada una de ellas sin incurrir en Falsos Positivos ni Falsos Negativos

Realidad

Negativo(0) Positivo(1)

PrediccioacutenNegativo(0) 95 0

Positivo(1) 0 5

Cuadro 45 Ejemplo de posible resultado de un mecanismo de deteccioacuten en el que el iacutendice de Youdenseriacutea uno

J =5

0 + 5+

95

95 + 0minus 1 = 1

Podemos observar como los valores fuera de la diagonal de la matriz aquellos que representan losFalsos Negativos y Falsos Positivos son cero En la diagonal de la matriz se encuentran los resultadosque muestran que el mecanismo ha conseguido identificar de forma perfecta aquellas observacionesque son atiacutepicas Esta seriacutea la situacioacuten ideal la cual representariacutea que el mecanismo de deteccioacuten deatiacutepicos funciona de forma idoacutenea

43 Resultados

A continuacioacuten se presentan los resultados para los ocho escenarios introducidos recogidos en elCuadro 41 Al introducir una gran cantidad de meacutetodos escenarios y casos el anaacutelisis de los resultadosse presenta confuso por lo que se decidioacute introducir un coacutedigo de color para resaltar los tres mejores ytres peores resultados en cada caso Los mejores resultados se asocian al color verde siendo el verde maacutesintenso el mejor resultado y decayendo gradualmente la intensidad del color seguacuten empeora Por otraparte los peores resultados estaacuten asociados al color rojo siendo el rojo maacutes intenso el peor resultadoy decayendo la intensidad seguacuten el resultado mejora

Se pensoacute en introducir un gradiente de color por cada caso de modo que fuese variando de mejora peor Finalmente se descartoacute debido a que su contribucioacuten a la comprensioacuten de los resultados eramenor que la idea finalmente escogida de resaltar los tres mejores y los tres peores resultados

Los resultados obtenidos para el iacutendice de Youden se muestran a continuacioacuten A mayores en elanexo se han incluido tablas referentes a los resultados que han presentado los distintos meacutetodos enbase a otras dos medidas que tambieacuten han resultado de utilidad a la hora de escoger los mecanismosadecuados La primera de esas medidas es la sensibilidad la cual hemos definido en este apartado yla otra es el exceso la cual se define como la media de detecciones incorrectas por simulacioacuten y cuyosresultados estaacuten incluidos en el anexo correspondiente

43 RESULTADOS 33

Caso 1 Caso 2 Caso 3 Caso 4

X-13ARIMA-SEATS 0495 0853 0699 0490

TRAMO-SEATS 0655 0926 0803 0494

STL+HDoutliers 0561 0830 0562 0727

STL+GESD 0265 0589 0236 0531

STL+iForest 0632 0882 0632 0788

STL(ROB)+HDoutliers 0550 0790 0666 0707

STL(ROB)+GESD 0623 0862 0732 0752

STL(ROB)+iForest 0634 0873 0741 0748

Twitter+HDoutliers 0462 0725 0588 0616

Twitter+GESD 0303 0587 0426 0433

Twitter+iForest 0524 0797 0647 0657

STR+Hdoutliers 0603 0833 0595 0667

STR+GESD 0344 0649 0292 0448

STR+iForest 0670 0882 0675 0719

STR(ROB)+Hdoutliers 0534 0803 0630 0654

STR(ROB)+GESD 0379 0683 0456 0557

STR(ROB)+iForest 0619 0859 0695 0711

Cuadro 46 Resultados Escenario 1Iacutendice de Youden AR(1)

En el Cuadro 46 se recogen los resultados al Escenario 1 escenario en el que se simula un AR(1)igual al realizado por Chen y Liu (1993) Los resultados muestran que en los casos 1 2 y 3 TRAMO-SEATS ejerce un papel superior al resto buen comportamiento que desaparece en el Caso 4 casoen el que se introducen dos atiacutepicos Si analizamos conjuntamente los resultados de los cuatro casospodriacuteamos decir que los meacutetodos que reflejan un mejor comportamiento global en el escenario seriacuteanSTR+iForest y STL(Rob)+iForest

34 CAPIacuteTULO 4 ESTUDIO DE SIMULACIOacuteN

Caso 1 Caso 2 Caso 3 Caso 4

X-13ARIMA-SEATS 0504 0828 0645 0494

TRAMO-SEATS 0667 0913 0741 0494

STL+HDoutliers 0465 0721 0473 0680

STL+GESD 0217 0457 0147 0428

STL+iForest 0502 0781 0521 0713

STL(ROB)+HDoutliers 0457 0723 0576 0642

STL(ROB)+GESD 0516 0761 0651 0667

STL(ROB)+iForest 0519 0798 0660 0713

Twitter+HDoutliers 0457 0690 0587 0640

Twitter+GESD 0346 0627 0480 0486

Twitter+iForest 0506 0774 0658 0689

STR+HDoutliers 0580 0814 0566 0658

STR+GESD 0297 0601 0247 0449

STR+iForest 0626 0866 0647 0719

STR(ROB)+HDoutliers 0514 0780 0603 0644

STR(ROB)+GESD 0335 0627 0405 0520

STR(ROB)+iForest 0578 0836 0687 0709

Cuadro 47 Resultados Escenario 2 Iacutendice de Youden MA(1)

En el Cuadro 47 se recogen los resultados al Escenario 2 escenario en el que se simula un MA(1)igual al realizado por Chen y Liu (1993) Los resultados que se observan son similares a los extraiacutedos delEscenario 1 TRAMO-SEATS es claramente superior en los casos 1 2 y 3 pero su buen comportamientodesaparece ante el Caso 4 Por otra parte STR+iForest presenta un comportamiento maacutes homogeacuteneoencontraacutendose en tres de los cuatro casos entre los tres mejores resultados Lo mismo sucede con suversioacuten robusta En esta ocasioacuten la combinacioacuten STL+iForest solamente se encuentra entre las mejoresen el Caso 4

43 RESULTADOS 35

Caso 1 Caso 2 Caso 3 Caso 4

X-13ARIMA-SEATS 0921 0970 0926 0500

TRAMO-SEATS 0921 0971 0921 0500

STL+HDoutliers 0306 0502 0234 0435

STL+GESD 0088 0229 0050 0152

STL+iForest 0338 0575 0279 0451

STL(ROB)+HDoutliers 0252 0426 0287 0328

STL(ROB)+GESD 0287 0504 0369 0316

STL(ROB)+iForest 0291 0495 0329 0358

Twitter+HDoutliers 0061 0109 0124 0064

Twitter+GESD 0015 0027 0056 0025

Twitter+iForest 0077 0127 0167 0068

STR+HDoutliers 0400 0556 0342 0436

STR+GESD 0202 0365 0108 0230

STR+iForest 0441 0614 0385 0492

STR(ROB)+HDoutliers 0237 0391 0248 0268

STR(ROB)+GESD 0199 0381 0215 0254

STR(ROB)+iForest 0277 0451 0279 0289

Cuadro 48 Resultados Escenario 3 Iacutendice de Youden ARIMA(011)

En el Cuadro 48 se recogen los resultados al Escenario 3 escenario en el que se simula un ARI-MA(011) igual al realizado por Chen y Liu (1993) En este escenario existe una hegemoniacutea de X-13ARIMA-SEATS y TRAMO-SEATS los cuales presentan resultados superiores a los de cualquierotro meacutetodo La combinacioacuten STR+iForest es el tercer meacutetodo que a pesar de la diferencia con losotros dos presenta mejores resultados

36 CAPIacuteTULO 4 ESTUDIO DE SIMULACIOacuteN

Caso 1 Caso 2 Caso 3 Caso 4

X-13ARIMA-SEATS 0402 0592 0067 0480

TRAMO-SEATS 0540 0705 0071 0481

STL+HDoutliers -0003 -0004 0008 0000

STL+GESD -0002 -0001 0002 -0001

STL+iForest -0004 -0004 0008 0001

STL(ROB)+HDoutliers -0005 -0005 0025 0000

STL(ROB)+GESD -0039 -0026 0052 0002

STL(ROB)+iForest 0004 -0002 0026 0000

Twitter+HDoutliers 0000 -0002 -0001 0007

Twitter+GESD -0025 -0019 -0016 0003

Twitter+iForest 0000 -0001 0004 0016

STR+HDoutliers 0359 0417 -0004 0083

STR+GESD 0409 0445 -0006 0124

STR+iForest 0411 0472 -0005 0097

STR(ROB)+HDoutliers 0014 0006 0002 0039

STR(ROB)+GESD 0019 0017 0008 0075

STR(ROB)+iForest 0014 0005 0002 0021

Cuadro 49 Resultados Escenario 4 Iacutendice de Youden ARIMA(011)x(011)12

En el Cuadro 49 se recogen los resultados al Escenario 4 escenario en el que se simula el modelo deliacuteneas aeacutereas (G Box y Jenkins 1976) Este modelo es famoso por su uso en series socio-econoacutemicasPor ello cabriacutea esperar un buen comportamiento de los modelos disentildeados para este fin X-13ARIMA-SEATS y TRAMO-SEATS El resto de combinaciones presentan resultados poco consistentes

43 RESULTADOS 37

Caso 1 Caso 2 Caso 3 Caso 4

X-13ARIMA-SEATS 0265 0628 0176 0409

TRAMO-SEATS 0398 0747 0248 0432

STL+HDoutliers 0238 0469 0281 0125

STL+GESD 0091 0258 0158 0024

STL+iForest 0263 0531 0305 0134

STL(ROB)+HDoutliers 0265 0475 0343 0097

STL(ROB)+GESD 0375 0662 0452 0114

STL(ROB)+iForest 0304 0545 0388 0128

Twitter+HDoutliers 0243 0429 0352 0103

Twitter+GESD 0168 0376 0309 0057

Twitter+iForest 0266 0479 0381 0126

STR+HDoutliers 0656 0885 0231 0755

STR+GESD 0424 0769 0064 0567

STR+iForest 0720 0936 0277 0798

STR(ROB)+HDoutliers 0189 0326 0212 0523

STR(ROB)+GESD 0174 0317 0192 0665

STR(ROB)+iForest 0229 0364 0232 0588

Cuadro 410 Resultados Escenario 5 Iacutendice de Youden ARIMA(101)x(012)12

En el Cuadro 410 se recogen los resultados al Escenario 5 escenario en el que se simula un modeloARIMA (101)x(012)12 a partir de aplicarle la funcioacuten autoarima a una serie del IGE escogidaaleatoriamente En este escenario predomina la descomposicioacuten STR ya que son las combinacionesjunto a los tres meacutetodos de deteccioacuten de atiacutepicos GESD iForest y HDoutliers los meacutetodos quepresentan mejores resultados En concreto la combinacioacuten STR+iForest supone la combinacioacuten maacutesinteresante para este escenario

38 CAPIacuteTULO 4 ESTUDIO DE SIMULACIOacuteN

Caso 1 Caso 2 Caso 3 Caso 4

X-13ARIMA-SEATS 0331 0659 0354 0425

TRAMO-SEATS 0457 0764 0477 0438

STL+HDoutliers 0513 0790 0494 0624

STL+GESD 0229 0558 0188 0328

STL+iForest 0560 0833 0567 0648

STL(ROB)+HDoutliers 0507 0776 0592 0595

STL(ROB)+GESD 0528 0815 0663 0560

STL(ROB)+iForest 0559 0838 0661 0645

Twitter+HDoutliers 0239 0416 0355 0208

Twitter+GESD 0101 0229 0185 0100

Twitter+iForest 0279 0452 0383 0227

STR+HDoutliers 0520 0779 0436 0636

STR+GESD 0278 0584 0151 0385

STR+iForest 0596 0822 0494 0682

STR(ROB)+HDoutliers 0399 0666 0490 0545

STR(ROB)+GESD 0274 0524 0349 0404

STR(ROB)+iForest 0457 0731 0568 0579

Cuadro 411 Resultados Escenario 6 Iacutendice de Youden ARIMA(111)x(101)12

En el Cuadro 411 se recogen los resultados al Escenario 6 escenario en el que se simula un modeloARIMA (111)x(101)12 a partir de aplicarle la funcioacuten autoarima a una serie del IGE escogidaaleatoriamente En este escenario los meacutetodos que muestran unos mejores resultados son STR+iForesty STL+iForest Tambieacuten muestra un buen comportamiento el meacutetodo STL(Rob)+GESD basado enla combinacioacuten de la versioacuten robusta de la descomposicioacuten STL y el meacutetodo de deteccioacuten de atiacutepicosGESD

43 RESULTADOS 39

Caso 1 Caso 2 Caso 3 Caso 4

X-13ARIMA-SEATS 0332 0673 0347 0422

TRAMO-SEATS 0426 0765 0425 0453

STL+HDoutliers 0451 0693 0414 0503

STL+GESD 0180 0438 0142 0219

STL+iForest 0509 0759 0458 0527

STL(ROB)+HDoutliers 0416 0655 0468 0489

STL(ROB)+GESD 0452 0702 0549 0457

STL(ROB)+iForest 0484 0717 0541 0525

Twitter+HDoutliers 0009 0018 0037 0037

Twitter+GESD -0024 -0014 0011 0010

Twitter+iForest 0007 0016 0050 0050

STR+HDoutliers 0469 0719 0369 0582

STR+GESD 0228 0495 0122 0329

STR+iForest 0511 0774 0438 0635

STR(ROB)+HDoutliers 0282 0495 0347 0330

STR(ROB)+GESD 0224 0432 0301 0285

STR(ROB)+iForest 0343 0557 0407 0385

Cuadro 412 Resultados Escenario 7 Iacutendice de Youden ARIMA(112)x(011)12

En el Cuadro 412 se recogen los resultados al Escenario 7 escenario en el que se simula un modeloARIMA (112)x(011)12 a partir de aplicarle la funcioacuten autoarima a una serie del IGE escogidaaleatoriamente En este escenario los meacutetodos que muestran unos mejores resultados vuelven a serSTL+iForest STR+iForest y cercano a ellos STL(Rob)+iForest El resto de resultados no muestranninguacuten meacutetodo estable para los cuatro casos

40 CAPIacuteTULO 4 ESTUDIO DE SIMULACIOacuteN

Caso 1 Caso 2 Caso 3 Caso 4

X-13ARIMA-SEATS 0298 0636 0334 0434

TRAMO-SEATS 0419 0712 0427 0481

STL+HDoutliers 0425 0697 0389 0620

STL+GESD 0176 0415 0108 0351

STL+iForest 0480 0734 0423 0662

STL(ROB)+HDoutliers 0429 0675 0483 0607

STL(ROB)+GESD 0449 0718 0543 0584

STL(ROB)+iForest 0486 0749 0559 0675

Twitter+HDoutliers 0271 0463 0378 0350

Twitter+GESD 0127 0286 0189 0147

Twitter+iForest 0300 0504 0424 0356

STR+HDoutliers 0448 0692 0459 0564

STR+GESD 0203 0438 0167 0274

STR+iForest 0492 0769 0502 0600

STR(ROB)+Hdoutliers 0416 0680 0503 0548

STR(ROB)+GESD 0260 0523 0329 0366

STR(ROB)+iForest 0460 0751 0573 0587

Cuadro 413 Resultados Escenario 8 Iacutendice de Youden ARIMA(011)x(100)12

En el Cuadro 413 se recogen los resultados al Escenario 8 escenario en el que se simula un mode-lo ARIMA(011)x(100)12 a partir de aplicarle la funcioacuten autoarima a una serie del IGE escogidaaleatoriamente Los resultados maacutes consistentes para los cuatro casos estaacuten formados por las combina-ciones de STR+iForest la misma combinacioacuten pero con la versioacuten robusta de la descomposicioacuten STRSTR(Rob)+iForest y la combinacioacuten STL+iForest y tambieacuten su versioacuten robusta STL (Rob)+iForest

44 CONCLUSIONES 41

44 Conclusiones

Los resultados de las simulaciones muestran dos realidades Por un lado nos encontramos con losresultados asociados a los escenarios 1 2 3 y 4 En estos escenarios prevalece el comportamientode TRAMO-SEATS por encima de todos los meacutetodos sin lugar a duda incluso tambieacuten podriacuteamosincluir a X-13ARIMA-SEATS aquiacute Cabe recordar que ambos parten de las mismas ideas pero esTRAMO-SEATS el que implanta una serie de mejoras a los meacutetodos de deteccioacuten de atiacutepicos en losque se inspiran ambos esto se trata en el Capiacutetulo 3 Por otra parte en los escenarios 5 6 7 y 8 ya noexiste tal hegemoniacutea de TRAMO-SEATS frente al resto de meacutetodos de hecho nos encontramos unosresultados bastante maacutes variados

Entre los meacutetodos de descomposicioacuten (STLTwitter y STR) el que presenta mejores resultados enlas simulaciones es STR En todos los escenarios presenta resultados que lo posicionan entre los tresprimeros Esto nos da una idea de que estamos ante un meacutetodo flexible capaz de entender la estructurasubyacente de series de tiempo muy diversas y adecuar una respuesta realista del mecanismo generadorSus buenos resultados son seguidos muy de cerca por la descomposicioacuten STL Este es un resultado queconcuerda con lo esperado debido a que siendo los dos meacutetodos similares plantean la misma idea perola ejecutan de distinta forma STR fue creado con el objetivo de suponer una mejora a STL

En lo que respecta a los meacutetodos de deteccioacuten GESD HDoutliers y iForest podemos extraerconclusiones acerca del comportamiento de cada uno

GESD es un buen meacutetodo de identificacioacuten de atiacutepicos Obtiene buenos resultados faacutecil deaplicar y es sencillo entender su mecanismo algo muy uacutetil para personas que quieran realizaro transmitir un estudio sin ahondar profundamente en materia Por otra parte sus buenosresultados en la deteccioacuten correcta de atiacutepicos se ven eclipsados por su tendencia a clasificaraltos valores de observaciones como anoacutemalas incorrectamente Si estamos realizando un anaacutelisisindividual esto podriacutea no ser un problema dado que se podriacutea intervenir modificando alguno desus paraacutemetros y conseguir mejores resultados Sin embargo en este trabajo buscamos un meacutetodoque nos sirva como filtro para analizar multitud de series con la menor intervencioacuten posible porlo que descartamos dicho mecanismo

HDoutliers supone una mejora a GESD Muestra mejor comportamiento en todas las combina-ciones con los meacutetodos de descomposicioacuten GESD solo consigue igualar o superar ligeramentesus resultados incurriendo en calificar una gran cantidad de observaciones como atiacutepicas lo queprovoca un incremento en el nuacutemero de observaciones calificadas erroacuteneamente esto se puede veren las tablas de exceso introducidas en el anexo Sin embargo pese a suponer una mejora noes el meacutetodo que presenta mejores resultados

Isolation Forest o iForest es el meacutetodo de deteccioacuten maacutes consistente a lo largo de los escenariosy para cada meacutetodo de descomposicioacuten Consigue un equilibrio entre buenos valores de deteccioacutencorrecta y bajas tasas de atiacutepicos sentildealados incorrectamente justo lo que se busca en un meacutetodode deteccioacuten de atiacutepicos La idea de aacuterbol bajo la que se desarrolla su mecanismo es faacutecil decomprender cada observacioacuten recibe una puntuacioacuten entre 0 y 1 de cuaacuten anoacutemala es esto permiteflexibilizar la decisioacuten del analista con el umbral en el que fija un valor como atiacutepico En Liu et

42 CAPIacuteTULO 4 ESTUDIO DE SIMULACIOacuteN

al (2009) califican como observaciones sospechosas de ser atiacutepicas aquellas cuya puntuacioacuten seamayor a 06 en este trabajo somos maacutes estrictos y fijamos un umbral superior 075 Ademaacutessu disentildeo le permite escalar a conjuntos de gran tamantildeo y dimensioacuten (big data) por lo que nosupone un freno ante situaciones futuras

Parece interesante tambieacuten recordar que los mecanismos que emplean los meacutetodos X-13ARIMA-SEATS y TRAMO-SEATS fueron analizados en estudios que planteaban simulaciones como las quese realizan en los escenarios 1 2 y 3 Ademaacutes tambieacuten cabe esperar un buen comportamiento que seespera de ellos en un modelo tan comuacuten como el de liacuteneas aacutereas (Escenario 4) Sin embargo cuando seaplican fuera de estos escenarios en modelos maacutes complejos solamente TRAMO-SEATS consigue noquedarse atraacutes

La simulacioacuten nos permite descartar la descomposicioacuten Twitter la cual estaacute quizaacutes maacutes enfocadaa datos de alta frecuencia datos que se producen en frecuencias de tiempo mucho maacutes pequentildeascomo minutos en vez de datos mensuales como los planteados en el estudio de simulacioacuten por lo querefleja peores resultados en escenarios de este aacutembito Tambieacuten nos permite descartar el meacutetodo X-13ARIMA-SEATS dado que supone una idea similar pero menos desarrollada en lo que a deteccioacuten deatiacutepicos se refiere a TRAMO-SEATS Finalmente el meacutetodo GESD tambieacuten es descartado debido asus resultados en los que muestra un comportamiento inferior frente a HDoutliers meacutetodo que suponeuna mejora a la idea sobre la que se basa GESD

Por lo que se concluye que los meacutetodos maacutes adecuados para la continuacioacuten del trabajo son elmodelo TRAMO-SEATS las descomposiciones de series temporales STL y STR y los meacutetodos dedeteccioacuten de atiacutepicos HDoutliers y iForest lo que conforman los siguientes mecanismos de deteccioacutende atiacutepicos

TRAMO-SEATS

STL+HDoutliers

STL+iForest

STR+HDoutliers

STR+iForest

Capiacutetulo 5

Aplicacioacuten a datos reales

En este capiacutetulo se aplican los meacutetodos que han mostrado unos mejores resultados en el estudiode simulacioacuten a las bases de datos del IGE comentadas en Capiacutetulo 1 Estos meacutetodos son TRAMO-SEATS STL+HDoutliers STL+iForest STR+HDoutliers y STL+iForest De este modo podemosanalizar el comportamiento de los meacutetodos con datos reales y extraer nuevas conclusiones que nosurgiacutean en el estudio de simulacioacuten Esto se debe a que si bien el estudio de simulacioacuten planteaba unadiversidad de escenarios amplia nunca seraacuten suficientes para recoger la multitud de naturalezas quecaracteriza a las series socio-econoacutemicas

El anaacutelisis de las datos del IGE se haraacute en dos niveles Un primer nivel mostraraacute el comportamientoglobal del conjunto mediante cuatro medidas el total de atiacutepicos detectados por cada meacutetodo en elconjunto el maacuteximo nuacutemero de atiacutepicos que detecta el meacutetodo en una serie del conjunto el nuacutemero deseries que no presentan atiacutepicos y la media de atiacutepicos detectados por cada meacutetodo El segundo nivelmostraraacute un anaacutelisis maacutes especiacutefico donde se analizaraacute el comportamiento de los meacutetodos respecto auna serie escogida del conjunto

Para finalizar el capiacutetulo introducimos una herramienta graacutefica disentildeada con el objetivo de eliminarla mayor incertidumbre posible que acompantildea a un campo como el de la deteccioacuten de valores atiacutepicosy analizamos su comportamiento

51 Anaacutelisis Series IGE

Los conjuntos utilizados para este trabajo han pasado primero por un proceso de filtrado en el quese han eliminado todas las series que presentan menos de 24 observaciones o maacutes de 24 ceros entre susobservaciones De este modo conseguimos quedarnos con series que recogen la informacioacuten suficientepara trabajar con ellas

A continuacioacuten se muestra el total de series perteneciente a cada conjunto

43

44 CAPIacuteTULO 5 APLICACIOacuteN A DATOS REALES

Conjunto 1 Conjunto 2 Conjunto 3 Conjunto 4 Conjunto 5 Conjunto 6 Conjunto 7

Pre-filtrado 108 72 55 42 162 165 55

Post-filtrado 84 60 50 42 90 165 47

Cuadro 51 Nuacutemero de series de tiempo perteneciente a cada conjunto antes y despueacutes del proceso defiltrado

Ademaacutes con el objetivo de capturar la influencia del Covid19 sobre las series de tiempo se procedea dividir el estudio en dos partes La primera analiza las series con datos hasta 2019 si el conjuntopresenta datos de frecuencia mensual esta fecha seraacute diciembre de 2019 por otra parte si el conjuntopresenta datos de frecuencia trimestral esta fecha seraacute el cuarto trimestre de 2019 La segunda analizalas series incluyendo el uacuteltimo dato actualizado el cual variacutea dependiendo del conjunto Los conjuntoscon datos trimestrales incluyen hasta el primer trimestre del 2020 mientras que los conjuntos condatos mensuales incluyen como uacuteltima actualizacioacuten fechas comprendidas entre abril y junio de 2020por lo que dicha fecha se concretaraacute en el momento que se analiza dicho conjunto Respecto a la fechade inicio de las series variacutea dependiendo del conjunto por lo que tambieacuten se especificaraacute en el iniciodel anaacutelisis del mismo

Para medir la influencia del Covid lo que se haraacute seraacute calcular la tasa de variacioacuten del total deatiacutepicos detectados entre ambos escenarios las series hasta 2019 y las series actualizadas al uacuteltimodato existente de 2020 la cual calcularemos como

Tasa de variacioacuten =

(Total atiacutepicos serie completaTotal atiacutepicos serie hasta 2019

minus 1

)lowast 100

Conjunto 1 (httpwwwigeeuigebdtigeapidatos3476)

Series de datos mensuales que contienen la informacioacuten de los viajeros noches y estancia media enestablecimientos hoteleros y de turismo rural en Espantildea Galicia y sus provincias Los datos de esteconjunto comienzan en enero de 1999 y finalizan en mayo de 2020

51 ANAacuteLISIS SERIES IGE 45

TRAMO -

SEATS

STL +

HDoutliers

STL +

iForest

STR +

HDoutliers

STR +

iForest

Atiacutepicos detectados 327 176 111 136 142

Max nuacutemero atip serie 17 11 3 8 4

Series con 0 atiacutepicos 13 20 11 23 3

Media de atiacutepicos detec 389 210 132 162 169

Cuadro 52 Resultados para el Conjunto 1 con datos hasta diciembre de 2019

Los resultados del Cuadro 52 se producen para un total de 18816 observaciones que muestra elconjunto con datos hasta diciembre de 2019 Ahora vamos a estudiar los resultados de forma quecada serie esteacute formada por el uacuteltimo dato actualizado y a realizar una comparacioacuten entre ambosescenarios En esta serie el uacuteltimo dato actualizado es mayo de 2020 lo que conforma un total de19172 observaciones

TRAMO -

SEATS

STL +

HDoutliers

STL +

iForest

STR +

HDoutliers

STR +

iForest

Atiacutepicos detectados 457 243 170 264 204

Max nuacutemero atip serie 17 11 4 15 5

Series con 0 atiacutepicos 1 6 1 10 3

Media de atiacutepicos detec 544 289 202 314 243

Cuadro 53 Resultados para el Conjunto 1 con datos hasta mayo de 2020

46 CAPIacuteTULO 5 APLICACIOacuteN A DATOS REALES

TRAMO -

SEATS

STL +

HDoutliers

STL +

iForest

STR +

HDoutliers

STR +

iForest

Hasta 2019 327 176 111 136 142

Hasta mayo 2020 457 243 170 264 204

Tasa de variacioacuten 3976 3807 5315 9412 4366

Cuadro 54 Total de atiacutepicos detectados por cada meacutetodo hasta diciembre de 2019 y abril 2020 y tasade variacioacuten que produce el efecto del Covid en el Conjunto 1

En el Cuadro 54 podemos ver como el efecto del Covid sobre el conjunto es muy notorio algoque cabriacutea esperar dado que estamos tratando series relacionadas con el Turismo en Galicia uno delos sectores maacutes afectados por la crisis del Covid El Cuadro 53 incorpora datos hasta mayo 2020lo que supone solamente un crecimiento del 189 del total de datos Sin embargo el crecimientoque experimenta el total de atiacutepicos detectado es muy superior en el caso maacutes suave representa uncrecimiento de maacutes del 38 llegando a suponer para alguacuten meacutetodo el 94

A continuacioacuten vamos a analizar un caso concreto de una serie del conjunto Hemos escogido laserie que hace referencia al nuacutemero de viajeros residentes en Espantildea hospedados en establecimientosde turismo rural en Espantildea El motivo de su eleccioacuten es que es la serie que provoca un mayor nuacutemerode atiacutepicos en el Cuadro 52 un total de 17 observaciones atiacutepicas sentildealadas por el meacutetodo TRAMO-SEATS

Figura 51 Serie de tiempo referente al nuacutemero de viajeros residentes en Espantildea hospedados en esta-blecimientos de turismo rural en Espantildea

La Figura 51 recoge la serie de tiempo referente al nuacutemero de viajeros residentes en Espantildea hos-

51 ANAacuteLISIS SERIES IGE 47

pedados en establecimientos de turismo rural en Espantildea La liacutenea vertical roja representa el comienzodel antildeo 2020 Observando dicha figura y centraacutendonos en la serie hasta 2019 nos encontramos con unaserie con mucha volatilidad debido al fuerte caraacutecter estacional que posee un sector como el turismoy con una ligera tendencia creciente que se estanca ligeramente en los antildeos posteriores a la crisis eco-noacutemica de 2011 para despueacutes continuar en aumento Sin embargo no parece que se encuentren valoresatiacutepicos en dicha serie La combinacioacuten STR+HDoutliers tambieacuten sentildeala un elevado nivel de atiacutepicosseis en total que se reduce con STR+iForest a tres posibles atiacutepicos Finalmente STL+HDoutliers ySTL+iForest coinciden en sentildealar un atiacutepico agosto de 2019

Si ahora observamos los resultados para la serie completa podemos comprobar que los resultadoscambian bruscamente con la introduccioacuten de cuatro nuevos datos enero febrero marzo y abril de2020 Ahora el meacutetodo TRAMO-SEATS sentildeala cuatro fechas de las que solo dos coinciden con lassentildealadas anteriormente Las combinaciones STL+HDoutliers y STL+iForest mantienen como atiacutepicoagosto de 2019 y antildeaden febrero marzo y abril 2020 y marzo y abril 2020 respectivamente Y ahorason las combinaciones STR+HDoutliers y STR+iForest las que sentildealan uacutenicamente agosto de 2019

Es interesante observar el comportamiento de los cinco meacutetodos en esta serie TRAMO-SEATS ylas combinaciones basadas en el proceso de descomposicioacuten STR soliacutean ser las que mejores resultadospresentaban sin embargo en este ejemplo son los meacutetodos basados en la descomposicioacuten STL que sibien presentaron buenos resultados en la simulacioacuten tendiacutean a ir por detraacutes de TRAMO-SEATS y losmeacutetodos basados en la descomposicioacuten STR los que presenta un comportamiento maacutes acorde con loque sucede en la serie De hecho son los meacutetodos basados en la descomposicioacuten STL los uacutenicos quesentildealan como atiacutepica la observacioacuten de abril 2020 la cual es la uacutenica que tiene un valor de 0 y esclaramente atiacutepica

La Figura 52 representa los atiacutepicos detectados por el meacutetodo STL+HDoutliers el cual es el meacutetodoque mejor comportamiento muestra para esta serie

Figura 52 Serie de tiempo referente al nuacutemero de viajeros residentes en Espantildea hospedados en esta-blecimientos de turismo rural en Espantildea analizada por el meacutetodo STL+HDoutliers

En la Figura 53 se muestran los resultados para la misma serie por el resto de meacutetodos utilizadosSTL+iForest STR+HDoutliers STR+iForest y TRAMO-SEATS

48 CAPIacuteTULO 5 APLICACIOacuteN A DATOS REALES

Figura 53 Serie de tiempo referente al nuacutemero de viajeros residentes en Espantildea hospedados en esta-blecimientos de turismo rural en Espantildea analizada por STL+iForest STR+HDoutliers STR+iForesty TRAMO-SEATS

Conjunto 2 (httpwwwigeeuigebdtigeapidatos6356)

Series de datos trimestrales acerca de la poblacioacuten de 16 y maacutes antildeos desglosados por sexo gruposde edad y relacioacuten con la actividad econoacutemica en Galicia Los datos de este conjunto comienzan en elprimer trimestre de 1996 y finalizan en el primer trimestre de 2020

TRAMO -

SEATS

STL +

HDoutliers

STL +

iForest

STR +

HDoutliers

STR +

iForest

Atiacutepicos detectados 56 70 61 62 66

Max nuacutemero atip serie 5 6 3 5 3

Series con 0 atiacutepicos 28 29 18 26 14

Media de atiacutepicos detec 093 117 102 103 110

Cuadro 55 Resultados para el Conjunto 2 con datos hasta el cuarto trimestre de 2019

Los resultados del Cuadro 55 se producen para un total de 5760 observaciones que muestra elconjunto con datos hasta el cuarto trimestre de 2019 Ahora vamos a estudiar los resultados de formaque cada serie esteacute formada por el uacuteltimo dato actualizado y a comparar ambos escenarios En estaserie el uacuteltimo dato actualizado es el primer trimestre de 2020 lo que conforma un total de 5820

51 ANAacuteLISIS SERIES IGE 49

observaciones

TRAMO -

SEATS

STL +

HDoutliers

STL +

iForest

STR +

HDoutliers

STR +

iForest

Atiacutepicos detectados 54 107 62 68 66

Max nuacutemero atip serie 5 45 3 4 3

Series con 0 atiacutepicos 28 30 15 20 12

Media de atiacutepicos detec 090 178 103 113 110

Cuadro 56 Resultados para el Conjunto 2 con datos hasta el primer trimestre de 2020

TRAMO -

SEATS

STL +

HDoutliers

STL +

iForest

STR +

HDoutliers

STR +

iForest

Hasta 2019 56 70 61 62 66

Hasta mayo 2020 54 107 62 68 66

Tasa de variacioacuten -357 5286 164 968 000

Cuadro 57 Total de atiacutepicos detectados por cada meacutetodo hasta el cuarto trimestre de 2019 y primertrimestre de 2020 y tasa de variacioacuten que produce el efecto del Covid en el Conjunto 2

En el Cuadro 57 podemos ver como el efecto del Covid sobre el conjunto es mucho menor que enlos datos del Conjunto 1 Esto se debe a la naturaleza trimestral de los datos por lo que situando lainfluencia del Covid en el contexto gallego a finales de marzo de 2020 su impacto es maacutes suave sobrelos datos Seriacutea interesante en el futuro ver que sucede con este conjunto una vez se antildeadan los datosdel segundo trimestre

A continuacioacuten vamos a analizar un caso concreto de una serie del conjunto Hemos escogido laserie que recoge los datos de hombres mayores de 55 antildeos y que forman parte de la poblacioacuten ocupada

En la Figura 54 se muestra la serie de tiempo referente a los hombres mayores de 55 antildeos queforma parte de la poblacioacuten ocupada La recta vertical roja diferencia los dos escenarios que estudiamosla serie hasta el cuarto trimestre de 2019 y la serie hasta el primer trimestre de 2020-

50 CAPIacuteTULO 5 APLICACIOacuteN A DATOS REALES

Figura 54 Serie de tiempo referente hombres mayores de 55 antildeos y que forman parte de la poblacioacutenocupada

El uacutenico dato que las diferencia el primer trimestre de 2020 sigue con lo que cabriacutea esperar Y losmeacutetodos de deteccioacuten de atiacutepicos concuerdan con lo que observamos no existen atiacutepicos ni antes nidespueacutes excepto en un caso Ahora son los meacutetodos basados en el proceso de descomposicioacuten STL losque sentildealan una fecha que parece discrepar con la realidad

En la serie con valores hasta 2019 son ambas combinaciones STL+HDoutliers y STL+iForestlas que sentildealan como posible atiacutepico julio 2013 Si nos trasladamos a la serie completa uacutenicamenteSTL+iForest sigue manteniendo ese posible atiacutepico mientras que STL+HDoutliers lo corrige Esta si-tuacioacuten en las que solo un meacutetodo sentildeala una fecha nos lleva a dudar de que realmente esta observacioacutensea atiacutepica

A continuacioacuten mostramos la serie referente a los hombres mayores de 55 antildeos y que forman partede la poblacioacuten ocupada analizada por el uacutenico meacutetodo que detecta atiacutepicos para la serie completaSTL+iForest

Figura 55 Serie de tiempo referente hombres mayores de 55 antildeos y que forman parte de la poblacioacutenocupada analizada por STL+iForest

51 ANAacuteLISIS SERIES IGE 51

Conjunto 3 (httpwwwigeeuigebdtigeapidatos308)

Series de datos mensuales acerca de contratos registrados seguacuten la modalidad del contrato Losdatos de este conjunto comienzan en enero de 1999 y finalizan en mayo de 2020

TRAMO -

SEATS

STL +

HDoutliers

STL +

iForest

STR +

HDoutliers

STR +

iForest

Atiacutepicos detectados 193 126 98 146 98

Max nuacutemero atip serie 9 14 5 10 4

Series con 0 atiacutepicos 5 9 1 7 2

Media de atiacutepicos detec 386 252 196 292 196

Cuadro 58 Resultados para el Conjunto 3 con datos hasta diciembre 2019

El Cuadro 58 recoge los resultados que se producen para un total de 12600 observaciones quemuestra el Conjunto 3 con datos hasta diciembre de 2019 Ahora vamos a estudiar los resultados deforma que cada serie esteacute conformada por el uacuteltimo dato actualizado y a realizar una comparativaentre ambas En esta serie el uacuteltimo dato actualizado es mayo de 2020 lo que conforma un total de12850 observaciones

TRAMO -

SEATS

STL +

HDoutliers

STL +

iForest

STR +

HDoutliers

STR +

iForest

Atiacutepicos detectados 242 144 107 153 121

Max nuacutemero atip serie 13 8 5 10 4

Series con 0 atiacutepicos 1 6 0 7 1

Media de atiacutepicos detec 484 288 214 306 242

Cuadro 59 Resultados para el Conjunto 3 con datos hasta mayo de 2020

52 CAPIacuteTULO 5 APLICACIOacuteN A DATOS REALES

TRAMO -

SEATS

STL +

HDoutliers

STL +

iForest

STR +

HDoutliers

STR +

iForest

Hasta 2019 193 126 98 146 98

Hasta mayo 2020 242 144 107 153 121

Tasa de variacioacuten 2539 1429 918 479 2350

Cuadro 510 Total de atiacutepicos detectados por cada meacutetodo hasta diciembre de 2019 y mayo de 2020y tasa de variacioacuten que produce el efecto del Covid en el Conjunto 3

En el Cuadro 510 podemos ver como el efecto del Covid sobre el conjunto es similar al que sepresentaba en los datos del Conjunto 1 Este conjunto vuelve a recoger datos de caraacutecter mensual porlo que la influencia de los meses de 2020 vuelven a reflejar un gran peso en los resultados Sin embargolas tasas de variacioacuten no son tan grandes como las que se produciacutean en el Conjunto 1 Esto podriacuteadeberse a que mientras el sector turiacutestico se redujo a cero en el mercado laboral se llevaron a cabopoliacuteticas contra la destruccioacuten masiva de empleo Estos resultados lo que hacen es aflorar que se haproducido un efecto en el conjunto de datos y que podriacutea ser de intereacutes para despueacutes desarrollar unestudio en profundidad

A continuacioacuten vamos a analizar la serie referente a las contrataciones eventuales por circunstanciasde la produccioacuten para la provincia de Ourense diferenciando a traveacutes de una recta roja vertical los dosescenarios analizados los datos hasta diciembre 2019 y los datos hasta mayo de 2020

Figura 56 Serie de tiempo referente a las contrataciones eventuales por circunstancias de la produccioacutenpara la provincia de Ourense

El meacutetodo TRAMO-SEATS sentildeala tres fechas atiacutepicas en ambas ocasiones en la serie hasta 2019

51 ANAacuteLISIS SERIES IGE 53

y hasta mayo de 2020 sin embargo ninguna de ellas es comuacuten Probablemente esto se deba al compor-tamiento que podemos apreciar en la Figura 56 donde se observa la caiacuteda que produce en la serie losmeses de marzo abril y mayo de 2020 La introduccioacuten de estos datos reajusta las prioridades sobrequeacute es un atiacutepico en la serie para TRAMO-SEATS de forma que pasa de identificar octubre 2001abril 2002 y enero 2012 a sentildealar como fechas atiacutepicas octubre 2007 y marzo y abril de 2020

Este suceso tambieacuten se presenta en el resto de meacutetodos STL+HDoutliers pasa de no identificarninguacuten dato en la serie hasta 2019 a sentildealar abril del 2002 y febrero abril y mayo de 2020 Otro meacutetodoque experimenta esta situacioacuten es STR+iForest que pasa de no calificar ninguna observacioacuten atiacutepicaa sentildealar abril y mayo en 2019 y en 2020 STL+iForest sentildeala dos y tres atiacutepicos en cada caso en laserie hasta 2019 sentildeala el mes de julio en 2018 y 2019 mientras que en la serie completa sentildeala losmeses de febrero abril y mayo de 2020 Por uacuteltimo STR+HDoutliers sentildeala como atiacutepico abril del2002 en la serie acortada observacioacuten que ya no es detectada al incluir la serie completa donde sentildealalos meses de abril y mayo para los antildeos 2019 y 2020 igual aquiacute que STR+iForest

Estos resultados conducen hacia un punto comuacuten mientras que en la serie recortada en 2019 noparece haber mucho acuerdo sobre los atiacutepicos o si existen atiacutepicos en la serie completa todos losmeacutetodos se ponen de acuerdo en que las situaciones de abril y mayo de 2020 son anoacutemalas Estosresultados se muestran en la Figura 57

Figura 57 Serie de tiempo referente a las contrataciones eventuales por circunstancias de la produccioacutenpara la provincia de Ourense sentildealizando las anomaliacuteas comunes a los cinco meacutetodos

Conjunto 4 (httpwwwigeeuigebdtigeapidatos9048)

Series de datos mensuales referidas al Iacutendice de produccioacuten industrial general y por destino eco-noacutemico de los bienes en Espantildea y Galicia Los distintos destinos econoacutemico son bienes de consumoduraderos y no duraderos bienes de equipo bienes intermedios y energiacutea Los datos del conjuntocomienzan en enero de 2002 y finalizan en mayo de 2020

54 CAPIacuteTULO 5 APLICACIOacuteN A DATOS REALES

TRAMO -

SEATS

STL +

HDoutliers

STL +

iForest

STR +

HDoutliers

STR +

iForest

Atiacutepicos detectados 288 129 73 212 64

Max nuacutemero atip serie 24 11 3 102 3

Series con 0 atiacutepicos 9 5 3 6 2

Media de atiacutepicos detec 686 307 174 505 152

Cuadro 511 Resultados para el Conjunto 4 con datos hasta diciembre de 2019

El Cuadro 511 recoge los resultados que se producen para un total de 8904 observaciones quemuestra el conjunto con datos hasta diciembre de 2019 Ahora vamos a estudiar los resultados deforma que cada serie esteacute conformada por el uacuteltimo dato actualizado y a analizar los cambios que seproducen entre ambos escenarios En este conjunto el uacuteltimo dato actualizado es mayo de 2020 lo queconforma un total de 9114 observaciones

TRAMO -

SEATS

STL +

HDoutliers

STL +

iForest

STR +

HDoutliers

STR +

iForest

Atiacutepicos detectados 282 92 78 144 79

Max nuacutemero atip serie 24 5 3 50 3

Series con 0 atiacutepicos 4 5 1 2 1

Media de atiacutepicos detec 672 219 186 343 189

Cuadro 512 Resultados para el Conjunto 4 con datos hasta mayo de 2020

51 ANAacuteLISIS SERIES IGE 55

TRAMO -

SEATS

STL +

HDoutliers

STL +

iForest

STR +

HDoutliers

STR +

iForest

Hasta 2019 288 129 73 212 64

Hasta mayo 2020 282 92 78 144 79

Tasa de variacioacuten -208 -2868 685 -3208 2344

Cuadro 513 Total de atiacutepicos detectados por cada meacutetodo hasta diciembre de 2019 y mayo de 2020y tasa de variacioacuten que produce el efecto del Covid en el Conjunto 4

En el Cuadro 513 podemos ver el efecto del Covid sobre el conjunto sin embargo en esta ocasioacuten nopodemos ver una direccioacuten clara Los meacutetodos difieren y mientras unos meacutetodos muestran crecimientosen el nuacutemero de atiacutepicos detectados para el conjunto otros decrecen y muestran ahora menos atiacutepicosSin embargo esto no implica que el efecto del Covid sobre el conjunto sea menor que por ejemplo en elConjunto 3 Las variaciones entre las series las que incluyen datos de 2020 y las que no son notoriaslo cual implica que el efecto existe

A continuacioacuten vamos a analizar la serie referente a la produccioacuten industrial destinada a bienesintermedios de Galicia diferenciando a traveacutes de una recta vertical roja los dos escenarios los datoshasta diciembre de 2019 y la serie hasta mayo 2020

Figura 58 Serie de tiempo referente a la produccioacuten industrial destinada a bienes intermedios deGalicia

El comportamiento que muestran los meacutetodos con esta serie nos ayuda a plasmar una idea quedesarrollaremos maacutes adelante en el siguiente apartado Si observamos los datos para la serie recortada

56 CAPIacuteTULO 5 APLICACIOacuteN A DATOS REALES

en diciembre de 2019 obtenemos que salvo TRAMO-SEATS que no detecta ninguacuten atiacutepico los otroscuatro meacutetodos concuerdan en dos fechas marzo y julio de 2008 Por otra parte en la serie completacinco meacutetodos sentildealan abril 2020 y cuatro sentildealan marzo de 2008 Estos dos atiacutepicos abril de 2020 ymarzo de 2008 los representamos en la Figura 59

Analizando la Figura 59 el atiacutepico sentildealado en marzo de 2008 parece dudoso sin embargo siprofundizamos en los datos observamos que esta fecha rompe una clara tendencia creciente respecto alos meses de marzo de antildeos anteriores

Este suceso en el que varios meacutetodos coinciden en identificar una fecha proveen al analista de unaseguridad a la hora de calificar una observacioacuten como anoacutemala Este concepto de seguridad eliminandola incertidumbre asociada al campo de la deteccioacuten de valores atiacutepicos seraacute desarrollado maacutes adelante

Figura 59 Serie de tiempo referente a la produccioacuten industrial destinada a bienes intermedios deGalicia con los dos atiacutepicos

Conjunto 5 (httpwwwigeeuigebdtigeapidatos4052)

Series de datos trimestrales de nuacutemero de transacciones inmobiliarias por reacutegimen (Libre Protegiday Total de viviendas) y tipo de vivienda (Nuevas segunda mano y total de viviendas) Las medidas enlas que se toman los datos son por nuacutemero de viviendas su valor total (en miles de euros) o su valormedio (en euros) Los datos se presentan a nivel Espantildea Galicia y las provincias gallegas Los datosse recogen entre el primer trimestre de 2004 hasta el primer trimestre de 2020

51 ANAacuteLISIS SERIES IGE 57

TRAMO -

SEATS

STL +

HDoutliers

STL +

iForest

STR +

HDoutliers

STR +

iForest

Atiacutepicos detectados 184 122 105 94 97

Max nuacutemero atip serie 7 8 2 6 2

Series con 0 atiacutepicos 13 41 12 47 11

Media de atiacutepicos detec 204 136 117 104 107

Cuadro 514 Resultados para el Conjunto 5 con datos hasta el cuarto trimestre de 2019

Los resultados que recoge el Cuadro 514 se producen para un total de 5760 observaciones que mues-tra el Conjunto 5 con datos hasta el cuarto trimestre de 2019 Ahora vamos a estudiar los resultadosde forma que cada serie esteacute conformada por el uacuteltimo dato actualizado y a realizar una comparacioacutenentre ambos escenarios En esta serie el uacuteltimo dato actualizado es el primer trimestre de 2020 lo queconforma un total de 5850 observaciones

TRAMO -

SEATS

STL +

HDoutliers

STL +

iForest

STR +

HDoutliers

STR +

iForest

Atiacutepicos detectados 184 106 108 90 93

Max nuacutemero atip serie 9 8 2 5 3

Series con 0 atiacutepicos 12 42 11 43 13

Media de atiacutepicos detec 204 118 120 100 103

Cuadro 515 Resultados para el Conjunto 5 con datos hasta el primer trimestre de 2020

58 CAPIacuteTULO 5 APLICACIOacuteN A DATOS REALES

TRAMO -

SEATS

STL +

HDoutliers

STL +

iForest

STR +

HDoutliers

STR +

iForest

Hasta 2019 184 122 105 94 97

Hasta mayo 2020 184 106 108 90 93

Tasa de variacioacuten 000 -1311 286 -426 -412

Cuadro 516 Total de atiacutepicos detectados por cada meacutetodo hasta cuarto trimestre de 2019 y primertrimestre de 2020 y tasa de variacioacuten que produce el efecto del Covid en el Conjunto 5

En el Cuadro 516 podemos ver que el efecto del Covid sobre las series trimestrales vuelve a sermuy pequentildeo similar a las conclusiones obtenidas para el Conjunto 2 Si comparamos las tablas 514y 515 podemos similitudes en los resultados para las diferentes medidas que se toman Por ejemplo sinos fijamos en la fila que mide el nuacutemero de series que son identificadas con cero atiacutepicos los meacutetodosapenas difieren en sus resultados Lo mismo sucede con la media de atiacutepicos detectados en cada serieEstos resultados sostienen la idea de que el Covid repercutioacute en menor medida en las series trimestralesen el primer trimestre del antildeo y es de intereacutes realizar este mismo estudio una vez se incorporen losdatos del segundo trimestre

A continuacioacuten vamos a analizar la serie referente al nuacutemero de viviendas transmitidas de segundamano en reacutegimen libre para la provincia de Lugo diferenciando los dos escenarios analizados a traveacutesde una recta vertical roja los datos hasta el cuarto trimestre de 2019 y los datos incluyendo el primertrimestre de 2020

Figura 510 Serie de tiempo referente al nuacutemero de viviendas transmitidas de segunda mano en reacutegimenlibre para la provincia de Lugo

51 ANAacuteLISIS SERIES IGE 59

Observando la Figura 510 parece que el dato incluido referente al primer trimestre de 2020 su-pone una caiacuteda una situacioacuten anoacutemala sin embargo si observamos la evolucioacuten histoacuterica de la seriepodemos comprobar que solamente en dos ocasiones se han mostrado valores superiores en este pri-mer trimestre Para ambos escenarios la serie hasta 2019 y la serie completa uacutenicamente un meacutetododetecta atiacutepicos TRAMO-SEATS que sentildeala en ambas ocasiones octubre de 2010 y 2012 El resto demeacutetodos concuerdan en que la serie no presenta en ninguacuten caso ninguna situacioacuten anoacutemala

La Figura 511 muestra las dos fechas que sentildeala como atiacutepicas el meacutetodo TRAMO-SEATS cuartotrimestre de 2010 y 2012 que si bien reflejan un pico en los espacios temporales en los que se producenno parecen ser atiacutepicas respecto a la serie completa

Figura 511 Serie de tiempo referente al nuacutemero de viviendas transmitidas de segunda mano en reacutegimenlibre para la provincia de Lugo

Conjunto 6 (httpwwwigeeuigebdtigeapidatos1243)

Series de datos mensuales referentes a las bajas de demandas de empleo seguacuten geacutenero y duracioacutende la demanda en Galicia y sus provincias Los datos de la serie se recogen desde enero de 2009 hastajunio de 2020

60 CAPIacuteTULO 5 APLICACIOacuteN A DATOS REALES

TRAMO -

SEATS

STL +

HDoutliers

STL +

iForest

STR +

HDoutliers

STR +

iForest

Atiacutepicos detectados 154 271 228 288 228

Max nuacutemero atip serie 7 11 4 7 3

Series con 0 atiacutepicos 85 44 16 40 12

Media de atiacutepicos detec 093 164 138 174 138

Cuadro 517 Resultados para el Conjunto 6 con datos hasta diciembre de 2019

Los resultados del Cuadro 517 se producen para un total de 21780 observaciones que muestra elconjunto con datos hasta diciembre de 2019 Ahora vamos a estudiar los resultados de forma que cadaserie esteacute conformada por el uacuteltimo dato actualizado y a comparar ambas situaciones En esta serie eluacuteltimo dato actualizado es junio de 2020 lo que conforma un total de 22770 observaciones

TRAMO -

SEATS

STL +

HDoutliers

STL +

iForest

STR +

HDoutliers

STR +

iForest

Atiacutepicos detectados 484 502 336 504 334

Max nuacutemero atip serie 9 12 4 11 4

Series con 0 atiacutepicos 1 10 3 15 5

Media de atiacutepicos detec 293 304 204 305 202

Cuadro 518 Resultados para el Conjunto 6 con datos hasta junio de 2020

51 ANAacuteLISIS SERIES IGE 61

TRAMO -

SEATS

STL +

HDoutliers

STL +

iForest

STR +

HDoutliers

STR +

iForest

Hasta 2019 154 271 228 288 228

Hasta mayo 2020 484 502 336 504 334

Tasa de variacioacuten 21429 8524 4737 7500 4649

Cuadro 519 Total de atiacutepicos detectados por cada meacutetodo hasta diciembre de 2019 y junio de 2020 ytasa de variacioacuten que produce el efecto del Covid en el Conjunto 6

En el Cuadro 519 podemos ver el efecto que supone la primera mitad del antildeo 2020 en la aparicioacutende valores atiacutepicos en este conjunto El incremento en el nuacutemero de datos a analizar no llega a serdel 5 pero esa miacutenima cantidad de datos nuevos dispara las fechas anoacutemalas que se suceden en lasseries En el Cuadro 518 se puede observar que apenas existen series sin atiacutepicos independientementedel meacutetodo que seleccionemos algo todaviacutea maacutes sorprendente si recordamos que este es el conjuntoque posee maacutes series un total de 165 series

A continuacioacuten analizamos un caso concreto utilizando la serie referente a las bajas de la demandade empleo en mujeres con una duracioacuten de la demanda entre 12 y 18 meses en Ourense La rectavertical roja indica el inicio del antildeo 2020 sirviendo asiacute para indicar la diferencia entre los dos escenariosanalizados en los Cuadros 517 y 518

Figura 512 Serie de tiempo referente a las bajas de la demanda de empleo en mujeres con una duracioacutende la demanda entre 12 y 18 meses en Ourense

Esta serie es de intereacutes por diversos motivos El primero es que posee claros atiacutepicos en ambos

62 CAPIacuteTULO 5 APLICACIOacuteN A DATOS REALES

escenarios En la serie con duracioacuten hasta 2019 se puede observar un valor cercano al inicio de 2014con claro aspecto de ser atiacutepico La serie con todos los datos muestra el atiacutepico anterior pero tambieacutennuevos valores con claro comportamiento discordante al resto de la serie

Para la serie recortada cinco meacutetodos coinciden en sus resultados julio de 2013 es atiacutepico uacutenica-mente TRAMO-SEATS difiere el cual no sentildeala ninguacuten atiacutepico en la serie Si ahora nos trasladamosa la serie completa TRAMO-SEATS sentildeala marzo de 2020 como atiacutepico mientras que el resto demeacutetodos vuelven a concordar sentildealando julio de 2013 y febrero de 2020 En la Figura 513 se muestrala serie sentildealizando dichos atiacutepicos julio de 2013 y febrero y marzo de 2020

Figura 513 Serie de tiempo referente a las bajas de la demanda de empleo en mujeres con una duracioacutende la demanda entre 12 y 18 meses en Ourense con los atiacutepicos identificados

Si observamos los datos de la serie podemos calificar todas estas fechas como atiacutepicas julio 2013febrero 2020 y marzo 2020 Sin embargo ninguacuten meacutetodo ha calificado los meses de abril mayo yjunio de 2020 siendo claramente atiacutepicos Estamos frente a una situacioacuten completamente inusual unasituacioacuten que se produce en multitud de series del IGE y es la secuencia de varias observacionesconsecutivas muy atiacutepicas que ejercen un gran peso en la serie

Este gran peso provoca que los meacutetodos no consigan analizar correctamente este escenario Losmodelos de series temporales como TRAMO-SEATS interpretan que se estaacute produciendo un cambiode nivel permanente en la serie mencionado en el Capiacutetulo 3 como Level Shift (LS) y modelizan laserie como tal Los procesos de descomposicioacuten de series temporales utilizados STL y STR entiendenlo que estaacute sucediendo como un cambio en la tendencia es decir en su proceso de extraccioacuten de laestacionalidad y la tendencia estiman una tendencia decreciente en la serie Y por uacuteltimo los meacutetodosde deteccioacuten de valores atiacutepicos HDoutliers y iForest sufren un grave problema de enmascaramientoLa idea del mecanismo de iForest reside en buscar valores aislados mientras que la de HDoutliers sefundamenta en buscar espacios entre los valores ordenados estas dos ideas son consistentes con la ideade la buacutesqueda de atiacutepicos sin embargo ven disminuida su eficiencia ante una situacioacuten tan atiacutepica quepermanece durante varias observaciones consecutivas llevando a provocar que observaciones atiacutepicaspuedan pasar desapercibidas para el mecanismo

51 ANAacuteLISIS SERIES IGE 63

Conjunto 7 (httpwwwigeeuigebdtigeapidatos4885)

Series de datos mensuales referentes a las afiliaciones a la seguridad social el uacuteltimo diacutea de mes enGalicia y sus provincias por regiacutemenes Los datos comienzan en enero de 1990 y finalizan en mayo de2020

TRAMO -

SEATS

STL +

HDoutliers

STL +

iForest

STR +

HDoutliers

STR +

iForest

Atiacutepicos detectados 288 96 118 136 121

Max nuacutemero atip serie 24 8 5 10 5

Series con 0 atiacutepicos 4 10 0 4 0

Media de atiacutepicos detec 613 204 251 289 257

Cuadro 520 Resultados para el Conjunto 7 con datos hasta diciembre de 2019

El Cuadro 520 muestra los resultado que se producen para un total de 16920 observaciones quemuestra el conjunto con datos hasta diciembre de 2019 Ahora vamos a estudiar los resultados de formaque cada serie esteacute conformada por el uacuteltimo dato actualizado y comparar ambas situaciones En estaserie el uacuteltimo dato actualizado es junio de 2020 lo que conforma un total de 17155 observaciones

TRAMO -

SEATS

STL +

HDoutliers

STL +

iForest

STR +

HDoutliers

STR +

iForest

Atiacutepicos detectados 333 179 128 118 136

Max nuacutemero atip serie 24 14 5 11 6

Series con 0 atiacutepicos 0 6 0 3 0

Media de atiacutepicos detec 709 380 272 251 289

Cuadro 521 Resultados para el Conjunto 7 con datos hasta mayo de 2020

64 CAPIacuteTULO 5 APLICACIOacuteN A DATOS REALES

TRAMO -

SEATS

STL +

HDoutliers

STL +

iForest

STR +

HDoutliers

STR +

iForest

Hasta 2019 288 96 118 136 121

Hasta mayo 2020 333 179 128 118 136

Tasa de variacioacuten 1563 8646 847 -1324 1240

Cuadro 522 Total de atiacutepicos detectados por cada meacutetodo hasta diciembre de 2019 y mayo de 2020y tasa de variacioacuten que produce el efecto del Covid en el Conjunto 7

En el Cuadro 522 podemos ver que el efecto que supone la primera mitad del antildeo 2020 en laaparicioacuten de valores atiacutepicos en este conjunto La variacioacuten que supone en el nuacutemero de valores detec-tados como anoacutemalos es considerable todaviacutea maacutes si lo comparamos con la variacioacuten de nuevos datosintroducidos en el anaacutelisis los cuales han aumentado solamente un 138 De este modo podemosafirmar que la presencia del Covid ha provocado un gran impacto en el incremento del nuacutemero deobservaciones atiacutepicas de los conjuntos que presentan datos de frecuencia mensual

A continuacioacuten analizamos un caso concreto utilizando la serie referente a las afiliaciones a laseguridad social en reacutegimen mar para la provincia de Lugo La Figura 514 muestra la representacioacutengraacutefica de dicha serie indicando mediante una recta vertical roja el inicio del 2020

Figura 514 Serie de tiempo referente a las afiliaciones a la seguridad social en reacutegimen mar para laprovincia de Lugo

El motivo de seleccionar esta serie reside en una idea que se va desarrollando a lo largo de todoeste apartado y que da lugar a la herramienta que se introduce en el siguiente Las series socio-econoacutemicas son complejas dado que se ven afectadas por multitud de factores externos que condicionansu desarrollo Este caraacutecter uacutenico de cada serie maacutes los resultados obtenidos a lo largo del trabajo

51 ANAacuteLISIS SERIES IGE 65

nos conduce a la conclusioacuten de que no existe un meacutetodo de deteccioacuten de atiacutepicos con una capacidadde clasificacioacuten superior al resto

Los resultados para esta serie son diversos Por ejemplo la combinacioacuten STR+HDoutliers muestrahasta ocho atiacutepicos para la serie delimitada en el antildeo 2019 sin embargo al introducir la serie completaesta cifra se reduce solamente a dos Sucede lo contrario con la combinacioacuten STL+HDoutliers quesi bien en la serie recortada califica dos observaciones en la completa sentildeala un total de siete Porsu parte TRAMO-SEATS identifica un total de siete atiacutepicos Sin embargo todos los meacutetodos dedeteccioacuten sentildealan dos fechas como atiacutepicas en los dos casos agosto de 2006 y junio de 2008 como serepresenta en la Figura 515 Esto dota al estudio de confianza si todos los mecanismos sospechan dedos fechas deberaacute haber un motivo de peso algo ha sucedido en la serie para que todos concuerdenEsta idea dio lugar al desarrollo de la herramienta que se introduce en el siguiente apartado

Figura 515 Serie de tiempo referente a las afiliaciones a la seguridad social en reacutegimen mar parala provincia de Lugo identificando los atiacutepicos sentildealados de forma comuacuten por los cinco meacutetodos dedeteccioacuten

Por uacuteltimo el Cuadro 523 recoge el total de atiacutepicos detectados por cada meacutetodo en los dosescenarios con los que se ha trabajado en este capiacutetulo El primer escenario incluye datos hasta lauacuteltima fecha de 2019 si las series son mensuales este dato es el correspondiente a diciembre de 2019si son series trimestrales el uacuteltimo dato seraacute el cuarto trimestre de 2019 En el Cuadro 523 se recogede modo general para todos los conjuntos bajo el teacutermino ldquodatos hasta 2019rdquo El segundo escenariorecoge los datos hasta su uacuteltima actualizacioacuten aquiacute existe un mayor abanico de fechas como vimos alo largo de todo este capiacutetulo Los conjuntos con datos de frecuencia trimestral presentan su uacuteltimodato en el primer trimestre de 2020 por su parte los conjuntos de datos mensuales variacutean su uacuteltimaactualizacioacuten entre los meses de abril mayo o junio de 2020 En el Cuadro 523 se recoge de modogeneral para todos ellos bajo el teacutermino ldquodatos hasta 2020rdquo

66 CAPIacuteTULO 5 APLICACIOacuteN A DATOS REALES

TRAMO -SEATS

STL +HDoutliers

STL +iForest

STR +HDoutliers

STR +iForest

Tiempo de ejecucioacuten (2019) 1332 24 1782 7234 8805Tiempo de ejecucioacuten (2020) 1503 21 2042 8043 10764Atiacutepicos detectados (2019) 1490 990 794 1074 816Atiacutepicos detectados (2020) 2036 1373 989 1341 1033

Tasa de variacioacuten 3664 3869 2456 2486 2659

Cuadro 523 Tiempo de ejecucioacuten (en segundos) y total de atiacutepicos detectados por cada meacutetodo hastael uacuteltimo dato de 2019 y hasta uacuteltima actualizacioacuten de 2020 y tasa de variacioacuten que produce el efectodel Covid en los siete conjuntos de datos

El Cuadro 523 nos permite concluir que el efecto global del Covid ha supuesto un incremento enel nuacutemero de observaciones atiacutepicas puesto que todos los meacutetodos experimentan una tasa de variacioacutenpositiva sobre sus cifras de valores atiacutepicos detectados Las cifras de tasas de variacioacuten que se muestranen el Cuadro 523 sorprenden todaviacutea maacutes si analizamos el incremento en el nuacutemero de observacionesanalizadas El escenario que analiza el conjunto de datos hasta 2019 presentan un total de 90540observaciones mientras que el escenario que incluye hasta el uacuteltimo dato actualizado recoge un totalde 92731 Es decir el nuacutemero total de datos analizados se ha incrementado en poco maacutes del 2 sinembargo la tasa de variacioacuten maacutes pequentildea muestra un incremento del maacutes del 24 del nuacutemero deatiacutepicos que se presentan en el conjunto de datos

Otra medida que incluye el Cuadro 523 es el tiempo que tarda en analizar los siete conjuntosde datos cada meacutetodo recogida bajo el nombre de ldquotiempo de ejecucioacutenrdquo A traveacutes de ella podemosobservar que la diferencia entre el tiempo de ejecucioacuten es pequentildea pero existe por lo que muestra quela presencia de atiacutepicos dificulta la modelizacioacuten de la series temporales Tambieacuten podemos comprobarcomo todos los meacutetodos presentan buenas cifras en este medida los que peores resultados muestranson los meacutetodos que utilizan la descomposicioacuten STR la cual ya mencionamos su posible problemade lentitud en el Capiacutetulo 2 Por uacuteltimo es sorprendente la combinacioacuten de STL+HDoutliers que escapaz de analizar las 538 en un tiempo inferior a los tres segundos en ambos casos

52 Anaacutelisis Graacutefico

El campo de la deteccioacuten de valores atiacutepicos estaacute caracterizado por una constante incertidumbrePartiendo del inicio del trabajo ni siquiera existe una definicioacuten exacta de queacute es un valor atiacutepicosino maacutes bien se trazan definiciones en base a ideas de lo que se espera que sea un valor atiacutepico enun conjunto de datos Es por ello que dependiendo de los escenarios y las complejidades asociadas auna serie unos meacutetodos resulten maacutes efectivos que otros Este es el motivo por el que surgioacute la ideade crear una herramienta de anaacutelisis graacutefico para el estudio de series de tiempo

El objetivo de esta herramienta es la de dotar al analista de un mecanismo sencillo de implantarque le permita trazar una idea de los posibles atiacutepicos con los que podriacutea contar la serie Para ello seha creado una funcioacuten en R que solo necesita introducir la serie de tiempo para devolver el graacutefico

52 ANAacuteLISIS GRAacuteFICO 67

Ademaacutes dado que esta herramienta estaacute disentildeada especiacuteficamente para trabajar con series de tiemposu representacioacuten dariacutea lugar a lo que podriacutea denominarse un mapa de calor para zonas atiacutepicas estose muestra maacutes adelante mediante ejemplos

Esta herramienta estaacute compuesta por los meacutetodos que han mostrado mejores resultados en el estudiode simulacioacuten Cada meacutetodo ocupa una fila mostrando a lo largo de ella sus atiacutepicos sentildealados y cadacolumna es una fecha detectada por un meacutetodo De tal modo que si una fecha es detectada por todoslos meacutetodos mostraraacute una columna verde y seraacute sospecha clara de que esa fecha es atiacutepica Por otraparte si una fecha es detectada por solo un meacutetodo mostraraacute solo de color verde la celda asociada aese meacutetodo y no seraacute sentildeal tan evidente de situacioacuten atiacutepica

Para la composicioacuten del graacutefico se utilizan los meacutetodos del apartado anterior y a mayores seintroducen las versiones robustas de los meacutetodos de descomposicioacuten de series temporales STL y STREl motivo de su uso en este apartado se debe a que si bien no mostraron los mejores resultados enel estudio de simulacioacuten ahora pueden resultar de utilidad Los meacutetodos robustos pueden generaranomaliacuteas espurias cuando no existen atiacutepicos debido a que resaltan el tamantildeo del residuo de unaobservacioacuten provocando su identificacioacuten como atiacutepico sin esta serlo Sin embargo cuando se producenanomaliacuteas que ejercen un gran peso en la serie como lo sucedido durante el Covid este tipo deestimaciones son de gran intereacutes esta situacioacuten tambieacuten se justificaraacute mediante un ejemplo praacutectico

El primer ejemplo lo extraemos a traveacutes de la serie referente a la estancia media de viajeros de todaslas procedencias en establecimientos hoteleros en Galicia perteneciente al Conjunto 1 En la Figura516 mostramos la representacioacuten de la misma ahora ya mostramos hasta el uacuteltimo dato actualizadoen este caso mayo de 2020

Figura 516 Estancia media de viajeros de todas las procedencias en establecimientos hoteleros enGalicia

Esta serie parece contar con dos atiacutepicos los relacionados con las dos uacuteltimas observaciones de laserie sin embargo vamos a analizar los resultados del graacutefico comparativo

68 CAPIacuteTULO 5 APLICACIOacuteN A DATOS REALES

Figura 517 Resultados para la serie estancia media de viajeros de todas las procedencias en estable-cimientos hoteleros en Galicia del Conjunto 1

La Figura 517 muestra el graacutefico que hemos desarrollado el cual vamos a desgranar ahora paraentender su utilidad Si hubieacutesemos escogido el meacutetodo TRAMO-SEATS hubieacutesemos sentildealado tresobservaciones atiacutepicas una de ellas seriacutea enero de 2003 Sin embargo analizando los datos podemoscomprobar que este dato parece normal y estariacuteamos identificaacutendolo erroacuteneamente como anoacutemalo Dehecho solo TRAMO-SEATS sentildeala esta fecha Lo mismo sucede con otras fechas como octubre delantildeo 2000 sentildealada por solo dos meacutetodos Por otra parte todos los meacutetodos sentildealan los meses deabril y mayo de 2020 las dos uacuteltimas observaciones de la serie que en la Figura 516 mostraban uncomportamiento totalmente discordante al resto del conjunto de datos Es decir el graacutefico permitetrazar una idea concisa al analista de queacute es anoacutemalo en la serie y que pueden ser falsos positivos

Observando el graacutefico podemos tambieacuten extraer una conclusioacuten raacutepida de la posible presenciade valores atiacutepicos en la serie Se muestran dos comportamientos muy marcados El primero estariacuteadeterminado por la serie hasta el antildeo 2020 en el cual la aparicioacuten de atiacutepicos es dispersa pococoncluyente el analista puede dudar de que estas observaciones sean realmente anoacutemalas El segundoson los datos de 2020 dos columnas enteras de color verde una imagen que comunica que en eseintervalo de tiempo estaacute sucediendo algo realmente anoacutemalo

Vamos a utilizar el graacutefico con otra serie para analizar otra de las caracteriacutesticas que muestran elintereacutes de analizar una serie de tiempo a traveacutes de este graacutefico En la Figura 518 se muestra la serie detiempo perteneciente al Conjunto 3 que recoge la evolucioacuten de los contratos iniciales en Galicia Dichaserie cuenta con tres atiacutepicos claros marzo abril y mayo de 2020

52 ANAacuteLISIS GRAacuteFICO 69

Figura 518 Contratos iniciales registrados en Galicia

Haciendo uso del graacutefico comparativo Figura 519 volvemos a obtener un escenario en el queresulta de intereacutes esta herramienta En este caso el meacutetodo compuesto por STR+HDoutliers muestraun comportamiento erraacutetico que le conduce a identificar una gran cantidad de atiacutepicos de modoincorrecto Lo mismo sucede con TRAMO-SEATS que es el uacutenico que sentildeala enero de 2001 comoatiacutepico sin existir motivo en los datos para esta calificacioacuten

Por otra parte este escenario nos permite observar la utilidad de incorporar las versiones robustasSi bien se equivocan en alguacuten caso por ejemplo el meacutetodo STR+HDoutliers(Rob) sentildealando junio de2002 nos permiten calificar marzo de 2020 como atiacutepico algo que los meacutetodos que utilizan las versionesno robustas de los meacutetodos de descomposicioacuten de series temporales STR y STR no logran Todasellas se ponen de acuerdo junto a TRAMO-SEATS para la sentildealizacioacuten de este mes

Ademaacutes dado que estamos trabajando con series temporales los resultados de la graacutefica se muestranen orden cronoloacutegico en vez de por cuaacuten anoacutemala es la observacioacuten como se hace en TRAMO-SEATSo en iForest Esto nos permite entender la graacutefica como un mapa de calor Al analizar la serie siexiste un intervalo de tiempo en el que se han producido situaciones anoacutemalas como por ejemplo eneste caso los meses relacionados al Covid se veraacute reflejado en el graacutefico por una serie de columnascon muchas celdas verdes lo que daraacute a entender de manera raacutepida al analista que en ese intervalode tiempo se han producido situaciones excepcionales De este modo tambieacuten conseguimos corregirel problema de enmascaramiento que pueden sufrir los meacutetodos cuando se suceden varias situacionesatiacutepicas consecutivas

70 CAPIacuteTULO 5 APLICACIOacuteN A DATOS REALES

Figura 519 Resultados para la serie Contratos iniciales registrados en Galicia del Conjunto 3

Capiacutetulo 6

Conclusiones

El IGE cuenta con una ampliacutea base de datos que se utiliza para el estudio del contexto socio-econoacutemico en Galicia Estos datos tienen una base temporal es decir son datos referidos a un intervalode tiempo en la mayoriacutea de los casos esta periodicidad es anual trimestral o mensual La manipulacioacutende los datos puede conllevar a que se introduzcan errores humanos o de medicioacuten que provoquen quese incluyan cifras incorrectas a las bases de datos Estos errores pueden distorsionar las conclusionesde un estudio o conducir haciacutea resultados alejados de la verdadera realidad Es por ello que resultanecesario el incorporar una herramienta de deteccioacuten de valores atiacutepicos al anaacutelisis de las bases dedatos del IGE

Para ello se planteoacute una revisioacuten bibliograacutefica de los principales meacutetodos de deteccioacuten de atiacutepicosen series temporales Esta revisioacuten nos permitioacute conocer la existencia de un amplio abanico de meacuteto-dos disponibles con los cuales empezamos a trabajar para analizar su comportamiento Es aquiacute dondedecidimos descartar una serie de meacutetodos mencionados al final del Apartado 34 debido a que sufuncionamiento y sus resultados correspondiacutean a versiones inferiores de otros meacutetodos que finalmenteadoptamos Este primer estudio nos proporcionoacute los meacutetodos de deteccioacuten de atiacutepicos en series tem-porales que supondriacutean el punto de partida del trabajo X-13ARIMA-SEATS TRAMO-SEATS y lalibreriacutea de R Anomalize

La libreriacutea Anomalize tambieacuten nos sirvioacute de ayuda en el desarrollo de nuestros propios meacutetodos dedeteccioacuten de atiacutepicos para series temporales La idea sobre la que se fundamenta esta libreriacutea es la deaplicar un proceso de descomposicioacuten de series de tiempo a una serie para extraer las componentes dela estacionalidad la tendencia y un residuo para despueacutes aplicar un meacutetodo de deteccioacuten de atiacutepicossobre el residuo Dado que se han producido mejoras a los meacutetodos de descomposicioacuten y deteccioacutenque se utilizan en la libreriacutea Anomalize consideramos que una nueva combinacioacuten podriacutea reflejar unamejora en los resultados

Para comparar todos los meacutetodos de deteccioacuten de atiacutepicos en series temporales los que sirven depunto de partida del trabajo y los desarrollados por nosotros decidimos llevar a cabo un ambiciosoestudio de simulacioacuten El estudio de simulacioacuten recoge diferentes escenarios con la finalidad de repre-sentar la heterogeneidad propia de las series de tiempo referentes a variables sociales y econoacutemicas Losresultados del estudio de simulacioacuten confirman nuestra idea acerca de que una nueva combinacioacuten pue-de suponer una mejora en los resultados debido a que varias de nuestras combinaciones reflejan mejores

71

72 CAPIacuteTULO 6 CONCLUSIONES

resultados que las propuestas en la libreriacutea Anomalize Tambieacuten nos permite observar que nuestraspropuestas compiten en los resultados con un modelo tan desarrollado como TRAMO-SEATS Final-mente nos permiten descartar otros meacutetodos que siendo uacutetiles en otros campos no parecen resultaridoacuteneos para el nuestro

Tras el estudio de simulacioacuten comenzamos a utilizar los meacutetodos que habiacutean mostrado mejoresresultados con los datos proporcionados por el IGE Fue en este momento cuando nos encontramos conuna situacioacuten no contemplada en ninguacuten momento en ninguacuten escenario del estudio de simulacioacuten yen general en ninguacuten momento de lo que podriacutea ser la historia reciente como fue la crisis del Covid19Esta crisis provoca un efecto enorme en los datos del contexto gallego como se recoge a lo largo delCapiacutetulo 5 y supone un nuevo escenario en lo que a deteccioacuten de valores atiacutepicos en series temporalesse refiere

Este nuevo escenario se caracteriza por reflejar durante varios periacuteodos de tiempo consecutivosobservaciones enormemente anoacutemalas y los modelos ven empeorado su comportamiento TRAMO-SEATS y los modelos de descomposicioacuten de series de tiempo STL y STR entienden que lo que seestaacute produciendo es una tendencia decreciente de la serie Por su parte los meacutetodos de deteccioacuten deatiacutepicos HDoutliers y iForest sufren un fenoacutemeno de enmascaramiento en el que son incapaces desentildealizar todos los atiacutepicos Fue aquiacute donde decidimos crear una nueva herramienta para el anaacutelisis

El objetivo con el que creamos esta herramienta de anaacutelisis graacutefico fue el de reducir la incertidumbreque supone el campo de la deteccioacuten de atiacutepicos de un modo sencillo y directo para el analista que lautilice Ademaacutes su disentildeo estaacute pensado para el trabajo con series temporales de modo que si se sucedeun periacuteodo convulso como el actual la graacutefica podraacute ser analizada como un mapa de calor un mapade calor que transmite visualmente la idea de en queacute intervalo de tiempo la serie estaacute experimentandocomportamientos atiacutepicos

Apeacutendice A

Tablas

A1 Tablas de sensibilidad

73

74 APEacuteNDICE A TABLAS

Caso 1 Caso 2 Caso 3 Caso 4

X-13ARIMA-SEATS 0496 0854 0700 0826

TRAMO-SEATS 0657 0928 0805 0851

STL+HDoutliers 0569 0838 0570 0732

STL+GESD 0266 0590 0236 0532

STL+iForest 0636 0885 0636 0790

STL(ROB)+HDoutliers 0562 0803 0678 0712

STL(ROB)+GESD 0637 0876 0746 0754

STL(ROB)+iForest 0640 0878 0747 0786

Twitter+HDoutliers 0471 0735 0597 0620

Twitter+GESD 0306 0590 0429 0434

Twitter+iForest 0529 0801 0652 0660

STR+HDoutliers 0611 0841 0603 0672

STR+GESD 0345 0650 0292 0448

STR+iForest 0674 0885 0679 0721

STR(ROB)+HDoutliers 0542 0812 0638 0658

STR(ROB)+GESD 0381 0685 0458 0558

STR(ROB)+iForest 0623 0862 0699 0714

Cuadro A1 Resultados Escenario 1Sensibilidad AR(1)

A1 TABLAS DE SENSIBILIDAD 75

Caso 1 Caso 2 Caso 3 Caso 4

X-13ARIMA-SEATS 0505 0829 0646 0875

TRAMO-SEATS 0668 0914 0743 0888

STL+HDoutliers 0472 0729 0481 0684

STL+GESD 0217 0457 0148 0428

STL+iForest 0506 0784 0525 0716

STL(ROB)+HDoutliers 0469 0735 0588 0648

STL(ROB)+GESD 0529 0775 0665 0668

STL(ROB)+iForest 0526 0803 0666 0716

Twitter+HDoutliers 0465 0698 0596 0646

Twitter+GESD 0349 0630 0483 0486

Twitter+iForest 0512 0778 0663 0692

STR+HDoutliers 0588 0823 0573 0664

STR+GESD 0298 0602 0247 0449

STR+iForest 0630 0869 0651 0721

STR(ROB)+HDoutliers 0521 0788 0611 0649

STR(ROB)+GESD 0336 0628 0406 0520

STR(ROB)+iForest 0582 0839 0691 0711

Cuadro A2 Resultados Escenario 2 Sensibilidad MA(1)

76 APEacuteNDICE A TABLAS

Caso 1 Caso 2 Caso 3 Caso 4

X-13ARIMA-SEATS 0922 0971 0927 0983

TRAMO-SEATS 0923 0972 0923 0982

STL+HDoutliers 0312 0508 0241 0440

STL+GESD 0089 0230 0051 0152

STL+iForest 0343 0578 0284 0454

STL(ROB)+HDoutliers 0261 0435 0297 0333

STL(ROB)+GESD 0311 0527 0393 0322

STL(ROB)+iForest 0298 0501 0336 0362

Twitter+HDoutliers 0064 0112 0127 0066

Twitter+GESD 0028 0040 0069 0032

Twitter+iForest 0079 0129 0169 0070

STR+HDoutliers 0407 0563 0348 0440

STR+GESD 0204 0367 0109 0230

STR+iForest 0445 0617 0389 0495

STR(ROB)+HDoutliers 0243 0397 0254 0272

STR(ROB)+GESD 0209 0391 0225 0259

STR(ROB)+iForest 0282 0455 0284 0293

Cuadro A3 Resultados Escenario 3 Sensibilidad ARIMA(011)

A1 TABLAS DE SENSIBILIDAD 77

Caso 1 Caso 2 Caso 3 Caso 4

X-13ARIMA-SEATS 0403 0593 0068 0816

TRAMO-SEATS 0542 0707 0072 0814

STL+HDoutliers 0005 0004 0016 0004

STL+GESD 0000 0001 0004 0000

STL+iForest 0003 0003 0015 0005

STL(ROB)+HDoutliers 0007 0007 0037 0004

STL(ROB)+GESD 0009 0021 0099 0029

STL(ROB)+iForest 0006 0008 0036 0005

Twitter+HDoutliers 0001 0000 0001 0008

Twitter+GESD 0006 0009 0012 0023

Twitter+iForest 0001 0000 0005 0018

STR+HDoutliers 0370 0428 0006 0088

STR+GESD 0424 0462 0000 0138

STR+iForest 0418 0479 0004 0103

STR(ROB)+HDoutliers 0028 0019 0011 0076

STR(ROB)+GESD 0064 0063 0051 0140

STR(ROB)+iForest 0022 0014 0010 0027

Cuadro A4 Resultados Escenario 4 Sensibilidad ARIMA(011)x(011)12

78 APEacuteNDICE A TABLAS

Caso 1 Caso 2 Caso 3 Caso 4

X-13ARIMA-SEATS 0266 0629 0177 0574

TRAMO-SEATS 0400 0750 0251 0618

STL+HDoutliers 0247 0477 0291 0130

STL+GESD 0093 0260 0160 0024

STL+iForest 0270 0536 0312 0138

STL(ROB)+HDoutliers 0278 0489 0358 0102

STL(ROB)+GESD 0400 0688 0478 0132

STL(ROB)+iForest 0314 0553 0398 0133

Twitter+HDoutliers 0254 0439 0363 0108

Twitter+GESD 0176 0385 0317 0064

Twitter+iForest 0274 0486 0388 0131

STR+HDoutliers 0664 0895 0240 0760

STR+GESD 0425 0770 0065 0567

STR+iForest 0724 0939 0283 0800

STR(ROB)+HDoutliers 0197 0334 0220 0529

STR(ROB)+GESD 0190 0333 0207 0692

STR(ROB)+iForest 0235 0369 0238 0591

Cuadro A5 Resultados Escenario 5 Sensibilidad ARIMA(101)x(012)12

A1 TABLAS DE SENSIBILIDAD 79

Caso 1 Caso 2 Caso 3 Caso 4

X-13ARIMA-SEATS 0333 0662 0355 0618

TRAMO-SEATS 0460 0767 0480 0656

STL+HDoutliers 0521 0798 0502 0629

STL+GESD 0230 0559 0188 0328

STL+iForest 0565 0836 0572 0651

STL(ROB)+HDoutliers 0519 0788 0605 0601

STL(ROB)+GESD 0541 0828 0676 0561

STL(ROB)+iForest 0566 0843 0668 0648

Twitter+HDoutliers 0246 0423 0362 0212

Twitter+GESD 0104 0232 0187 0102

Twitter+iForest 0284 0456 0398 0230

STR+HDoutliers 0527 0788 0444 0641

STR+GESD 0279 0585 0152 0386

STR+iForest 0600 0825 0499 0685

STR(ROB)+HDoutliers 0407 0674 0497 0550

STR(ROB)+GESD 0277 0527 0352 0404

STR(ROB)+iForest 0462 0735 0573 0582

Cuadro A6 Resultados Escenario 6 Sensibilidad ARIMA(111)x(101)12

80 APEacuteNDICE A TABLAS

Caso 1 Caso 2 Caso 3 Caso 4

X-13ARIMA-SEATS 0299 0638 0335 0632

TRAMO-SEATS 0424 0717 0432 0801

STL+HDoutliers 0432 0705 0397 0626

STL+GESD 0177 0416 0109 0351

STL+iForest 0514 0762 0463 0530

STL(ROB)+HDoutliers 0441 0686 0494 0613

STL(ROB)+GESD 0461 0731 0556 0584

STL(ROB)+iForest 0491 0723 0548 0528

Twitter+HDoutliers 0280 0471 0387 0354

Twitter+GESD 0129 0288 0191 0147

Twitter+iForest 0008 0017 0051 0050

STR+HDoutliers 0456 0700 0467 0568

STR+GESD 0203 0439 0167 0274

STR+iForest 0515 0778 0443 0638

STR(ROB)+HDoutliers 0424 0687 0510 0554

STR(ROB)+GESD 0262 0524 0330 0366

STR(ROB)+iForest 0349 0562 0413 0388

Cuadro A7 Resultados Escenario 7 Sensibilidad ARIMA(112)x(011)12

A1 TABLAS DE SENSIBILIDAD 81

Caso 1 Caso 2 Caso 3 Caso 4

X-13ARIMA-SEATS 0299 0638 0335 0632

TRAMO-SEATS 0424 0717 0432 0801

STL+HDoutliers 0432 0705 0397 0626

STL+GESD 0177 0416 0109 0351

STL+iForest 0485 0738 0428 0665

STL(ROB)+HDoutliers 0441 0686 0494 0613

STL(ROB)+GESD 0461 0731 0556 0584

STL(ROB)+iForest 0494 0755 0566 0678

Twitter+HDoutliers 0280 0471 0387 0354

Twitter+GESD 0129 0288 0191 0147

Twitter+iForest 0306 0509 0430 0359

STR+HDoutliers 0456 0700 0467 0568

STR+GESD 0203 0439 0167 0274

STR+iForest 0497 0772 0507 0602

STR(ROB)+HDoutliers 0424 0687 0510 0554

STR(ROB)+GESD 0262 0524 0330 0366

STR(ROB)+iForest 0465 0755 0577 0590

Cuadro A8 Resultados Escenario 8 Sensibilidad ARIMA(011)x(100)12

82 APEacuteNDICE A TABLAS

A2 Tablas de exceso

Caso 1 Caso 2 Caso 3 Caso 4

X-13ARIMA-SEATS 0078 0077 0066 0042

TRAMO-SEATS 0211 0208 0222 0056

STL+HDoutliers 0788 0829 0805 1534

STL+GESD 0056 0055 0045 0031

STL+iForest 0406 0300 0404 0659

STL(ROB)+HDoutliers 1162 1242 1212 1714

STL(ROB)+GESD 1411 1417 1416 0461

STL(ROB)+iForest 0637 0468 0575 0859

Twitter+HDoutliers 0930 0955 0905 1487

Twitter+GESD 0257 0273 0254 0069

Twitter+iForest 0538 0412 0490 0776

STR+HDoutliers 0759 0810 0759 1464

STR+GESD 0053 0062 0046 0024

STR+iForest 0403 0301 0381 0725

STR(ROB)+HDoutliers 0749 0842 0758 1460

STR(ROB)+GESD 0199 0196 0192 0099

STR(ROB)+iForest 0427 0315 0413 0749

Cuadro A9 Resultados Escenario 1 Exceso AR(1)

A2 TABLAS DE EXCESO 83

Caso 1 Caso 2 Caso 3 Caso 4

X-13ARIMA-SEATS 0054 0058 0066 0058

TRAMO-SEATS 0144 0138 0175 0061

STL+HDoutliers 0695 0772 0759 1472

STL+GESD 0034 0038 0050 0016

STL+iForest 0443 0318 0425 0706

STL(ROB)+HDoutliers 1168 1221 1180 1703

STL(ROB)+GESD 1309 1349 1415 0418

STL(ROB)+iForest 0682 0528 0621 0877

Twitter+HDoutliers 0836 0832 0911 1577

Twitter+GESD 0313 0329 0334 0061

Twitter+iForest 0552 0417 0483 0755

STR+HDoutliers 0798 0885 0694 1541

STR+GESD 0054 0064 0044 0018

STR+iForest 0407 0302 0396 0724

STR(ROB)+HDoutliers 0725 0776 0745 1516

STR(ROB)+GESD 0134 0143 0142 0076

STR(ROB)+iForest 0435 0312 0372 0727

Cuadro A10 Resultados Escenario 2 Exceso MA(1)

84 APEacuteNDICE A TABLAS

Caso 1 Caso 2 Caso 3 Caso 4

X-13ARIMA-SEATS 0106 0060 0101 0070

TRAMO-SEATS 0179 0123 0175 0085

STL+HDoutliers 0638 0635 0686 1376

STL+GESD 0052 0054 0067 0020

STL+iForest 0448 0346 0468 0867

STL(ROB)+HDoutliers 0932 0905 1010 1604

STL(ROB)+GESD 2339 2311 2338 1863

STL(ROB)+iForest 0705 0573 0695 1281

Twitter+HDoutliers 0311 0285 0311 0743

Twitter+GESD 1302 1282 1331 1946

Twitter+iForest 0167 0153 0175 0645

STR+HDoutliers 0672 0703 0623 1364

STR+GESD 0180 0183 0119 0050

STR+iForest 0372 0297 0393 0899

STR(ROB)+HDoutliers 0598 0568 0588 1225

STR(ROB)+GESD 1030 1008 0999 1341

STR(ROB)+iForest 0463 0383 0464 1108

Cuadro A11 Resultados Escenario 3 Exceso ARIMA(011)

A2 TABLAS DE EXCESO 85

Caso 1 Caso 2 Caso 3 Caso 4

X-13ARIMA-SEATS 0132 0120 0062 0274

TRAMO-SEATS 0198 0180 0075 0274

STL+HDoutliers 0832 0823 0837 1337

STL+GESD 0231 0225 0226 0165

STL+iForest 0727 0710 0718 1237

STL(ROB)+HDoutliers 1197 1152 1186 1230

STL(ROB)+GESD 4756 4699 4689 7954

STL(ROB)+iForest 0992 0993 0983 1514

Twitter+HDoutliers 0144 0162 0182 0376

Twitter+GESD 3050 2761 2813 6058

Twitter+iForest 0123 0128 0121 0508

STR+HDoutliers 1108 1135 1027 1454

STR+GESD 1469 1679 0582 4430

STR+iForest 0732 0674 0882 1653

STR(ROB)+HDoutliers 1382 1266 0876 10915

STR(ROB)+GESD 4452 4583 4289 19321

STR(ROB)+iForest 0831 0845 0828 1858

Cuadro A12 Resultados Escenario 4 Exceso ARIMA(011)x(011)12

86 APEacuteNDICE A TABLAS

Caso 1 Caso 2 Caso 3 Caso 4

X-13ARIMA-SEATS 0109 0123 0111 0069

TRAMO-SEATS 0239 0301 0312 0139

STL+HDoutliers 0869 0762 0986 1367

STL+GESD 0170 0170 0198 0244

STL+iForest 0667 0475 0712 1291

STL(ROB)+HDoutliers 1328 1357 1499 1287

STL(ROB)+GESD 2517 2530 2919 5438

STL(ROB)+iForest 0992 0813 0978 1444

Twitter+HDoutliers 1041 0966 1065 1383

Twitter+GESD 0796 0854 0830 2221

Twitter+iForest 0808 0655 0735 1412

STR+HDoutliers 0799 0979 0846 1551

STR+GESD 0101 0087 0083 0029

STR+iForest 0383 0286 0619 0669

STR(ROB)+HDoutliers 0764 0759 0755 1692

STR(ROB)+GESD 1600 1591 1490 8145

STR(ROB)+iForest 0603 0492 0593 0894

Cuadro A13 Resultados Escenario 5 Exceso ARIMA(101)x(012)12

A2 TABLAS DE EXCESO 87

Caso 1 Caso 2 Caso 3 Caso 4

X-13ARIMA-SEATS 0179 0167 0141 0096

TRAMO-SEATS 0307 0299 0297 0127

STL+HDoutliers 0792 0783 0775 1598

STL+GESD 0052 0050 0049 0030

STL+iForest 0452 0306 0459 0748

STL(ROB)+HDoutliers 1193 1207 1269 1697

STL(ROB)+GESD 1290 1324 1270 0437

STL(ROB)+iForest 0708 0531 0670 0952

Twitter+HDoutliers 0690 0698 0676 1157

Twitter+GESD 0266 0257 0225 0523

Twitter+iForest 0538 0416 0459 1063

STR+HDoutliers 0740 0853 0796 1429

STR+GESD 0065 0077 0063 0036

STR+iForest 0432 0311 0493 0750

STR(ROB)+HDoutliers 0749 0799 0717 1477

STR(ROB)+GESD 0317 0291 0254 0167

STR(ROB)+iForest 0502 0373 0463 0839

Cuadro A14 Resultados Escenario 6 Exceso ARIMA(111)x(101)12

88 APEacuteNDICE A TABLAS

Caso 1 Caso 2 Caso 3 Caso 4

X-13ARIMA-SEATS 0147 0138 0115 0081

TRAMO-SEATS 0278 0285 0287 0261

STL+HDoutliers 0788 0815 0776 1392

STL+GESD 0045 0047 0042 0031

STL+iForest 0471 0337 0478 0842

STL(ROB)+HDoutliers 1122 1183 1194 1785

STL(ROB)+GESD 1364 1387 1340 0670

STL(ROB)+iForest 0720 0559 0711 1100

Twitter+HDoutliers 0125 0109 0084 0092

Twitter+GESD 3247 3207 3185 7613

Twitter+iForest 0087 0066 0073 0294

STR+HDoutliers 0854 0807 0773 1430

STR+GESD 0069 0069 0050 0036

STR+iForest 0438 0357 0484 0793

STR(ROB)+HDoutliers 0765 0755 0725 1370

STR(ROB)+GESD 0434 0489 0510 0536

STR(ROB)+iForest 0581 0471 0547 1064

Cuadro A15 Resultados Escenario 7 Exceso ARIMA(112)x(011)12

A2 TABLAS DE EXCESO 89

Caso 1 Caso 2 Caso 3 Caso 4

X-13ARIMA-SEATS 0090 0095 0104 0056

TRAMO-SEATS 0487 0475 0494 0446

STL+HDoutliers 0734 0814 0749 1507

STL+GESD 0068 0059 0052 0025

STL+iForest 0496 0352 0479 0747

STL(ROB)+HDoutliers 1157 1098 1083 1660

STL(ROB)+GESD 1232 1281 1260 0294

STL(ROB)+iForest 0764 0566 0687 0918

Twitter+HDoutliers 0859 0822 0860 1415

Twitter+GESD 0214 0209 0217 0114

Twitter+iForest 0606 0526 0550 1031

STR+HDoutliers 0797 0792 0778 1469

STR+GESD 0048 0059 0042 0017

STR+iForest 0461 0336 0464 0782

STR(ROB)+HDoutliers 0786 0726 0699 1494

STR(ROB)+GESD 0159 0146 0145 0072

STR(ROB)+iForest 0520 0359 0433 0830

Cuadro A16 Resultados Escenario 8 Exceso ARIMA(011)x(100)12

90 APEacuteNDICE A TABLAS

Bibliografiacutea

Abraham B y Box G E P (1979) Bayesian analysis of some outlier problems in time seriesBiometrika 66 (2) 229ndash236

Barnett V y Lewis T (1996) Outliers in statistical data 3rd edition (John Wiley amp Sons Chi-chester) 584 pp [UK pound]5500 ISBN 0-471-93094-6 International Journal of Forecasting 12 (1) 175-176

Bell W (1983) A computer program for detecting outliers in time series Proceedings of the AmericanStatistical Association Business and Economic Statistics Section 634-639

Box G y Jenkins G (1976) Time series analysis forecasting and control En (Vol 134) doi1023072344246

Box G E P y Tiao G C (1975) Intervention analysis with applications to economic and environ-mental problems Journal of the American Statistical Association 70 (349) 70ndash79

Breunig M Kriegel H-P Ng R y Sander J (2000) Lof Identifying density-based local outliersEn (Vol 29 p 93-104) doi 101145342009335388

Chang I Tiao G y Chen C (1988) Estimation of time series parameters in the presence of outliersTechnometrics 30 193-204 doi 10108000401706198810488367

Chang I y Tiao G C (1983) Estimation of time series parameters in the presence of outliersTechnical Report 8 University of Chicago Statistics Research Center 30

Chauvenet W (1963) A manual of spherical and practical astronomy volume 2 474-566Chen C y Liu L-M (1993) Joint estimation of model parameters and outlier effects in time series

Journal of the American Statistical Association 88 (421) 284ndash297Cleveland R B Cleveland W S McRae J E y Terpenning I (1990) STL A seasonal-trend

decomposition procedure based on Loess Journal of Official Statistics 6 Dancho M y Vaughan D (2019) Anomalize Tidy anomaly detection [Manual de software informaacute-

tico]Datacamp (2018) Detect anomalies with anomalize in r httpswwwdatacampcomcommunity

tutorialsdetect-anomalies-anomalize-r (Visitado 2020-06-16)de Lacalle J L (2015) Detection of outliers in time series with r httpsjalobecomtsoutliers

(Visitado 2020-03-16)de Lacalle J L (2019) Detection of outliers in time series [Manual de software informaacutetico] https

cranr-projectorgwebpackagestsoutlierstsoutlierspdfDokumentov A y Hyndman R J (2015) STR A seasonal-trend decomposition procedure based

on Regression

91

92 BIBLIOGRAFIacuteA

Dokumentov A y Hyndman R J (2018) str Str decomposition [Manual de software informaacutetico](httpscranr-projectorgwebpackagesstRindexhtml)

Fraley C y Wilkinson L (2020) Hdoutliers Leland wilkinsonrsquos algorithm for detecting multidimen-sionaloutliers [Manual de software informaacutetico]

Goacutemez V y Maravall A (1997) Programs tramo and seats instructions for the user Mimeo Bancode Espantildea

Goacutemez V y Taguas D (1995) Deteccioacuten y correccioacuten automaacutetica de outliers con tramo Unaaplicacioacuten al ipc de bienes industriales no energeacuteticos

Grubbs F (1950) Sample criteria for testing outlying observations The Annals of MathematicalStatistics 21 doi 101214aoms1177729885

Hawkins D (1980) Identification of outliers London [ua] Chapman and HallHochenbaum J Vallis O y Kejariwal A (2017) Automatic anomaly detection in the cloud via

statistical learningHoerl A y Kennard R (1970) Ridge regression Biased estimation for nonorthogonal problems

Technometrics 8 27-51Hyndman R (2020) Forecasting functions for time series and linear models [Manual de software

informaacutetico] httpscranr-projectorgwebpackagesforecastforecastpdfla Tente A Q Michalek A Palate J y Baeyens R (2020) Rjdemetra Interface to rsquojdemetra+rsquo

seasonal adjustment software [Manual de software informaacutetico]Liu F T Ting K y Zhou Z-H (2009) Isolation forest En (p 413 - 422) doi 101109

ICDM200817Mahdavinejad M S Rezvan M Barekatain M Adibi P Barnaghi P y Sheth A P (2018)

Machine learning for internet of things data analysis a survey Digital Communications andNetworks 4 (3) 161 - 175 doi httpsdoiorg101016jdcan201710002

Moore D y McCabe G (1999) Introduction to the practice of statistics WH FreemanOtto M y Bell W (1990) Two issues in time series outlier detection using indicator variables

Proceedings of the American Statistical Association Business and Economic Statistics Section182-187

Peirce B (1852) Criterion for rejection of doubtful observations The Astronomical Journal 2 161-163 doi 101086100259

Pentildea D (2010) Anaacutelisis de series temporales Alianza EditorialRosner B (1975) On the detection of many outliers Technometrics 17 221-227 doi 101080

00401706197510489305Rosner B (1983) Percentagepoints for a generalized esd many-outier procedure Technometrics 25

165-172 doi 10108000401706198310487848Rousseeuw P y Hubert M (2011) Robust statistics for outlier detection Wiley Interdisc Rew

Data Mining and Knowledge Discovery 1 73-79 doi 101002widm2Shan G (2015) Improved confidence intervals for the youden index

doi 01371journalpone0127272Shiskin J Young A y Musgrave J (1967) The x-11 variant of the census method ii seasonal

adjustment program

BIBLIOGRAFIacuteA 93

Srikanth K S (2017) solitude An implementation of isolation forest [Manual de software informaacutetico](R package version 021 mdash For new features see the rsquoSolitudersquo file (in the package source))

Thompson W (1935) On a criterion for the rejection of observations and the distribution of theratio of deviation to sample standard deviation The Annals of Mathematical Statistics 6 doi101214aoms1177732567

Tibshirani R (1996) Regression shrinkage and selection via the lasso Journal of the Royal StatisticalSociety Series B (Methodological) 58 267-288 doi 101111j2517-61611996tb02080x

Time Series Research Staff (2017) X-13ARIMA-SEATS Reference Manual Center for StatisticalResearch and Methodology

Tsay R S (1986) Time series model specification in the presence of outliers Journal of the AmericanStatistical Association 81 (393) 132ndash141

Tsay R S y Tiao G C (1984) Consistent estimates of autoregressive parameters and extendedsample autocorrelation function for stationary and nonstationary arma models Journal of theAmerican Statistical Association 79 (385) 84ndash96

Tukey J W (1977) Exploratory data analysis Addison-WesleyTwitter Inc (2015) Anomalydetection r package GitHub (httpsgithubcomtwitter

AnomalyDetection)Wilkinson L (2017) Visualizing big data outliers through distributed aggregation IEEE Transactions

on Visualization and Computer Graphics PP 1-1 doi 101109TVCG20172744685Woodward W A Gray H L y Elliott A C (2017) Applied time series analysis with r second

edition Journal of Time Series Analysis 39 618 doi 101111jtsa12273Youden W (1950) Youden wjindex for rating diagnostic tests cancer 3(1) 32-35 Cancer 3 32-5

doi 1010021097-0142(1950)3130CO2-3

  • Resumen
  • Introduccioacuten
  • Modelizacioacuten de series temporales
    • Conceptos baacutesicos
    • Meacutetodos de modelizacioacuten de series temporales
      • X-13ARIMA-SEATS
      • TRAMO-SEATS
      • STL
      • STR
      • Twitter
        • Resumen meacutetodos de modelizacioacuten de series temporales
          • Deteccioacuten de valores atiacutepicos
            • Conceptos baacutesicos
            • Meacutetodos de deteccioacuten de valores atiacutepicos
              • X-13ARIMA-SEATS
              • TRAMO-SEATS
              • GESD
              • Isolation Forest
              • HDoutliers
                • Resumen meacutetodos de deteccioacuten de valores atiacutepicos
                • Meacutetodos de deteccioacuten de valores atiacutepicos en series temporales
                  • Estudio de simulacioacuten
                    • Escenarios
                    • Iacutendice de Youden
                    • Resultados
                    • Conclusiones
                      • Aplicacioacuten a datos reales
                        • Anaacutelisis Series IGE
                        • Anaacutelisis Graacutefico
                          • Conclusiones
                          • Tablas
                            • Tablas de sensibilidad
                            • Tablas de exceso
                              • Bibliografiacutea
Page 12: Trabajo Fin de Máster - USC

2 CAPIacuteTULO 1 INTRODUCCIOacuteN

muestra puede confundir los resultados Ambos casos alteran los anaacutelisis posteriores y pueden dirigira conclusiones incorrectas si se llegara a tomar la decisioacuten equivocada Por lo tanto la importanciareside en identificar de manera adecuada queacute datos son atiacutepicos y cuaacuteles no

Esta identificacioacuten seraacute de gran utilidad dado que permitiraacute tanto realizar mejores anaacutelisis comopoder interpretar sucesos relevantes en el contexto socio-econoacutemico gallego

El problema de la deteccioacuten de atiacutepicos es un tema ampliamente tratado en la literatura por loque nuestro trabajo consistiraacute en realizar un estudio comparativo de los meacutetodos maacutes comunes en laactualidad y plantear posibles mejoras

Uno de los criterios a los que le prestaremos mayor atencioacuten en este estudio seraacute a la sensibilidaddel meacutetodo dado que si este es muy sensible e identifica muchos candidatos como atiacutepicos no serviraacute degran ayuda Por otra parte si apenas sentildeala ninguacuten caso seraacute similar a no aplicar ninguna herramientade deteccioacuten

Para estudiar este comportamiento realizaremos un estudio de simulacioacuten en el que a traveacutes devalores atiacutepicos previamente identificados podremos analizar el comportamiento de cada meacutetodoAdemaacutes dado que trabajamos con un gran volumen de datos una caracteriacutestica que se les exigiraacute alos meacutetodos seraacute una raacutepida velocidad de ejecucioacuten

La deteccioacuten de datos atiacutepicos tiene aplicaciones en muchos aacutembitos deteccioacuten de operacionesfraudulentas en tarjetas de creacutedito solicitudes para preacutestamos de clientes potencialmente morososdeteccioacuten de intrusiones en redes de comunicacioacuten monitorizacioacuten de paraacutemetros de fabricacioacuten paradeteccioacuten de producciones defectuosas anomaliacuteas en monitorizaciones meacutedicas anaacutelisis electoraleslimpieza de datos prediccioacuten del tiempo o hasta en astronomiacutea donde un punto anoacutemalo puedeimplicar el descubrimiento de una nueva estrella

En este trabajo nos centraremos en datos reales provenientes de la paacutegina web del IGE recogidosen siete conjuntos

Conjunto 1 Viajeros noches y estancia media en establecimientos hoteleros y de turismo ruralen Espantildea Galicia y sus provincias Datos mensuales Los datos proceden del Instituto Nacio-nal de Estadiacutestica (INE) de la Encuesta de ocupacioacuten hotelera y la Encuesta de ocupacioacuten enalojamientos de turismo rural (httpwwwigeeuigebdtigeapidatos3476)

Conjunto 2 Poblacioacuten de 16 y maacutes antildeos por sexo grupos de edad y relacioacuten con la actividadeconoacutemica en Galicia Datos trimestrales Los datos proceden de la Encuesta de Poblacioacuten Activa(EPA) elaborada conjuntamente entre el INE y el IGE (httpwwwigeeuigebdtigeapidatos6356)

Conjunto 3 Contratos registrados seguacuten su modalidad Datos mensuales Esta informacioacuten proce-de de la Estadiacutestica de contratos registrados elaborada por el Servicio Puacuteblico de Empleo Estatal(SEPE) (httpwwwigeeuigebdtigeapidatos308)

Conjunto 4 Iacutendice de produccioacuten industrial general y por destino econoacutemico de los bienes en Ga-licia (Base 2015) Datos mensuales La informacioacuten procede del Iacutendice de Produccioacuten Industrialoperacioacuten estadiacutestica ejecutada por el INE (httpwwwigeeuigebdtigeapidatos9048)

Conjunto 5 Transacciones inmobiliarias por reacutegimen y tipo de vivienda Nuacutemero valor totaly valor medio Datos trimestrales La fuente de esta informacioacuten es el Ministerio de Fomento y

3

hace referencia a la compraventa de viviendas elevadas a escritura puacuteblica ante notario (httpwwwigeeuigebdtigeapidatos4052)

Conjunto 6 Bajas de demandas de empleo seguacuten geacutenero y duracioacuten de la demanda en Galiciay sus provincias Datos mensuales La fuente de esta informacioacuten es el SEPE y hace referenciaa las bajas que los servicios de empleo puacuteblico tuvieron debido a una colocacioacuten no hacer larenovacioacuten de la demanda en el periodo establecido o por otras causas (httpwwwigeeuigebdtigeapidatos1243)

Conjunto 7 Afiliaciones a la Seguridad Social uacuteltimo diacutea del mes en Galicia y sus provinciasDatos mensuales La informacioacuten procede del Ministerio de Seguridad Social y Migraciones yhace referencia a las personas trabajadoras que estaacuten en alta en la Seguridad Social (httpwwwigeeuigebdtigeapidatos4885)

Los motivos por los que se han escogido estos conjuntos obedece a diversas razones En primerlugar el maacutes importante incluir series en las que existe el conocimiento de que se presentan atiacutepicosA partir de ahiacute se ha conformado un conjunto de series que permitiesen recoger la mayor amalgamade naturalezas posibles que se presentan en las series que trata el IGE mercado laboral turismoconstruccioacuten o industria Seriacutean aacutembitos que se recogen a lo largo de la seleccioacuten de datos realizadaAdemaacutes se han incorporado series con distinta frecuencia de obtencioacuten tanto series mensuales comotrimestrales

En este trabajo se recoge una comparativa de meacutetodos los cuales se pueden englobar bajo dosvisiones de coacutemo abordar la identificacioacuten de anomaliacuteas en series de tiempo Por un lado existen losmeacutetodos cuyo mecanismo se fundamenta en modelos de series temporales que realizan un procesoiterativo para estimar el modelo integrando la posible influencia de observaciones atiacutepicas Por el otrouna visioacuten maacutes reciente se plantea a traveacutes de realizar un proceso de deteccioacuten en dos partes en laprimera se le aplica a la serie de tiempo un meacutetodo de descomposicioacuten para despueacutes aplicar un meacutetodode deteccioacuten de atiacutepicos sobre el residuo

Dado que ambos enfoques comparten un nexo comuacuten como es la modelizacioacuten de la serie de tiempoy la localizacioacuten de atiacutepicos las podemos tratar conjuntamente en dos capiacutetulos el Capiacutetulo 2 y elCapiacutetulo 3

En el Capiacutetulo 2 se estudian las propiedades de modelizacioacuten de cada meacutetodo La importancia deun buen meacutetodo de modelizacioacuten de series temporales reside en que cuanto mejor se consiga extraer elmecanismo generador de la serie de tiempo maacutes resaltaraacuten las observaciones atiacutepicas En el Capiacutetulo 3se describen los meacutetodos de deteccioacuten de atiacutepicos Estos dos capiacutetulos conforman la parte teoacuterica deltrabajo

Para estudiar el comportamiento de los diferentes meacutetodos se plantea un profundo estudio desimulacioacuten en el Capiacutetulo 4 en el que se utiliza el Iacutendice de Youden como herramienta discriminatoriaacerca de queacute meacutetodos ofrecen mejores resultados En el Capiacutetulo 5 se tratan los datos proporcionadospor el IGE a traveacutes de los meacutetodos que han presentado un mejor comportamiento en el estudio desimulacioacuten Para finalizar el Capiacutetulo 6 expone las conclusiones que hemos extraiacutedo a lo largo de larealizacioacuten de este trabajo

4 CAPIacuteTULO 1 INTRODUCCIOacuteN

Capiacutetulo 2

Modelizacioacuten de series temporales

21 Conceptos baacutesicos

En este apartado definiremos los elementos principales que rodean a las series de tiempo Para ellopodemos echar mano de infinidad de manuales dado que las mismas son objeto de estudio en multitudde campos desde las ciencias sociales y econoacutemicas hasta ramas que requieren de un bagaje muchomaacutes matemaacutetico En este trabajo haremos uso de Pentildea (2010) y Woodward Gray y Elliott (2017)

En la estadiacutestica baacutesica estamos acostumbrados a trabajar con una muestra donde las observacio-nes X1 X2 Xn son variables aleatorias independientes e ideacutenticamente distribuidas Sin embargocuando las muestras se extraen en base a instantes de tiempo es muy probable que las observacionesesteacuten correlacionadas entre si Este tipo de muestras con dependencia temporal se denominan series detiempo Es decir una serie de tiempo es una secuencia de observaciones ordenadas cronoloacutegicamente

Este tipo de datos se utilizan en muacuteltiples disciplinas algunos ejemplos podriacutean incluir desde elaacutembito econoacutemico como la evolucioacuten del Producto Interior Bruto (PIB) o del precio del petroacuteleo hastaaacutembitos como la meteorologiacutea midiendo la temperatura de una localidad durante un periacuteodo de tiempoo el aacutembito sanitario siguiendo la evolucioacuten de una enfermedad en un paciente

Uno de los principales inconvenientes a la hora de trabajar con series temporales son los datos atiacute-picos Estos datos atiacutepicos pueden tener dos naturalezas errores no deseados o pepitas de informacioacuten(Rousseeuw y Hubert 2011) Estas pepitas de informacioacuten pueden servirnos por ejemplo para locali-zar sucesos importantes como huelgas medidas de poliacutetica econoacutemica o desastres naturales (Goacutemez yTaguas 1995) Al igual que en el resto de campos de la estadiacutestica que en nuestro conjunto de datos seencuentren valores atiacutepicos puede llevarnos a incurrir en errores de especificacioacuten Como se mencionaen Chang Tiao y Chen (1988) es importante ser capaz de identificar estos sucesos para comprendermejor la estructura subyacente de la serie

Uno de los modelos maacutes comuacutenmente usado y utilizado como punto de partida en el anaacutelisisde series temporales es el modelo ARIMA Los modelos ARIMA ajustan los valores de la serie enbase a las observaciones previas y errores aleatorios con una estructura que le permite incluir tantocomponentes ciacuteclicos como estacionales Siendo Xtt una serie de tiempo un modelo ARIMA seriacuteaaquel que admite una representacioacuten

5

6 CAPIacuteTULO 2 MODELIZACIOacuteN DE SERIES TEMPORALES

φ(B)(1minusB)dXt = c+ θ(B)at

donde Xt es la observacioacuten t de la serie de tiempo B el operador retardo definido por BXt = Xtminus1φ(B) = (1minusφ1(B)minusφ2B

2minusminusφpBp) φ(B) = (1minusθ1Bminusθ2B2minusminusθqBq) cφ1 φ2 φpθ1 θ2 θp

son constantes d es el nuacutemero de diferencias necesarias para eliminar la tendencia de la serie at esruido blanco y p y q los oacuterdenes de los procesos autorregresivos (AR) y de medias moviles (MA)

Con esta representacioacuten del modelo ARIMA se puede deducir raacutepidamente que estos no son maacutes quela mezcla de los dos primeros modelos de series temporales formulados los modelos AR y los modelosMA Ademaacutes si el proceso que genera la serie de tiempo presenta la posibilidad de estar formado porcomponentes de largo periacuteodo temporal se debe hacer uso de los ARIMA estacional muacuteltiplicativoARIMA(pdq)x(PDQ) cuya representacioacuten seriacutea

φ(B)Φ(Bs)(1minusB)d(1minusBs)DXt = c+ θ(B)Θ(Bs)at

En esta nueva formulacioacuten D es el nuacutemero de diferenciaciones estacionales aplicadas para eliminarla componente estacional Φi y Θj las constantes respectivas a la parte estacional para i = 1 2 P yj = 1 2 Q con P igual al orden del proceso AR estacional y Q al orden del proceso MA estacional

Sin embargo la presencia de atiacutepicos puede llevar a un incorrecto ajuste de los paraacutemetros delmodelo debido a que se pueden ver sesgados por el efecto del atiacutepico La mala estimacioacuten de losparaacutemetros nos conduce a diversos errores dado que podemos no diseccionar bien la estructura dela serie como para entender su comportamiento Ademaacutes en el caso de que el atiacutepico se produzcaen la uacuteltima parte de la serie afectariacutea a las estimaciones futuras incurriendo en un error mayor deprediccioacuten

Por ello surgieron meacutetodos como X-13ARIMA-SEATS o TRAMO-SEATS que parten de los mo-delos ARIMA e introducen mejoras como la deteccioacuten y correccioacuten de atiacutepicos Estos meacutetodos fueronampliamente utilizados durante mucho tiempo para la modelizacioacuten de series temporales Sin embargoel desarrollo de la tecnologiacutea provocoacute la creacioacuten del Internet de las Cosas (Mahdavinejad et al 2018)un entorno en el que casi la totalidad de los objetos y personas estaacute conectado a internet dejandohuella de su comportamiento Las caracteriacutesticas de esta red provocaron un incremento enorme en lacreacioacuten y obtencioacuten de datos unas caracteriacutesticas para las cuales no estaban preparados estos meacutetodosdisentildeados para escalar a conjuntos de tamantildeo pequentildeo o mediano

Es aquiacute donde surge un nuevo enfoque para la deteccioacuten de valores atiacutepicos en series de tiempobasado en aplicar un proceso de descomposicioacuten y analizar los residuos Los procesos de descomposicioacutentienen por objetivo diseccionar una serie en tres componentes tendencia estacionalidad y residuo demodo que se pueda establecer un patroacuten de como se comporta En este trabajo el objetivo no es buscarel modelo maacutes preciso sino aquel que consiga trazar mejor la estructura subyacente de la serie de formaque resalte los posibles valores atiacutepicos en su componente residual y es por ello que estos modelosresultan de tanto intereacutes El primer meacutetodo basado en esta idea que recibioacute cierta repercusioacuten fue elpresentado por el equipo de Twitter (Hochenbaum Vallis y Kejariwal 2017) el cual fue maacutes tardeampliado en el paquete Anomalize de R (Dancho y Vaughan 2019)

Esta forma de proceder en dos partes descomposicioacuten maacutes deteccioacuten se debe a la idea de quevisualizar o localizar atiacutepicos en una serie es complicado debido a causas como la estacionalidad o

21 CONCEPTOS BAacuteSICOS 7

tendencia de la serie Aplicarle a la serie un proceso de descomposicioacuten permite extraer estas compo-nentes y resaltar las posibles anomaliacuteas A continuacioacuten en la Figura 21 mostramos un ejemplo deeste procedimiento utilizando uno de los meacutetodos que se emplearaacuten posteriormente en el trabajo STL

Figura 21 A la izquierda la serie referente al Nuacutemero Total de Afiliaciones a la Seguridad Social eluacuteltimo diacutea de mes en Pontevedra perteneciente al Conjunto 7 A la derecha los residuos obtenidos trasaplicarle la descomposicioacuten STL

Como se puede apreciar en la Figura 21 observar alguacuten comportamiento extrantildeo en la serie detiempo es complicado debido a las fluctuaciones que va sufriendo a lo largo de los antildeos Sin embargouna vez aplicado el proceso de descomposicioacuten y eliminado los efectos de estacionalidad y tendenciapodemos ver el efecto de la crisis del Covid-19 apareciendo en los uacuteltimos datos de la serie Esta crisisprovoca que los datos reales de esos meses disten mucho de los esperados lo que se traduce en fuertesincrementos en el tamantildeo del residuo

Lo interesante de estos meacutetodos es que los procesos de descomposicioacuten de series de tiempo soncapaces de analizar multitud de series de caracteriacutesticas muy diferentes y filtrarlas de tal modo que elproblema acabe residiendo en lo que aparentemente es un sencillo problema de deteccioacuten de valoresatiacutepicos en el caso univariante Mientras que los meacutetodos como X-13ARIMA-SEATS o TRAMO-SEATS se encuentran limitados en su disentildeo a trabajar solamente con series con frecuencias mensualeso trimestrales

Sin embargo Wilkinson (2017) resalta que el problema de la deteccioacuten de valores atiacutepicos en elcaso univariante es engantildeosamente sencillo lo cual puede llevarnos a cometer errores en la deteccioacutende atiacutepicos pese a haber realizado una buena descomposicioacuten de la serie Por ello en este trabajo seplantea un capiacutetulo dedicado a analizar las propiedades de diferentes meacutetodos de deteccioacuten

Por tanto en el trabajo coexisten dos mecanismos de deteccioacuten de atiacutepicos en series temporalesPor un lado los meacutetodos de ajuste de series temporales que incorporan la deteccioacuten y correccioacuten deatiacutepicos al modelo de modo automaacutetico Y por el otro aquellos meacutetodos de deteccioacuten de atiacutepicos cuyaidea se centra en aplicar un proceso de descomposicioacuten maacutes anaacutelisis del residuo

En la Seccioacuten 22 se describen los procesos de modelizacioacuten de series temporales utilizados y en elCapiacutetulo 3 se describen los procesos de deteccioacuten de atiacutepicos

8 CAPIacuteTULO 2 MODELIZACIOacuteN DE SERIES TEMPORALES

22 Meacutetodos de modelizacioacuten de series temporales

221 X-13ARIMA-SEATS

El meacutetodo X-13ARIMA-SEATS es la versioacuten actualizada y mejorada del modelo X-11 desarrolladopor Shiskin Young y Musgrave (1967) X-13ARIMA-SEATS fue creado por el Censo de los EstadosUnidos (US Census Bureau) y forma parte de una familia de modelos de ajuste para series temporalesque se han ido desarrollando y estaacuten disentildeados para trabajar con series econoacutemicas estacionales Unaexplicacioacuten completa del meacutetodo y de coacutemo ha de implantarse se puede encontrar en Time SeriesResearch Staff (2017)

Este modelo se basa en la estimacioacuten de lo que sus autores denominan modelos regARIMA Estosson modelos de regresioacuten con errores ARIMA En concreto la media de la serie estaacute descrita por unacombinacioacuten lineal de regresores y la matriz de covarianzas es la de un proceso ARIMA Se incluyenregresores para modelar efectos de calendario como festivos vacaciones o diacutea de la semana Ademaacutestambieacuten se incluyen otro tipo de regresores para modelar el efecto de las anomaliacuteas que se puedanpresentar El modo en que se aborda este campo lo trataremos en profundidad en el Capiacutetulo 3 conel resto de meacutetodos de deteccioacuten

El proceso de ajuste comienza por un pre-ajuste de la serie a traveacutes de eliminar el efecto determiniacutes-tico mediante un modelo de regresioacuten con errores ARIMA En el siguiente paso la serie pre-ajustada sedescompone en tendencia (t) estacionalidad (s) y residuo (i) Esta descomposicioacuten puede ser aditiva(y = t+s+i) multiplicativa (y = tlowastslowasti) log-aditiva (log(y) = log(t)+log(s)+log(i)) o pseudo-aditiva(y = t lowast (s+ iminus 1)) Este paso en el que se aplica el proceso de descomposicioacuten se basa en el uso delalgoritmo X11 que descompone la serie a traveacutes de filtros lineales La serie final ajustada debe estarlibre de estacionalidad y efectos de calendario

X-13ARIMA-SEATS estaacute implementado en la libreriacutea RJDemetra de R en la funcioacuten x13 y lasespecificaciones necesarias para llevar a cabo la deteccioacuten de atiacutepicos se tratan en el Capiacutetulo 3 juntocon la explicacioacuten del proceso de deteccioacuten

222 TRAMO-SEATS

El meacutetodo TRAMO-SEATS (Goacutemez y Maravall 1997) fue disentildeado por el Banco de Espantildea parael anaacutelisis de series de tiempo Esta herramienta estaacute formada por dos mecanismos La parte TRAMO(Time Series Regression with Arima noise Missing Observations and Outliers) y la parte SEATS(Signal Extraction in ARIMA Time Series)

Como se introduce en Goacutemez y Taguas (1995) el programa TRAMO puede ser utilizado inde-pendientemente de SEATS sin embargo SEATS ha sido disentildeado para trabajar conjuntamente conTRAMO Su finalidad es la de realizar un anaacutelisis detallado de series temporales ya que cuenta conmecanismos para realizar tareas de estimacioacuten prediccioacuten interpolacioacuten de modelos de regresioacuten convalores ausentes con errores ARIMA y correccioacuten de valores atiacutepicos El programa incluye variables deregresioacuten para modelizar los diacuteas de calendario que pueden influir en el comportamiento de la serie co-mo puede ser la Pascua y variables de intervencioacuten que permiten corregir el efecto de las observacionesatiacutepicas La idea en la que se basa el modelo es muy similar a la del modelo X-13ARIMA-SEATS

TRAMO elimina de la serie los efectos especiales identifica y elimina automaacuteticamente los efectos

22 MEacuteTODOS DE MODELIZACIOacuteN DE SERIES TEMPORALES 9

de varios tipos de atiacutepicos e interpola las observaciones ausentes Tambieacuten cuenta con un moacuteduloque permite la identificacioacuten automaacutetica de modelos herramienta que imitaron los desarrolladores deX-13ARIMA-SEATS y que en su momento le permitioacute relevar de tareas monoacutetonas a los analistasEste procedimiento de identificacioacuten automaacutetica estaacute basado en estimar primero las raiacuteces unitarias yutilizar despueacutes el Criterio de Informacioacuten Bayesiano (BIC ) para especificar un modelo ARMA a laserie diferenciada

Figura 22 Esquema de funcionamiento de TRAMO-SEATS (Goacutemez y Maravall 1997)

La Figura 22 (Goacutemez y Maravall 1997) muestra como se integran ambas partes TRAMO ySEATS para formar en conjunto el mecanismo completo de modelizacioacuten

SEATS fue disentildeado originalmente para desestacionalizar series temporales El programa descom-pone una serie que sigue un modelo ARIMA en varios componentes tendencia componente estacionalciclo y componente irregular La descomposicioacuten puede ser aditiva o multiplicativa La descomposicioacutenparte de la hipoacutetesis de ortogonalidad de los componentes que a su vez siguen modelos ARIMA Paraidentificar los componentes se requiere que excepto el irregular esteacuten limpios de ruido blanco De estemodo se maximiza la varianza de este uacuteltimo y al contrario la tendencia el componente estacional yel ciclo son lo maacutes estables posibles

El modelo tratado por SEATS es el de una serie integrada lineal con innovaciones gaussianas Estahipoacutetesis puede no ser cierta en muacuteltiples ocasiones pero siempre es necesario extraer un modelo espor ello que SEATS fue disentildeada para ser utilizada de forma conjunta con TRAMO

TRAMO-SEATS estaacute implementado en la libreriacutea RJDemetra de R en la funcioacuten tramoseats y las

10 CAPIacuteTULO 2 MODELIZACIOacuteN DE SERIES TEMPORALES

especificaciones necesarias para llevar a cabo la deteccioacuten de atiacutepicos se tratan en el capiacutetulo 3 juntocon la explicacioacuten del proceso de deteccioacuten

223 STL

STL es un proceso de filtrado para descomponer series de tiempo en tendencia estacionalidad yresiduo cuyo nombre se debe a sus siglas en ingleacutes Seasonal-Trend decomposition based on Loessintroducido por Cleveland Cleveland McRae y Terpenning (1990) El propoacutesito de este meacutetodo fue elde desarrollar un meacutetodo de descomposicioacuten de series de tiempo que cumpliese los siguientes requisitos

1 Disentildeo sencillo y uso inmediato

2 Flexibilidad a la hora de especificar las variaciones en la tendencia y estacionalidad

3 Poder descomponer series de tiempo con valores faltantes

4 Tendencia y estacionalidad robusta de modo que no se vea distorsionada por datos anoacutemalos

5 Raacutepida computacioacuten y faacutecil implementacioacuten incluso para series temporales largas

El procedimiento de STL consiste en una secuencia de operaciones de suavizado realizadas todasellas salvo una por el mismo suavizador loess El mecanismo consiste en dos bucles uno interno yotro externo

Cada vuelta del bucle interno consiste en un suavizado estacional que actualiza dicha componenteseguido de un suavizado de la tendencia que actualiza la componente asociada con la tendencia Porotra parte cada vuelta del bucle externo consiste en aplicarle una serie de pesos robustos al bucleinterno Estos pesos se utilizan en la siguiente vuelta del bucle interno para reducir la influencia de losdatos anoacutemalos

La aplicacioacuten de la estimacioacuten robusta seraacute necesaria cuando exista un conocimiento previo de quelos datos tienen un comportamiento no gaussiano que conduce a una variacioacuten transitoria extrema delo contrario se pueden omitir las iteraciones del bucle externo y STL consistiriacutea solamente en el bucleinterno

A diferencia de otros meacutetodos como TRAMO-SEATS o X-13ARIMA-SEATS STL puede tratarcualquier tipo de estacionalidad en vez de estar atado a estacionalidades mensuales o trimestrales Sucomponente estacional es capaz de cambiar a lo largo del tiempo y dicho cambio puede ser controladopor el usuario Lo mismo sucede con el suavizado de la componente relacionada con la tendencia Unode sus inconvenientes es que no opera si en la serie se encuentran valores faltantes

En R encontramos este meacutetodo bajo la funcioacuten stl a la cual solo habraacute que especificarle unparaacutemetro Dicho paraacutemetro es el relacionado con el suavizado de la componente estacional e indicaal mecanismo el nuacutemero de observaciones consecutivas a utilizar para estimar los valores de dichacomponente Se podriacutea introducir un valor numeacuterico si tenemos alguacuten indicio sobre el posible desarrollode la componente estacional sin embargo dado que vamos a aplicarlo a un gran nuacutemero de series elanaacutelisis individual seriacutea costoso La solucioacuten utilizada en este trabajo pasa por fijar este paraacutemetrocomo perioacutedico lo cual asume que la evolucioacuten de la componente estacional es ideacutentica a lo largo delos antildeos que se desarrolla la serie

22 MEacuteTODOS DE MODELIZACIOacuteN DE SERIES TEMPORALES 11

224 STR

STR es un meacutetodo de descomposicioacuten de series de tiempo presentado por Dokumentov y Hyndman(2015) Sus siglas se deben a su nombre en ingleacutes Seasonal-Trend decomposition procedure based onRegression similar a la idea de STL salvo que ahora en vez de basarse en loess lo hace en regresioacutenEn concreto seguacuten los autores STR es similar a la regresioacuten Ridge (Hoerl y Kennard 1970) y suversioacuten robusta Robust STR (Dokumentov y Hyndman 2015) se podriacutea relacionar con una regresioacutenLASSO (Tibshirani 1996)

La idea de su desarrollo se originoacute debido a que los autores consideran que a pesar de existir variosalgoritmos de descomposicioacuten de series de tiempo existen muchas caracteriacutesticas en ellas que dichosalgoritmos son incapaces de tratar Las principales deficiencias que encuentran son

Incapacidad para proporcionar un modelo estadiacutestico significativo y simple

Incapacidad (o dificultad) para calcular intervalos de confianza

Incapacidad para tener en cuenta regresores

Incapacidad para tener en cuenta estacionalidad fraccionada

Incapacidad para tener en cuenta muacuteltiples estacionalidades

Incapacidad para tener en cuenta estacionalidades complejas y regresores que afecten a los datosde un modo estacional

El objetivo con el que se desarrolloacute STR fue el de corregir estas deficiencias a la par que presentar unmeacutetodo claro geneacuterico simple y robusto si fuera necesario Para solucionar estas deficiencias enfocan ladescomposicioacuten como un problema a resolver a traveacutes de una regresioacuten cuantil o de miacutenimos cuadradosordinarios

De acuerdo a sus desarrolladores STR constituye el meacutetodo de descomposicioacuten de series de tiempomaacutes geneacuterico disponible en el momento de su publicacioacuten Sin embargo matizan una gran desventajaque presenta el meacutetodo y es su ineficiencia o la ralentizacioacuten que sufre el mecanismo a la hora de tratarcasos en los que se utilizan varios componentes o predictores estacionales

Uno de sus desarrolladores Rob J Hyndman es conocido por sus aportaciones en el campo delas series de tiempo y su posterior implantacioacuten en paquetes para el software R como el famosopaquete forecast En este caso tambieacuten ha colaborado en la implantacioacuten de STR con el paquete stR(Dokumentov y Hyndman 2018)

225 Twitter

En Hochenbaum et al (2017) se aborda el problema de deteccioacuten de valores atiacutepicos en series detiempo introduciendo la idea de descomposicioacuten maacutes deteccioacuten como hemos comentado en la introduc-cioacuten de esta seccioacuten El equipo de Twitter plantea en su artiacuteculo utilizar en un primer momento STLcomo meacutetodo de descomposicioacuten para obtener los residuos sin embargo a la hora de trabajar con estemeacutetodo encuentran una serie de inconvenientes Estos inconvenientes estariacutean provocados por ciertasanomaliacuteas espurias producidas en el residuo

12 CAPIacuteTULO 2 MODELIZACIOacuteN DE SERIES TEMPORALES

Para corregir esta situacioacuten optan por utilizar la mediana de la serie de tiempo para representar latendencia ldquoestablerdquo que despueacutes seraacute utilizada para calcular el residuo

De este modo afirman que reemplazando la tendencia con la mediana se eliminan las anomaliacuteasespurias o ilegiacutetimas del residuo Los mismos desarrolladores publicaron un paquete en la plataformaGitHub (Twitter Inc 2015) que nos permitiacutea hacer uso de este mecanismo sin embargo su manteni-miento cesoacute a finales de 2015 y el paquete fue eliminado de la plataforma CRAN en marzo de 2019 Elpaquete Anomalize (Dancho y Vaughan 2019) recoge este mecanismo y seraacute el paquete que utilizaremosen este trabajo para utilizar esta modificacioacuten del meacutetodo STL bajo la funcioacuten decompose_twitter

23 RESUMEN MEacuteTODOS DE MODELIZACIOacuteN DE SERIES TEMPORALES 13

23 Resumen meacutetodos de modelizacioacuten de series temporales

Meacutetodo Ventajas Contras

X-13ARIMA-SEATS(2017)

Capaz de tratar con valores fal-tantesIntegra diversos tipos de descom-posicioacutenRaacutepida velocidad de ejecucioacuten

Disentildeado para trabajar solo conseries mensuales o trimestrales

TRAMO-SEATS(1997) Capaz de tratar con valores fal-tantesIntegra diversos tipos de descom-posicioacutenRaacutepida velocidad de ejecucioacuten

Disentildeado para trabajar solo conseries mensuales o trimestrales

STL(1990) Puede tratar series de cualquierfrecuenciaRaacutepidoCuenta con versioacuten robusta

No admite valores faltantesCarece de flexibilidad cuando elperiacuteodo estacional es largo y seobserva mucho ruido en la serieAuacuten con su versioacuten robusta pue-de verse afectado por la influen-cia de los atiacutepicos

STR(2015) Puede tratar series de cualquierfrecuenciaCuenta con versioacuten robustaAdmite valores faltantesSensible a cambios de estaciona-lidad

No puede seguir cambios bruscosen la tendenciaExtremadamente lento en com-paracioacuten al resto de meacutetodos

Twitter(2017) Puede tratar series de cualquierfrecuenciaElimina anomaliacuteas espuacutereas en lacomponente residualRaacutepido

No admite valores faltantesNo cuenta con versioacuten robusta

Cuadro 21 Resumen de los meacutetodos de modelizacioacuten de series temporales

14 CAPIacuteTULO 2 MODELIZACIOacuteN DE SERIES TEMPORALES

Capiacutetulo 3

Deteccioacuten de valores atiacutepicos

31 Conceptos baacutesicos

El problema que supone en la estadiacutestica la presencia de valores atiacutepicos aparecioacute muy pronto EnHawkins (1980) mencionan que este problema pudo haber surgido ya en los siglos XVIII y XIX enencuestas estadiacutesticas que se realizaban Las primeras decisiones de queacute hacer con ellos se basaron encriterios puramente subjetivos en los que era el propio analista el que decidiacutea descartar una observacioacutensi pareciacutea anoacutemala respecto al resto de los datos

Posteriormente se comenzaron a plantear posibles soluciones para tratar el problema bajo uncriterio La primera de ellas fue la presentada por Peirce (1852) basada en lo que se podriacutea entendercomo un test de razoacuten de verosimilitud donde todos los valores que superasen el umbral determinadopor cσ seriacutean rechazados siendo c una constante a calcular y σ la desviacioacuten tiacutepica de la muestraVarios autores realizaron criacuteticas a este meacutetodo y propusieron su correccioacuten a este criterio una de ellasfue la de Chauvenet (1963) Esta pasaba por calificar a una observacioacuten como atiacutepico si su valor sesituaba fuera del intervalo definido por 1(4n) puntos de la distribucioacuten Normal siendo n el tamantildeode la muestra

En ese momento surgen diversas propuestas no muy relevantes que trataron de abordar dichoproblema hasta que surgioacute la llevada a cabo por Thompson (1935) Su estudio condujo a descubrir ladistribucioacuten nula de un residuo estudentizado

xi minus xs

donde xi es la observacioacuten sospechosa de ser atiacutepica x la media muestral y s la desviacioacuten tiacutepica de lamuestra A partir de esto pudo deducir un procedimiento de deteccioacuten de atiacutepicos que rechazariacutea unaproporcioacuten fija de todos los datos buenos y devolveriacutea una tabla con los valores criacuteticos adecuados

Esta idea supuso el desarrollo del test de Grubbs (1950) el cual utilizando la misma notacioacutenanterior basaba su regla en los momentos muestrales de una normal

G =max1leilen|xi minus x|

s

Grubbs (1950) asocioacute G con una distribucioacuten t con el objetivo de encontrar un maacuteximo y un miacutenimo

15

16 CAPIacuteTULO 3 DETECCIOacuteN DE VALORES ATIacutePICOS

para localizar atiacutepicos Esta idea fue posteriormente ampliada dando lugar al meacutetodo GESD (Rosner1983) el cual se detalla en la siguiente seccioacuten

Posteriormente se presentoacute una de las herramientas maacutes comuacutenmente utilizadas para la identifi-cacioacuten de atiacutepicos el boxplot introducido en Tukey (1977) Sin embargo el objetivo inicial no fue ladeteccioacuten de atiacutepicos sino como un meacutetodo para trazar una idea del intervalo en el que se encuentranla gran parte de nuestros datos Ademaacutes la forma en la que se construye provoca dos grandes incon-venientes No se puede aplicar a distribuciones sesgadas y dado que no incluye el tamantildeo muestral ensu formulacioacuten tenderaacute a etiquetar falsos atiacutepicos cuanto maacutes grande sea la muestra

A la par que se iban presentando estas ideas para la buacutesqueda de valores atiacutepicos en un conjuntode datos se fueron presentando mecanismos enfocados a las series de tiempo

Uno de los primeros aportes al tratamiento de datos atiacutepicos en series de tiempo fue propuestopor G E P Box y Tiao (1975) Sin embargo este meacutetodo solamente permitiacutea modelar el efecto de laobservacioacuten atiacutepica si se conociacutea de antemano el momento de la intervencioacuten por lo que no se podriacuteaconsiderar una herramienta de deteccioacuten sino maacutes bien una herramienta de intervencioacuten

Posteriormente se propusieron diversos meacutetodos para abordar el problema de la estimacioacuten demodelos ARIMA en series bajo esta circunstancia El primero de ellos fue el de Abraham y Box(1979) que se basaba en proponer un enfoque bayesiano para resolver el problema partiendo de ideassimilares a las que se habiacutean propuesto en otros contextos por autores como Tukey (1977) Otro meacutetodoque buscaba resolver tambieacuten el mismo problema fue el propuesto por Chang y Tiao (1983) cuya idease centraba en aplicar un proceso iterativo

Fue en este artiacuteculo (Chang y Tiao 1983) donde se propuso por primera vez un meacutetodo de deteccioacutene identificacioacuten de atiacutepicos Tsay (1986) propuso su versioacuten que se basaba en combinar el procesoiterativo presentado en Chang y Tiao (1983) con la funcioacuten de autocorrelacioacuten muestral extendidadesarrollada en Tsay y Tiao (1984) la cual permite eliminar la necesidad de determinar el orden dediferenciacioacuten para producir una serie estacionaria que modelar

En Chen y Liu (1993) se reconocen los numerosos aportes hechos en los anteriores artiacuteculos citadospero matiza que algunos problemas seguiacutean estando vigentes

a La presencia de atiacutepicos puede resultar en un modelo inapropiado

b Incluso si el modelo es el apropiado los atiacutepicos pueden seguir produciendo sesgo en el paraacutemetroestimado y por tanto afectar a la deteccioacuten del atiacutepico

c Algunos atiacutepicos no van a ser identificados debido a un problema de enmascaramiento

Su objetivo era presentar un meacutetodo que fuese capaz de resolver los problemas b y c de modo quese pudiese generalizar para aplicar a los cuatro tipos de atiacutepicos en series temporales que se habiacutean idointroduciendo Los cuatro tipos son

IO (atiacutepico innovativo) existe un atiacutepico innovativo en el momento t cuando la innovacioacuten en esepunto esteacute directamente provocada por una cantidad desconocida debido a un suceso imprevisto

AO (atiacutepico aditivo) diremos que se produce un atiacutepico aditivo si en el momento t la serie segenera de manera diferente al resto

32 MEacuteTODOS DE DETECCIOacuteN DE VALORES ATIacutePICOS 17

LS (cambio de nivel) existe un cambio de nivel si en el momento t la serie experimenta unincremento de todos sus valores A diferencia del resto tiene un efecto permanente sobre la serieuna vez aparece

TC (cambio temporal) similar al cambio de nivel solo que el efecto no es permanente y decreceexponencialmente con el tiempo

X-13ARIMA-SEATS y TRAMO-SEATS basan su proceso de deteccioacuten de atiacutepicos en meacutetodosinspirados en el artiacuteculo de Chen y Liu (1993) cuya idea se fundamenta en integrar un mecanismoiterativo disentildeado para trabajar con series de tiempo que localiza e integra los atiacutepicos al modelo Porotra parte en la siguiente seccioacuten introducimos los meacutetodos de deteccioacuten de atiacutepicos que acompantildeana los procesos de descomposicioacuten de series de tiempo estos son GESD Isolation Forest y HDoutliersEstos meacutetodos son desarrollos de los mecanismos e ideas tratados al comienzo de esta seccioacuten como elmeacutetodo Grubbs (Grubbs 1950)

32 Meacutetodos de deteccioacuten de valores atiacutepicos

321 X-13ARIMA-SEATS

El anaacutelisis de diagnoacutestico del modelo regARIMA se realiza a traveacutes del anaacutelisis de los residuos delmodelo estimado Para el apartado de anaacutelisis de valores atiacutepicos X-13ARIMA-SEATS se fundamentaen Chang y Tiao (1983) con extensiones y modificaciones tratadas en Bell (1983) y Otto y Bell (1990)donde los valores atiacutepicos pueden ser de tres de los cuatro tipos antes mencionados AO LS y TC

El enfoque que plantea este mecanismo de deteccioacuten es similar a la regresioacuten paso a paso procedi-miento de regresioacuten en el que se construye el modelo a traveacutes de ir antildeadiendo o eliminando variablespredictoras en base a criterios de informacioacuten

En este caso las variables candidatas para la regresioacuten son las AO LS y TC para todos los puntosen los que la deteccioacuten de atiacutepicos se realiza Es decir se calcula el t-estadiacutestico para ver la significa-tividad de cada tipo de atiacutepico en cada instante temporal se busca significatividad entre todos estost-estadiacutesticos y se antildeade la correspondiente variable de regresioacuten (AO LS o TC) al modelo con el finde corregir los efectos que producen estas observaciones atiacutepicas De este modo se identifica e introduceel efecto de un momento atiacutepico en el modelo Mientras se produce el proceso de deteccioacuten de atiacutepicosse utiliza un estimador robusto de la desviacioacuten residual estaacutendar 148lowastla mediana del valor absolutode la desviacioacuten residual

X-13ARIMA-SEATS antildeade dos variaciones a este meacutetodo El meacutetodo addone en el que cada vezque se antildeade al modelo un atiacutepico se lleva a cabo una re-estimacioacuten del modelo y el meacutetodo addallque re-estima el modelo solo cuando un nuacutemero de variables atiacutepicas han sido antildeadidas al modelo

Este meacutetodo estaacute implantado en R a traveacutes de la funcioacuten x13 del paquete RJDemetra Dicha funcioacutenrequiere de un paraacutemetro de especificacioacuten spec en que se concreta el modelo que queremos introducirEste paraacutemetro es el que nos ofrece diversas posibilidades de modelizacioacuten de la serie como se recogeen la Figura 31 entre ellas los efectos de calendario o los atiacutepicos que presente la serie Dado quebuscamos sucesos atiacutepicos en su sentido maacutes amplio vamos a omitir incluir los efectos de calendarioy solamente introducir la deteccioacuten automaacutetica de atiacutepicos Esto provoca que en nuestro trabajo la

18 CAPIacuteTULO 3 DETECCIOacuteN DE VALORES ATIacutePICOS

especificacioacuten que nos interesa y con la que hemos trabajado sea RSA3 La opcioacuten RSA3 permiteajustar automaacuteticamente un modelo ARIMA identificando y corrigiendo las posibles observacionesanoacutemalas El resto de modificaciones que permite introducir el paraacutemetro de especificacioacuten de la funcioacutenx13 se recogen en la Figura 31 Por ejemplo si estuvieacutesemos interesados en modelizar nuestros datosa traveacutes de un modelo ARIMA de liacuteneas aeacutereas observariacuteamos en la Figura 31 que tendriacuteamos queescoger la especificacioacuten RSA0 Si ahora quisieacuteramos antildeadirle a dicho modelo deteccioacuten de atiacutepicostendriacuteamos que cambiar el paraacutemetro de especificacioacuten a RSA1 y si ademaacutes tambieacuten nos interesamodelar los efectos de calendario sobre dicho modelo introduciriacuteamos la especificacioacuten RSA2 El restode especificaciones ya trabajan sobre el ajuste de un modelo ARIMA de un modo automaacutetico la maacutessencilla es la que utilizamos nosotros en este trabajo RSA3 la cual ajusta un modelo ARIMA deforma automaacutetica incluyendo la deteccioacuten de atiacutepicos Las especificaciones RSA4 y RSA5 incorporanrespecto a RSA3 modelizar los efectos de calendario La diferencia entre ellas se encuentra en queRSA4 incluye en el modelo los efectos de calendario a traveacutes de dos variables que representan losdiacuteas laborables y los fines de semana y RSA5 incluye dichos efectos a traveacutes de siete variables cadadiacutea de la semana y ambas incluyen el efecto de la Pascua en el calendario Por uacuteltimo se encuentrala especificacioacuten RSAfull que incluye el ajuste automaacutetico de un modelo ARIMA y de los efectos decalendario e incorpora la deteccioacuten de atiacutepicos Todas estas especificaciones son las que se detallan enla Figura 31 para profundizar maacutes en ellas se puede consultar el manual de la libreriacutea RJDemetra (laTente Michalek Palate y Baeyens 2020)

Figura 31 Paraacutemetro de especificaciones a introducir al modelo X-13ARIMA-SEATS

322 TRAMO-SEATS

El mecanismo de deteccioacuten de atiacutepicos que utiliza el programa TRAMO-SEATS aborda el problemacon la intencioacuten de resolver los problemas b y c introducidos en el inicio del Capiacutetulo 3 dado queentiende que estos no se han resuelto de un modo satisfactorio en Chen y Liu (1993) En Goacutemez yTaguas (1995) explican que aunque este meacutetodo funciona de forma bastante satisfactoria su solucioacutenpresenta una serie de deficiencias

1 Se estima varias veces por maacutexima verosimilitud exacta lo que es costoso

2 No utiliza residuos exactos

3 El algoritmo es excesivamente complicado

4 Las regresiones muacuteltiples no se hacen filtrando los datos y las columnas de la matriz por un filtroexacto como el filtro de Kalman sino que se utiliza un filtro condicional

32 MEacuteTODOS DE DETECCIOacuteN DE VALORES ATIacutePICOS 19

Por tanto se presenta un mecanismo que pretende subsanar estas deficiencias a la par que corregirlos problemas b y c mencionados en Chen y Liu (1993) Ademaacutes si se utiliza de forma secuencial juntocon el procedimiento de especificacioacuten automaacutetica del programa supone un procedimiento alternativoal de Tsay (1986)

Al igual que X-13ARIMA-SEATS TRAMO-SEATS estaacute implementado en la libreriacutea RJDemetra

de R en la funcioacuten tramoseats Dicha funcioacuten tambieacuten requiere de un paraacutemetro de especificacioacutenspec en el que se concreta el modelo que queremos introducir La utilidad y mecanismo sobre el quetrabaja este paraacutemetro es ideacutentico al explicado en la Seccioacuten 321 para el meacutetodo X-13ARIMA-SEATSpor lo que utilizaremos la especificacioacuten RSA3 Esta especificacioacuten incluye el ajuste automaacutetico de unmodelo ARIMA corrigiendo las posibles observaciones atiacutepicas

El resto de posibles especificaciones que se pueden incluir en el modelo se recogen en la Figura32 El significado de esta figura es equivalente al de la Figura 31 dado que ambos modelos TRAMO-SEATS y X-13ARIMA-SEATS estaacuten implementados en la misma libreria RJDemetra y compartenel mismo paraacutemetro de especificacioacuten en la funcioacuten que estima sus modelos en R

Figura 32 Paraacutemetro de especificaciones a introducir al modelo TRAMO-SEATS

323 GESD

Introducido por Rosner (1983) como una mejora al por entonces conocido ESD (Rosner 1975) porsus siglas en ingleacutes Extreme Studentized Deviate A pesar de que ESD contaba con buenas propiedadesante una amplia alternativa de atiacutepicos presentaba una serie de defectos que le conduciacutean a etiquetarmaacutes candidatos a atiacutepicos que el nuacutemero apropiado Esto provocoacute que se quedase obsoleto en favor desu actualizacioacuten GESD General Extreme Studentized Deviate

Los pasos que sigue son los siguientes

1 Decidir un maacuteximo nuacutemero de posibles candidatos a atiacutepicos r La recomendacioacuten es de consi-derar el 20 del tamantildeo muestral

2 Comenzar las iteraciones i = 1

3 Calcular Ri = maxt|ximinusx|s siendo xi una observacioacuten sospechosa de ser anoacutemala x la media

muestral y s la desviacioacuten estaacutendar de la muestra respectivamente

4 Eliminar la observacioacuten que maximice xi minus x

5 Calcular el siguiente valor criacutetico λi =(nminusi)tpnminusi+1radic

(nminus1minus1+t2pnminusiminus1)(nminusi+1)

donde tpnminusi+1 es una distribucioacuten t con n minus i minus 1 grados de libertad y p = 1 minus α2(nminusi+1 siendo

α la probabilidad de cometer errores de tipo I

20 CAPIacuteTULO 3 DETECCIOacuteN DE VALORES ATIacutePICOS

6 Pasar a la siguiente iteracioacuten repetir los pasos 2 a 5 hasta i = r quedando r definido en el paso1

7 El nuacutemero de atiacutepicos detectados se determina al encontrar el mayor i tal que Ri gt λi dondeRi se define en el paso 2 y λi en el paso 5

GESD es principalmente el test de Grubbs (Grubbs 1950) aplicado de forma secuencial sin embargoexisten unas pequentildeas diferencias que premian su comportamiento GESD realiza ajustes del valorcriacutetico en base al nuacutemero de atiacutepicos a ser estudiado algo que el test de Grubbs no hace Ademaacutessi existe efecto de enmascaramiento aplicar el test de Grubbs de forma secuencial produciriacutea unadetencioacuten demasiado temprana del algoritmo de deteccioacuten lo que impediriacutea localizar algunos atiacutepicos

Los estudios de simulacioacuten realizados para estudiar el comportamiento de GESD indican que elmeacutetodo es muy preciso cuando contamos con tamantildeos muestrales n gt 25 por lo que en nuestrotrabajo no tendremos problema Sin embargo debido a que es un meacutetodo iterativo seraacute maacutes costosocomputacionalmente a medida que se incrementen los tamantildeos muestrales y es algo a tener en cuentacomo posible freno al crecimiento futuro del mecanismo de deteccioacuten

En R podemos encontrar la funcioacuten gesd dentro del paquete Anomalize (Dancho y Vaughan 2019)

324 Isolation Forest

Isolation Forest o iForest es el meacutetodo presentado por Liu Ting y Zhou (2009) donde se tratael tema de deteccioacuten de atiacutepicos desde un punto de vista diferente Ese punto de vista se basa en dospropiedades relacionadas con la idea de queacute es un valor atiacutepico son la minoriacutea de un conjunto y tienenunos atributos muy diferentes a los de las observaciones normales Es decir las anomaliacuteas son pocas ydiferentes lo que las hace maacutes propensas a encontrarse aisladas del resto

Por esta razoacuten los autores presentan un meacutetodo basado en construir un aacuterbol que aiacutesle cada ob-servacioacuten de tal modo que los valores atiacutepicos se encontraraacuten en ramas maacutes proacuteximas a la raiacutez y losvalores normales se encontraraacuten en zonas maacutes profundas del aacuterbol Es por ello que iForest (Liu et al2009) se distingue del resto de mecanismos basados en modelos distancias o densidades

Figura 33 Idea sobre la que se sustenta el mecanismo de Isolation Forest

32 MEacuteTODOS DE DETECCIOacuteN DE VALORES ATIacutePICOS 21

En la Figura 33 se puede observar la idea sobre la que se rige este mecanismo Un punto normalxi requiere maacutes particiones para ser aislado Y el opuesto tambieacuten es cierto donde un punto anoacutemalox0 requiere menos particiones para ser aislado Por lo que se trata de calcular la ldquolongitud del caminordquoa ser aislado dado que los valores atiacutepicos tendraacuten caminos maacutes cortos que los de los valores normales

Para definir como se calcula la ldquolongitud del caminordquo es necesario definir primero el aacuterbol deaislamiento Isolation Tree El aacuterbol de aislamiento seriacutea toda la estructura de ramas que trocean elconjunto de datos La longitud del camino h(x) path length de un punto x se mediriacutea por tanto comoel nuacutemero de ramas a atravesar desde la raiacutez del aacuterbol al punto

Es necesario definir una puntuacioacuten de cuaacuten anoacutemala es una observacioacuten score para ello se intro-duce c(n) como la media de h(x) siendo E el operador esperanza dado el tamantildeo de la muestra nDe tal modo que

Cuando E(h(x))rarr c(n) scorerarr 05

Cuando E(h(x))rarr 0 scorerarr 1

Cuando E(h(x))rarr nminus 1 scorerarr 0

Haciendo uso de la puntuacioacuten anoacutemala que recibe cada punto score tenemos que

Si score es cercano a 1 la observacioacuten es atiacutepica

Si la observacioacuten presenta valores de score inferiores a 05 pueden ser calificadas como observa-ciones normales

Si todas las observaciones devuelven un valor score asymp 05 entonces la muestra entera carece deatiacutepicos

En el artiacuteculo fijan como atiacutepicos potenciales observaciones con score ge 06 en este trabajo somosmaacutes estrictos y fijamos el umbral en score ge 075 Esta decisioacuten se toma tras probar diferentes umbralesy observar el comportamiento del meacutetodo en el estudio de simulacioacuten y en los datos reales Otrosumbrales que se barajaron y descartaron por los resultados mostrados fueron score ge 07 por serdemasiado laxo y score ge 08 por ser demasiado estricto

En R existen dos libreriacuteas que implantan dicho meacutetodo una es la implantada por la empresa H20 lacual ha desarrollado el algoritmo HDoutliers utilizado en este trabajo Y la otra es la libreriacutea solitude(Srikanth 2017) la cual hemos usado para el desarrollo de este trabajo

325 HDoutliers

HDoutliers (Wilkinson 2017) es un algoritmo que se puede aplicar en multitud de escenarios posi-bles desde el maacutes sencillo que seriacutea el caso univariante hasta maacutes complejos como el multidimensionalo el espacial La idea sobre la que se desarrolla es la de buscar espacios entre los valores ordenadosmaacutes que en la de buscar valores extremos De los meacutetodos que se centran en la idea de buscar valoresextremos como por ejemplo el test de Grubbs y por tanto GESD el autor hace una criacutetica y es queestos utilizan medidas como la media muestral o la desviacioacuten tiacutepica las cuales no son robustas frentea valores atiacutepicos

22 CAPIacuteTULO 3 DETECCIOacuteN DE VALORES ATIacutePICOS

El concepto anterior se puede explicar de un modo muy sencillo a traveacutes de un ejemplo que se recogeen Wilkinson (2017) En los resultados a un examen al que se presentaron 100 alumnos obtenemos unapuntuacioacuten media de 50 y una desviacioacuten estaacutendar de 5 Si entre todas las notas un alumno obtuvo un100 y la siguiente mejor nota es un 65 se podriacutea sospechar que ese alumno es un genio o un tramposoPor otra parte si la nota perfecta se encuentra en el punto maacutes alto de una serie de notas que difieren5 puntos entre ellas ese alumno ya no seriacutea tan sospechoso Los test claacutesicos de valores atiacutepicos no soncapaces de diferir entre ambas situaciones

Figura 34 El algoritmo de HDoutliers aplicado sobre el ejemplo anterior (Wilkinson 2017)

En la Figura 34 se representa este ejemplo En el caso de la izquierda estariacuteamos en la situacioacutenen la que no se sospecha que se hayan producido trampas por parte de ninguacuten alumno y el meacutetodoHDoutliers no detectariacutea ninguacuten candidato a atiacutepico A la derecha tendriacuteamos la situacioacuten en la quesospechariacuteamos de que existe un alumno brillante o tramposo y el meacutetodo detectariacutea una situacioacutenatiacutepica como se sentildeala con el punto rojo

La solucioacuten de buscar espacios permite identificar valores inusuales tanto en el medio de las dis-tribuciones como en los extremos Para ello HDoutliers calcula la distancia al vecino maacutes cercanoDespueacutes ajusta una distribucioacuten exponencial a la cola superior de las distancias calculadas y calcula elvalor 1minusα siendo α la probabilidad de cometer un error tipo I superior de la funcioacuten de distribucioacutenacumulada Por lo que cada observacioacuten que se encuentre significativamente alejada del resto basadaen este punto de corte se etiquetaraacute como atiacutepica

El autor menciona que este meacutetodo difiere de aquellos que se basan en hacer un ranking de candi-datos a atiacutepicos como podriacutea ser Local Outlier Factor (Breunig Kriegel Ng y Sander 2000) o quelos etiquetan bajo un liacutemite arbitrario como seriacutea el caso de Isolation Forest (Liu et al 2009) dadoque pueden conducir a resultados inconsistentes Para ello lo que hace es asignar una probabilidad ala creencia de que estamos ante un atiacutepico

En R podemos encontrar este meacutetodo en la libreriacutea HDoutliers (Fraley y Wilkinson 2020)

33 RESUMEN MEacuteTODOS DE DETECCIOacuteN DE VALORES ATIacutePICOS 23

33 Resumen meacutetodos de deteccioacuten de valores atiacutepicos

Meacutetodo Ventajas Contras

X-13ARIMA-SEATS(2017)

Califica el tipo de atiacutepicoRaacutepida velocidad de ejecucioacuten

Basado en modelos ARIMA

TRAMO-SEATS(1997) Califica el tipo de atiacutepicoRaacutepida velocidad de ejecucioacutenIdea similar a X-13ARIMA-SEATS pero profundizando maacutesen el desarrollo del mecanismo dedeteccioacuten de atiacutepicos

Basado en modelos ARIMA

GESD(1983) Elimina parte de la incertidum-bre de que se produzca un efectode enmascaramiento

Utiliza medidas como la media ola desviacioacuten tiacutepica medidas quese pueden ver distorsionadas porvalores atiacutepicosEs un proceso iterativo lo queimplica mayor coste computacio-nal a medida que se incrementeel tamantildeo de datos

Isolation Forest(2009) Escalable a conjuntos de gran di-mensioacutenDisentildeo sencillo

El usuario tiene que determinarel umbral de atiacutepico lo cual pue-de ser un inconveniente a veces

HDoutliers(2017) Identifica valores inusuales tantoen el medio de las distribucionescomo en los extremosEscalable a conjuntos de gran di-mensioacutenAlta velocidad de ejecucioacuten

Tendencia a calificar un excesode observaciones como atiacutepicassin serlo

Cuadro 31 Resumen de los meacutetodos de deteccioacuten de atiacutepicos

24 CAPIacuteTULO 3 DETECCIOacuteN DE VALORES ATIacutePICOS

34 Meacutetodos de deteccioacuten de valores atiacutepicos en series tempo-

rales

Dado que se han introducido diversos meacutetodos con diferentes enfoques respecto a la resolucioacuten delproblema de deteccioacuten de atiacutepicos en series de tiempo hemos decidido incluir este apartado al finaldel contenido principalmente teoacuterico del trabajo para asiacute centrar los meacutetodos que se utilizaraacuten en lossiguientes capiacutetulos Este apartado recoge todos los meacutetodos los ya existentes y nuevas propuestasrealizadas por nosotros que se utilizaraacuten en este trabajo

Los meacutetodos existentes son los pertenecientes a las libreriacuteas RJDemetra (la Tente et al 2020) yAnomalize (Dancho y Vaughan 2019) La libreriacutea RJDemetra es la que nos dota de las funcionesnecesarias para utilizar los modelos X-13ARIMA-SEATS y TRAMO-SEATS Mientras que la libreriacuteaAnomalize se ha convertido en uno de los paquetes de referencia en R para el anaacutelisis de valores atiacutepicosen series de tiempo A traveacutes de ella podemos utilizar el meacutetodo tratado en Hochenbaum et al (2017)basado en una combinacioacuten de Twitter+GESD y tambieacuten la otra opcioacuten que proponen a traveacutes decombinar STL+GESD

A partir de la idea desarrollada por autores como Hochenbaum et al (2017) o libreriacuteas comoAnomalize Dancho y Vaughan (2019) proponemos nuevos meacutetodos de deteccioacuten de atiacutepicos paraseries temporales El fundamento bajo el que se sostiene esta propuesta es muy sencillo Estos meca-nismos se fundamentan en aplicarle a la serie de tiempo un proceso de descomposicioacuten para extraer laestacionalidad y la tendencia para posteriormente aplicarle un meacutetodo de deteccioacuten de valores atiacutepicosal residuo Dado que se han propuesto mejoras en ambos campos tanto en los meacutetodos de descompo-sicioacuten de series temporales como en el de deteccioacuten de valores atiacutepicos creemos que su combinacioacutenpodriacutea suponer una mejora a las ya establecidas Teniendo en cuenta que se ha introducido un meacutetodode descomposicioacuten de series temporales STR (Dokumentov y Hyndman 2015) y dos meacutetodos de de-teccioacuten de valores atiacutepicos Isolation Forest (Liu et al 2009) y HDoutliers (Wilkinson 2017) lo que seharaacute seraacute obtener todas las combinaciones posibles a traveacutes de mezclar los procesos de descomposicioacutencon los meacutetodos de deteccioacuten dando lugar a las siguientes combinaciones

STL +iForest

STL +HDoutliers

STL (Robusto) +iForest

STL (Robusto) +HDoutliers

Twitter +iForest

Twitter +HDoutliers

STR + GESD

STR + iForest

STR + HDoutliers

34 MEacuteTODOS DE DETECCIOacuteN DE VALORES ATIacutePICOS EN SERIES TEMPORALES 25

STR (Robusto) + GESD

STR (Robusto) + iForest

STR (Robusto) + HDoutliers

Estos son los nuevos meacutetodos propuestos en el trabajo de los cuales estudiaremos su comporta-miento en el proacuteximo capiacutetulo a traveacutes de un estudio de simulacioacuten junto a los meacutetodos ya existentesX-13ARIMA-SEATS TRAMO-SEATS STL+GESD y Twitter+GESD

Existen otros meacutetodos populares en la deteccioacuten de atiacutepicos para el software R los cuales no se hanincluido en este trabajo debido a que planteaban peores resultados que los finalmente introducidospero que creemos que merecen una mencioacuten debido a que pueden ser de intereacutes para alguien quepretenda profundizar en este campo

El primero de ellos seriacutea el meacutetodo de deteccioacuten de atiacutepicos IQR incluido en la libreriacutea AnomalizeDancho y Vaughan (2019) el cual se ha descartado debido a que sus combinaciones con STL y Twittersuponiacutean una menor precisioacuten que las combinaciones con GESD (Datacamp 2018) Los autores lo hanincluido en dicha libreriacutea debido a que su coste computacional es mucho menor que el de GESD porlo que se puede plantear situaciones en las que sea uacutetil

El segundo seriacutea la funcioacuten tsoutliers del paquete forecast (Hyndman 2020) la cual hemosdescartado por presentar un mecanismo muy similar al que presentariacutea la combinacioacuten STL+IQR

Por uacuteltimo tambieacuten se ha descartado la funcioacuten tso del paquete tsoutliers (de Lacalle 2019)El motivo se debe a que su autor enfoca el proceso de deteccioacuten basaacutendose en las mismas ideas que lasdesarrolladas en los modelos X-13ARIMA-SEATS y TRAMO-SEATS pero comenta que este meacutetodono estaacute capacitado para trabajar con grandes y heterogeacuteneos conjuntos de series temporales comoX-13ARIMA-SEATS o TRAMO-SEATS sino maacutes bien para pequentildeas aplicaciones de un modo semi-automaacutetico (de Lacalle 2015)

26 CAPIacuteTULO 3 DETECCIOacuteN DE VALORES ATIacutePICOS

Capiacutetulo 4

Estudio de simulacioacuten

En este capiacutetulo se realiza un estudio de simulacioacuten con el objetivo de comparar la eficiencia delos diferentes meacutetodos expuestos en el apartado anterior En primer lugar se presenta un resumendel procedimiento seguido para realizar las simulaciones en los diferentes escenarios y el motivo deproponer cada escenario A continuacioacuten se introduce el Iacutendice de Youden medida que nos permitiraacutediscernir queacute meacutetodos presentan mejor comportamiento en el estudio Finalmente se presentan losresultados del estudio y las conclusiones extraiacutedas del mismo

41 Escenarios

El procedimiento para obtener las series simuladas ha sido el siguiente

1 Simular una serie de tiempo sin atiacutepicos

2 A la observacioacuten correspondiente al instante t sumarle el valor w el cual indicaraacute el tamantildeo delatiacutepico

3 Si se quiere introducir maacutes de un atiacutepico repetir los pasos 1 y 2

Se van a proponer ocho escenarios a continuacioacuten pasamos a justificar la eleccioacuten de cada uno deellos Los escenarios 1 2 y 3 son los planteados en Chen y Liu (1993) artiacuteculo utilizado para analizar laeficiencia de los mecanismos de deteccioacuten que inspiran los meacutetodos aplicados en X-13ARIMA-SEATS yTRAMO-SEATS El Escenario 4 plantea el modelo de liacuteneas aeacutereas utilizado ampliamente para datoseconoacutemicos como los que se van a tratar posteriormente Por uacuteltimo los escenarios 5 a 8 proponendiversos modelos que han sido generados a partir de seleccionar una serie del IGE aleatoriamente yaplicarle la funcioacuten autoarima del paquete forecast (Hyndman 2020) A continuacioacuten se recogentodos los escenarios planteados en el Cuadro 41 Los escenarios 1 a 3 se simulan a traveacutes de la funcioacuten deR arimasim mientras que los escenarios 4 a 8 a traveacutes de la funcioacuten simulate del paquete forecast

27

28 CAPIacuteTULO 4 ESTUDIO DE SIMULACIOacuteN

Escenario Modelo Motivo

Escenario 1 AR(1) Propuesto en el estudio de simu-lacioacuten de Chen y Liu (1993)

Escenario 2 MA(1) Propuesto en el estudio de simu-lacioacuten de Chen y Liu (1993)

Escenario 3 ARIMA(011) Propuesto en el estudio de simu-lacioacuten de Chen y Liu (1993)

Escenario 4 ARIMA(011)x(011)12 Modelos de liacuteneas aeacutereas muyutilizado en lo referente a datoseconoacutemicos

Escenario 5 ARIMA(101)x(012)12 Modelo extraiacutedo de aplicar lafuncioacuten autoarima a una seriedel IGE escogida aleatoriamente

Escenario 6 ARIMA(111)x(101)12 Modelo extraiacutedo de aplicar lafuncioacuten autoarima a una seriedel IGE escogida aleatoriamente

Escenario 7 ARIMA(112)x(011)12 Modelo extraiacutedo de aplicar lafuncioacuten autoarima a una seriedel IGE escogida aleatoriamente

Escenario 8 ARIMA(011)x(100)12 Modelo extraiacutedo de aplicar lafuncioacuten autoarima a una seriedel IGE escogida aleatoriamente

Cuadro 41 Resumen de los escenarios propuestos para el estudio de simulacioacuten

42 IacuteNDICE DE YOUDEN 29

En cada escenario se estudian cuatro casos

Caso 1 Serie con 100 observaciones y un atiacutepico en t = 40 el tamantildeo del atiacutepico es w = 35

Caso 2 Serie con 100 observaciones y un atiacutepico en t = 40 el tamantildeo del atiacutepico es w = 45

Caso 3 Serie con 100 observaciones y un atiacutepico en t = 2 el tamantildeo del atiacutepico es w = 4

Caso 4 Serie con 300 observaciones y dos atiacutepicos en t1 = 40 y t2 = 180 el tamantildeo de los atiacutepicoses w1 = 4 y w2 = 5

En el Escenario 4 hubo que modificar los valores del tamantildeo del atiacutepico introducido en cada casodebido a que no se obteniacutean resultados significativos para ninguacuten meacutetodo Por lo que finalmente solopara el Escenario 4 los valores introducidos fueron de w = 55 para el Caso 1 w = 65 para el Caso2 w = 6 para el Caso 1 w1 = 6 y w2 = 7 para el Caso 4

Los Casos 1 y 2 buscan estudiar la sensibilidad del meacutetodo de deteccioacuten dado que en lo uacutenico quese diferencian es en el tamantildeo del atiacutepico El Caso 3 plantea una situacioacuten complicada al encontrarseel atiacutepico al principio de la serie es maacutes difiacutecil detectar ese valor por dos motivos que el meacutetodo notenga todaviacutea la informacioacuten suficiente o que el meacutetodo vea afectada su estimacioacuten por este valor tantemprano El Caso 4 busca estudiar el comportamiento cuando se presenta maacutes de un atiacutepico

42 Iacutendice de Youden

Para comparar los resultados de los diferentes meacutetodos en las simulaciones vamos a utilizar lo queen otros campos como la investigacioacuten meacutedica se denomina test de diagnoacutestico En este tipo de testse compara la realidad con la prediccioacuten del mecanismo para analizar su funcionamiento Estos testde diagnoacutestico se presentan en lo que se denominan matrices de confusioacuten como la presentada en elCuadro 44 La idea de la matriz de confusioacuten es la de comparar las predicciones realizadas con larealidad de tal modo que se pueda observar cuando la prediccioacuten y la realidad coinciden y cuando no

Realidad

Negativo(0) Positivo (1)

PrediccioacutenNegativo(0) Verdadero Negativo (VN) Falso Negativo (FN)

Positivo(1) Falso Positivo (FP) Verdadero Positivo (VP)

Cuadro 42 Matriz de confusioacuten

En nuestro trabajo Negativo (0) representariacutea una observacioacuten normal y Positivo (1) una obser-vacioacuten atiacutepica La diagonal de la matriz estaacute representada por aquellas observaciones en las que larealidad y la prediccioacuten coinciden Los Falsos Negativos (FN) son aquellas observaciones en que el

30 CAPIacuteTULO 4 ESTUDIO DE SIMULACIOacuteN

mecanismo determinoacute que la observacioacuten era normal pero en realidad era atiacutepica Por otra parte losFalsos Positivos (FP) suceden cuando el mecanismo dictamina que la observacioacuten es atiacutepica pero larealidad es que es una observacioacuten normal

Los Falsos Positivos son tambieacuten conocidos como Error Tipo I la probabilidad de aceptar la hipoacute-tesis nula siendo esta falsa Y los Falsos Negativos son conocidos como Error Tipo II la probabilidadde no rechazar la hipoacutetesis nula siendo esta falsa

El iacutendice de Youden (Youden 1950) nacioacute con motivo de poder comparar los resultados de doso maacutes mecanismos de deteccioacuten y asiacute tener la capacidad de discernir cual de ellos tiene una mejorcapacidad discriminatoria Es decir el propoacutesito final del iacutendice es el de resumir la matriz de confusioacutenen un valor que consiga representar el comportamiento del mecanismo de deteccioacuten de tal modo quedos mecanismos se puedan comparar directamente

Este iacutendice considera con la misma importancia tanto los falsos positivos como los falsos negativosUtilizando otro campo de ejemplo la medicina un falso negativo supondriacutea no tratar la enfermedadde un paciente dado que establecemos que estaacute sano cuando la realidad es que estaacute enfermo Por otraparte un falso positivo supondriacutea un coste como podriacutea ser el monetario financiando el tratamiento oel emocional de un paciente que la realidad es que estaacute sano

Trasladando ese ejemplo a nuestro trabajo un falso negativo supondriacutea no calificar como atiacutepicauna observacioacuten que lo es Esto provocariacutea que estariacuteamos asumiendo como normal un comportamientoen el aacutembito socio-econoacutemico gallego que no lo fue estariacuteamos incurriendo en errores en posterioresanaacutelisis o estariacuteamos obviando sucesos relevantes

Los falsos positivos tambieacuten suponen un coste aquiacute cada observacioacuten que el meacutetodo detecte comoatiacutepica supondraacute la intervencioacuten de un analista para tratar de entender queacute ha sucedido Si finalmenteel analista concluye que la observacioacuten no es atiacutepica se habraacute desperdiciado una serie de horas y equipoque podriacutean haber sido invertidos para otro fin De ambos escenarios surgen dos medidas

Sensibilidad V PV P+FN refleja la proporcioacuten de verdaderos positivos sobre el total de positivos

Especifidad V NV N+FP refleja la proporcioacuten de verdaderos negativos sobre el total de negativos

El iacutendice de Youden se construye a partir de ambas medidas del siguiente modo

J = Sensibilidad + Especifidadminus 1 =V P

V P + FN+

V N

V N + FPminus 1

El rango en el que se utiliza este iacutendice es de 0 a 1 donde 1 representariacutea que el mecanismo escapaz de diferenciar perfectamente las observaciones atiacutepicas de las normales y 0 todo lo contrario

Sin embargo teoacutericamente este rango puede variar de minus1 a 1 (Shan G 2015) los valores menoresque cero no se suelen contemplar dado que no tienen una interpretacioacuten significativa En nuestrotrabajo sucede esta situacioacuten en la que se presentan mecanismos con valores negativos y si bien deforma general esto no tiene explicacioacuten en otros campos en este estudio si

Explicaacutendolo a traveacutes de lo que podriacutea ser un posible resultado de un mecanismo de deteccioacuten

42 IacuteNDICE DE YOUDEN 31

Realidad

Negativo(0) Positivo(1)

PrediccioacutenNegativo(0) 96 1

Positivo(1) 3 0

Cuadro 43 Ejemplo de posible resultado de un mecanismo de deteccioacuten en el que el iacutendice de Youdenseriacutea negativo

En el ejemplo del Cuadro 42 se analiza una serie de tiempo con 100 observaciones entre las cualesse encuentra un valor atiacutepico El mecanismo de deteccioacuten habriacutea detectado 3 posibles atiacutepicos peroninguno de ellos es el atiacutepico real Si calculamos el iacutendice de Youden obtenemos

J =0

0 + 1+

96

96 + 3minus 1 = minus003

El resultado es negativo debido a que el mecanismo de deteccioacuten nos situacutea en una posicioacuten peorque no clasificar nada como atiacutepico Por lo que si 1 refleja que el mecanismo es capaz de diferenciarperfectamente las dos clases y 0 que el mecanismo no nos ayuda en absoluto a diferenciar entre ellasun valor menor que 0 en nuestro trabajo supondriacutea que el mecanismo seriacutea peor que no clasificar nadadado que nos infunde un mayor error sobre la realidad

Un resultado de cero implicariacutea que el mecanismo no es uacutetil ya que no es capaz de diferenciar entrelo que es atiacutepico y lo que no En el Cuadro 43 se recoge un posible resultado que conduciriacutea a estasituacioacuten Este ejemplo recoge una situacioacuten en la que en una serie de tiempo de 100 observaciones seencuentran 5 valores atiacutepicos sin embargo el meacutetodo no es capaz de detectar ninguna de ellas

Realidad

Negativo(0) Positivo(1)

PrediccioacutenNegativo(0) 95 5

Positivo(1) 0 0

Cuadro 44 Ejemplo de posible resultado de un mecanismo de deteccioacuten en el que el iacutendice de Youdenseriacutea cero

J =0

0 + 5+

95

95 + 0minus 1 = 0

Finalmente el resultado perfecto implicariacutea que el mecanismo de deteccioacuten es capaz de diferenciarde forma precisa aquello que es atiacutepico de lo que no lo es En el Cuadro 44 se recoge un ejemplo de

32 CAPIacuteTULO 4 ESTUDIO DE SIMULACIOacuteN

esta situacioacuten En este ejemplo se plantea una serie de tiempo que cuenta con 100 observaciones delas cuales 5 son atiacutepicas igual que en el ejemplo anterior sin embargo el meacutetodo ahora es capaz dedetectar cada una de ellas sin incurrir en Falsos Positivos ni Falsos Negativos

Realidad

Negativo(0) Positivo(1)

PrediccioacutenNegativo(0) 95 0

Positivo(1) 0 5

Cuadro 45 Ejemplo de posible resultado de un mecanismo de deteccioacuten en el que el iacutendice de Youdenseriacutea uno

J =5

0 + 5+

95

95 + 0minus 1 = 1

Podemos observar como los valores fuera de la diagonal de la matriz aquellos que representan losFalsos Negativos y Falsos Positivos son cero En la diagonal de la matriz se encuentran los resultadosque muestran que el mecanismo ha conseguido identificar de forma perfecta aquellas observacionesque son atiacutepicas Esta seriacutea la situacioacuten ideal la cual representariacutea que el mecanismo de deteccioacuten deatiacutepicos funciona de forma idoacutenea

43 Resultados

A continuacioacuten se presentan los resultados para los ocho escenarios introducidos recogidos en elCuadro 41 Al introducir una gran cantidad de meacutetodos escenarios y casos el anaacutelisis de los resultadosse presenta confuso por lo que se decidioacute introducir un coacutedigo de color para resaltar los tres mejores ytres peores resultados en cada caso Los mejores resultados se asocian al color verde siendo el verde maacutesintenso el mejor resultado y decayendo gradualmente la intensidad del color seguacuten empeora Por otraparte los peores resultados estaacuten asociados al color rojo siendo el rojo maacutes intenso el peor resultadoy decayendo la intensidad seguacuten el resultado mejora

Se pensoacute en introducir un gradiente de color por cada caso de modo que fuese variando de mejora peor Finalmente se descartoacute debido a que su contribucioacuten a la comprensioacuten de los resultados eramenor que la idea finalmente escogida de resaltar los tres mejores y los tres peores resultados

Los resultados obtenidos para el iacutendice de Youden se muestran a continuacioacuten A mayores en elanexo se han incluido tablas referentes a los resultados que han presentado los distintos meacutetodos enbase a otras dos medidas que tambieacuten han resultado de utilidad a la hora de escoger los mecanismosadecuados La primera de esas medidas es la sensibilidad la cual hemos definido en este apartado yla otra es el exceso la cual se define como la media de detecciones incorrectas por simulacioacuten y cuyosresultados estaacuten incluidos en el anexo correspondiente

43 RESULTADOS 33

Caso 1 Caso 2 Caso 3 Caso 4

X-13ARIMA-SEATS 0495 0853 0699 0490

TRAMO-SEATS 0655 0926 0803 0494

STL+HDoutliers 0561 0830 0562 0727

STL+GESD 0265 0589 0236 0531

STL+iForest 0632 0882 0632 0788

STL(ROB)+HDoutliers 0550 0790 0666 0707

STL(ROB)+GESD 0623 0862 0732 0752

STL(ROB)+iForest 0634 0873 0741 0748

Twitter+HDoutliers 0462 0725 0588 0616

Twitter+GESD 0303 0587 0426 0433

Twitter+iForest 0524 0797 0647 0657

STR+Hdoutliers 0603 0833 0595 0667

STR+GESD 0344 0649 0292 0448

STR+iForest 0670 0882 0675 0719

STR(ROB)+Hdoutliers 0534 0803 0630 0654

STR(ROB)+GESD 0379 0683 0456 0557

STR(ROB)+iForest 0619 0859 0695 0711

Cuadro 46 Resultados Escenario 1Iacutendice de Youden AR(1)

En el Cuadro 46 se recogen los resultados al Escenario 1 escenario en el que se simula un AR(1)igual al realizado por Chen y Liu (1993) Los resultados muestran que en los casos 1 2 y 3 TRAMO-SEATS ejerce un papel superior al resto buen comportamiento que desaparece en el Caso 4 casoen el que se introducen dos atiacutepicos Si analizamos conjuntamente los resultados de los cuatro casospodriacuteamos decir que los meacutetodos que reflejan un mejor comportamiento global en el escenario seriacuteanSTR+iForest y STL(Rob)+iForest

34 CAPIacuteTULO 4 ESTUDIO DE SIMULACIOacuteN

Caso 1 Caso 2 Caso 3 Caso 4

X-13ARIMA-SEATS 0504 0828 0645 0494

TRAMO-SEATS 0667 0913 0741 0494

STL+HDoutliers 0465 0721 0473 0680

STL+GESD 0217 0457 0147 0428

STL+iForest 0502 0781 0521 0713

STL(ROB)+HDoutliers 0457 0723 0576 0642

STL(ROB)+GESD 0516 0761 0651 0667

STL(ROB)+iForest 0519 0798 0660 0713

Twitter+HDoutliers 0457 0690 0587 0640

Twitter+GESD 0346 0627 0480 0486

Twitter+iForest 0506 0774 0658 0689

STR+HDoutliers 0580 0814 0566 0658

STR+GESD 0297 0601 0247 0449

STR+iForest 0626 0866 0647 0719

STR(ROB)+HDoutliers 0514 0780 0603 0644

STR(ROB)+GESD 0335 0627 0405 0520

STR(ROB)+iForest 0578 0836 0687 0709

Cuadro 47 Resultados Escenario 2 Iacutendice de Youden MA(1)

En el Cuadro 47 se recogen los resultados al Escenario 2 escenario en el que se simula un MA(1)igual al realizado por Chen y Liu (1993) Los resultados que se observan son similares a los extraiacutedos delEscenario 1 TRAMO-SEATS es claramente superior en los casos 1 2 y 3 pero su buen comportamientodesaparece ante el Caso 4 Por otra parte STR+iForest presenta un comportamiento maacutes homogeacuteneoencontraacutendose en tres de los cuatro casos entre los tres mejores resultados Lo mismo sucede con suversioacuten robusta En esta ocasioacuten la combinacioacuten STL+iForest solamente se encuentra entre las mejoresen el Caso 4

43 RESULTADOS 35

Caso 1 Caso 2 Caso 3 Caso 4

X-13ARIMA-SEATS 0921 0970 0926 0500

TRAMO-SEATS 0921 0971 0921 0500

STL+HDoutliers 0306 0502 0234 0435

STL+GESD 0088 0229 0050 0152

STL+iForest 0338 0575 0279 0451

STL(ROB)+HDoutliers 0252 0426 0287 0328

STL(ROB)+GESD 0287 0504 0369 0316

STL(ROB)+iForest 0291 0495 0329 0358

Twitter+HDoutliers 0061 0109 0124 0064

Twitter+GESD 0015 0027 0056 0025

Twitter+iForest 0077 0127 0167 0068

STR+HDoutliers 0400 0556 0342 0436

STR+GESD 0202 0365 0108 0230

STR+iForest 0441 0614 0385 0492

STR(ROB)+HDoutliers 0237 0391 0248 0268

STR(ROB)+GESD 0199 0381 0215 0254

STR(ROB)+iForest 0277 0451 0279 0289

Cuadro 48 Resultados Escenario 3 Iacutendice de Youden ARIMA(011)

En el Cuadro 48 se recogen los resultados al Escenario 3 escenario en el que se simula un ARI-MA(011) igual al realizado por Chen y Liu (1993) En este escenario existe una hegemoniacutea de X-13ARIMA-SEATS y TRAMO-SEATS los cuales presentan resultados superiores a los de cualquierotro meacutetodo La combinacioacuten STR+iForest es el tercer meacutetodo que a pesar de la diferencia con losotros dos presenta mejores resultados

36 CAPIacuteTULO 4 ESTUDIO DE SIMULACIOacuteN

Caso 1 Caso 2 Caso 3 Caso 4

X-13ARIMA-SEATS 0402 0592 0067 0480

TRAMO-SEATS 0540 0705 0071 0481

STL+HDoutliers -0003 -0004 0008 0000

STL+GESD -0002 -0001 0002 -0001

STL+iForest -0004 -0004 0008 0001

STL(ROB)+HDoutliers -0005 -0005 0025 0000

STL(ROB)+GESD -0039 -0026 0052 0002

STL(ROB)+iForest 0004 -0002 0026 0000

Twitter+HDoutliers 0000 -0002 -0001 0007

Twitter+GESD -0025 -0019 -0016 0003

Twitter+iForest 0000 -0001 0004 0016

STR+HDoutliers 0359 0417 -0004 0083

STR+GESD 0409 0445 -0006 0124

STR+iForest 0411 0472 -0005 0097

STR(ROB)+HDoutliers 0014 0006 0002 0039

STR(ROB)+GESD 0019 0017 0008 0075

STR(ROB)+iForest 0014 0005 0002 0021

Cuadro 49 Resultados Escenario 4 Iacutendice de Youden ARIMA(011)x(011)12

En el Cuadro 49 se recogen los resultados al Escenario 4 escenario en el que se simula el modelo deliacuteneas aeacutereas (G Box y Jenkins 1976) Este modelo es famoso por su uso en series socio-econoacutemicasPor ello cabriacutea esperar un buen comportamiento de los modelos disentildeados para este fin X-13ARIMA-SEATS y TRAMO-SEATS El resto de combinaciones presentan resultados poco consistentes

43 RESULTADOS 37

Caso 1 Caso 2 Caso 3 Caso 4

X-13ARIMA-SEATS 0265 0628 0176 0409

TRAMO-SEATS 0398 0747 0248 0432

STL+HDoutliers 0238 0469 0281 0125

STL+GESD 0091 0258 0158 0024

STL+iForest 0263 0531 0305 0134

STL(ROB)+HDoutliers 0265 0475 0343 0097

STL(ROB)+GESD 0375 0662 0452 0114

STL(ROB)+iForest 0304 0545 0388 0128

Twitter+HDoutliers 0243 0429 0352 0103

Twitter+GESD 0168 0376 0309 0057

Twitter+iForest 0266 0479 0381 0126

STR+HDoutliers 0656 0885 0231 0755

STR+GESD 0424 0769 0064 0567

STR+iForest 0720 0936 0277 0798

STR(ROB)+HDoutliers 0189 0326 0212 0523

STR(ROB)+GESD 0174 0317 0192 0665

STR(ROB)+iForest 0229 0364 0232 0588

Cuadro 410 Resultados Escenario 5 Iacutendice de Youden ARIMA(101)x(012)12

En el Cuadro 410 se recogen los resultados al Escenario 5 escenario en el que se simula un modeloARIMA (101)x(012)12 a partir de aplicarle la funcioacuten autoarima a una serie del IGE escogidaaleatoriamente En este escenario predomina la descomposicioacuten STR ya que son las combinacionesjunto a los tres meacutetodos de deteccioacuten de atiacutepicos GESD iForest y HDoutliers los meacutetodos quepresentan mejores resultados En concreto la combinacioacuten STR+iForest supone la combinacioacuten maacutesinteresante para este escenario

38 CAPIacuteTULO 4 ESTUDIO DE SIMULACIOacuteN

Caso 1 Caso 2 Caso 3 Caso 4

X-13ARIMA-SEATS 0331 0659 0354 0425

TRAMO-SEATS 0457 0764 0477 0438

STL+HDoutliers 0513 0790 0494 0624

STL+GESD 0229 0558 0188 0328

STL+iForest 0560 0833 0567 0648

STL(ROB)+HDoutliers 0507 0776 0592 0595

STL(ROB)+GESD 0528 0815 0663 0560

STL(ROB)+iForest 0559 0838 0661 0645

Twitter+HDoutliers 0239 0416 0355 0208

Twitter+GESD 0101 0229 0185 0100

Twitter+iForest 0279 0452 0383 0227

STR+HDoutliers 0520 0779 0436 0636

STR+GESD 0278 0584 0151 0385

STR+iForest 0596 0822 0494 0682

STR(ROB)+HDoutliers 0399 0666 0490 0545

STR(ROB)+GESD 0274 0524 0349 0404

STR(ROB)+iForest 0457 0731 0568 0579

Cuadro 411 Resultados Escenario 6 Iacutendice de Youden ARIMA(111)x(101)12

En el Cuadro 411 se recogen los resultados al Escenario 6 escenario en el que se simula un modeloARIMA (111)x(101)12 a partir de aplicarle la funcioacuten autoarima a una serie del IGE escogidaaleatoriamente En este escenario los meacutetodos que muestran unos mejores resultados son STR+iForesty STL+iForest Tambieacuten muestra un buen comportamiento el meacutetodo STL(Rob)+GESD basado enla combinacioacuten de la versioacuten robusta de la descomposicioacuten STL y el meacutetodo de deteccioacuten de atiacutepicosGESD

43 RESULTADOS 39

Caso 1 Caso 2 Caso 3 Caso 4

X-13ARIMA-SEATS 0332 0673 0347 0422

TRAMO-SEATS 0426 0765 0425 0453

STL+HDoutliers 0451 0693 0414 0503

STL+GESD 0180 0438 0142 0219

STL+iForest 0509 0759 0458 0527

STL(ROB)+HDoutliers 0416 0655 0468 0489

STL(ROB)+GESD 0452 0702 0549 0457

STL(ROB)+iForest 0484 0717 0541 0525

Twitter+HDoutliers 0009 0018 0037 0037

Twitter+GESD -0024 -0014 0011 0010

Twitter+iForest 0007 0016 0050 0050

STR+HDoutliers 0469 0719 0369 0582

STR+GESD 0228 0495 0122 0329

STR+iForest 0511 0774 0438 0635

STR(ROB)+HDoutliers 0282 0495 0347 0330

STR(ROB)+GESD 0224 0432 0301 0285

STR(ROB)+iForest 0343 0557 0407 0385

Cuadro 412 Resultados Escenario 7 Iacutendice de Youden ARIMA(112)x(011)12

En el Cuadro 412 se recogen los resultados al Escenario 7 escenario en el que se simula un modeloARIMA (112)x(011)12 a partir de aplicarle la funcioacuten autoarima a una serie del IGE escogidaaleatoriamente En este escenario los meacutetodos que muestran unos mejores resultados vuelven a serSTL+iForest STR+iForest y cercano a ellos STL(Rob)+iForest El resto de resultados no muestranninguacuten meacutetodo estable para los cuatro casos

40 CAPIacuteTULO 4 ESTUDIO DE SIMULACIOacuteN

Caso 1 Caso 2 Caso 3 Caso 4

X-13ARIMA-SEATS 0298 0636 0334 0434

TRAMO-SEATS 0419 0712 0427 0481

STL+HDoutliers 0425 0697 0389 0620

STL+GESD 0176 0415 0108 0351

STL+iForest 0480 0734 0423 0662

STL(ROB)+HDoutliers 0429 0675 0483 0607

STL(ROB)+GESD 0449 0718 0543 0584

STL(ROB)+iForest 0486 0749 0559 0675

Twitter+HDoutliers 0271 0463 0378 0350

Twitter+GESD 0127 0286 0189 0147

Twitter+iForest 0300 0504 0424 0356

STR+HDoutliers 0448 0692 0459 0564

STR+GESD 0203 0438 0167 0274

STR+iForest 0492 0769 0502 0600

STR(ROB)+Hdoutliers 0416 0680 0503 0548

STR(ROB)+GESD 0260 0523 0329 0366

STR(ROB)+iForest 0460 0751 0573 0587

Cuadro 413 Resultados Escenario 8 Iacutendice de Youden ARIMA(011)x(100)12

En el Cuadro 413 se recogen los resultados al Escenario 8 escenario en el que se simula un mode-lo ARIMA(011)x(100)12 a partir de aplicarle la funcioacuten autoarima a una serie del IGE escogidaaleatoriamente Los resultados maacutes consistentes para los cuatro casos estaacuten formados por las combina-ciones de STR+iForest la misma combinacioacuten pero con la versioacuten robusta de la descomposicioacuten STRSTR(Rob)+iForest y la combinacioacuten STL+iForest y tambieacuten su versioacuten robusta STL (Rob)+iForest

44 CONCLUSIONES 41

44 Conclusiones

Los resultados de las simulaciones muestran dos realidades Por un lado nos encontramos con losresultados asociados a los escenarios 1 2 3 y 4 En estos escenarios prevalece el comportamientode TRAMO-SEATS por encima de todos los meacutetodos sin lugar a duda incluso tambieacuten podriacuteamosincluir a X-13ARIMA-SEATS aquiacute Cabe recordar que ambos parten de las mismas ideas pero esTRAMO-SEATS el que implanta una serie de mejoras a los meacutetodos de deteccioacuten de atiacutepicos en losque se inspiran ambos esto se trata en el Capiacutetulo 3 Por otra parte en los escenarios 5 6 7 y 8 ya noexiste tal hegemoniacutea de TRAMO-SEATS frente al resto de meacutetodos de hecho nos encontramos unosresultados bastante maacutes variados

Entre los meacutetodos de descomposicioacuten (STLTwitter y STR) el que presenta mejores resultados enlas simulaciones es STR En todos los escenarios presenta resultados que lo posicionan entre los tresprimeros Esto nos da una idea de que estamos ante un meacutetodo flexible capaz de entender la estructurasubyacente de series de tiempo muy diversas y adecuar una respuesta realista del mecanismo generadorSus buenos resultados son seguidos muy de cerca por la descomposicioacuten STL Este es un resultado queconcuerda con lo esperado debido a que siendo los dos meacutetodos similares plantean la misma idea perola ejecutan de distinta forma STR fue creado con el objetivo de suponer una mejora a STL

En lo que respecta a los meacutetodos de deteccioacuten GESD HDoutliers y iForest podemos extraerconclusiones acerca del comportamiento de cada uno

GESD es un buen meacutetodo de identificacioacuten de atiacutepicos Obtiene buenos resultados faacutecil deaplicar y es sencillo entender su mecanismo algo muy uacutetil para personas que quieran realizaro transmitir un estudio sin ahondar profundamente en materia Por otra parte sus buenosresultados en la deteccioacuten correcta de atiacutepicos se ven eclipsados por su tendencia a clasificaraltos valores de observaciones como anoacutemalas incorrectamente Si estamos realizando un anaacutelisisindividual esto podriacutea no ser un problema dado que se podriacutea intervenir modificando alguno desus paraacutemetros y conseguir mejores resultados Sin embargo en este trabajo buscamos un meacutetodoque nos sirva como filtro para analizar multitud de series con la menor intervencioacuten posible porlo que descartamos dicho mecanismo

HDoutliers supone una mejora a GESD Muestra mejor comportamiento en todas las combina-ciones con los meacutetodos de descomposicioacuten GESD solo consigue igualar o superar ligeramentesus resultados incurriendo en calificar una gran cantidad de observaciones como atiacutepicas lo queprovoca un incremento en el nuacutemero de observaciones calificadas erroacuteneamente esto se puede veren las tablas de exceso introducidas en el anexo Sin embargo pese a suponer una mejora noes el meacutetodo que presenta mejores resultados

Isolation Forest o iForest es el meacutetodo de deteccioacuten maacutes consistente a lo largo de los escenariosy para cada meacutetodo de descomposicioacuten Consigue un equilibrio entre buenos valores de deteccioacutencorrecta y bajas tasas de atiacutepicos sentildealados incorrectamente justo lo que se busca en un meacutetodode deteccioacuten de atiacutepicos La idea de aacuterbol bajo la que se desarrolla su mecanismo es faacutecil decomprender cada observacioacuten recibe una puntuacioacuten entre 0 y 1 de cuaacuten anoacutemala es esto permiteflexibilizar la decisioacuten del analista con el umbral en el que fija un valor como atiacutepico En Liu et

42 CAPIacuteTULO 4 ESTUDIO DE SIMULACIOacuteN

al (2009) califican como observaciones sospechosas de ser atiacutepicas aquellas cuya puntuacioacuten seamayor a 06 en este trabajo somos maacutes estrictos y fijamos un umbral superior 075 Ademaacutessu disentildeo le permite escalar a conjuntos de gran tamantildeo y dimensioacuten (big data) por lo que nosupone un freno ante situaciones futuras

Parece interesante tambieacuten recordar que los mecanismos que emplean los meacutetodos X-13ARIMA-SEATS y TRAMO-SEATS fueron analizados en estudios que planteaban simulaciones como las quese realizan en los escenarios 1 2 y 3 Ademaacutes tambieacuten cabe esperar un buen comportamiento que seespera de ellos en un modelo tan comuacuten como el de liacuteneas aacutereas (Escenario 4) Sin embargo cuando seaplican fuera de estos escenarios en modelos maacutes complejos solamente TRAMO-SEATS consigue noquedarse atraacutes

La simulacioacuten nos permite descartar la descomposicioacuten Twitter la cual estaacute quizaacutes maacutes enfocadaa datos de alta frecuencia datos que se producen en frecuencias de tiempo mucho maacutes pequentildeascomo minutos en vez de datos mensuales como los planteados en el estudio de simulacioacuten por lo querefleja peores resultados en escenarios de este aacutembito Tambieacuten nos permite descartar el meacutetodo X-13ARIMA-SEATS dado que supone una idea similar pero menos desarrollada en lo que a deteccioacuten deatiacutepicos se refiere a TRAMO-SEATS Finalmente el meacutetodo GESD tambieacuten es descartado debido asus resultados en los que muestra un comportamiento inferior frente a HDoutliers meacutetodo que suponeuna mejora a la idea sobre la que se basa GESD

Por lo que se concluye que los meacutetodos maacutes adecuados para la continuacioacuten del trabajo son elmodelo TRAMO-SEATS las descomposiciones de series temporales STL y STR y los meacutetodos dedeteccioacuten de atiacutepicos HDoutliers y iForest lo que conforman los siguientes mecanismos de deteccioacutende atiacutepicos

TRAMO-SEATS

STL+HDoutliers

STL+iForest

STR+HDoutliers

STR+iForest

Capiacutetulo 5

Aplicacioacuten a datos reales

En este capiacutetulo se aplican los meacutetodos que han mostrado unos mejores resultados en el estudiode simulacioacuten a las bases de datos del IGE comentadas en Capiacutetulo 1 Estos meacutetodos son TRAMO-SEATS STL+HDoutliers STL+iForest STR+HDoutliers y STL+iForest De este modo podemosanalizar el comportamiento de los meacutetodos con datos reales y extraer nuevas conclusiones que nosurgiacutean en el estudio de simulacioacuten Esto se debe a que si bien el estudio de simulacioacuten planteaba unadiversidad de escenarios amplia nunca seraacuten suficientes para recoger la multitud de naturalezas quecaracteriza a las series socio-econoacutemicas

El anaacutelisis de las datos del IGE se haraacute en dos niveles Un primer nivel mostraraacute el comportamientoglobal del conjunto mediante cuatro medidas el total de atiacutepicos detectados por cada meacutetodo en elconjunto el maacuteximo nuacutemero de atiacutepicos que detecta el meacutetodo en una serie del conjunto el nuacutemero deseries que no presentan atiacutepicos y la media de atiacutepicos detectados por cada meacutetodo El segundo nivelmostraraacute un anaacutelisis maacutes especiacutefico donde se analizaraacute el comportamiento de los meacutetodos respecto auna serie escogida del conjunto

Para finalizar el capiacutetulo introducimos una herramienta graacutefica disentildeada con el objetivo de eliminarla mayor incertidumbre posible que acompantildea a un campo como el de la deteccioacuten de valores atiacutepicosy analizamos su comportamiento

51 Anaacutelisis Series IGE

Los conjuntos utilizados para este trabajo han pasado primero por un proceso de filtrado en el quese han eliminado todas las series que presentan menos de 24 observaciones o maacutes de 24 ceros entre susobservaciones De este modo conseguimos quedarnos con series que recogen la informacioacuten suficientepara trabajar con ellas

A continuacioacuten se muestra el total de series perteneciente a cada conjunto

43

44 CAPIacuteTULO 5 APLICACIOacuteN A DATOS REALES

Conjunto 1 Conjunto 2 Conjunto 3 Conjunto 4 Conjunto 5 Conjunto 6 Conjunto 7

Pre-filtrado 108 72 55 42 162 165 55

Post-filtrado 84 60 50 42 90 165 47

Cuadro 51 Nuacutemero de series de tiempo perteneciente a cada conjunto antes y despueacutes del proceso defiltrado

Ademaacutes con el objetivo de capturar la influencia del Covid19 sobre las series de tiempo se procedea dividir el estudio en dos partes La primera analiza las series con datos hasta 2019 si el conjuntopresenta datos de frecuencia mensual esta fecha seraacute diciembre de 2019 por otra parte si el conjuntopresenta datos de frecuencia trimestral esta fecha seraacute el cuarto trimestre de 2019 La segunda analizalas series incluyendo el uacuteltimo dato actualizado el cual variacutea dependiendo del conjunto Los conjuntoscon datos trimestrales incluyen hasta el primer trimestre del 2020 mientras que los conjuntos condatos mensuales incluyen como uacuteltima actualizacioacuten fechas comprendidas entre abril y junio de 2020por lo que dicha fecha se concretaraacute en el momento que se analiza dicho conjunto Respecto a la fechade inicio de las series variacutea dependiendo del conjunto por lo que tambieacuten se especificaraacute en el iniciodel anaacutelisis del mismo

Para medir la influencia del Covid lo que se haraacute seraacute calcular la tasa de variacioacuten del total deatiacutepicos detectados entre ambos escenarios las series hasta 2019 y las series actualizadas al uacuteltimodato existente de 2020 la cual calcularemos como

Tasa de variacioacuten =

(Total atiacutepicos serie completaTotal atiacutepicos serie hasta 2019

minus 1

)lowast 100

Conjunto 1 (httpwwwigeeuigebdtigeapidatos3476)

Series de datos mensuales que contienen la informacioacuten de los viajeros noches y estancia media enestablecimientos hoteleros y de turismo rural en Espantildea Galicia y sus provincias Los datos de esteconjunto comienzan en enero de 1999 y finalizan en mayo de 2020

51 ANAacuteLISIS SERIES IGE 45

TRAMO -

SEATS

STL +

HDoutliers

STL +

iForest

STR +

HDoutliers

STR +

iForest

Atiacutepicos detectados 327 176 111 136 142

Max nuacutemero atip serie 17 11 3 8 4

Series con 0 atiacutepicos 13 20 11 23 3

Media de atiacutepicos detec 389 210 132 162 169

Cuadro 52 Resultados para el Conjunto 1 con datos hasta diciembre de 2019

Los resultados del Cuadro 52 se producen para un total de 18816 observaciones que muestra elconjunto con datos hasta diciembre de 2019 Ahora vamos a estudiar los resultados de forma quecada serie esteacute formada por el uacuteltimo dato actualizado y a realizar una comparacioacuten entre ambosescenarios En esta serie el uacuteltimo dato actualizado es mayo de 2020 lo que conforma un total de19172 observaciones

TRAMO -

SEATS

STL +

HDoutliers

STL +

iForest

STR +

HDoutliers

STR +

iForest

Atiacutepicos detectados 457 243 170 264 204

Max nuacutemero atip serie 17 11 4 15 5

Series con 0 atiacutepicos 1 6 1 10 3

Media de atiacutepicos detec 544 289 202 314 243

Cuadro 53 Resultados para el Conjunto 1 con datos hasta mayo de 2020

46 CAPIacuteTULO 5 APLICACIOacuteN A DATOS REALES

TRAMO -

SEATS

STL +

HDoutliers

STL +

iForest

STR +

HDoutliers

STR +

iForest

Hasta 2019 327 176 111 136 142

Hasta mayo 2020 457 243 170 264 204

Tasa de variacioacuten 3976 3807 5315 9412 4366

Cuadro 54 Total de atiacutepicos detectados por cada meacutetodo hasta diciembre de 2019 y abril 2020 y tasade variacioacuten que produce el efecto del Covid en el Conjunto 1

En el Cuadro 54 podemos ver como el efecto del Covid sobre el conjunto es muy notorio algoque cabriacutea esperar dado que estamos tratando series relacionadas con el Turismo en Galicia uno delos sectores maacutes afectados por la crisis del Covid El Cuadro 53 incorpora datos hasta mayo 2020lo que supone solamente un crecimiento del 189 del total de datos Sin embargo el crecimientoque experimenta el total de atiacutepicos detectado es muy superior en el caso maacutes suave representa uncrecimiento de maacutes del 38 llegando a suponer para alguacuten meacutetodo el 94

A continuacioacuten vamos a analizar un caso concreto de una serie del conjunto Hemos escogido laserie que hace referencia al nuacutemero de viajeros residentes en Espantildea hospedados en establecimientosde turismo rural en Espantildea El motivo de su eleccioacuten es que es la serie que provoca un mayor nuacutemerode atiacutepicos en el Cuadro 52 un total de 17 observaciones atiacutepicas sentildealadas por el meacutetodo TRAMO-SEATS

Figura 51 Serie de tiempo referente al nuacutemero de viajeros residentes en Espantildea hospedados en esta-blecimientos de turismo rural en Espantildea

La Figura 51 recoge la serie de tiempo referente al nuacutemero de viajeros residentes en Espantildea hos-

51 ANAacuteLISIS SERIES IGE 47

pedados en establecimientos de turismo rural en Espantildea La liacutenea vertical roja representa el comienzodel antildeo 2020 Observando dicha figura y centraacutendonos en la serie hasta 2019 nos encontramos con unaserie con mucha volatilidad debido al fuerte caraacutecter estacional que posee un sector como el turismoy con una ligera tendencia creciente que se estanca ligeramente en los antildeos posteriores a la crisis eco-noacutemica de 2011 para despueacutes continuar en aumento Sin embargo no parece que se encuentren valoresatiacutepicos en dicha serie La combinacioacuten STR+HDoutliers tambieacuten sentildeala un elevado nivel de atiacutepicosseis en total que se reduce con STR+iForest a tres posibles atiacutepicos Finalmente STL+HDoutliers ySTL+iForest coinciden en sentildealar un atiacutepico agosto de 2019

Si ahora observamos los resultados para la serie completa podemos comprobar que los resultadoscambian bruscamente con la introduccioacuten de cuatro nuevos datos enero febrero marzo y abril de2020 Ahora el meacutetodo TRAMO-SEATS sentildeala cuatro fechas de las que solo dos coinciden con lassentildealadas anteriormente Las combinaciones STL+HDoutliers y STL+iForest mantienen como atiacutepicoagosto de 2019 y antildeaden febrero marzo y abril 2020 y marzo y abril 2020 respectivamente Y ahorason las combinaciones STR+HDoutliers y STR+iForest las que sentildealan uacutenicamente agosto de 2019

Es interesante observar el comportamiento de los cinco meacutetodos en esta serie TRAMO-SEATS ylas combinaciones basadas en el proceso de descomposicioacuten STR soliacutean ser las que mejores resultadospresentaban sin embargo en este ejemplo son los meacutetodos basados en la descomposicioacuten STL que sibien presentaron buenos resultados en la simulacioacuten tendiacutean a ir por detraacutes de TRAMO-SEATS y losmeacutetodos basados en la descomposicioacuten STR los que presenta un comportamiento maacutes acorde con loque sucede en la serie De hecho son los meacutetodos basados en la descomposicioacuten STL los uacutenicos quesentildealan como atiacutepica la observacioacuten de abril 2020 la cual es la uacutenica que tiene un valor de 0 y esclaramente atiacutepica

La Figura 52 representa los atiacutepicos detectados por el meacutetodo STL+HDoutliers el cual es el meacutetodoque mejor comportamiento muestra para esta serie

Figura 52 Serie de tiempo referente al nuacutemero de viajeros residentes en Espantildea hospedados en esta-blecimientos de turismo rural en Espantildea analizada por el meacutetodo STL+HDoutliers

En la Figura 53 se muestran los resultados para la misma serie por el resto de meacutetodos utilizadosSTL+iForest STR+HDoutliers STR+iForest y TRAMO-SEATS

48 CAPIacuteTULO 5 APLICACIOacuteN A DATOS REALES

Figura 53 Serie de tiempo referente al nuacutemero de viajeros residentes en Espantildea hospedados en esta-blecimientos de turismo rural en Espantildea analizada por STL+iForest STR+HDoutliers STR+iForesty TRAMO-SEATS

Conjunto 2 (httpwwwigeeuigebdtigeapidatos6356)

Series de datos trimestrales acerca de la poblacioacuten de 16 y maacutes antildeos desglosados por sexo gruposde edad y relacioacuten con la actividad econoacutemica en Galicia Los datos de este conjunto comienzan en elprimer trimestre de 1996 y finalizan en el primer trimestre de 2020

TRAMO -

SEATS

STL +

HDoutliers

STL +

iForest

STR +

HDoutliers

STR +

iForest

Atiacutepicos detectados 56 70 61 62 66

Max nuacutemero atip serie 5 6 3 5 3

Series con 0 atiacutepicos 28 29 18 26 14

Media de atiacutepicos detec 093 117 102 103 110

Cuadro 55 Resultados para el Conjunto 2 con datos hasta el cuarto trimestre de 2019

Los resultados del Cuadro 55 se producen para un total de 5760 observaciones que muestra elconjunto con datos hasta el cuarto trimestre de 2019 Ahora vamos a estudiar los resultados de formaque cada serie esteacute formada por el uacuteltimo dato actualizado y a comparar ambos escenarios En estaserie el uacuteltimo dato actualizado es el primer trimestre de 2020 lo que conforma un total de 5820

51 ANAacuteLISIS SERIES IGE 49

observaciones

TRAMO -

SEATS

STL +

HDoutliers

STL +

iForest

STR +

HDoutliers

STR +

iForest

Atiacutepicos detectados 54 107 62 68 66

Max nuacutemero atip serie 5 45 3 4 3

Series con 0 atiacutepicos 28 30 15 20 12

Media de atiacutepicos detec 090 178 103 113 110

Cuadro 56 Resultados para el Conjunto 2 con datos hasta el primer trimestre de 2020

TRAMO -

SEATS

STL +

HDoutliers

STL +

iForest

STR +

HDoutliers

STR +

iForest

Hasta 2019 56 70 61 62 66

Hasta mayo 2020 54 107 62 68 66

Tasa de variacioacuten -357 5286 164 968 000

Cuadro 57 Total de atiacutepicos detectados por cada meacutetodo hasta el cuarto trimestre de 2019 y primertrimestre de 2020 y tasa de variacioacuten que produce el efecto del Covid en el Conjunto 2

En el Cuadro 57 podemos ver como el efecto del Covid sobre el conjunto es mucho menor que enlos datos del Conjunto 1 Esto se debe a la naturaleza trimestral de los datos por lo que situando lainfluencia del Covid en el contexto gallego a finales de marzo de 2020 su impacto es maacutes suave sobrelos datos Seriacutea interesante en el futuro ver que sucede con este conjunto una vez se antildeadan los datosdel segundo trimestre

A continuacioacuten vamos a analizar un caso concreto de una serie del conjunto Hemos escogido laserie que recoge los datos de hombres mayores de 55 antildeos y que forman parte de la poblacioacuten ocupada

En la Figura 54 se muestra la serie de tiempo referente a los hombres mayores de 55 antildeos queforma parte de la poblacioacuten ocupada La recta vertical roja diferencia los dos escenarios que estudiamosla serie hasta el cuarto trimestre de 2019 y la serie hasta el primer trimestre de 2020-

50 CAPIacuteTULO 5 APLICACIOacuteN A DATOS REALES

Figura 54 Serie de tiempo referente hombres mayores de 55 antildeos y que forman parte de la poblacioacutenocupada

El uacutenico dato que las diferencia el primer trimestre de 2020 sigue con lo que cabriacutea esperar Y losmeacutetodos de deteccioacuten de atiacutepicos concuerdan con lo que observamos no existen atiacutepicos ni antes nidespueacutes excepto en un caso Ahora son los meacutetodos basados en el proceso de descomposicioacuten STL losque sentildealan una fecha que parece discrepar con la realidad

En la serie con valores hasta 2019 son ambas combinaciones STL+HDoutliers y STL+iForestlas que sentildealan como posible atiacutepico julio 2013 Si nos trasladamos a la serie completa uacutenicamenteSTL+iForest sigue manteniendo ese posible atiacutepico mientras que STL+HDoutliers lo corrige Esta si-tuacioacuten en las que solo un meacutetodo sentildeala una fecha nos lleva a dudar de que realmente esta observacioacutensea atiacutepica

A continuacioacuten mostramos la serie referente a los hombres mayores de 55 antildeos y que forman partede la poblacioacuten ocupada analizada por el uacutenico meacutetodo que detecta atiacutepicos para la serie completaSTL+iForest

Figura 55 Serie de tiempo referente hombres mayores de 55 antildeos y que forman parte de la poblacioacutenocupada analizada por STL+iForest

51 ANAacuteLISIS SERIES IGE 51

Conjunto 3 (httpwwwigeeuigebdtigeapidatos308)

Series de datos mensuales acerca de contratos registrados seguacuten la modalidad del contrato Losdatos de este conjunto comienzan en enero de 1999 y finalizan en mayo de 2020

TRAMO -

SEATS

STL +

HDoutliers

STL +

iForest

STR +

HDoutliers

STR +

iForest

Atiacutepicos detectados 193 126 98 146 98

Max nuacutemero atip serie 9 14 5 10 4

Series con 0 atiacutepicos 5 9 1 7 2

Media de atiacutepicos detec 386 252 196 292 196

Cuadro 58 Resultados para el Conjunto 3 con datos hasta diciembre 2019

El Cuadro 58 recoge los resultados que se producen para un total de 12600 observaciones quemuestra el Conjunto 3 con datos hasta diciembre de 2019 Ahora vamos a estudiar los resultados deforma que cada serie esteacute conformada por el uacuteltimo dato actualizado y a realizar una comparativaentre ambas En esta serie el uacuteltimo dato actualizado es mayo de 2020 lo que conforma un total de12850 observaciones

TRAMO -

SEATS

STL +

HDoutliers

STL +

iForest

STR +

HDoutliers

STR +

iForest

Atiacutepicos detectados 242 144 107 153 121

Max nuacutemero atip serie 13 8 5 10 4

Series con 0 atiacutepicos 1 6 0 7 1

Media de atiacutepicos detec 484 288 214 306 242

Cuadro 59 Resultados para el Conjunto 3 con datos hasta mayo de 2020

52 CAPIacuteTULO 5 APLICACIOacuteN A DATOS REALES

TRAMO -

SEATS

STL +

HDoutliers

STL +

iForest

STR +

HDoutliers

STR +

iForest

Hasta 2019 193 126 98 146 98

Hasta mayo 2020 242 144 107 153 121

Tasa de variacioacuten 2539 1429 918 479 2350

Cuadro 510 Total de atiacutepicos detectados por cada meacutetodo hasta diciembre de 2019 y mayo de 2020y tasa de variacioacuten que produce el efecto del Covid en el Conjunto 3

En el Cuadro 510 podemos ver como el efecto del Covid sobre el conjunto es similar al que sepresentaba en los datos del Conjunto 1 Este conjunto vuelve a recoger datos de caraacutecter mensual porlo que la influencia de los meses de 2020 vuelven a reflejar un gran peso en los resultados Sin embargolas tasas de variacioacuten no son tan grandes como las que se produciacutean en el Conjunto 1 Esto podriacuteadeberse a que mientras el sector turiacutestico se redujo a cero en el mercado laboral se llevaron a cabopoliacuteticas contra la destruccioacuten masiva de empleo Estos resultados lo que hacen es aflorar que se haproducido un efecto en el conjunto de datos y que podriacutea ser de intereacutes para despueacutes desarrollar unestudio en profundidad

A continuacioacuten vamos a analizar la serie referente a las contrataciones eventuales por circunstanciasde la produccioacuten para la provincia de Ourense diferenciando a traveacutes de una recta roja vertical los dosescenarios analizados los datos hasta diciembre 2019 y los datos hasta mayo de 2020

Figura 56 Serie de tiempo referente a las contrataciones eventuales por circunstancias de la produccioacutenpara la provincia de Ourense

El meacutetodo TRAMO-SEATS sentildeala tres fechas atiacutepicas en ambas ocasiones en la serie hasta 2019

51 ANAacuteLISIS SERIES IGE 53

y hasta mayo de 2020 sin embargo ninguna de ellas es comuacuten Probablemente esto se deba al compor-tamiento que podemos apreciar en la Figura 56 donde se observa la caiacuteda que produce en la serie losmeses de marzo abril y mayo de 2020 La introduccioacuten de estos datos reajusta las prioridades sobrequeacute es un atiacutepico en la serie para TRAMO-SEATS de forma que pasa de identificar octubre 2001abril 2002 y enero 2012 a sentildealar como fechas atiacutepicas octubre 2007 y marzo y abril de 2020

Este suceso tambieacuten se presenta en el resto de meacutetodos STL+HDoutliers pasa de no identificarninguacuten dato en la serie hasta 2019 a sentildealar abril del 2002 y febrero abril y mayo de 2020 Otro meacutetodoque experimenta esta situacioacuten es STR+iForest que pasa de no calificar ninguna observacioacuten atiacutepicaa sentildealar abril y mayo en 2019 y en 2020 STL+iForest sentildeala dos y tres atiacutepicos en cada caso en laserie hasta 2019 sentildeala el mes de julio en 2018 y 2019 mientras que en la serie completa sentildeala losmeses de febrero abril y mayo de 2020 Por uacuteltimo STR+HDoutliers sentildeala como atiacutepico abril del2002 en la serie acortada observacioacuten que ya no es detectada al incluir la serie completa donde sentildealalos meses de abril y mayo para los antildeos 2019 y 2020 igual aquiacute que STR+iForest

Estos resultados conducen hacia un punto comuacuten mientras que en la serie recortada en 2019 noparece haber mucho acuerdo sobre los atiacutepicos o si existen atiacutepicos en la serie completa todos losmeacutetodos se ponen de acuerdo en que las situaciones de abril y mayo de 2020 son anoacutemalas Estosresultados se muestran en la Figura 57

Figura 57 Serie de tiempo referente a las contrataciones eventuales por circunstancias de la produccioacutenpara la provincia de Ourense sentildealizando las anomaliacuteas comunes a los cinco meacutetodos

Conjunto 4 (httpwwwigeeuigebdtigeapidatos9048)

Series de datos mensuales referidas al Iacutendice de produccioacuten industrial general y por destino eco-noacutemico de los bienes en Espantildea y Galicia Los distintos destinos econoacutemico son bienes de consumoduraderos y no duraderos bienes de equipo bienes intermedios y energiacutea Los datos del conjuntocomienzan en enero de 2002 y finalizan en mayo de 2020

54 CAPIacuteTULO 5 APLICACIOacuteN A DATOS REALES

TRAMO -

SEATS

STL +

HDoutliers

STL +

iForest

STR +

HDoutliers

STR +

iForest

Atiacutepicos detectados 288 129 73 212 64

Max nuacutemero atip serie 24 11 3 102 3

Series con 0 atiacutepicos 9 5 3 6 2

Media de atiacutepicos detec 686 307 174 505 152

Cuadro 511 Resultados para el Conjunto 4 con datos hasta diciembre de 2019

El Cuadro 511 recoge los resultados que se producen para un total de 8904 observaciones quemuestra el conjunto con datos hasta diciembre de 2019 Ahora vamos a estudiar los resultados deforma que cada serie esteacute conformada por el uacuteltimo dato actualizado y a analizar los cambios que seproducen entre ambos escenarios En este conjunto el uacuteltimo dato actualizado es mayo de 2020 lo queconforma un total de 9114 observaciones

TRAMO -

SEATS

STL +

HDoutliers

STL +

iForest

STR +

HDoutliers

STR +

iForest

Atiacutepicos detectados 282 92 78 144 79

Max nuacutemero atip serie 24 5 3 50 3

Series con 0 atiacutepicos 4 5 1 2 1

Media de atiacutepicos detec 672 219 186 343 189

Cuadro 512 Resultados para el Conjunto 4 con datos hasta mayo de 2020

51 ANAacuteLISIS SERIES IGE 55

TRAMO -

SEATS

STL +

HDoutliers

STL +

iForest

STR +

HDoutliers

STR +

iForest

Hasta 2019 288 129 73 212 64

Hasta mayo 2020 282 92 78 144 79

Tasa de variacioacuten -208 -2868 685 -3208 2344

Cuadro 513 Total de atiacutepicos detectados por cada meacutetodo hasta diciembre de 2019 y mayo de 2020y tasa de variacioacuten que produce el efecto del Covid en el Conjunto 4

En el Cuadro 513 podemos ver el efecto del Covid sobre el conjunto sin embargo en esta ocasioacuten nopodemos ver una direccioacuten clara Los meacutetodos difieren y mientras unos meacutetodos muestran crecimientosen el nuacutemero de atiacutepicos detectados para el conjunto otros decrecen y muestran ahora menos atiacutepicosSin embargo esto no implica que el efecto del Covid sobre el conjunto sea menor que por ejemplo en elConjunto 3 Las variaciones entre las series las que incluyen datos de 2020 y las que no son notoriaslo cual implica que el efecto existe

A continuacioacuten vamos a analizar la serie referente a la produccioacuten industrial destinada a bienesintermedios de Galicia diferenciando a traveacutes de una recta vertical roja los dos escenarios los datoshasta diciembre de 2019 y la serie hasta mayo 2020

Figura 58 Serie de tiempo referente a la produccioacuten industrial destinada a bienes intermedios deGalicia

El comportamiento que muestran los meacutetodos con esta serie nos ayuda a plasmar una idea quedesarrollaremos maacutes adelante en el siguiente apartado Si observamos los datos para la serie recortada

56 CAPIacuteTULO 5 APLICACIOacuteN A DATOS REALES

en diciembre de 2019 obtenemos que salvo TRAMO-SEATS que no detecta ninguacuten atiacutepico los otroscuatro meacutetodos concuerdan en dos fechas marzo y julio de 2008 Por otra parte en la serie completacinco meacutetodos sentildealan abril 2020 y cuatro sentildealan marzo de 2008 Estos dos atiacutepicos abril de 2020 ymarzo de 2008 los representamos en la Figura 59

Analizando la Figura 59 el atiacutepico sentildealado en marzo de 2008 parece dudoso sin embargo siprofundizamos en los datos observamos que esta fecha rompe una clara tendencia creciente respecto alos meses de marzo de antildeos anteriores

Este suceso en el que varios meacutetodos coinciden en identificar una fecha proveen al analista de unaseguridad a la hora de calificar una observacioacuten como anoacutemala Este concepto de seguridad eliminandola incertidumbre asociada al campo de la deteccioacuten de valores atiacutepicos seraacute desarrollado maacutes adelante

Figura 59 Serie de tiempo referente a la produccioacuten industrial destinada a bienes intermedios deGalicia con los dos atiacutepicos

Conjunto 5 (httpwwwigeeuigebdtigeapidatos4052)

Series de datos trimestrales de nuacutemero de transacciones inmobiliarias por reacutegimen (Libre Protegiday Total de viviendas) y tipo de vivienda (Nuevas segunda mano y total de viviendas) Las medidas enlas que se toman los datos son por nuacutemero de viviendas su valor total (en miles de euros) o su valormedio (en euros) Los datos se presentan a nivel Espantildea Galicia y las provincias gallegas Los datosse recogen entre el primer trimestre de 2004 hasta el primer trimestre de 2020

51 ANAacuteLISIS SERIES IGE 57

TRAMO -

SEATS

STL +

HDoutliers

STL +

iForest

STR +

HDoutliers

STR +

iForest

Atiacutepicos detectados 184 122 105 94 97

Max nuacutemero atip serie 7 8 2 6 2

Series con 0 atiacutepicos 13 41 12 47 11

Media de atiacutepicos detec 204 136 117 104 107

Cuadro 514 Resultados para el Conjunto 5 con datos hasta el cuarto trimestre de 2019

Los resultados que recoge el Cuadro 514 se producen para un total de 5760 observaciones que mues-tra el Conjunto 5 con datos hasta el cuarto trimestre de 2019 Ahora vamos a estudiar los resultadosde forma que cada serie esteacute conformada por el uacuteltimo dato actualizado y a realizar una comparacioacutenentre ambos escenarios En esta serie el uacuteltimo dato actualizado es el primer trimestre de 2020 lo queconforma un total de 5850 observaciones

TRAMO -

SEATS

STL +

HDoutliers

STL +

iForest

STR +

HDoutliers

STR +

iForest

Atiacutepicos detectados 184 106 108 90 93

Max nuacutemero atip serie 9 8 2 5 3

Series con 0 atiacutepicos 12 42 11 43 13

Media de atiacutepicos detec 204 118 120 100 103

Cuadro 515 Resultados para el Conjunto 5 con datos hasta el primer trimestre de 2020

58 CAPIacuteTULO 5 APLICACIOacuteN A DATOS REALES

TRAMO -

SEATS

STL +

HDoutliers

STL +

iForest

STR +

HDoutliers

STR +

iForest

Hasta 2019 184 122 105 94 97

Hasta mayo 2020 184 106 108 90 93

Tasa de variacioacuten 000 -1311 286 -426 -412

Cuadro 516 Total de atiacutepicos detectados por cada meacutetodo hasta cuarto trimestre de 2019 y primertrimestre de 2020 y tasa de variacioacuten que produce el efecto del Covid en el Conjunto 5

En el Cuadro 516 podemos ver que el efecto del Covid sobre las series trimestrales vuelve a sermuy pequentildeo similar a las conclusiones obtenidas para el Conjunto 2 Si comparamos las tablas 514y 515 podemos similitudes en los resultados para las diferentes medidas que se toman Por ejemplo sinos fijamos en la fila que mide el nuacutemero de series que son identificadas con cero atiacutepicos los meacutetodosapenas difieren en sus resultados Lo mismo sucede con la media de atiacutepicos detectados en cada serieEstos resultados sostienen la idea de que el Covid repercutioacute en menor medida en las series trimestralesen el primer trimestre del antildeo y es de intereacutes realizar este mismo estudio una vez se incorporen losdatos del segundo trimestre

A continuacioacuten vamos a analizar la serie referente al nuacutemero de viviendas transmitidas de segundamano en reacutegimen libre para la provincia de Lugo diferenciando los dos escenarios analizados a traveacutesde una recta vertical roja los datos hasta el cuarto trimestre de 2019 y los datos incluyendo el primertrimestre de 2020

Figura 510 Serie de tiempo referente al nuacutemero de viviendas transmitidas de segunda mano en reacutegimenlibre para la provincia de Lugo

51 ANAacuteLISIS SERIES IGE 59

Observando la Figura 510 parece que el dato incluido referente al primer trimestre de 2020 su-pone una caiacuteda una situacioacuten anoacutemala sin embargo si observamos la evolucioacuten histoacuterica de la seriepodemos comprobar que solamente en dos ocasiones se han mostrado valores superiores en este pri-mer trimestre Para ambos escenarios la serie hasta 2019 y la serie completa uacutenicamente un meacutetododetecta atiacutepicos TRAMO-SEATS que sentildeala en ambas ocasiones octubre de 2010 y 2012 El resto demeacutetodos concuerdan en que la serie no presenta en ninguacuten caso ninguna situacioacuten anoacutemala

La Figura 511 muestra las dos fechas que sentildeala como atiacutepicas el meacutetodo TRAMO-SEATS cuartotrimestre de 2010 y 2012 que si bien reflejan un pico en los espacios temporales en los que se producenno parecen ser atiacutepicas respecto a la serie completa

Figura 511 Serie de tiempo referente al nuacutemero de viviendas transmitidas de segunda mano en reacutegimenlibre para la provincia de Lugo

Conjunto 6 (httpwwwigeeuigebdtigeapidatos1243)

Series de datos mensuales referentes a las bajas de demandas de empleo seguacuten geacutenero y duracioacutende la demanda en Galicia y sus provincias Los datos de la serie se recogen desde enero de 2009 hastajunio de 2020

60 CAPIacuteTULO 5 APLICACIOacuteN A DATOS REALES

TRAMO -

SEATS

STL +

HDoutliers

STL +

iForest

STR +

HDoutliers

STR +

iForest

Atiacutepicos detectados 154 271 228 288 228

Max nuacutemero atip serie 7 11 4 7 3

Series con 0 atiacutepicos 85 44 16 40 12

Media de atiacutepicos detec 093 164 138 174 138

Cuadro 517 Resultados para el Conjunto 6 con datos hasta diciembre de 2019

Los resultados del Cuadro 517 se producen para un total de 21780 observaciones que muestra elconjunto con datos hasta diciembre de 2019 Ahora vamos a estudiar los resultados de forma que cadaserie esteacute conformada por el uacuteltimo dato actualizado y a comparar ambas situaciones En esta serie eluacuteltimo dato actualizado es junio de 2020 lo que conforma un total de 22770 observaciones

TRAMO -

SEATS

STL +

HDoutliers

STL +

iForest

STR +

HDoutliers

STR +

iForest

Atiacutepicos detectados 484 502 336 504 334

Max nuacutemero atip serie 9 12 4 11 4

Series con 0 atiacutepicos 1 10 3 15 5

Media de atiacutepicos detec 293 304 204 305 202

Cuadro 518 Resultados para el Conjunto 6 con datos hasta junio de 2020

51 ANAacuteLISIS SERIES IGE 61

TRAMO -

SEATS

STL +

HDoutliers

STL +

iForest

STR +

HDoutliers

STR +

iForest

Hasta 2019 154 271 228 288 228

Hasta mayo 2020 484 502 336 504 334

Tasa de variacioacuten 21429 8524 4737 7500 4649

Cuadro 519 Total de atiacutepicos detectados por cada meacutetodo hasta diciembre de 2019 y junio de 2020 ytasa de variacioacuten que produce el efecto del Covid en el Conjunto 6

En el Cuadro 519 podemos ver el efecto que supone la primera mitad del antildeo 2020 en la aparicioacutende valores atiacutepicos en este conjunto El incremento en el nuacutemero de datos a analizar no llega a serdel 5 pero esa miacutenima cantidad de datos nuevos dispara las fechas anoacutemalas que se suceden en lasseries En el Cuadro 518 se puede observar que apenas existen series sin atiacutepicos independientementedel meacutetodo que seleccionemos algo todaviacutea maacutes sorprendente si recordamos que este es el conjuntoque posee maacutes series un total de 165 series

A continuacioacuten analizamos un caso concreto utilizando la serie referente a las bajas de la demandade empleo en mujeres con una duracioacuten de la demanda entre 12 y 18 meses en Ourense La rectavertical roja indica el inicio del antildeo 2020 sirviendo asiacute para indicar la diferencia entre los dos escenariosanalizados en los Cuadros 517 y 518

Figura 512 Serie de tiempo referente a las bajas de la demanda de empleo en mujeres con una duracioacutende la demanda entre 12 y 18 meses en Ourense

Esta serie es de intereacutes por diversos motivos El primero es que posee claros atiacutepicos en ambos

62 CAPIacuteTULO 5 APLICACIOacuteN A DATOS REALES

escenarios En la serie con duracioacuten hasta 2019 se puede observar un valor cercano al inicio de 2014con claro aspecto de ser atiacutepico La serie con todos los datos muestra el atiacutepico anterior pero tambieacutennuevos valores con claro comportamiento discordante al resto de la serie

Para la serie recortada cinco meacutetodos coinciden en sus resultados julio de 2013 es atiacutepico uacutenica-mente TRAMO-SEATS difiere el cual no sentildeala ninguacuten atiacutepico en la serie Si ahora nos trasladamosa la serie completa TRAMO-SEATS sentildeala marzo de 2020 como atiacutepico mientras que el resto demeacutetodos vuelven a concordar sentildealando julio de 2013 y febrero de 2020 En la Figura 513 se muestrala serie sentildealizando dichos atiacutepicos julio de 2013 y febrero y marzo de 2020

Figura 513 Serie de tiempo referente a las bajas de la demanda de empleo en mujeres con una duracioacutende la demanda entre 12 y 18 meses en Ourense con los atiacutepicos identificados

Si observamos los datos de la serie podemos calificar todas estas fechas como atiacutepicas julio 2013febrero 2020 y marzo 2020 Sin embargo ninguacuten meacutetodo ha calificado los meses de abril mayo yjunio de 2020 siendo claramente atiacutepicos Estamos frente a una situacioacuten completamente inusual unasituacioacuten que se produce en multitud de series del IGE y es la secuencia de varias observacionesconsecutivas muy atiacutepicas que ejercen un gran peso en la serie

Este gran peso provoca que los meacutetodos no consigan analizar correctamente este escenario Losmodelos de series temporales como TRAMO-SEATS interpretan que se estaacute produciendo un cambiode nivel permanente en la serie mencionado en el Capiacutetulo 3 como Level Shift (LS) y modelizan laserie como tal Los procesos de descomposicioacuten de series temporales utilizados STL y STR entiendenlo que estaacute sucediendo como un cambio en la tendencia es decir en su proceso de extraccioacuten de laestacionalidad y la tendencia estiman una tendencia decreciente en la serie Y por uacuteltimo los meacutetodosde deteccioacuten de valores atiacutepicos HDoutliers y iForest sufren un grave problema de enmascaramientoLa idea del mecanismo de iForest reside en buscar valores aislados mientras que la de HDoutliers sefundamenta en buscar espacios entre los valores ordenados estas dos ideas son consistentes con la ideade la buacutesqueda de atiacutepicos sin embargo ven disminuida su eficiencia ante una situacioacuten tan atiacutepica quepermanece durante varias observaciones consecutivas llevando a provocar que observaciones atiacutepicaspuedan pasar desapercibidas para el mecanismo

51 ANAacuteLISIS SERIES IGE 63

Conjunto 7 (httpwwwigeeuigebdtigeapidatos4885)

Series de datos mensuales referentes a las afiliaciones a la seguridad social el uacuteltimo diacutea de mes enGalicia y sus provincias por regiacutemenes Los datos comienzan en enero de 1990 y finalizan en mayo de2020

TRAMO -

SEATS

STL +

HDoutliers

STL +

iForest

STR +

HDoutliers

STR +

iForest

Atiacutepicos detectados 288 96 118 136 121

Max nuacutemero atip serie 24 8 5 10 5

Series con 0 atiacutepicos 4 10 0 4 0

Media de atiacutepicos detec 613 204 251 289 257

Cuadro 520 Resultados para el Conjunto 7 con datos hasta diciembre de 2019

El Cuadro 520 muestra los resultado que se producen para un total de 16920 observaciones quemuestra el conjunto con datos hasta diciembre de 2019 Ahora vamos a estudiar los resultados de formaque cada serie esteacute conformada por el uacuteltimo dato actualizado y comparar ambas situaciones En estaserie el uacuteltimo dato actualizado es junio de 2020 lo que conforma un total de 17155 observaciones

TRAMO -

SEATS

STL +

HDoutliers

STL +

iForest

STR +

HDoutliers

STR +

iForest

Atiacutepicos detectados 333 179 128 118 136

Max nuacutemero atip serie 24 14 5 11 6

Series con 0 atiacutepicos 0 6 0 3 0

Media de atiacutepicos detec 709 380 272 251 289

Cuadro 521 Resultados para el Conjunto 7 con datos hasta mayo de 2020

64 CAPIacuteTULO 5 APLICACIOacuteN A DATOS REALES

TRAMO -

SEATS

STL +

HDoutliers

STL +

iForest

STR +

HDoutliers

STR +

iForest

Hasta 2019 288 96 118 136 121

Hasta mayo 2020 333 179 128 118 136

Tasa de variacioacuten 1563 8646 847 -1324 1240

Cuadro 522 Total de atiacutepicos detectados por cada meacutetodo hasta diciembre de 2019 y mayo de 2020y tasa de variacioacuten que produce el efecto del Covid en el Conjunto 7

En el Cuadro 522 podemos ver que el efecto que supone la primera mitad del antildeo 2020 en laaparicioacuten de valores atiacutepicos en este conjunto La variacioacuten que supone en el nuacutemero de valores detec-tados como anoacutemalos es considerable todaviacutea maacutes si lo comparamos con la variacioacuten de nuevos datosintroducidos en el anaacutelisis los cuales han aumentado solamente un 138 De este modo podemosafirmar que la presencia del Covid ha provocado un gran impacto en el incremento del nuacutemero deobservaciones atiacutepicas de los conjuntos que presentan datos de frecuencia mensual

A continuacioacuten analizamos un caso concreto utilizando la serie referente a las afiliaciones a laseguridad social en reacutegimen mar para la provincia de Lugo La Figura 514 muestra la representacioacutengraacutefica de dicha serie indicando mediante una recta vertical roja el inicio del 2020

Figura 514 Serie de tiempo referente a las afiliaciones a la seguridad social en reacutegimen mar para laprovincia de Lugo

El motivo de seleccionar esta serie reside en una idea que se va desarrollando a lo largo de todoeste apartado y que da lugar a la herramienta que se introduce en el siguiente Las series socio-econoacutemicas son complejas dado que se ven afectadas por multitud de factores externos que condicionansu desarrollo Este caraacutecter uacutenico de cada serie maacutes los resultados obtenidos a lo largo del trabajo

51 ANAacuteLISIS SERIES IGE 65

nos conduce a la conclusioacuten de que no existe un meacutetodo de deteccioacuten de atiacutepicos con una capacidadde clasificacioacuten superior al resto

Los resultados para esta serie son diversos Por ejemplo la combinacioacuten STR+HDoutliers muestrahasta ocho atiacutepicos para la serie delimitada en el antildeo 2019 sin embargo al introducir la serie completaesta cifra se reduce solamente a dos Sucede lo contrario con la combinacioacuten STL+HDoutliers quesi bien en la serie recortada califica dos observaciones en la completa sentildeala un total de siete Porsu parte TRAMO-SEATS identifica un total de siete atiacutepicos Sin embargo todos los meacutetodos dedeteccioacuten sentildealan dos fechas como atiacutepicas en los dos casos agosto de 2006 y junio de 2008 como serepresenta en la Figura 515 Esto dota al estudio de confianza si todos los mecanismos sospechan dedos fechas deberaacute haber un motivo de peso algo ha sucedido en la serie para que todos concuerdenEsta idea dio lugar al desarrollo de la herramienta que se introduce en el siguiente apartado

Figura 515 Serie de tiempo referente a las afiliaciones a la seguridad social en reacutegimen mar parala provincia de Lugo identificando los atiacutepicos sentildealados de forma comuacuten por los cinco meacutetodos dedeteccioacuten

Por uacuteltimo el Cuadro 523 recoge el total de atiacutepicos detectados por cada meacutetodo en los dosescenarios con los que se ha trabajado en este capiacutetulo El primer escenario incluye datos hasta lauacuteltima fecha de 2019 si las series son mensuales este dato es el correspondiente a diciembre de 2019si son series trimestrales el uacuteltimo dato seraacute el cuarto trimestre de 2019 En el Cuadro 523 se recogede modo general para todos los conjuntos bajo el teacutermino ldquodatos hasta 2019rdquo El segundo escenariorecoge los datos hasta su uacuteltima actualizacioacuten aquiacute existe un mayor abanico de fechas como vimos alo largo de todo este capiacutetulo Los conjuntos con datos de frecuencia trimestral presentan su uacuteltimodato en el primer trimestre de 2020 por su parte los conjuntos de datos mensuales variacutean su uacuteltimaactualizacioacuten entre los meses de abril mayo o junio de 2020 En el Cuadro 523 se recoge de modogeneral para todos ellos bajo el teacutermino ldquodatos hasta 2020rdquo

66 CAPIacuteTULO 5 APLICACIOacuteN A DATOS REALES

TRAMO -SEATS

STL +HDoutliers

STL +iForest

STR +HDoutliers

STR +iForest

Tiempo de ejecucioacuten (2019) 1332 24 1782 7234 8805Tiempo de ejecucioacuten (2020) 1503 21 2042 8043 10764Atiacutepicos detectados (2019) 1490 990 794 1074 816Atiacutepicos detectados (2020) 2036 1373 989 1341 1033

Tasa de variacioacuten 3664 3869 2456 2486 2659

Cuadro 523 Tiempo de ejecucioacuten (en segundos) y total de atiacutepicos detectados por cada meacutetodo hastael uacuteltimo dato de 2019 y hasta uacuteltima actualizacioacuten de 2020 y tasa de variacioacuten que produce el efectodel Covid en los siete conjuntos de datos

El Cuadro 523 nos permite concluir que el efecto global del Covid ha supuesto un incremento enel nuacutemero de observaciones atiacutepicas puesto que todos los meacutetodos experimentan una tasa de variacioacutenpositiva sobre sus cifras de valores atiacutepicos detectados Las cifras de tasas de variacioacuten que se muestranen el Cuadro 523 sorprenden todaviacutea maacutes si analizamos el incremento en el nuacutemero de observacionesanalizadas El escenario que analiza el conjunto de datos hasta 2019 presentan un total de 90540observaciones mientras que el escenario que incluye hasta el uacuteltimo dato actualizado recoge un totalde 92731 Es decir el nuacutemero total de datos analizados se ha incrementado en poco maacutes del 2 sinembargo la tasa de variacioacuten maacutes pequentildea muestra un incremento del maacutes del 24 del nuacutemero deatiacutepicos que se presentan en el conjunto de datos

Otra medida que incluye el Cuadro 523 es el tiempo que tarda en analizar los siete conjuntosde datos cada meacutetodo recogida bajo el nombre de ldquotiempo de ejecucioacutenrdquo A traveacutes de ella podemosobservar que la diferencia entre el tiempo de ejecucioacuten es pequentildea pero existe por lo que muestra quela presencia de atiacutepicos dificulta la modelizacioacuten de la series temporales Tambieacuten podemos comprobarcomo todos los meacutetodos presentan buenas cifras en este medida los que peores resultados muestranson los meacutetodos que utilizan la descomposicioacuten STR la cual ya mencionamos su posible problemade lentitud en el Capiacutetulo 2 Por uacuteltimo es sorprendente la combinacioacuten de STL+HDoutliers que escapaz de analizar las 538 en un tiempo inferior a los tres segundos en ambos casos

52 Anaacutelisis Graacutefico

El campo de la deteccioacuten de valores atiacutepicos estaacute caracterizado por una constante incertidumbrePartiendo del inicio del trabajo ni siquiera existe una definicioacuten exacta de queacute es un valor atiacutepicosino maacutes bien se trazan definiciones en base a ideas de lo que se espera que sea un valor atiacutepico enun conjunto de datos Es por ello que dependiendo de los escenarios y las complejidades asociadas auna serie unos meacutetodos resulten maacutes efectivos que otros Este es el motivo por el que surgioacute la ideade crear una herramienta de anaacutelisis graacutefico para el estudio de series de tiempo

El objetivo de esta herramienta es la de dotar al analista de un mecanismo sencillo de implantarque le permita trazar una idea de los posibles atiacutepicos con los que podriacutea contar la serie Para ello seha creado una funcioacuten en R que solo necesita introducir la serie de tiempo para devolver el graacutefico

52 ANAacuteLISIS GRAacuteFICO 67

Ademaacutes dado que esta herramienta estaacute disentildeada especiacuteficamente para trabajar con series de tiemposu representacioacuten dariacutea lugar a lo que podriacutea denominarse un mapa de calor para zonas atiacutepicas estose muestra maacutes adelante mediante ejemplos

Esta herramienta estaacute compuesta por los meacutetodos que han mostrado mejores resultados en el estudiode simulacioacuten Cada meacutetodo ocupa una fila mostrando a lo largo de ella sus atiacutepicos sentildealados y cadacolumna es una fecha detectada por un meacutetodo De tal modo que si una fecha es detectada por todoslos meacutetodos mostraraacute una columna verde y seraacute sospecha clara de que esa fecha es atiacutepica Por otraparte si una fecha es detectada por solo un meacutetodo mostraraacute solo de color verde la celda asociada aese meacutetodo y no seraacute sentildeal tan evidente de situacioacuten atiacutepica

Para la composicioacuten del graacutefico se utilizan los meacutetodos del apartado anterior y a mayores seintroducen las versiones robustas de los meacutetodos de descomposicioacuten de series temporales STL y STREl motivo de su uso en este apartado se debe a que si bien no mostraron los mejores resultados enel estudio de simulacioacuten ahora pueden resultar de utilidad Los meacutetodos robustos pueden generaranomaliacuteas espurias cuando no existen atiacutepicos debido a que resaltan el tamantildeo del residuo de unaobservacioacuten provocando su identificacioacuten como atiacutepico sin esta serlo Sin embargo cuando se producenanomaliacuteas que ejercen un gran peso en la serie como lo sucedido durante el Covid este tipo deestimaciones son de gran intereacutes esta situacioacuten tambieacuten se justificaraacute mediante un ejemplo praacutectico

El primer ejemplo lo extraemos a traveacutes de la serie referente a la estancia media de viajeros de todaslas procedencias en establecimientos hoteleros en Galicia perteneciente al Conjunto 1 En la Figura516 mostramos la representacioacuten de la misma ahora ya mostramos hasta el uacuteltimo dato actualizadoen este caso mayo de 2020

Figura 516 Estancia media de viajeros de todas las procedencias en establecimientos hoteleros enGalicia

Esta serie parece contar con dos atiacutepicos los relacionados con las dos uacuteltimas observaciones de laserie sin embargo vamos a analizar los resultados del graacutefico comparativo

68 CAPIacuteTULO 5 APLICACIOacuteN A DATOS REALES

Figura 517 Resultados para la serie estancia media de viajeros de todas las procedencias en estable-cimientos hoteleros en Galicia del Conjunto 1

La Figura 517 muestra el graacutefico que hemos desarrollado el cual vamos a desgranar ahora paraentender su utilidad Si hubieacutesemos escogido el meacutetodo TRAMO-SEATS hubieacutesemos sentildealado tresobservaciones atiacutepicas una de ellas seriacutea enero de 2003 Sin embargo analizando los datos podemoscomprobar que este dato parece normal y estariacuteamos identificaacutendolo erroacuteneamente como anoacutemalo Dehecho solo TRAMO-SEATS sentildeala esta fecha Lo mismo sucede con otras fechas como octubre delantildeo 2000 sentildealada por solo dos meacutetodos Por otra parte todos los meacutetodos sentildealan los meses deabril y mayo de 2020 las dos uacuteltimas observaciones de la serie que en la Figura 516 mostraban uncomportamiento totalmente discordante al resto del conjunto de datos Es decir el graacutefico permitetrazar una idea concisa al analista de queacute es anoacutemalo en la serie y que pueden ser falsos positivos

Observando el graacutefico podemos tambieacuten extraer una conclusioacuten raacutepida de la posible presenciade valores atiacutepicos en la serie Se muestran dos comportamientos muy marcados El primero estariacuteadeterminado por la serie hasta el antildeo 2020 en el cual la aparicioacuten de atiacutepicos es dispersa pococoncluyente el analista puede dudar de que estas observaciones sean realmente anoacutemalas El segundoson los datos de 2020 dos columnas enteras de color verde una imagen que comunica que en eseintervalo de tiempo estaacute sucediendo algo realmente anoacutemalo

Vamos a utilizar el graacutefico con otra serie para analizar otra de las caracteriacutesticas que muestran elintereacutes de analizar una serie de tiempo a traveacutes de este graacutefico En la Figura 518 se muestra la serie detiempo perteneciente al Conjunto 3 que recoge la evolucioacuten de los contratos iniciales en Galicia Dichaserie cuenta con tres atiacutepicos claros marzo abril y mayo de 2020

52 ANAacuteLISIS GRAacuteFICO 69

Figura 518 Contratos iniciales registrados en Galicia

Haciendo uso del graacutefico comparativo Figura 519 volvemos a obtener un escenario en el queresulta de intereacutes esta herramienta En este caso el meacutetodo compuesto por STR+HDoutliers muestraun comportamiento erraacutetico que le conduce a identificar una gran cantidad de atiacutepicos de modoincorrecto Lo mismo sucede con TRAMO-SEATS que es el uacutenico que sentildeala enero de 2001 comoatiacutepico sin existir motivo en los datos para esta calificacioacuten

Por otra parte este escenario nos permite observar la utilidad de incorporar las versiones robustasSi bien se equivocan en alguacuten caso por ejemplo el meacutetodo STR+HDoutliers(Rob) sentildealando junio de2002 nos permiten calificar marzo de 2020 como atiacutepico algo que los meacutetodos que utilizan las versionesno robustas de los meacutetodos de descomposicioacuten de series temporales STR y STR no logran Todasellas se ponen de acuerdo junto a TRAMO-SEATS para la sentildealizacioacuten de este mes

Ademaacutes dado que estamos trabajando con series temporales los resultados de la graacutefica se muestranen orden cronoloacutegico en vez de por cuaacuten anoacutemala es la observacioacuten como se hace en TRAMO-SEATSo en iForest Esto nos permite entender la graacutefica como un mapa de calor Al analizar la serie siexiste un intervalo de tiempo en el que se han producido situaciones anoacutemalas como por ejemplo eneste caso los meses relacionados al Covid se veraacute reflejado en el graacutefico por una serie de columnascon muchas celdas verdes lo que daraacute a entender de manera raacutepida al analista que en ese intervalode tiempo se han producido situaciones excepcionales De este modo tambieacuten conseguimos corregirel problema de enmascaramiento que pueden sufrir los meacutetodos cuando se suceden varias situacionesatiacutepicas consecutivas

70 CAPIacuteTULO 5 APLICACIOacuteN A DATOS REALES

Figura 519 Resultados para la serie Contratos iniciales registrados en Galicia del Conjunto 3

Capiacutetulo 6

Conclusiones

El IGE cuenta con una ampliacutea base de datos que se utiliza para el estudio del contexto socio-econoacutemico en Galicia Estos datos tienen una base temporal es decir son datos referidos a un intervalode tiempo en la mayoriacutea de los casos esta periodicidad es anual trimestral o mensual La manipulacioacutende los datos puede conllevar a que se introduzcan errores humanos o de medicioacuten que provoquen quese incluyan cifras incorrectas a las bases de datos Estos errores pueden distorsionar las conclusionesde un estudio o conducir haciacutea resultados alejados de la verdadera realidad Es por ello que resultanecesario el incorporar una herramienta de deteccioacuten de valores atiacutepicos al anaacutelisis de las bases dedatos del IGE

Para ello se planteoacute una revisioacuten bibliograacutefica de los principales meacutetodos de deteccioacuten de atiacutepicosen series temporales Esta revisioacuten nos permitioacute conocer la existencia de un amplio abanico de meacuteto-dos disponibles con los cuales empezamos a trabajar para analizar su comportamiento Es aquiacute dondedecidimos descartar una serie de meacutetodos mencionados al final del Apartado 34 debido a que sufuncionamiento y sus resultados correspondiacutean a versiones inferiores de otros meacutetodos que finalmenteadoptamos Este primer estudio nos proporcionoacute los meacutetodos de deteccioacuten de atiacutepicos en series tem-porales que supondriacutean el punto de partida del trabajo X-13ARIMA-SEATS TRAMO-SEATS y lalibreriacutea de R Anomalize

La libreriacutea Anomalize tambieacuten nos sirvioacute de ayuda en el desarrollo de nuestros propios meacutetodos dedeteccioacuten de atiacutepicos para series temporales La idea sobre la que se fundamenta esta libreriacutea es la deaplicar un proceso de descomposicioacuten de series de tiempo a una serie para extraer las componentes dela estacionalidad la tendencia y un residuo para despueacutes aplicar un meacutetodo de deteccioacuten de atiacutepicossobre el residuo Dado que se han producido mejoras a los meacutetodos de descomposicioacuten y deteccioacutenque se utilizan en la libreriacutea Anomalize consideramos que una nueva combinacioacuten podriacutea reflejar unamejora en los resultados

Para comparar todos los meacutetodos de deteccioacuten de atiacutepicos en series temporales los que sirven depunto de partida del trabajo y los desarrollados por nosotros decidimos llevar a cabo un ambiciosoestudio de simulacioacuten El estudio de simulacioacuten recoge diferentes escenarios con la finalidad de repre-sentar la heterogeneidad propia de las series de tiempo referentes a variables sociales y econoacutemicas Losresultados del estudio de simulacioacuten confirman nuestra idea acerca de que una nueva combinacioacuten pue-de suponer una mejora en los resultados debido a que varias de nuestras combinaciones reflejan mejores

71

72 CAPIacuteTULO 6 CONCLUSIONES

resultados que las propuestas en la libreriacutea Anomalize Tambieacuten nos permite observar que nuestraspropuestas compiten en los resultados con un modelo tan desarrollado como TRAMO-SEATS Final-mente nos permiten descartar otros meacutetodos que siendo uacutetiles en otros campos no parecen resultaridoacuteneos para el nuestro

Tras el estudio de simulacioacuten comenzamos a utilizar los meacutetodos que habiacutean mostrado mejoresresultados con los datos proporcionados por el IGE Fue en este momento cuando nos encontramos conuna situacioacuten no contemplada en ninguacuten momento en ninguacuten escenario del estudio de simulacioacuten yen general en ninguacuten momento de lo que podriacutea ser la historia reciente como fue la crisis del Covid19Esta crisis provoca un efecto enorme en los datos del contexto gallego como se recoge a lo largo delCapiacutetulo 5 y supone un nuevo escenario en lo que a deteccioacuten de valores atiacutepicos en series temporalesse refiere

Este nuevo escenario se caracteriza por reflejar durante varios periacuteodos de tiempo consecutivosobservaciones enormemente anoacutemalas y los modelos ven empeorado su comportamiento TRAMO-SEATS y los modelos de descomposicioacuten de series de tiempo STL y STR entienden que lo que seestaacute produciendo es una tendencia decreciente de la serie Por su parte los meacutetodos de deteccioacuten deatiacutepicos HDoutliers y iForest sufren un fenoacutemeno de enmascaramiento en el que son incapaces desentildealizar todos los atiacutepicos Fue aquiacute donde decidimos crear una nueva herramienta para el anaacutelisis

El objetivo con el que creamos esta herramienta de anaacutelisis graacutefico fue el de reducir la incertidumbreque supone el campo de la deteccioacuten de atiacutepicos de un modo sencillo y directo para el analista que lautilice Ademaacutes su disentildeo estaacute pensado para el trabajo con series temporales de modo que si se sucedeun periacuteodo convulso como el actual la graacutefica podraacute ser analizada como un mapa de calor un mapade calor que transmite visualmente la idea de en queacute intervalo de tiempo la serie estaacute experimentandocomportamientos atiacutepicos

Apeacutendice A

Tablas

A1 Tablas de sensibilidad

73

74 APEacuteNDICE A TABLAS

Caso 1 Caso 2 Caso 3 Caso 4

X-13ARIMA-SEATS 0496 0854 0700 0826

TRAMO-SEATS 0657 0928 0805 0851

STL+HDoutliers 0569 0838 0570 0732

STL+GESD 0266 0590 0236 0532

STL+iForest 0636 0885 0636 0790

STL(ROB)+HDoutliers 0562 0803 0678 0712

STL(ROB)+GESD 0637 0876 0746 0754

STL(ROB)+iForest 0640 0878 0747 0786

Twitter+HDoutliers 0471 0735 0597 0620

Twitter+GESD 0306 0590 0429 0434

Twitter+iForest 0529 0801 0652 0660

STR+HDoutliers 0611 0841 0603 0672

STR+GESD 0345 0650 0292 0448

STR+iForest 0674 0885 0679 0721

STR(ROB)+HDoutliers 0542 0812 0638 0658

STR(ROB)+GESD 0381 0685 0458 0558

STR(ROB)+iForest 0623 0862 0699 0714

Cuadro A1 Resultados Escenario 1Sensibilidad AR(1)

A1 TABLAS DE SENSIBILIDAD 75

Caso 1 Caso 2 Caso 3 Caso 4

X-13ARIMA-SEATS 0505 0829 0646 0875

TRAMO-SEATS 0668 0914 0743 0888

STL+HDoutliers 0472 0729 0481 0684

STL+GESD 0217 0457 0148 0428

STL+iForest 0506 0784 0525 0716

STL(ROB)+HDoutliers 0469 0735 0588 0648

STL(ROB)+GESD 0529 0775 0665 0668

STL(ROB)+iForest 0526 0803 0666 0716

Twitter+HDoutliers 0465 0698 0596 0646

Twitter+GESD 0349 0630 0483 0486

Twitter+iForest 0512 0778 0663 0692

STR+HDoutliers 0588 0823 0573 0664

STR+GESD 0298 0602 0247 0449

STR+iForest 0630 0869 0651 0721

STR(ROB)+HDoutliers 0521 0788 0611 0649

STR(ROB)+GESD 0336 0628 0406 0520

STR(ROB)+iForest 0582 0839 0691 0711

Cuadro A2 Resultados Escenario 2 Sensibilidad MA(1)

76 APEacuteNDICE A TABLAS

Caso 1 Caso 2 Caso 3 Caso 4

X-13ARIMA-SEATS 0922 0971 0927 0983

TRAMO-SEATS 0923 0972 0923 0982

STL+HDoutliers 0312 0508 0241 0440

STL+GESD 0089 0230 0051 0152

STL+iForest 0343 0578 0284 0454

STL(ROB)+HDoutliers 0261 0435 0297 0333

STL(ROB)+GESD 0311 0527 0393 0322

STL(ROB)+iForest 0298 0501 0336 0362

Twitter+HDoutliers 0064 0112 0127 0066

Twitter+GESD 0028 0040 0069 0032

Twitter+iForest 0079 0129 0169 0070

STR+HDoutliers 0407 0563 0348 0440

STR+GESD 0204 0367 0109 0230

STR+iForest 0445 0617 0389 0495

STR(ROB)+HDoutliers 0243 0397 0254 0272

STR(ROB)+GESD 0209 0391 0225 0259

STR(ROB)+iForest 0282 0455 0284 0293

Cuadro A3 Resultados Escenario 3 Sensibilidad ARIMA(011)

A1 TABLAS DE SENSIBILIDAD 77

Caso 1 Caso 2 Caso 3 Caso 4

X-13ARIMA-SEATS 0403 0593 0068 0816

TRAMO-SEATS 0542 0707 0072 0814

STL+HDoutliers 0005 0004 0016 0004

STL+GESD 0000 0001 0004 0000

STL+iForest 0003 0003 0015 0005

STL(ROB)+HDoutliers 0007 0007 0037 0004

STL(ROB)+GESD 0009 0021 0099 0029

STL(ROB)+iForest 0006 0008 0036 0005

Twitter+HDoutliers 0001 0000 0001 0008

Twitter+GESD 0006 0009 0012 0023

Twitter+iForest 0001 0000 0005 0018

STR+HDoutliers 0370 0428 0006 0088

STR+GESD 0424 0462 0000 0138

STR+iForest 0418 0479 0004 0103

STR(ROB)+HDoutliers 0028 0019 0011 0076

STR(ROB)+GESD 0064 0063 0051 0140

STR(ROB)+iForest 0022 0014 0010 0027

Cuadro A4 Resultados Escenario 4 Sensibilidad ARIMA(011)x(011)12

78 APEacuteNDICE A TABLAS

Caso 1 Caso 2 Caso 3 Caso 4

X-13ARIMA-SEATS 0266 0629 0177 0574

TRAMO-SEATS 0400 0750 0251 0618

STL+HDoutliers 0247 0477 0291 0130

STL+GESD 0093 0260 0160 0024

STL+iForest 0270 0536 0312 0138

STL(ROB)+HDoutliers 0278 0489 0358 0102

STL(ROB)+GESD 0400 0688 0478 0132

STL(ROB)+iForest 0314 0553 0398 0133

Twitter+HDoutliers 0254 0439 0363 0108

Twitter+GESD 0176 0385 0317 0064

Twitter+iForest 0274 0486 0388 0131

STR+HDoutliers 0664 0895 0240 0760

STR+GESD 0425 0770 0065 0567

STR+iForest 0724 0939 0283 0800

STR(ROB)+HDoutliers 0197 0334 0220 0529

STR(ROB)+GESD 0190 0333 0207 0692

STR(ROB)+iForest 0235 0369 0238 0591

Cuadro A5 Resultados Escenario 5 Sensibilidad ARIMA(101)x(012)12

A1 TABLAS DE SENSIBILIDAD 79

Caso 1 Caso 2 Caso 3 Caso 4

X-13ARIMA-SEATS 0333 0662 0355 0618

TRAMO-SEATS 0460 0767 0480 0656

STL+HDoutliers 0521 0798 0502 0629

STL+GESD 0230 0559 0188 0328

STL+iForest 0565 0836 0572 0651

STL(ROB)+HDoutliers 0519 0788 0605 0601

STL(ROB)+GESD 0541 0828 0676 0561

STL(ROB)+iForest 0566 0843 0668 0648

Twitter+HDoutliers 0246 0423 0362 0212

Twitter+GESD 0104 0232 0187 0102

Twitter+iForest 0284 0456 0398 0230

STR+HDoutliers 0527 0788 0444 0641

STR+GESD 0279 0585 0152 0386

STR+iForest 0600 0825 0499 0685

STR(ROB)+HDoutliers 0407 0674 0497 0550

STR(ROB)+GESD 0277 0527 0352 0404

STR(ROB)+iForest 0462 0735 0573 0582

Cuadro A6 Resultados Escenario 6 Sensibilidad ARIMA(111)x(101)12

80 APEacuteNDICE A TABLAS

Caso 1 Caso 2 Caso 3 Caso 4

X-13ARIMA-SEATS 0299 0638 0335 0632

TRAMO-SEATS 0424 0717 0432 0801

STL+HDoutliers 0432 0705 0397 0626

STL+GESD 0177 0416 0109 0351

STL+iForest 0514 0762 0463 0530

STL(ROB)+HDoutliers 0441 0686 0494 0613

STL(ROB)+GESD 0461 0731 0556 0584

STL(ROB)+iForest 0491 0723 0548 0528

Twitter+HDoutliers 0280 0471 0387 0354

Twitter+GESD 0129 0288 0191 0147

Twitter+iForest 0008 0017 0051 0050

STR+HDoutliers 0456 0700 0467 0568

STR+GESD 0203 0439 0167 0274

STR+iForest 0515 0778 0443 0638

STR(ROB)+HDoutliers 0424 0687 0510 0554

STR(ROB)+GESD 0262 0524 0330 0366

STR(ROB)+iForest 0349 0562 0413 0388

Cuadro A7 Resultados Escenario 7 Sensibilidad ARIMA(112)x(011)12

A1 TABLAS DE SENSIBILIDAD 81

Caso 1 Caso 2 Caso 3 Caso 4

X-13ARIMA-SEATS 0299 0638 0335 0632

TRAMO-SEATS 0424 0717 0432 0801

STL+HDoutliers 0432 0705 0397 0626

STL+GESD 0177 0416 0109 0351

STL+iForest 0485 0738 0428 0665

STL(ROB)+HDoutliers 0441 0686 0494 0613

STL(ROB)+GESD 0461 0731 0556 0584

STL(ROB)+iForest 0494 0755 0566 0678

Twitter+HDoutliers 0280 0471 0387 0354

Twitter+GESD 0129 0288 0191 0147

Twitter+iForest 0306 0509 0430 0359

STR+HDoutliers 0456 0700 0467 0568

STR+GESD 0203 0439 0167 0274

STR+iForest 0497 0772 0507 0602

STR(ROB)+HDoutliers 0424 0687 0510 0554

STR(ROB)+GESD 0262 0524 0330 0366

STR(ROB)+iForest 0465 0755 0577 0590

Cuadro A8 Resultados Escenario 8 Sensibilidad ARIMA(011)x(100)12

82 APEacuteNDICE A TABLAS

A2 Tablas de exceso

Caso 1 Caso 2 Caso 3 Caso 4

X-13ARIMA-SEATS 0078 0077 0066 0042

TRAMO-SEATS 0211 0208 0222 0056

STL+HDoutliers 0788 0829 0805 1534

STL+GESD 0056 0055 0045 0031

STL+iForest 0406 0300 0404 0659

STL(ROB)+HDoutliers 1162 1242 1212 1714

STL(ROB)+GESD 1411 1417 1416 0461

STL(ROB)+iForest 0637 0468 0575 0859

Twitter+HDoutliers 0930 0955 0905 1487

Twitter+GESD 0257 0273 0254 0069

Twitter+iForest 0538 0412 0490 0776

STR+HDoutliers 0759 0810 0759 1464

STR+GESD 0053 0062 0046 0024

STR+iForest 0403 0301 0381 0725

STR(ROB)+HDoutliers 0749 0842 0758 1460

STR(ROB)+GESD 0199 0196 0192 0099

STR(ROB)+iForest 0427 0315 0413 0749

Cuadro A9 Resultados Escenario 1 Exceso AR(1)

A2 TABLAS DE EXCESO 83

Caso 1 Caso 2 Caso 3 Caso 4

X-13ARIMA-SEATS 0054 0058 0066 0058

TRAMO-SEATS 0144 0138 0175 0061

STL+HDoutliers 0695 0772 0759 1472

STL+GESD 0034 0038 0050 0016

STL+iForest 0443 0318 0425 0706

STL(ROB)+HDoutliers 1168 1221 1180 1703

STL(ROB)+GESD 1309 1349 1415 0418

STL(ROB)+iForest 0682 0528 0621 0877

Twitter+HDoutliers 0836 0832 0911 1577

Twitter+GESD 0313 0329 0334 0061

Twitter+iForest 0552 0417 0483 0755

STR+HDoutliers 0798 0885 0694 1541

STR+GESD 0054 0064 0044 0018

STR+iForest 0407 0302 0396 0724

STR(ROB)+HDoutliers 0725 0776 0745 1516

STR(ROB)+GESD 0134 0143 0142 0076

STR(ROB)+iForest 0435 0312 0372 0727

Cuadro A10 Resultados Escenario 2 Exceso MA(1)

84 APEacuteNDICE A TABLAS

Caso 1 Caso 2 Caso 3 Caso 4

X-13ARIMA-SEATS 0106 0060 0101 0070

TRAMO-SEATS 0179 0123 0175 0085

STL+HDoutliers 0638 0635 0686 1376

STL+GESD 0052 0054 0067 0020

STL+iForest 0448 0346 0468 0867

STL(ROB)+HDoutliers 0932 0905 1010 1604

STL(ROB)+GESD 2339 2311 2338 1863

STL(ROB)+iForest 0705 0573 0695 1281

Twitter+HDoutliers 0311 0285 0311 0743

Twitter+GESD 1302 1282 1331 1946

Twitter+iForest 0167 0153 0175 0645

STR+HDoutliers 0672 0703 0623 1364

STR+GESD 0180 0183 0119 0050

STR+iForest 0372 0297 0393 0899

STR(ROB)+HDoutliers 0598 0568 0588 1225

STR(ROB)+GESD 1030 1008 0999 1341

STR(ROB)+iForest 0463 0383 0464 1108

Cuadro A11 Resultados Escenario 3 Exceso ARIMA(011)

A2 TABLAS DE EXCESO 85

Caso 1 Caso 2 Caso 3 Caso 4

X-13ARIMA-SEATS 0132 0120 0062 0274

TRAMO-SEATS 0198 0180 0075 0274

STL+HDoutliers 0832 0823 0837 1337

STL+GESD 0231 0225 0226 0165

STL+iForest 0727 0710 0718 1237

STL(ROB)+HDoutliers 1197 1152 1186 1230

STL(ROB)+GESD 4756 4699 4689 7954

STL(ROB)+iForest 0992 0993 0983 1514

Twitter+HDoutliers 0144 0162 0182 0376

Twitter+GESD 3050 2761 2813 6058

Twitter+iForest 0123 0128 0121 0508

STR+HDoutliers 1108 1135 1027 1454

STR+GESD 1469 1679 0582 4430

STR+iForest 0732 0674 0882 1653

STR(ROB)+HDoutliers 1382 1266 0876 10915

STR(ROB)+GESD 4452 4583 4289 19321

STR(ROB)+iForest 0831 0845 0828 1858

Cuadro A12 Resultados Escenario 4 Exceso ARIMA(011)x(011)12

86 APEacuteNDICE A TABLAS

Caso 1 Caso 2 Caso 3 Caso 4

X-13ARIMA-SEATS 0109 0123 0111 0069

TRAMO-SEATS 0239 0301 0312 0139

STL+HDoutliers 0869 0762 0986 1367

STL+GESD 0170 0170 0198 0244

STL+iForest 0667 0475 0712 1291

STL(ROB)+HDoutliers 1328 1357 1499 1287

STL(ROB)+GESD 2517 2530 2919 5438

STL(ROB)+iForest 0992 0813 0978 1444

Twitter+HDoutliers 1041 0966 1065 1383

Twitter+GESD 0796 0854 0830 2221

Twitter+iForest 0808 0655 0735 1412

STR+HDoutliers 0799 0979 0846 1551

STR+GESD 0101 0087 0083 0029

STR+iForest 0383 0286 0619 0669

STR(ROB)+HDoutliers 0764 0759 0755 1692

STR(ROB)+GESD 1600 1591 1490 8145

STR(ROB)+iForest 0603 0492 0593 0894

Cuadro A13 Resultados Escenario 5 Exceso ARIMA(101)x(012)12

A2 TABLAS DE EXCESO 87

Caso 1 Caso 2 Caso 3 Caso 4

X-13ARIMA-SEATS 0179 0167 0141 0096

TRAMO-SEATS 0307 0299 0297 0127

STL+HDoutliers 0792 0783 0775 1598

STL+GESD 0052 0050 0049 0030

STL+iForest 0452 0306 0459 0748

STL(ROB)+HDoutliers 1193 1207 1269 1697

STL(ROB)+GESD 1290 1324 1270 0437

STL(ROB)+iForest 0708 0531 0670 0952

Twitter+HDoutliers 0690 0698 0676 1157

Twitter+GESD 0266 0257 0225 0523

Twitter+iForest 0538 0416 0459 1063

STR+HDoutliers 0740 0853 0796 1429

STR+GESD 0065 0077 0063 0036

STR+iForest 0432 0311 0493 0750

STR(ROB)+HDoutliers 0749 0799 0717 1477

STR(ROB)+GESD 0317 0291 0254 0167

STR(ROB)+iForest 0502 0373 0463 0839

Cuadro A14 Resultados Escenario 6 Exceso ARIMA(111)x(101)12

88 APEacuteNDICE A TABLAS

Caso 1 Caso 2 Caso 3 Caso 4

X-13ARIMA-SEATS 0147 0138 0115 0081

TRAMO-SEATS 0278 0285 0287 0261

STL+HDoutliers 0788 0815 0776 1392

STL+GESD 0045 0047 0042 0031

STL+iForest 0471 0337 0478 0842

STL(ROB)+HDoutliers 1122 1183 1194 1785

STL(ROB)+GESD 1364 1387 1340 0670

STL(ROB)+iForest 0720 0559 0711 1100

Twitter+HDoutliers 0125 0109 0084 0092

Twitter+GESD 3247 3207 3185 7613

Twitter+iForest 0087 0066 0073 0294

STR+HDoutliers 0854 0807 0773 1430

STR+GESD 0069 0069 0050 0036

STR+iForest 0438 0357 0484 0793

STR(ROB)+HDoutliers 0765 0755 0725 1370

STR(ROB)+GESD 0434 0489 0510 0536

STR(ROB)+iForest 0581 0471 0547 1064

Cuadro A15 Resultados Escenario 7 Exceso ARIMA(112)x(011)12

A2 TABLAS DE EXCESO 89

Caso 1 Caso 2 Caso 3 Caso 4

X-13ARIMA-SEATS 0090 0095 0104 0056

TRAMO-SEATS 0487 0475 0494 0446

STL+HDoutliers 0734 0814 0749 1507

STL+GESD 0068 0059 0052 0025

STL+iForest 0496 0352 0479 0747

STL(ROB)+HDoutliers 1157 1098 1083 1660

STL(ROB)+GESD 1232 1281 1260 0294

STL(ROB)+iForest 0764 0566 0687 0918

Twitter+HDoutliers 0859 0822 0860 1415

Twitter+GESD 0214 0209 0217 0114

Twitter+iForest 0606 0526 0550 1031

STR+HDoutliers 0797 0792 0778 1469

STR+GESD 0048 0059 0042 0017

STR+iForest 0461 0336 0464 0782

STR(ROB)+HDoutliers 0786 0726 0699 1494

STR(ROB)+GESD 0159 0146 0145 0072

STR(ROB)+iForest 0520 0359 0433 0830

Cuadro A16 Resultados Escenario 8 Exceso ARIMA(011)x(100)12

90 APEacuteNDICE A TABLAS

Bibliografiacutea

Abraham B y Box G E P (1979) Bayesian analysis of some outlier problems in time seriesBiometrika 66 (2) 229ndash236

Barnett V y Lewis T (1996) Outliers in statistical data 3rd edition (John Wiley amp Sons Chi-chester) 584 pp [UK pound]5500 ISBN 0-471-93094-6 International Journal of Forecasting 12 (1) 175-176

Bell W (1983) A computer program for detecting outliers in time series Proceedings of the AmericanStatistical Association Business and Economic Statistics Section 634-639

Box G y Jenkins G (1976) Time series analysis forecasting and control En (Vol 134) doi1023072344246

Box G E P y Tiao G C (1975) Intervention analysis with applications to economic and environ-mental problems Journal of the American Statistical Association 70 (349) 70ndash79

Breunig M Kriegel H-P Ng R y Sander J (2000) Lof Identifying density-based local outliersEn (Vol 29 p 93-104) doi 101145342009335388

Chang I Tiao G y Chen C (1988) Estimation of time series parameters in the presence of outliersTechnometrics 30 193-204 doi 10108000401706198810488367

Chang I y Tiao G C (1983) Estimation of time series parameters in the presence of outliersTechnical Report 8 University of Chicago Statistics Research Center 30

Chauvenet W (1963) A manual of spherical and practical astronomy volume 2 474-566Chen C y Liu L-M (1993) Joint estimation of model parameters and outlier effects in time series

Journal of the American Statistical Association 88 (421) 284ndash297Cleveland R B Cleveland W S McRae J E y Terpenning I (1990) STL A seasonal-trend

decomposition procedure based on Loess Journal of Official Statistics 6 Dancho M y Vaughan D (2019) Anomalize Tidy anomaly detection [Manual de software informaacute-

tico]Datacamp (2018) Detect anomalies with anomalize in r httpswwwdatacampcomcommunity

tutorialsdetect-anomalies-anomalize-r (Visitado 2020-06-16)de Lacalle J L (2015) Detection of outliers in time series with r httpsjalobecomtsoutliers

(Visitado 2020-03-16)de Lacalle J L (2019) Detection of outliers in time series [Manual de software informaacutetico] https

cranr-projectorgwebpackagestsoutlierstsoutlierspdfDokumentov A y Hyndman R J (2015) STR A seasonal-trend decomposition procedure based

on Regression

91

92 BIBLIOGRAFIacuteA

Dokumentov A y Hyndman R J (2018) str Str decomposition [Manual de software informaacutetico](httpscranr-projectorgwebpackagesstRindexhtml)

Fraley C y Wilkinson L (2020) Hdoutliers Leland wilkinsonrsquos algorithm for detecting multidimen-sionaloutliers [Manual de software informaacutetico]

Goacutemez V y Maravall A (1997) Programs tramo and seats instructions for the user Mimeo Bancode Espantildea

Goacutemez V y Taguas D (1995) Deteccioacuten y correccioacuten automaacutetica de outliers con tramo Unaaplicacioacuten al ipc de bienes industriales no energeacuteticos

Grubbs F (1950) Sample criteria for testing outlying observations The Annals of MathematicalStatistics 21 doi 101214aoms1177729885

Hawkins D (1980) Identification of outliers London [ua] Chapman and HallHochenbaum J Vallis O y Kejariwal A (2017) Automatic anomaly detection in the cloud via

statistical learningHoerl A y Kennard R (1970) Ridge regression Biased estimation for nonorthogonal problems

Technometrics 8 27-51Hyndman R (2020) Forecasting functions for time series and linear models [Manual de software

informaacutetico] httpscranr-projectorgwebpackagesforecastforecastpdfla Tente A Q Michalek A Palate J y Baeyens R (2020) Rjdemetra Interface to rsquojdemetra+rsquo

seasonal adjustment software [Manual de software informaacutetico]Liu F T Ting K y Zhou Z-H (2009) Isolation forest En (p 413 - 422) doi 101109

ICDM200817Mahdavinejad M S Rezvan M Barekatain M Adibi P Barnaghi P y Sheth A P (2018)

Machine learning for internet of things data analysis a survey Digital Communications andNetworks 4 (3) 161 - 175 doi httpsdoiorg101016jdcan201710002

Moore D y McCabe G (1999) Introduction to the practice of statistics WH FreemanOtto M y Bell W (1990) Two issues in time series outlier detection using indicator variables

Proceedings of the American Statistical Association Business and Economic Statistics Section182-187

Peirce B (1852) Criterion for rejection of doubtful observations The Astronomical Journal 2 161-163 doi 101086100259

Pentildea D (2010) Anaacutelisis de series temporales Alianza EditorialRosner B (1975) On the detection of many outliers Technometrics 17 221-227 doi 101080

00401706197510489305Rosner B (1983) Percentagepoints for a generalized esd many-outier procedure Technometrics 25

165-172 doi 10108000401706198310487848Rousseeuw P y Hubert M (2011) Robust statistics for outlier detection Wiley Interdisc Rew

Data Mining and Knowledge Discovery 1 73-79 doi 101002widm2Shan G (2015) Improved confidence intervals for the youden index

doi 01371journalpone0127272Shiskin J Young A y Musgrave J (1967) The x-11 variant of the census method ii seasonal

adjustment program

BIBLIOGRAFIacuteA 93

Srikanth K S (2017) solitude An implementation of isolation forest [Manual de software informaacutetico](R package version 021 mdash For new features see the rsquoSolitudersquo file (in the package source))

Thompson W (1935) On a criterion for the rejection of observations and the distribution of theratio of deviation to sample standard deviation The Annals of Mathematical Statistics 6 doi101214aoms1177732567

Tibshirani R (1996) Regression shrinkage and selection via the lasso Journal of the Royal StatisticalSociety Series B (Methodological) 58 267-288 doi 101111j2517-61611996tb02080x

Time Series Research Staff (2017) X-13ARIMA-SEATS Reference Manual Center for StatisticalResearch and Methodology

Tsay R S (1986) Time series model specification in the presence of outliers Journal of the AmericanStatistical Association 81 (393) 132ndash141

Tsay R S y Tiao G C (1984) Consistent estimates of autoregressive parameters and extendedsample autocorrelation function for stationary and nonstationary arma models Journal of theAmerican Statistical Association 79 (385) 84ndash96

Tukey J W (1977) Exploratory data analysis Addison-WesleyTwitter Inc (2015) Anomalydetection r package GitHub (httpsgithubcomtwitter

AnomalyDetection)Wilkinson L (2017) Visualizing big data outliers through distributed aggregation IEEE Transactions

on Visualization and Computer Graphics PP 1-1 doi 101109TVCG20172744685Woodward W A Gray H L y Elliott A C (2017) Applied time series analysis with r second

edition Journal of Time Series Analysis 39 618 doi 101111jtsa12273Youden W (1950) Youden wjindex for rating diagnostic tests cancer 3(1) 32-35 Cancer 3 32-5

doi 1010021097-0142(1950)3130CO2-3

  • Resumen
  • Introduccioacuten
  • Modelizacioacuten de series temporales
    • Conceptos baacutesicos
    • Meacutetodos de modelizacioacuten de series temporales
      • X-13ARIMA-SEATS
      • TRAMO-SEATS
      • STL
      • STR
      • Twitter
        • Resumen meacutetodos de modelizacioacuten de series temporales
          • Deteccioacuten de valores atiacutepicos
            • Conceptos baacutesicos
            • Meacutetodos de deteccioacuten de valores atiacutepicos
              • X-13ARIMA-SEATS
              • TRAMO-SEATS
              • GESD
              • Isolation Forest
              • HDoutliers
                • Resumen meacutetodos de deteccioacuten de valores atiacutepicos
                • Meacutetodos de deteccioacuten de valores atiacutepicos en series temporales
                  • Estudio de simulacioacuten
                    • Escenarios
                    • Iacutendice de Youden
                    • Resultados
                    • Conclusiones
                      • Aplicacioacuten a datos reales
                        • Anaacutelisis Series IGE
                        • Anaacutelisis Graacutefico
                          • Conclusiones
                          • Tablas
                            • Tablas de sensibilidad
                            • Tablas de exceso
                              • Bibliografiacutea
Page 13: Trabajo Fin de Máster - USC
Page 14: Trabajo Fin de Máster - USC
Page 15: Trabajo Fin de Máster - USC
Page 16: Trabajo Fin de Máster - USC
Page 17: Trabajo Fin de Máster - USC
Page 18: Trabajo Fin de Máster - USC
Page 19: Trabajo Fin de Máster - USC
Page 20: Trabajo Fin de Máster - USC
Page 21: Trabajo Fin de Máster - USC
Page 22: Trabajo Fin de Máster - USC
Page 23: Trabajo Fin de Máster - USC
Page 24: Trabajo Fin de Máster - USC
Page 25: Trabajo Fin de Máster - USC
Page 26: Trabajo Fin de Máster - USC
Page 27: Trabajo Fin de Máster - USC
Page 28: Trabajo Fin de Máster - USC
Page 29: Trabajo Fin de Máster - USC
Page 30: Trabajo Fin de Máster - USC
Page 31: Trabajo Fin de Máster - USC
Page 32: Trabajo Fin de Máster - USC
Page 33: Trabajo Fin de Máster - USC
Page 34: Trabajo Fin de Máster - USC
Page 35: Trabajo Fin de Máster - USC
Page 36: Trabajo Fin de Máster - USC
Page 37: Trabajo Fin de Máster - USC
Page 38: Trabajo Fin de Máster - USC
Page 39: Trabajo Fin de Máster - USC
Page 40: Trabajo Fin de Máster - USC
Page 41: Trabajo Fin de Máster - USC
Page 42: Trabajo Fin de Máster - USC
Page 43: Trabajo Fin de Máster - USC
Page 44: Trabajo Fin de Máster - USC
Page 45: Trabajo Fin de Máster - USC
Page 46: Trabajo Fin de Máster - USC
Page 47: Trabajo Fin de Máster - USC
Page 48: Trabajo Fin de Máster - USC
Page 49: Trabajo Fin de Máster - USC
Page 50: Trabajo Fin de Máster - USC
Page 51: Trabajo Fin de Máster - USC
Page 52: Trabajo Fin de Máster - USC
Page 53: Trabajo Fin de Máster - USC
Page 54: Trabajo Fin de Máster - USC
Page 55: Trabajo Fin de Máster - USC
Page 56: Trabajo Fin de Máster - USC
Page 57: Trabajo Fin de Máster - USC
Page 58: Trabajo Fin de Máster - USC
Page 59: Trabajo Fin de Máster - USC
Page 60: Trabajo Fin de Máster - USC
Page 61: Trabajo Fin de Máster - USC
Page 62: Trabajo Fin de Máster - USC
Page 63: Trabajo Fin de Máster - USC
Page 64: Trabajo Fin de Máster - USC
Page 65: Trabajo Fin de Máster - USC
Page 66: Trabajo Fin de Máster - USC
Page 67: Trabajo Fin de Máster - USC
Page 68: Trabajo Fin de Máster - USC
Page 69: Trabajo Fin de Máster - USC
Page 70: Trabajo Fin de Máster - USC
Page 71: Trabajo Fin de Máster - USC
Page 72: Trabajo Fin de Máster - USC
Page 73: Trabajo Fin de Máster - USC
Page 74: Trabajo Fin de Máster - USC
Page 75: Trabajo Fin de Máster - USC
Page 76: Trabajo Fin de Máster - USC
Page 77: Trabajo Fin de Máster - USC
Page 78: Trabajo Fin de Máster - USC
Page 79: Trabajo Fin de Máster - USC
Page 80: Trabajo Fin de Máster - USC
Page 81: Trabajo Fin de Máster - USC
Page 82: Trabajo Fin de Máster - USC
Page 83: Trabajo Fin de Máster - USC
Page 84: Trabajo Fin de Máster - USC
Page 85: Trabajo Fin de Máster - USC
Page 86: Trabajo Fin de Máster - USC
Page 87: Trabajo Fin de Máster - USC
Page 88: Trabajo Fin de Máster - USC
Page 89: Trabajo Fin de Máster - USC
Page 90: Trabajo Fin de Máster - USC
Page 91: Trabajo Fin de Máster - USC
Page 92: Trabajo Fin de Máster - USC
Page 93: Trabajo Fin de Máster - USC
Page 94: Trabajo Fin de Máster - USC
Page 95: Trabajo Fin de Máster - USC
Page 96: Trabajo Fin de Máster - USC
Page 97: Trabajo Fin de Máster - USC
Page 98: Trabajo Fin de Máster - USC
Page 99: Trabajo Fin de Máster - USC
Page 100: Trabajo Fin de Máster - USC
Page 101: Trabajo Fin de Máster - USC
Page 102: Trabajo Fin de Máster - USC
Page 103: Trabajo Fin de Máster - USC