SCORING APLICADO A LA GESTION DE RIESGOS DE …

SCORING APLICADO A LA GESTION

DE RIESGOS DE

INFRAESTRUCTURAS

Scoring aplicado a la gestión del riesgo en infraestructuras Página 2 de 67

COLEGIO UNIVERSITARIO DE ESTUDIOS FINANCIEROS MÁSTER EN DATA SCIENCE FOR FINANCE

Scoring aplicados a la gestión de riesgos e infraestructuras

Realizado por:

D. Gonzalo Carretero Ursúa

D. Sergio Casares Fernández

D. Francisco del Val Yagüe

Dª Inés Martínez Pereda

Dirigido por:

Prof. D. Julián Carlos Oliver Raboso

CUNEF (Colegio Universitario de Estudios Financieros)

MADRID, a 18 de junio de 2021


Contenido

1. Introducción ............................................................................................................... 6

1.1. Introducción al trabajo .......................................................................................... 6

1.2. Introducción a Suez ................................................................................................ 9

2. Universo de modelos para aplicar .......................................................................... 10

3. Marco teórico (desarrollo de modelos) .................................................................. 12

3.1. Algoritmos agrupados por estilo de aprendizaje ............................................... 12

3.1.1. Aprendizaje supervisado: ................................................................................ 12

3.1.2. Aprendizaje no supervisado............................................................................. 13

3.2. Algoritmos de redes neuronales artificiales ....................................................... 13

3.3. Reducción de la dimensión .................................................................................. 14

3.4. Evaluación del modelo ......................................................................................... 14

3.3.1. “Cross Validation” ......................................................................................... 14

3.3.2. Matriz de confusión ......................................................................................... 15

3.3.4. Métricas de evaluación .................................................................................... 15

3.3.5. Curva de ROC & AUC .................................................................................... 16

4. Datos utilizados para el desarrollo del proyecto ................................................... 18

5. Almacenamiento, procesamiento y “data enviroment” ....................................... 20

6. Análisis exploratorio de datos ................................................................................ 24

6.1. Variables numéricas ............................................................................................. 30

6.2. Variables categóricas ............................................................................................ 39

6.3. Respuesta a hipótesis complementarias .............................................................. 45

7. Pre-Procesamiento y Modelización ........................................................................ 50

7.1. Pre-Procesamiento ................................................................................................ 50

7.2. Modelización ......................................................................................................... 52

8. Conclusiones ............................................................................................................. 63

9. Bibliografía ............................................................................................................... 65


Índice de ilustraciones

Ilustración 1: Universo de modelos de Machine Learning ............................................................. 10

Ilustración 2: Algoritmos basados en aprendizaje supervisado ...................................................... 12

Ilustración 3: Algoritmos basados en aprendizaje no supervisado ................................................. 13

Ilustración 4: Matriz de confusión ................................................................................................. 15

Ilustración 5: Curva ROC ............................................................................................................... 16

Ilustración 6: Curva AUC .............................................................................................................. 17

Ilustración 7: Conjunto de integraciones realizadas entre entornos ............................................... 20

Ilustración 8: Conexión de Microsoft SQL Server a Jupyter Notebook ........................................ 21

Ilustración 9:Estructura de uso de otro lenguaje de programación en el servidor SQL ................. 22

Ilustración 10: Análisis de valores nulos de las variables del modelo ........................................... 25

Ilustración 11: Filtrado de observaciones de la variable ESTADO_DEL_TRÁMITE .................. 26

Ilustración 12: Filtrado de observaciones de la variable ESTADO_DEL_TRÁMITE .................. 27

Ilustración 13: Distribución de la variable TOTAL_COSTE......................................................... 27

Ilustración 14: Función de Densidad de la Variable TOTAL_COSTE .......................................... 28

Ilustración 15: Distribución de valores por cuartiles y de manera conjunta .................................. 28

Ilustración 16: Distribución en 3D de valores del Gasto, del coste estimado y del coste total ...... 29

Ilustración 17: Conjunto final de variables .................................................................................... 30

Ilustración 18: Geolocalización del conjunto de incidencias recogidas ......................................... 31

Ilustración 19: Correlación variables numéricas ............................................................................ 32

Ilustración 20: Histogramas de las variables RESERVA_DEDUCIBLE,

RESERVA_ASEGURADOR y PAGOS_DEDUCIDBLE ............................................................ 33

Ilustración 21: Histogramas de las variables PAGOS_ASEGURADOR, Gastos y

TOTAL_COSTE ............................................................................................................................ 34

Ilustración 22: Histogramas de las variables COSTE_ESTIMADO, lat y long ............................. 36

Ilustración 23: Histogramas de las variables Diff_cierre_siniestro, Diff_cierre_declaracion y

Diff_siniestro_declaracion ............................................................................................................. 37

Ilustración 24: Pairplot del conjunto de variables numéricas ......................................................... 38

Ilustración 25: Distribución de incidencias por provincia .............................................................. 39

Ilustración 26: Distribución de incidencias por RESPONSABILIDAD ........................................ 40

Ilustración 27: Distribución de incidencias por ES_AVERIA_PROVOCADA ............................ 40

Ilustración 28: Distribución de incidencias por NATURALEZA .................................................. 41

Ilustración 29: Distribución de incidencias por

RECLAMACIÓN_ASOCIADA_A_UNA_AVERIA ................................................................... 41

Ilustración 30: Distribución de incidencias por TIPO_DE_RECLAMACIÓN ............................. 42

Ilustración 31: Distribución de incidencias por PROCESO_JUDICIAL ....................................... 42

Ilustración 32: TOTAL_COSTE entre AVERÍA_PROVOCADA y por NATURALEZA ........... 43



Ilustración 35: ¿Cuál es el coste medio por tipo de incidencia?..................................................... 45

Ilustración 36: ¿Cuál es el coste medio por provincia?: ................................................................. 46

Ilustración 37: ¿Cuál es el coste medio por daños causados? ........................................................ 46

Ilustración 38: ¿Cuál es el coste medio por tipo de naturaleza?..................................................... 47

Ilustración 39: ¿Cuál es el coste medio por tipo de juzgado? ........................................................ 47

Ilustración 40: ¿Cuál es el coste medio si la avería es provocada? ................................................ 47

Ilustración 41: ¿Cuál es el coste medio por tipo de responsabilidad? ............................................ 47

Ilustración 42: ¿Cuál es el coste medio por tipo de estado de trámite? .......................................... 48

Ilustración 43: ¿Cuál es el coste medio por tipo de reclamación? ................................................. 48

Ilustración 44: ¿Cuál es el coste medio por tipo de causa? ............................................................ 48

Ilustración 45: Variables seleccionadas para la modelización ....................................................... 50

Ilustración 46: Nodo inicial del modelo ......................................................................................... 53

Ilustración 47: Extracción parcial del modelo obtenido ................................................................. 53

Ilustración 48: Exactitud del modelo obtenido............................................................................... 54


Ilustración 49: Estadísticos del modelo obtenido ........................................................................... 54

Ilustración 50: Matriz de Confusión e Ilustración 51: Matriz de confusión Normalizada 55

Ilustración 52: Curva ROC por Cuartiles ....................................................................................... 56

Ilustración 53: Distribución probabilidad Primer y Segundo Cuartil ............................................. 57

Ilustración 54: Distribución probabilidad Tercer y Cuarto Cuartil ................................................ 57

Ilustración 55: Importancia de cada variable en función de la métrica “Weight”. ......................... 58

Ilustración 56: Evaluación de la importancia de las variables ....................................................... 58

Ilustración 57: Importancia de variables genérica en función de la métrica “Gain” ...................... 59

Ilustración 58: Importancia de variables ........................................................................................ 60

Ilustración 59: Importancia de variables Primer Cuartil ................................................................ 61

Ilustración 60: Importancia de variables Segundo y Tercer Cuartil ............................................... 61

Ilustración 61: Importancia de variables Cuarto Cuartil ................................................................ 62


1 Introducción

1.1 Introducción al trabajo

El presente trabajo pretende realizar un estudio en relación con las posibles técnicas de

“scoring” a partir de la recogida de datos facilitados por la compañía francesa Suez.

El primer paso es reunirse con el propietario de los datos para proponerle el proyecto a

realizar y poder conseguir datos de incidencias ocurridas en su actividad.

Una vez entregados los datos por parte de la compañía, se procede a realizar un análisis

exploratorio de estos con la finalidad de conocer las variables y sus características dentro

del conjunto de datos; además, por medio diferentes técnicas, tanto de análisis como de

visualización, se tratará de encontrar “insights” que sean capaz de explicar el

comportamiento de los datos o que puedan aportar valor a la compañía.

También se realiza un estudio de valores ausentes por cada una de las variables para

entender por qué son valores nulos y el porcentaje de cada variable con estos valores. Por

último, en las variables numéricas, se realiza un análisis de valores atípicos que contengan

las variables con el objetivo de entender si existen algún tipo de siniestros de características

especiales que puedan suponer algún coste mayor. Se ha estudiado la posibilidad de realizar

técnicas de reducción de la dimensión, ya que en el conjunto de datos disponibles

conteníamos un número elevado de observaciones y una cantidad de variables

considerable. Tras la evaluación de distintas medidas, que se expondrán en el desarrollo

del informe, se ha descartado realizar cualquier proceso de reducción de la dimensión.

Tras este estudio se determina la variable a partir de la cual será creado el “score” o

puntuación del siniestro. En este caso se empleará la variable “Total Coste” que contiene

la información sobre la cuantía total de cada incidencia en concreto. Para proceder a crear

la variable dependiente se crea una nueva variable a partir de los cuartiles de esta variable.

Por tanto, la variable dependiente creada contendrá las siguientes categorías:

- Primer Cuartil (Entendida cómo las incidencias de menor coste)

- Segundo Cuartil (Entendida cómo incidencias de coste medio-bajo)

- Tercer Cuartil (Entendida cómo los siniestros de cuantía media-alta)

- Cuarto Cuartil (Entendida cómo siniestros de grandes magnitudes y coste elevado)


Una vez realizado el análisis exploratorio y definido el “Score” que se va a emplear se

procede a realizar diversas técnicas de preprocesamiento del resto de variables y a realizar

una ingeniería de variables.

A lo largo del proyecto se prueban distintos preprocesamientos para evaluar el

comportamiento de los modelos de “score” o puntuación, entre los distintos

preprocesamientos de los datos se han empleado técnicas de codificación de variables cómo

“One Hot Encoding” o “Label Encoding”, técnicas para escalar y normalizar las variables

numéricas, diversos tratamientos de los valores atípicos, conocidos como “outliers” etc.

Para la ingeniería de variables también han sido probadas distintas técnicas. Con estas

distintas pruebas se pretende evaluar el comportamiento de los modelos de “score” con

cada una de las variables.

Para seleccionar las variables se han tenido en cuenta la cardinalidad, el porcentaje de

valores nulos por cada variable, presencia de valores atípicos y se han empleado modelos

de regularización como el Lasso.

La finalidad de probar distintos preprocesamientos e ingeniarías de variables es mejorar la

exactitud y la interpretabilidad de los modelos creados.

Tras tener los distintos conjuntos de datos, una vez ya tratados, se procede a separar una

parte de entrenamiento y una parte de test, con la finalidad de poder evaluar el

comportamiento y la usabilidad de cada uno de los modelos para este caso en concreto.

Se han probado distintas particiones, 80% entrenamiento y 20% test, 90% entrenamiento y

10% test, 75% entrenamiento y 25% test. Finalmente, para evaluación final la partición es

de un 80% para realizar el entrenamiento y un 20% para realizar el test.

Para realizar el modelo de “score” se han empleado diferentes algoritmos supervisados y

de deep learning. Entre ellos se han empleado de la familia de los árboles de decisión el

Random Forest y el XGBoost, y, de algoritmos de redes neuronales se ha utilizado el Multi-

Layer Perceptron Classifier.

El objetivo perseguido en este trabajo consiste en realizar un modelo que pueda indicarle a

la compañía, en el momento del suceso de un siniestro, una estimación fiable del coste que

le va a suponer dicha incidencia. Este tipo de modelos puede ayudar a acumular unas

reservas monetarias más precisas para cubrir el siniestro, con el objetivo de hacer una


gestión más eficiente de los recursos de los que dispone la compañía para cubrir las

incidencias de la actividad ordinaria.


1.2 Introducción a Suez

Suez es un grupo francés que opera principalmente en la industria de la distribución y

tratamiento de aguas, y en la industria de gestión de tratamiento de residuos y

mantenimiento.

Entre las actividades que desarrolla la empresa, cabe destacar las siguientes:

- Producción y distribución de agua potable

- Tratamiento de agua residual

- Diseño y fabricación de plantas de depuración de aguas

- Plantas desaladoras

- Recicla e incinera residuos en almacenes de gestión

- Realiza la descontaminación de tierras contaminadas

Está presente en los cinco continentes y apoya a las administraciones e industrias locales

en la gestión eficiente, sostenible e innovadora de los recursos.

Su presencia en España se basa en imaginar soluciones innovadoras para acompañar a sus

clientes en la transición de un modelo lineal que sobre consume los recursos hacia una

economía circular que los recicla y los valoriza. Por lo tanto, a través de la innovación, la

economía circular y la promoción del diálogo, contribuye al desarrollo sostenible en las

comunidades donde está presente.

La estrategia que sigue está basada en cuatro pilares: digitalización, innovación,

sostenibilidad y compromiso social.

En España cuentan con 10.959 profesionales los cuales están presentes en 1.069 municipios

en los cuales dependiendo de la Comunidad Autónoma en la que se encuentre tiene unas

concesiones con otras empresas y además cuentan con 1.509 clientes en mercado privado.

Opera en más de 800 instalaciones de diferente tipología, como Estaciones de Tratamiento

de Agua Potable (ETAPs), Estaciones Depuradoras de Aguas Residuales (EDARs) o

Instalaciones Desaladoras de Agua de Mar (IDAMs). A través de estas infraestructuras, el

Grupo presta diversos servicios y abastece a más de 14 millones de personas. Nuestras

innovadoras soluciones permiten valorizar hasta el 74% de los residuos generados y

garantizar la preservación de la biodiversidad en aquellas instalaciones ubicadas en

espacios sensibles. Contribuyendo de esta forma al desarrollo sostenible allí donde está

presente.1

1 https://www.suez.es/es-es


2 Universo de modelos para aplicar

Para el desarrollo de un sistema de “scoring” se pueden emplear diversas técnicas. Para

contextualizar los distintos métodos que se pueden llevar a cabo para la elaboración del

mismo se muestra una breve introducción sobre el conjunto de métodos que se han

planteado en un primer momento para la creación de nuestro sistema de puntuación.

Las circunferencias en rojo se incorporan al gráfico para poder visualizar, de forma ágil,

los métodos que se han considerado más importantes a la hora de desarrollar el “scoring”

para las incidencias de la compañía Suez.

Ilustración 1: Universo de modelos de Machine Learning

Jarroba (2020): Algoritmos de aprendizaje y conceptos del (Deep) machine learning.


Esta imagen permite guiarse a la hora de elaborar el sistema de “scoring” que se pretende

en la elaboración de este trabajo. Para ello, se tienen en cuenta diversas técnicas que pueden

ser de gran utilidad para los distintos procesos llevados a cabo en el desarrollo del proyecto.

Los modelos se dividen principalmente en cinco grupos:

• Machine Learning Supervisado

• Machine Learning No Supervisado

• Ensemble Learning

• Aprendizaje por refuerzo

• Redes Neuronales y Deep Learning


3 Marco teórico (desarrollo de modelos)

3.1. Algoritmos agrupados por estilo de aprendizaje

3.1.1. Aprendizaje supervisado:

En el caso del aprendizaje supervisado los datos de entrada tienen una finalidad que

es clasificar o predecir una variable dependiente.

Los problemas son de clasificación y regresión, es decir que buscan clasificar entre

unas clases ya predeterminadas o predecir un valor numérico. El objetivo es

encontrar la función que mejor adapte las variables independientes a la variable que

se trata de predecir.

Algunos de los algoritmos supervisados más conocidos son Regresión logística,

árboles de decisión y algoritmos derivados de estos, como el Random Forest o el

XGBoost, o máquinas de vector soporte, conocido por su término anglosajón

“Support Vector Machines”.

Ilustración 2: Algoritmos basados en aprendizaje supervisado

Fuente: Brownlee. J (2019): “A Tour of Machine Learning Algorithms”

Las diferentes técnicas de aprendizaje supervisado resultan de gran utilidad a la

hora de desarrollar un sistema de “scoring” de la gravedad de un siniestro. Es, por

tanto, que el sistema creado en este proyecto está basado en modelos de “machine

learning” supervisado.


3.1.2. Aprendizaje no supervisado

Estos algoritmos se caracterizan en que los datos de entrada no están etiquetados,

esto significa que no tenemos ninguna forma de identificar si pertenecen a algún

grupo determinado con características propias.

Algunos de los algoritmos de aprendizaje no supervisado de uso más frecuente

son K-Medias, K-Modes, PAM.

Ilustración 3: Algoritmos basados en aprendizaje no supervisado

Fuente: Brownlee. J (2019): “A Tour of Machine Learning Algorithms”

A pesar de haber realizado pruebas con aprendizaje no supervisado en el conjunto

de datos disponibles, no se ha llegado a encontrar una diferenciación de clases de

incidencias aceptables para poder afirmar la existencia de grupos claramente

diferenciados.

3.2. Algoritmos de redes neuronales artificiales

Una red neuronal artificial es un grupo interconectado de nodos que trata de simular

a la red de neuronas en un cerebro biológico. Cada nodo representa una neurona

artificial que se conectan desde la salida de una neurona a la entrada de otra neurona.

Se emplean para problemas de regresión y clasificación, aunque están compuestas

por cientos de algoritmos y variaciones que sirven para cualquier tipo de problema.

Los algoritmos de redes neuronales artificiales más populares son “Perceptron” y

Descenso de gradiente.


3.3. Reducción de la dimensión

La reducción de la dimensión es una técnica que nos permite averiguar la estructura

de los datos, pero en este caso de una manera no supervisada para describir los datos

lo máximo posible usando menos información.

o Análisis de componentes principales (PCA): es una técnica utilizada para

describir un conjunto de datos en términos de nuevas variables no

correlacionadas.

o Análisis Factorial

o Análisis de Correspondencias

o Análisis discriminante lineal (LDA): reconocimiento de patrones para

encontrar una combinación lineal de características.

Estás técnicas son de gran utilidad para un proyecto de “scoring” ya que pueden

facilitar el entrenamiento del modelo, agilizar los procesos de evaluación de los

mismo y, a su vez, hacer que el conjunto de variables y el modelo pueda ofrecer

una interpretabilidad más sencilla que permita realizar una toma de decisiones de

forma más rápida.

3.4. Evaluación del modelo

3.3.1. “Cross Validation”

El propósito de la validación cruzada es la verificación del modelo, y, por

consiguiente, evaluar la presencia de sobre ajuste conocido como “overfitting” o

infraajuste, conocido como “underfitting”. Una vez que hemos utilizado la

validación cruzada para seleccionar el modelo de mejor rendimiento, entrenamos

ese modelo con todos los datos.

Es de gran utilidad para encontrar los parámetros que configuren el algoritmo de la

mejor forma posible para el caso en el que se está empleando.

https://es.wikipedia.org/wiki/Reconocimiento_de_patrones

https://es.wikipedia.org/wiki/Combinaci%C3%B3n_lineal


Esta técnica ha sido empleada en este proyecto para la búsqueda de los parámetros

que mejor configuraban cada algoritmo. Con esto se ha pretendido evitar problemas

de estabilidad y fiabilidad del modelo para poder ser puesto en producción.

3.3.2. Matriz de confusión

Aplica a problemas de clasificación. Permite visualizar el desempeño de un

algoritmo de aprendizaje supervisado. Es importante contrastar la predicción con la

realidad.

La finalidad es evaluar la forma en la que está clasificando un algoritmo y medir el

grado de ajuste con el objetivo que se propone al comienzo de un proyecto.

Ilustración 4: Matriz de confusión

Fuente: Bodas, Diego. “Machine Learning” Data Science para finanzas, 5 de mayo de 2020, CUNEF.

Presentación en Microsoft PowerPoint.

3.3.4. Métricas de evaluación

A continuación, se muestran las métricas que se han empleado para ajustar la

calidad del modelo:

“Accuracy”: Proporción entre el número de clasificados correctamente y número

total de observaciones a predecir.


Sensibilidad o “Recall”: Proporción de casos positivos que han sido identificados

correctamente.

Especificidad: Proporción de negativos que han sido identificados correctamente.

“Precision”: Proporción de clasificados cómo positivos y que son realmente

pertenecientes a esta clase.

3.3.5. Curva de ROC & AUC

Para finalizar con este capítulo, vamos a definir las siguientes métricas de evaluación de

un modelo:

o Curva ROC: es una representación gráfica de la sensibilidad frente a la

especificidad para un sistema clasificador según se varía el umbral de

discriminación. En otras palabras, representa TPR frente a FPR en

diferentes umbrales de clasificación. Reducir el umbral de clasificación

clasifica más elementos como positivos, por lo que aumentarán tanto los

falsos positivos como los verdaderos positivos.

Ilustración 5: Curva ROC




o AUC, por sus siglas en inglés “Area Under Curve”: mide el área

bidimensional por debajo de la curva ROC completa.

Ilustración 6: Curva AUC




4 Datos utilizados para el desarrollo del proyecto

Tras reunirnos con la compañía francesa SUEZ S.A conseguimos recopilar los datos de

toda España en relación con las incidencias y distintas averías correspondientes con el

suministro, canalización y tratamiento de agua.

La base de datos recibida, en formato “xlsx”, cuenta con un total de 35.601 observaciones

y 52 variables. La información que proporciona el conjunto de variables trata de aportar la

mayor información posible de cada una de las incidencias ocurridas, esto nos da a entender

que la finalidad de esta base de datos para la empresa no tiene un carácter analítico sino

informativo o documentario.

La información que aportan las variables se puede dividir en diferentes categorías:

Variables que tratan el seguimiento de la incidencia, como puede ser el número de

identificación de la incidencia, número de la incidencia, número de póliza de la compañía

etc. Este conjunto de variables aporta información a la empresa, pero no a la hora de realizar

un análisis de los datos o un modelo predictivo.

Variables que aportan información geográfica, como puede ser la localidad, latitud,

longitud, la provincia, el código postal, el lugar etc. Esta información puede aportar valor

tanto a la empresa como en la realización del trabajo (aunque debido a su cardinalidad,

varias deban ser obviadas).

Variables que aportan información sobre fechas, como la fecha de cierre del siniestro, fecha

de declaración del siniestro, fecha de aviso etc. Este conjunto de variables será analizado

de manera individual para poder obtener más información a partir de los datos que nos

ofrecen.

Variables relacionadas con las características de la incidencia, como el tipo de incidencia,

si la avería es provocada, si ha habido juicio, si debe intervenir el perito etc. Variables que

seguramente aporten bastante información a nivel de análisis de datos.

Variables relacionadas con el juicio celebrado, como el nombre del profesional, apellidos,

el tipo de juicio que ha sido, localidad del juzgado etc. Es información que puede aportar

valor, excepto aquella que hace referencia a información personal, pero cuya importancia

debe ser estudiada.

Por último, las variables relacionadas con el coste tanto del siniestro como los pagos de la

aseguradora (donde se encuentra nuestra variable “target”). Esta información es de vital


importancia ya que es la que nos va a ofrecer toda la información económica que afecta de

verdad al negocio. Esta información es la que se usará para poder obtener diferencias claves

entre el resto de las variables anteriormente descritas.

En apartados posteriores de este trabajo se llevará a cabo tanto el análisis descriptivo de los

datos como la modelización de estos con el fin de poder clasificar las observaciones en

función de nuestra variable objetivo (total coste).


5 Almacenamiento, procesamiento y “data enviroment”

La base de datos proporcionada por la empresa, en formato “xlsx”, ha sido transferida y

almacenada en un servidor de SQL (SQL server), desde dicho servidor, cuyo lenguaje de

programación es Structure Query Language (SQL), se han realizado diferentes

integraciones con otras plataformas, como Jupyter Notebook, para la manipulación de los

datos.

Una vez que la base de datos ha sido almacenada en el servidor y manipulada en Jupyter

Notebook, de manera local, se ha llevado a cabo la ejecución del código creado en Jupyter

Notebook dentro de Microsoft Azure Data Studio.

La estructura, de manera visual, del conjunto de entornos utilizados es la siguiente:

Ilustración 7: Conjunto de integraciones realizadas entre entornos

Fuente: Elaboración propia


El primer paso, la importación de la base de datos se ha realizado mediante la función

“importar” dentro del apartado de “Tareas” en el servidor de SQL (SQL server)

El segundo paso, la integración de Microsoft SQL Server (además de la base de datos)

desde Jupyter Notebook con la finalidad de utilizar lenguaje Python en el desarrollo del

proyecto. Para poder trabajar y manipular los datos de manera local se ha realizado

mediante el motor Pyodbc, el cual se trata de un entorno para bases de datos SQL.

Por medio de las diferentes credenciales

• Servidor: “server”

• Base de datos: “database”

• Nombre de usuario: “username”

• Contraseña: “password”

y por medio del motor pyodbc, se establecerá la integración y una vez conectado Microsoft

SQL server dentro de nuestro entorno Jupyter Notebook, mediante una “query” de SQL se

realizarán consultas a la BBDD con la finalidad de extraer muestras o la totalidad de los

datos.

Ilustración 8: Conexión de Microsoft SQL Server a Jupyter Notebook

Fuente: Oliver, Julián. “BBDD Relacionales - SQL” Data Science para finanzas, 17 de junio de

2021, CUNEF. Presentación en Microsoft PowerPoint.

Credenciales privadas Cr

ed

en

cia

les

pri

va

da

s


El tercer punto se centra en la ejecución del lenguaje Python dentro en Microsoft Azure

Data Studio (MADS), este proceso es el último paso para poder poner en producción

nuestro modelo dentro de un servidor (sin tener que utilizar nuestros recursos locales).

La estructura que presenta el código a desarrollar dentro de MADS se realiza de la siguiente

manera:

Ilustración 9:Estructura de uso de otro lenguaje de programación en el servidor SQL

Fuente: Oliver, Julián. “BBDD Relacionales - SQL” Data Science para finanzas, 17 de mayo de 2021,

CUNEF. Presentación en Microsoft PowerPoint.

La estructura que se sigue en este proceso consta de las siguientes partes:

• “EXECUTE”: programa “external script” que permite la inicialización del proceso

de uso de otro lenguaje dentro de Microsoft Azure Data Studio

• @input_data_1 = con el fin de seleccionar los datos que se van a utilizar

• @language = para seleccionar el idioma de lenguaje (R, Python…)

• @Script = el código, en el lenguaje anteriormente especificado, que se quiera

realizar

• WITH RESULT SETS = la salida que se quiere obtener

‘Python’


Este conjunto de pasos realizados representa las integraciones de plataformas realizadas en

el Trabajo de Fin de Máster que han tenido como finalidad, además de poder aplicar de

manera práctica el contenido aprendido en las diferentes asignaturas del Máster, la mejora

en la eficiencia y uso de los recursos de los que se disponen, ya que es preferible trabajar

en servidores externos que utilizar los recursos locales limitados de los que el usuario

dispone.


6 Análisis exploratorio de datos

El análisis exploratorio de datos (o estadística descriptiva) tiene por objetivo identificar las

principales características de un conjunto de datos mediante estadísticos descriptivos,

gráficos para visualizar y cruces entre variables. Es por eso por lo que en este apartado se

tratará de analizar, entender y visualizar el conjunto de datos recibidos por la empresa.

La finalidad del estudio (aparte de analizar, entender y visualizar los datos) será el de iniciar

todo el proceso de limpieza, transformación y preprocesamiento de los datos para poder

ser posteriormente utilizados en el desarrollo de los modelos.

El primer paso antes de comenzar con el análisis de datos es el de crear un diccionario de

variables donde se han recogido el nombre de esas variables, la transformación en el

nombre que se va a realizar con el fin de trabajar mejor con esa variable y el significado de

esa variable, dicho diccionario se anexará junto con el trabajo.

El primer paso para comenzar el análisis exploratorio ha sido realizar un análisis de los

valores nulos que se presentan por cada una de las variables con el objetivo de averiguar el

estado de la base de datos entregada y si estos valores nulos pudiesen dar algún tipo de

información. Dicho análisis se encuentra a continuación en la siguiente tabla:


Ilustración 10: Análisis de valores nulos de las variables del modelo

Fuente: Elaboración Propia

Nombre de la variable Nulos Total %Id1 0 35.601 0,0%id 0 35.601 0,0%

seguimiento 0 35.601 0,0%creado 0 35.601 0,0%

modificado 0 35.601 0,0%INCIDENCIA___SINIESTRO 0 35.601 0,0%

N_REFERENCIA 0 35.601 0,0%RAMO 0 35.601 0,0%

FECHA_DE_SINIESTRO 0 35.601 0,0%FECHA_DE_DECLARACION 0 35.601 0,0%

Nº_POLIZA_COMPANIA 0 35.601 0,0%NOMBRE_EMPRESA 0 35.601 0,0%

REFERENCIA_DEL_CLIENTE 24.056 35.601 67,6%REF__CIA 26.511 35.601 74,5%

FECHA_RECLAMACION 35.575 35.601 99,9%FECHA_DE_CIERRE 2.907 35.601 8,2%

SITUACION 0 35.601 0,0%SINIESTRORELACIONADO 33.797 35.601 94,9%

LUGAR 0 35.601 0,0%LOCALIDAD 0 35.601 0,0%PROVINCIA 4.056 35.601 11,4%

CODIGO_POSTAL 35.601 35.601 100,0%DIRECCION_TERRITORIAL 752 35.601 2,1%

RESPONSABILIDAD 624 35.601 1,8%NATURALEZA 144 35.601 0,4%

CAUSA 21 35.601 0,1%DANOS_CAUSADOS 1.295 35.601 3,6%

_RECLAMACION_ASOCIADA_A_UNA_AVERIA_ 18.490 35.601 51,9%_ES_AVERIA_PROVOCADA_ 410 35.601 1,2%

_DEBE_INTERVENIR_EL_PERITO_ 35.600 35.601 100,0%FECHA_AVISO 35.601 35.601 100,0%

LOCALIZACION_AVERIA 19.585 35.601 55,0%RAMAL 28.546 35.601 80,2%

TUBERIA 26.289 35.601 73,8%ESTADO_DEL_TRAMITE 7.991 35.601 22,5%

TIPO_DE_RECLAMACION 743 35.601 2,1%PROCESO_JUDICIAL 0 35.601 0,0%

TIPO_DE_PROCEDIMIENTO 30.984 35.601 87,0%LOCALIDAD_JUZGADO 31.018 35.601 87,1%

JUZGADO 30.984 35.601 87,0%PROFESIONALES_NOMBRE 35.601 35.601 100,0%

PROFESIONALES_PRIMER_APELLIDO 35.601 35.601 100,0%RESERVA_DEDUCIBLE 0 35.601 0,0%

RESERVA_ASEGURADOR 0 35.601 0,0%PAGOS_DEDUCIBLE 0 35.601 0,0%

PAGOS_ASEGURADOR 0 35.601 0,0%GASTOS 0 35.601 0,0%

TOTAL_COSTE 0 35.601 0,0%ABIERTO___CERRADO 0 35.601 0,0%

COSTE_ESTIMADO 0 35.601 0,0%lat 337 35.601 1,0%

long 337 35.601 1,0%


Tras el análisis de valores nulos se ha decidido eliminar una serie de variables por carecer

de valor tanto analítico como descriptivo. Dichas variables y su motivo se describen a

continuación:

Ilustración 11: Filtrado de observaciones de la variable ESTADO_DEL_TRÁMITE


Además de filtrar y eliminar diferentes variables de nuestro modelo, también se filtrará y

se eliminará un conjunto de observaciones. La variable ESTADO_DEL_TRÁMITE indica

la situación en la que se encuentra la incidencia, es por eso que se ha decidido filtrar el

conjunto de observaciones para tener únicamente aquellas que ya han finalizado.

Variable Motivo de eliminación de variable

Id1 No aporta información - Número de serie

id No aporta información

seguimiento Solo presenta una categoría

creado No aporta información

modificado No aporta información - Comentario interno

N_REFERENCIA No aporta información - Número de serie

RAMO Variable desbalanceada

Nº_POLIZA_COMPANIA No aporta información - Número de serie

NOMBRE_EMPRESA No aporta información al modelo

REFERENCIA_DEL_CLIENTE No aporta información - Número de serie

REF__CIA No aporta información - Número de serie

FECHA_RECLAMACION No aporta información

SITUACION Solo presenta una categoría

DANOS_CAUSADOS Variable desbalanceada

CAUSA Variable desbalanceada

SINIESTRORELACIONADO Comentarios internos no analizables

LUGAR Información no analizable

LOCALIDAD Información no analizable

CODIGO_POSTAL Información no analizable

DIRECCION_TERRITORIAL Información no analizable

_DEBE_INTERVENIR_EL_PERITO_ 100% de valores nulos

FECHA_AVISO 100% de valores nulos

LOCALIZACION_AVERIA Información no analizable

RAMAL Información no analizable

TUBERIA Mucho valor desconocido (82%)

TIPO_DE_PROCEDIMIENTO Mucho valor desconocido (76%)

LOCALIDAD_JUZGADO Alto valor de valores nulos

JUZGADO Alto valor de valores nulos

PROFESIONALES_NOMBRE Información protegida

PROFESIONALES_PRIMER_APELLIDO Información protegida

ABIERTO___CERRADO Solo presenta una categoría

_ES_AVERIA_PROVOCADA_ 99% pertecenece a Responsabilidad Civil AGBAR (no aporta información)

ESTADO_DEL_TRAMITE Observaciones filtradas a partir de esta variable

FECHA_DE_SINIESTRO Variable modificada

FECHA_DE_DECLARACION Variable modificada

FECHA_DE_CIERRE Variable modificada


Ilustración 12: Filtrado de observaciones de la variable ESTADO_DEL_TRÁMITE


Con este filtrado de los distintos valores de la variable ESTADO_DE_TRÁMITE, la base

de datos ha pasado de un total de 35.601 observaciones a 23.715 observaciones (una

reducción del 33,38% de las observaciones).

A continuación, el conjunto de variables también se dividirá entre variables dependientes

y la variable independiente, la cual es TOTAL_COSTE (que indica el coste total de la

incidencia). Se ha realizado un análisis individualizado de esta variable, el cual se muestra

a continuación:

Ilustración 13: Distribución de la variable TOTAL_COSTE


Como se puede observar en la ilustración anterior, el conjunto de valores de la variable

TOTAL_COSTE sigue una distribución asimétrica donde la mayoría de los valores se

Valores inciales ESTADO_DEL_TRÁMITE Filtrado observaciones

Finalizado Se mantiene

Pendiente resolución judicial Rechazada

Siniestro con cobertura rechazada Rechazada

Pendiente resolución Expediente Administrativo Rechazada

Pendiente recibir información del cliente Rechazada

Pendiente de informe pericial Rechazada

Pendiente de pago al perjudicado Rechazada

Pendiente de resolución de la Compañía Rechazada

En negociación con el perjudicado Rechazada

Pendiente de recibir finiquito firmado Rechazada

Pendiente devolución de franquicia a la compañía Rechazada

Pendiente sanidad lesionado Rechazada

Pendiente de reembolso al asegurado Rechazada

Inicial Rechazada

Sin reclamación del perjudicado Rechazada

None Rechazada


encuentran entre los 0 euros y los 2.000 euros. A partir de los 2.000 euros, el número de

valores en rangos superiores empieza a disminuir hasta hacerse imperceptible a partir de

los 8.000 euros.

Ilustración 14: Función de Densidad de la Variable TOTAL_COSTE

Los estadísticos obtenidos para evaluar la

distribución de la variable Total Coste son

los siguientes:

Curtosis: 4.465,69

Asimetría 57,34.

Esto nos permite ver que la distribución

muestra la presencia de colas pesadas, es

decir una distribución en las colas más

fuerte que si se compara con una distribución

normal, y, la presencia de una asimetría positiva. Por tanto, a se muestra un sesgo hacia

valores positivos.

El valor medio de las incidencias se sitúa en 2.051 euros y la desviación estándar de esos

valores es de 16.521 euros. El valor mínimo es de 0 euros y el máximo de 139.999 euros y

la distribución por cuartiles (0%, 25%, 50% y 75%) es de 0, 0, 1100 y 9420

respectivamente. A continuación, en la ilustración, se mostrará la distribución de valores

por cuartiles:

Ilustración 15: Distribución de valores por cuartiles y de manera conjunta



*Eje X en millones y eje Y en millonésimas


Ilustración 16: Distribución en 3D de valores del Gasto, del coste estimado y del coste total


La unión de las tres variables muestra una alta agrupación en los valores de la variable X e

Y (Gasto y Coste Estimado), pero, como anteriormente se ha podido observar, se pueden

observar valores extremos en la variable Z (Total Coste), alcanzándose el valor máximo en

139.999 euros.

Tras el análisis previo realizado, se considera a una serie de variables cómo imprescindibles

para ser incluidas en el modelo. Ya sea bien pues su alto grado de información, por contener

cualidades que puedan ayudar a diferenciar clases o por criterio de negocio.


Ilustración 17: Conjunto final de variables


*diff_Cierre_Siniestro, diff_Cierre_Declaracion y diff_Siniestro_Declaracion son

variables creadas posteriormente que representan la diferencia en días entre la fecha del

siniestro y el cierre del siniestro, la diferencia entre la declaración de la incidencia y el

cierre, y, por último, la fecha de la incidencia y la fecha de la declaración de la misma

A partir de esta distinción según el tipo de variable, se va a realizar un análisis exploratorio

de las variables numéricas y, por otra parte, de las variables categóricas.

6.1. Variables numéricas

Las variables numéricas utilizadas en este apartado se listan a continuación:

o RESERVA_DEDUCIBLE

o RESERVA_ASEGURADOR

o PAGOS_DEDUCIBLE'

o PAGOS_ASEGURADOR

o GASTOS

o TOTAL_COSTE

o COSTE_ESTIMADO

o Lat

o Long

o Diff_cierre_siniestro

o Diff_cierre_declaracion

o Diff_siniestro_declaracion

Numéricas Categóricas

RESERVA_DEDUCIBLE INCIDENCIA___SINIESTRO

RESERVA_ASEGURADOR PROVINCIA

PAGOS_DEDUCIBLE RESPONSABILIDAD

PAGOS_ASEGURADOR NATURALEZA

GASTOS _RECLAMACION_ASOCIADA_A_UNA_AVERIA_

TOTAL_COSTE TIPO_DE_RECLAMACION

COSTE_ESTIMADO PROCESO_JUDICIAL

lat

long

diff_Cierre_Siniestro

diff_Cierre_Declaracion

diff_Siniestro_Declaracion

Conjunto de Variables


Todas ellas convertidas a tipo “float”, es decir formato con decimales, para su posterior

manipulación y análisis.

El primer conjunto de variables que se va a analizar son la latitud y la longitud de los

siniestros, los cuales representan las coordenadas de las incidencias, con esto se puede

conseguir una aproximación cercana a poder conocer la localización y la frecuencia del

conjunto de incidencias, dicha distribución se muestra en la siguiente ilustración:

Ilustración 18: Geolocalización del conjunto de incidencias recogidas


En la ilustración se puede observar como las comunidades de Cataluña y Valencia son las

que mayor número de siniestros presentan. Por otra parte, existe una clara diferencia entre

las zonas costeras (incluyendo las Islas Canarias y Baleares), las cuales presentan un mayor

número de incidencias que las zonas de interior.

En el caso de los datos disponibles no se dispone del total de activos que tiene en posesión

la compañía Suez, S.A., por tanto, se desconoce la frecuencia de incidencias que tiene cada

activo o cada provincia.

Las variables “lat” y “long” solo serán utilizadas de manera descriptiva y se eliminarán y

no se tendrán en cuenta en la modelización.


Respecto a la correlación de las distintas variables se puede encontrar una alta correlación

entre PAGOS_ASEGURADOR con TOTAL_COSTE y diff_Cierre_Siniestro con

diff_Cierre_Declaración. Coste_Estimado, Total_Coste y Gastos presentan una correlación

cercana a 0,6. El resto de las correlaciones presentan valores cercanos a 0, lo que indica

que apenas existe correlación entre variables.

Ilustración 19: Correlación variables numéricas


Determinante matriz de correlación: |1| (Aproximación)

Nos indica que existe falta de correlación entre las variables, además, observando el

gráfico, se comprueba que las correlaciones individuales entre pares de variables son

limitadas.

Además de la visualización de la matriz de correlaciones y su determinante se calcula el

test de esfericidad de Barlett para corroborar la ausencia de correlaciones entre las variables

y prueba de diferencia entre las varianzas.

Test de Barlett: 1,124e-05

Se rechaza la hipótesis nula y por tanto existe presencia de diferencias significativas en la

varianza.


Tras la realización de estas pruebas se puede comprobar una falta de correlación entre las

variables, por tanto, tras este estudio se descarta llevar a cabo técnicas de reducción de la

dimensión cómo el análisis factorial.

A continuación, se analizará la distribución del resto de variables de manera individual por

medio de histogramas junto con su función de densidad:

Ilustración 20: Histogramas de las variables RESERVA_DEDUCIBLE,

RESERVA_ASEGURADOR y PAGOS_DEDUCIDBLE


Los tres histogramas presentan una distribución similar con una concentración de valores

alrededor del 0.

La Curtosis de RESERVA_DEDUCIBLE es de 16.054,05 y su asimetría es de 121.57.

La Curtosis de RESERVA_ASEGURADOR es de -3 y su asimetría es de 0.

La Curtosis de PAGOS_DEDUCIDBLE es de 186,40 y su asimetría es de 7,53.

La reserva deducible muestra un valor de curtosis elevado, por tanto indica una presencia

de valores “pesados” en la cola de la distribución. Esto puede indicarnos que, de forma

ocasional, ha existido alguna incidencia con un valor en esta variable elevado, lo cual se

reconoce cómo un valor atípico.

Se muestra un sesgo hacia valores positivos limitado, esto es debido a una gran presencia

de incidencias con valor 0 en estaas variables.

Tras ver las distribuciones se puede observar cómo las variables tienen una tendencia al

valor cero. Tras un estudio más exhaustivo se identifica un número de ceros bastante

elevado en las variables, con el único fin de estudiar la distribución de las observaciones

distintas a cero se realiza un filtro en cada una de las variables.

Una vez realizado el filtro se muestra cómo la reducción de las observaciones es

considerada cómo demasiado elevada.

RESERVA DEDUCIBLE: 4 observaciones distintas a cero

RESERVA ASEGURADOR: 1 observaciones

PAGOS DEDUCIBLE: 12.086 observaciones


En cuanto a la variable Reserva Deducible y la variable Reserva Asegurador, se realiza una

reducción del número de observaciones que se considera demasiado elevada para poder

llevar a cabo un análisis sobre la distribución. Esto nos indica que, de forma generalizada,

no existen ni reservas deducibles ni reservas del asegurador en el caso de ocurrir una

incidencia.

En el caso de la variable de pagos deducible se puede extraer algo más de información de

la distribución de valores distintos a 0. La reducción también es notoria, por tanto, es un

indicativo de que frecuentemente no existe este tipo de pagos. En el caso de existir pagos

deducible se observa como se distribuyen generalmente entre valores de 1.000 y 2.000.

Ilustración 21: Histogramas de las variables PAGOS_ASEGURADOR, Gastos y

TOTAL_COSTE


La variable Total Coste no se mencionará ya qué fue analizada de forma más exhaustiva al

comienzo, ya que es la variable originaria de nuestra variable dependiente.

Los tres histogramas presentan una distribución similar con una concentración de valores

alrededor del 0, aunque Gastos y Total Coste presentan una mayor frecuencia de valores

no cercanos a 0.

La Curtosis de PAGOS_ASEGURADOR es de 5.129,65 y su asimetría es de 63,12.

La Curtosis de GASTOS es de 1.555,72 y su asimetría es de 29,90.

La Curtosis de TOTAL_ COSTE es de 4.465,69 y su asimetría es de 57,34.


La variable Pagos asegurador muestra una curtosis elevada, en comparación de una

distribución normal, por tanto se reconoce la presencia de valores pesados en las colas de

la distribución.

En estas tres variables, a pesar de mostrar una asimetría positiva, se aprecia una tendencia

en torno al valor 0. Por tanto, filtramos las observaciones para cada variable y eliminamos

los 0. Esto se realiza exclusivamente para el análisis de la distribución de los valores

distintos a 0, no para el preprocesamiento de los datos.

Tras el filtro, por cada variable, se reduce el número de observaciones de la siguiente forma:

Pagos asegurador: 1.517 observaciones

Gastos: 15.030 observaciones

Total Coste: 12.324 observaciones

Nuevamente se observa cómo la reducción de observaciones en el momento de la

introducción del filtro de 0 es bastante notable. Esto nos indica que estas variables

presentan generalmente un valor de 0.

En el caso de Pagos asegurador se puede observar una distribución más notable en el

momento de introducir el filtro, sin embargo se sigue mostrando una tendencia en torno al

cero fuerte. Se entiende que los valores de esta variable suelen ser limitados, pero existen

ocasiones, y lo corroboramos el estadístico de curtosis, que esta variable presenta una

cantidad elevada.


Ilustración 22: Histogramas de las variables COSTE_ESTIMADO, lat y long


La Curtosis de la variable Coste Estimado es de 18.290,12 y su asimetría es de 127,62.

Esto nos indica la presencia de colas pesadas en comparación de la distribución normal, y

además se muestra un sesgo hacia los valores positivos, por tanto, tampoco es una

distribución asimétrica.

El histograma de la variable COSTE_ESTIMADO presenta una distribución similar con

una concentración de valores alrededor del 0, aunque lat y long presentan una distribución

diferente, con una concentración de valores en 41º en lat (haciendo referencia a la latitud

de Barcelona) y una long en torno a 0 y 5 (haciendo referencia a la longitud de Barcelona).

La Curtosis de la variable Coste Estimado es de 18.290,12 y su asimetría es de 127,62.

Esto nos indica la presencia de colas pesadas en comparación de la distribución normal, y

además se muestra un sesgo hacia los valores positivos, por tanto, tampoco es una

distribución asimétrica.

No se realizará un análisis de la curtosis y la asimetría de lat y log ya que carece de sentido

al no tratarse de una distribución de datos que se pueda ajustar a una normal.

Se introduce un filtro que elimina los valores 0 de la variable Coste estimado.



La apreciación visual de la varaible coste es similar. Para explicar este comportamiento se

ha atendido a sus quintiles y cuartiles, se ha observado que hasta el 90% de la variable los

valores son muy reducidos, y en el caso del último décil si se aprecian valores elevados.

Ilustración 23: Histogramas de las variables Diff_cierre_siniestro, Diff_cierre_declaracion y

Diff_siniestro_declaracion


El conjunto de histogramas representados anteriormente describe la diferencia de fechas

(en número de días enteros entre las variables Fecha de Cierre, Fecha de Siniestro y Fecha

de declaración), siguen una distribución parecida en los diferentes histograma.

La Curtosis de Diff_cierre_siniestro es de 8,07 y su asimetría es de 2,42.

La Curtosis de Diff_cierre_declaracion es de 9,47 y su asimetría es de 2,68.

La Curtosis de Diff_siniestro_declaracion es de 62,81 y su asimetría es de 5,49.

Esto nos indica una distribución de las diferencias de días bastante cercana a una

distribución normal. Se aprecia que la diferencia de días desde la declaración del siniestros

y la fecha en la que ocurrio la incidencia tiene una distribución distinta a las otras variables

de días. Esta muestra una presencia de valores en las colas más elevada y una asimetría con

sesgo positivo superior.

Para concluir el análisis de las variables numéricas, se ha realizado un pairplot por cada

una de las combinaciones de variables, el resultado se puede observar en la siguiente

ilustración:


Ilustración 24: Pairplot del conjunto de variables numéricas


Por último, debido al elevado número de valores 0 en la variable TOTAL_COSTE, se ha

decidido analizar de manera diferenciada el resto de las variables dividiendo la población

en observaciones cuyo TOTAL_COSTE es 0 (11.391 observaciones) contra aquellas

observaciones cuyo valor de TOTAL_COSTE es mayor a 0 (12.324 observaciones). La

principal conclusión del análisis es:

• Se ha llegado a la conclusión de que os gastos y el coste estimado son mayores

cuando el total coste no es igual a cero, algo que, a priori, se podía imaginar, pero

lo hemos verificado de manera analítica.


6.2. Variables categóricas

Las variables categóricas utilizadas en este apartado se listan a continuación:

o Seguimiento

o INCIDENCIA___SINIESTRO

o RAMO

o SITUACION

o PROVINCIA

o RESPONSABILIDAD

o NATURALEZA

o CAUSA

o DANOS_CAUSADOS

o RECLAMACION_ASOCIADA_A_UNA_AVERIA

o ES_AVERIA_PROVOCADA_

o RAMAL

o TUBERIA

o TIPO_DE_RECLAMACION

o PROCESO_JUDICIAL

o ABIERTO___CERRADO

A continuación, realizará el análisis descriptivo de las variables categóricos, tanto de

manera univariable como multivariable

Ilustración 25: Distribución de incidencias por provincia



Como anteriormente se comentó se desconoce la distribución de los activos en el territorio

nacional, por tanto, se desconoce si existe mayor frecuencia en algunas ciudades derivada

de unas infraestructuras de peor calidad o peor mantenimiento.

Se muestra en el gráfico cómo Barcelona es el lugar donde más averías recoge de toda

España, seguido por Alicante y Valencia (en concordancia con lo visto en el gráfico de

incidencias del mapa de España). Por tanto, esto supone dos posibilidades, o tiene una

presencia de activos en Barcelona, y en general en la costa del levante superior, o, existe

una peor gestión de las infraestructuras en esas zonas.

Se muestra el gráfico en función de la responsabilidad de la incidencia ocurrida:

Ilustración 26: Distribución de incidencias por RESPONSABILIDAD


Un alto porcentaje de las incidencias presentan el valor “SI” en esta variable, seguido por

el “NO” en menor porcentaje. “DUDOSA” y “COMPARTIDA” suman un total de 3.477

observaciones. Por tanto, se puede concluir que en numerosas ocasiones la responsabilidad

es de la compañía, aunque, a pesar de esto, se observa que la categoría de “No” también

tiene un valor elevado.

Se concluye que de forma generalizada existe conocimiento de quien tiene la

responsabilidad de una incidencia.

A continuación, se muestra el gráfico para conocer si frecuentemente una avería es

provocada o no.

Ilustración 27: Distribución de incidencias por ES_AVERIA_PROVOCADA



El mayor porcentaje de incidencias no es una avería provocada, pero hay un total de 141

observaciones cuya avería ha sido provocada. Esto, a pesar de suponer un desbalanceo en

esta variable y que puede afectar en la elaboración del modelo de “scoring”, puede arrojar

una información muy valiosa.

Se muestra a continuación la visualización de la variable que nos entrega información sobre

la naturaleza de una incidencia:

Ilustración 28: Distribución de incidencias por NATURALEZA


La naturaleza de la incidencia se da principalmente por daños materiales, seguido por daños

personales y con una baja frecuencia en Pérdida de Beneficios, Desconocido y Daños

Patrimoniales Puros.

Una variable que puede arrojar una información valiosa para estimar el coste de una avería

es si existe una reclamación asociada con una incidencia.

Ilustración 29: Distribución de incidencias por RECLAMACIÓN_ASOCIADA_A_UNA_AVERIA



Se observa una distribución equitativa entre 0 (indicando que No) y Reclamación asociada.

Esto, a pesar de que es más frecuente que no exista reclamación, nos indica que existe un

gran número de casos en los que sí hay reclamación por parte de algún tercero.

En continuación con la variable anterior, existe una recopilación sobre el tipo de

reclamación sobre un siniestro.

Ilustración 30: Distribución de incidencias por TIPO_DE_RECLAMACIÓN


Una mayoría de las incidencias (21.948 observaciones) se dan de manera amistosa, aunque

el resto está formado por reclamación judicial (1.522 observaciones), otras (223

observaciones), administrativas (18 observaciones) y defensor del asegurado (4

observaciones).

Continuando con el tipo de reclamación y en que puede derivar, es de gran valor conocer

si ha existido un proceso judicial en una incidencia. Un proceso judicial,

independientemente del coste material derivado de una incidencia, supone un aumento del

gasto en abogados, procuradores, tiempo etc.

Ilustración 31: Distribución de incidencias por PROCESO_JUDICIAL



De manera general, las incidencias no llevan asociado un proceso judicial, pero hay un total

de 3374 incidencias que si lo presentan.

Como conclusión general de este apartado, se puede observar cómo tener responsabilidad

en el siniestro es lo más habitual, el tipo de daño normalmente es daños personales, el tipo

de avería no suele ser provocada y el tipo de reclamación en la gran mayoría de los casos

es amistosa sin existir un proceso judicial.

Para profundizar el análisis de las observaciones donde la incidencia ha sido provocada

se procede a realizar cruces para ver su comportamiento, y con esto tratar de entender si

un acto de mala fe puede derivar en costes muy elevados o en algún tipo de daño en

especial

Dicho análisis se muestra a continuación:

Ilustración 32: TOTAL_COSTE entre AVERÍA_PROVOCADA y por NATURALEZA


Se demuestra que el hecho de que la avería sea provocada no implica un aumento del

coste de la avería, pero, se puede observar que la varianza cuando la incidencia es

provocada es mayor.




El tipo de incidencia que presenta un mayor coste es aquella donde no hay responsabilidad

y se desconoce si la avería es provocada.



Los daños personales presentan un mayor tiempo para cerrar la incidencia, y, en media,

si la avería es provocada, tiene más duración (lo que implica un mayor coste asociado).


Por último, al igual que se ha realizado en el análisis descriptivo de las variables

numéricas, debido al elevado número de valores 0 en la variable TOTAL_COSTE, se ha

decidido analizar de manera diferenciada el resto de las variables dividiendo la población

en observaciones cuyo TOTAL_COSTE es 0 (11.391 observaciones) contra aquellas

observaciones cuyo valor de TOTAL_COSTE es mayor a 0 (12.324 observaciones). La

principal conclusión del análisis es:

• Cuando una incidencia pasa de 0 de TOTAL_COSTE a tener un valor (=/0), la

frecuencia es 2,89 veces mayor en daños personales, 1,3x en Desconocido y casi

5x en Pérdida de beneficios (reduciéndose un 10% las incidencias por daños

materiales).

• Las incidencias que tienen un TOTAL_COSTE =0, tienen una frecuencia 4 veces

superior a que si el Total_coste es mayor a 0

6.3. Respuesta a hipótesis complementarias

Aparte de realizar el análisis descriptivo de tanto de las variables numéricas como de las

categóricas, se ha decidido realizar una serie de preguntas de nuestro interés para poder

profundizar en el análisis.

Esto persigue entender el distinto comportamiento de las clases de cada una de las

variables categóricas en función de la variable del coste total en el que incurre una

incidencia.

Ilustración 35: ¿Cuál es el coste medio por tipo de incidencia?



Ilustración 36: ¿Cuál es el coste medio por provincia?:


Ilustración 37: ¿Cuál es el coste medio por daños causados?



Ilustración 38: ¿Cuál es el coste medio por tipo de naturaleza?


Ilustración 39: ¿Cuál es el coste medio por tipo de juzgado?


Ilustración 40: ¿Cuál es el coste medio si la avería es provocada?


Ilustración 41: ¿Cuál es el coste medio por tipo de responsabilidad?



Ilustración 42: ¿Cuál es el coste medio por tipo de estado de trámite?


Ilustración 43: ¿Cuál es el coste medio por tipo de reclamación?


Ilustración 44: ¿Cuál es el coste medio por tipo de causa?



Tras la realización de los cruces anteriormente comentados se han obtenido una serie de

respuestas que nos permite tener un conocimiento más profundo sobre las diferencias

entre las incidencias:

• La incidencia con mayor coste son los siniestros, ya que son sucesos o pérdidas

irreparables.

• Las provincias con mayor coste son Guipúzcoa, Sevilla y Madrid. A pesar de no

conocer la frecuencia de los siniestros si se puede apreciar que estas provincias

suponen unos gastos más elevados en media cuando ocurre una incidencia.

• El coste más elevado correspondiente a daños causados son las emisiones

atmosféricas toxicas o peligrosas. Se desconoce el porqué de este coste más

elevado, pero una primera idea es la posibilidad de multas o sanciones por parte

de la administración pública.

• Las incidencias con mayor coste son aquellas cuya reclamación es judicial (siendo

muy superior a cuando la reclamación de la incidencia es amistosa o

administrativa). Una posibilidad de esto, como fue comentado anteriormente, es

el incremento de gastos derivados por abogados, tiempo, procuradores etc…


7 Pre-Procesamiento y Modelización

7.1. Pre-Procesamiento

Con el fin de poder trabajar de manera más eficiente y por medio de los servidores de

SQL Server, se han desarrollado una serie de “notebooks” en Jupyter con las

transformaciones necesarias para el conjunto de variables.

• El procesamiento de las variables ha constado principalmente de:

• Filtrado de observaciones

• Eliminación de observaciones

• Cambiar valores nulos por 0 (u otro valor, ya sea un número o una palabra) en

función de cada variable

• Creación de nuevas variables (a partir de la diferencia de fechas)

• Normalización de las variables numéricas

• Transformación de la variable dependiente (TOTAL_COSTE) en categórica con

el fin de poder realizar modelos de clasificación

• División de la muestra en test y training (80% - 20%)

El primer paso realizado para el procesamiento de los datos es, en todos los procesos

creados, filtrar la variable de Incidencia Cerrada. Esta variable contiene información

sobre si la incendia está cerrada o se encuentra pendiente de algún tipo de resolución. A

partir de ahora se trabajará sólo con las incidencias cerradas.

En relación con la variable dependiente del modelo, se ha decidido utilizar cuantiles de

la variable Total Coste como método de división de cada uno de los grupos. Se han

empleado diversas formas para crear la variable dependiente, en función de la mediana

crear una binaria, cuartiles o quintiles. Finalmente, se ha seleccionado la opción de 4

categorías en función de los cuartiles.

Esta forma de crear la variable dependiente creará cuatro clases diferenciadas por el límite

impuesto por el cuartil de la variable Total Coste. Una ventaja al haber creado la variable

dependiente en función de cuantiles es que se evita un posible desbalanceo en las clases

de la variable “target”. Por esta razón no se procede a aplicar técnicas de “oversampling”

ni de “undersampling”.

Se muestra, a modo recordatorio, las variables que se han considerado imprescindibles

para la elaboración del modelo. Estas variables estarán presentes en todos los

preprocesamientos del conjunto de datos realizados.

Ilustración 45: Variables seleccionadas para la modelización



Esto no significa que hayan sido las únicas variables empleadas, ya, que como se comentó

en un primer momento, se realizaron distintos preprocesamientos, y, con los mismos,

varias pruebas en cada modelo para ver el comportamiento de los datos y de los modelos.

En el conjunto de variables numéricas, tras observar que tienen distinta media y varianza,

y corroborar que sus escalas difieren notoriamente, se ha procedido a normalizarlas. Para

normalizar todas las variables numéricas se han tipificado.

Por último, las variables categóricas también han sido tratadas. En los distintos

preprocesamientos se han incluido acercamiento de las clases o filtrados, aunque en el

conjunto de datos finalmente empleado para modelizar no se ha llevado a cabo este tipo

de transformaciones.

Las variables categóricas han sido codificadas por método de “Label-Encoding”, dar un

valor número a cada una de las clases, y por método de la técnica “One-Hot-Enconding”,

creación de variables binarias para cada una de las clases de una categórica.

El último proceso realizado para realizar una última selección de variables, para ser

probado en los modelos, fue la realización de un modelo Lasso. Está técnica fue probada

al final del proceso de tratamiento de los datos, y, la cual arrojo unos resultados en los

modelos que se tradujeron en una mayor robustez y estabilidad del algoritmo en el

momento de predecir.

Numéricas Categóricas

RESERVA_DEDUCIBLE INCIDENCIA___SINIESTRO

RESERVA_ASEGURADOR PROVINCIA

PAGOS_DEDUCIBLE RESPONSABILIDAD

PAGOS_ASEGURADOR NATURALEZA

GASTOS _RECLAMACION_ASOCIADA_A_UNA_AVERIA_

TOTAL_COSTE TIPO_DE_RECLAMACION

COSTE_ESTIMADO PROCESO_JUDICIAL

diff_Cierre_Siniestro

diff_Cierre_Declaracion

diff_Siniestro_Declaracion

Conjunto de Variables


7.2. Modelización

Cómo se expuso anteriormente los principales algoritmos utilizados en la elaboración del

“scoring” son el Random Forest y el XGBoost en la familia de árboles de decisión, y,

también se han probado el algoritmo Multi-Layer Perceptron Classifier.

En primer lugar, se explica por qué se ha rechazado el uso de la red neuronal. El algoritmo

Multi-Layer Perceptron Classifier, al pertenecer a la rama de “Deep Learning”, es poco

interpretable, y al mismo tiempo su explicabilidad es bastante compleja. Aun así, el

modelo fue entrenado y probado para ser comparado con el resto de los algoritmos. La

red fue probada con la variable dependiente dividida por cuartiles, y probando distintos

parámetros y configuraciones de la misma. El principal problema encontrado al utilizar

este algoritmo en nuestro proyecto era la falta de robustez y una estabilidad bastante

limitada. En el momento de probar un mismo modelo con distintas particiones de los

datos, arrojaba unos resultados para cada una de las clases notorio. Esto se refiere a que

generalmente mostraba un claro sesgo hacia una de las clases. Además, al cambiar

mínimamente los datos, o la configuración, experimentaba unos cambios en las métricas

intensos. Esto, con el objetivo perseguido de ser puesto en producción, hacía que no se

considerase un buen modelo por falta de fiabilidad con el paso del tiempo, y, además, se

consideró que podría sufrir una degradación de su utilidad muy acelerada.

Por consiguiente, se probaron modelos basados en árboles de decisión, este tipo de

algoritmos, teniendo en cuenta que trabajamos con una compañía y con gente de negocio,

ofrecían una gran facilidad para interpretar y explicar el proceso que se está llevando a

cabo para realizar el “scoring”.

Otro de los puntos a tener en cuenta es el objetivo final de puesta de modelo en producción

en un servidor, por lo que el coste computacional del modelo debe ser asumible y lo más

ligero posible, al mismo tiempo sin perder ajuste, interpretabilidad y eficiencia. Por este

motivo se incluyeron al proyecto dos nuevos modelos, Random Forest que trabaja

utilizando la técnica de “bagging” (Entrena los modelos en paralelo) y XGBoost, que

emplea la técnica de “boosting” (trabaja de forma secuencial).

El modelo seleccionado para ser puesto en producción es el XGBoost. Los motivos

principales por los que ha sido escogido este modelo es la robustez que ha mostrado frente

a cambios en las particiones del conjunto de datos, las métricas obtenidas, que

posteriormente serán explicadas, la interpretabilidad que tiene este modelo basado en

árboles de decisión, y, por último, el coste computacional que ofrece el modelo para ser

puesto en servidor.

Se ha ejecutado el modelo seleccionado una serie de veces con el fin de obtener un mejor

resultado, para ello, se han modificado los diferentes hiperparámetros que presenta el

modelo.

Por último, se ha comprobado que el esfuerzo realizado en realizar una reducción y una

transformación de las variables tan exhaustivas no se ha visto recompensado con una

mejora en la predicción de los modelos. Es por eso que se optó por una transformación

menos compleja y por medio de reducción de variables basándose en una regresión Lasso

con el fin tanto de evitar un modelo complejo como el de obtener un menor error.


A continuación se muestra una visualización reducida de uno de los árboles generados

por el modelo XGBoost. El motivo por el cuál solo se muestra un sección del árbol de

decisión es la dimensión que tiene el árbol completo.

En primer lugar, se observa que la variable “INCIDENCIA SINIESTRO” ocupa el lugar

de nodo inicial. Esto significa que la primera decisión que elabora el modelo es en función

de esta variable.

Ilustración 46: Nodo inicial del modelo

A continuación, se muestran algunos nodos de toma de decisión generados por el modelo.

Es sólo una mínima parte del árbol completo, que, simplemente, tiene como objetivo

mostrar al lector la forma en la que ha trabajado el algoritmo empleado.

Ilustración 47: Extracción parcial del modelo obtenido

El nodo, es decir la variable que se encuentra en cada una de las circunferencias, contiene

una ruptura. En el primer caso, con la variable “PROCESO_JUDICIAL”, contiene si

existe menor que 0,5 o mayor, en el caso de satisfacer dicha condición se continúa por el




siguiente nodo, con la variable “Lat”, en el caso de no satisfacer dicha condición se

continuará por otro nodo, el cual no está mostrado en esta imagen.

Las métricas obtenidas por el modelo son las siguientes:

Ilustración 48: Exactitud del modelo obtenido


La exactitud, o, cómo frecuentemente es estudiada, “Accuracy”, obtiene un valor de 0,75.

Es decir que el porcentaje de incidencias bien clasificadas respecto el total obtiene un

valor aceptable, según el criterio propio establecido por los desarrolladores del proyecto.

Si atendemos a los resultados por cada una de las clases creadas se encuentran diferencias

notables en el funcionamiento del modelo. Se muestra con más detalle:

Ilustración 49: Estadísticos del modelo obtenido

Precisión Sensibilidad F1-Score

Primer Cuantil 0,83 0,88 0,85

Segundo Cuantil 0,54 0,39 0,45

Tercer Cuantil 0,59 0,47 0,52

Cuarto Cuantil 0,67 0,76 0,71


Se observa cómo el modelo obtiene las mejores puntuaciones para las incidencias que

tienen un coste total más reducido. Se detectan aproximadamente un 88% de ellas, y,

cuando el modelo predice que es una incidencia que pertenece al primer cuartil, en un

83% pertenece realmente a este grupo.

Exactitud 0,75


En el caso de las incidencias que pertenecen a un rango medio, del segundo y el tercer

cuartil, obtiene unas métricas menos precisas. En ninguno de los dos casos nuestro

modelo consigue detectar al menos el 50% de los casos de cada clase, y, en ambos casos,

tan solo entre un 50% y un 60% de las veces el modelo predice correctamente. A pesar

de esto, se considera que, tras los experimentos realizados con el preprocesamiento de los

datos, con otros modelos etc. son unos valores convincentes.

Por último, para el caso de las incidencias de mayor coste, las que se encuentran al final

de la cola de la distribución, obtiene unas métricas mejores que para los casos de coste

medio. Esto es algo positivo ya que estas son las incidencias más costosas, por tanto, es

el caso en el que el modelo puede aportar más valor a la compañía para gestionar la

incidencia. Para este tipo de incidencias el modelo está detectando casi el 80% de estas.

Sin embargo, tiene una precisión del 67%, es decir que, a pesar de detectar gran cantidad

de estas, en numerosos casos clasifica cómo incidencias de coste alto a incidencias que

realmente no pertenecen a esta clase.

Se muestra la matriz de confusión, matriz que nos aporta más información del porqué de

las métricas anteriormente comentadas, y la matriz de confusión normalizada.

Ilustración 50: Matriz de Confusión Ilustración 51: Matriz de confusión Normalizada

El eje de abscisas contiene el valor verdadero, es decir la clase verdadera, y el eje de

ordenadas contiene el valor que ha otorgado el modelo. Se observa claramente cómo para

la clase 0, las incidencias con menor coste son para las que mejor funciona el modelo.

Esto es debido a que el último preprocesamiento creado hacía que esta clase contenga un

mayor número de muestra.

Por otro lado, la información más valiosa que nos aportan las dos matrices es cuando está

prediciendo mal el modelo, cómo lo está haciendo. Si se observan las matrices,

especialmente la normalizada (derecha) se observa cómo el modelo cuando confunde una

Fuente: Elaboración propia Fuente: Elaboración propia


clase, de forma general, es la clase más cercana. Es decir, cuando confunde el cuartil 4,

por ejemplo, en la mayoría de los casos es del cuartil 3. Esta información resulta muy útil

para la compañía, ya que, realmente, no confunde, en términos generales, las clases más

diferentes.

Para analizar la ratio entre sensibilidad del modelo y la especificidad del modelo se

muestra la curva ROC (“Receiver Operating Characteristic”) para cada una de las clases.

Junto a ellas se muestran dos curvas más, “macro-average”, agrega las curvas ROC

individuales y realiza una media aritmética, y “micro-average” agrega las contribuciones

de cada clase para ver el valor medio.

Ilustración 52: Curva ROC por Cuartiles

Se puede observar como la sensibilidad, representado en el eje de ordenadas con el título

“True Positive Rate” es bastante buena en general. El objetivo que se persigue con el

modelo es que las curvas ROC se acerquen lo máximo posible al extremo superior

izquierdo, y así dejar la mayor área posible en la parte inferior de las curvas. Esta área se

representa con la métrica AUC “Area Under the Curve” o área bajo la curva ROC. En

este caso, se observa cómo para el primer cuartil y el cuarto son extremadamente buenos,

para el segundo y tercer cuartil son también elevados.

Para concluir con el comportamiento del modelo se analiza la probabilidad de ser

clasificado cómo el primer cuartil, el segundo, el tercero o el cuarto. Se muestran en los

siguientes gráficos las distribuciones de probabilidad por cada clase:



Ilustración 53: Distribución probabilidad Primer y Segundo Cuartil


Ilustración 54: Distribución probabilidad Tercer y Cuarto Cuartil


La gran diferencia encontrada es que la probabilidad de que una nueva observación

entregada al modelo para predecir sea del primer cuartil es bastante elevada. En cuanto al

segundo y tercer cuartil vemos una distribución muy similar. Por último, el último cuartil,

las incidencias con un coste superior, se puede observar una mayor probabilidad de ser

clasificada en esta categoría que en el segundo y tercer cuartil, pero, que, sin embargo,

existe una gran diferencia respecto a la primera clase.

La importancia de las variables también se puede explicar en función de otras medidas

con la ayuda de la librería XGBoost.

Se muestra el gráfico de importancia de cada variable en función de la métrica “Weight”.

Esta métrica es la que ofrece XGboost por defecto y es el número de veces que una

variable es utilizada cómo nodo a lo largo de todos los árboles generados por el modelo.


Ilustración 55: Importancia de cada variable en función de la métrica “Weight”.

Es observable que la variable que contiene la información de la diferencia entre la fecha

del siniestro y el cierre de la incidencia es la que más nodos crea a lo largo de los árboles.

También se observa cómo las variables latitud y longitud son de gran importancia, esto

nos indica información sobre la ubicación de la incidencia, en que activo propiedad de la

compañía se ha producido. Como se pudo comprobar en el análisis exploratorio la media

de un coste por ciudad difiere de forma notoria.

La siguiente forma de evaluar la importancia de las variables es “Cover”, este método

consiste en calcular el número de veces que una variable es utilizada para crear nodos en

función de la cantidad de flujo de datos de entrenamiento que recorre esa división.

Ilustración 56: Evaluación de la importancia de las variables




En este caso se muestra cómo la variable “RESERVA_DEDUCIBLE” tiene una gran

importancia para los nodos en relación al flujo de datos. También, es de destacar, que el

tipo de daños causados afecta notoriamente, especialmente el caso de aguas residuales sin

depurar.

Por último, se muestra la importancia de variables genérica en función de la métrica

“Gain”. Esta métrica indica la importancia de la variable para reducir, en media, el

entrenamiento del modelo cuando se utiliza esta para crear nodos.

Ilustración 57: Importancia de variables genérica en función de la métrica “Gain”

En este caso obtenemos que la responsabilidad, en el caso de que en el momento sea de

conocimiento quien tiene la posible responsabilidad, es la variable que más impacta. En

segunda posición se encuentra si es una incidencia o no, que, si se recuerda, es el nodo

inicial.

Otra forma de evaluar el impacto de cada variable es atendiendo al impacto, en media,

que tiene la variable en el output. Además, podemos observarlo también diferenciando

por cada una de las clases que se han empleado en el modelo. Esta diferenciación será

explicada con gráficos de mayor precisión en el siguiente apartado.



Ilustración 58: Importancia de variables

La variable gastos es una variable que puede explicar, o dar información al modelo, sobre

el coste total en el que va a incurrir una incidencia. También se observa cómo el coste

estimado que calcula la compañía en un primer momento está bastante relacionado con

la clase de incidencia que se ha producido, esto nos lleva a concluir que el método

empleado para estimar los costes es bastante acertado. Por último, destacar la variable de

diferencia de días entre la fecha del siniestro y el cierre del siniestro. Esta variable

mencionada agregará coste al valor total en el que incurre el coste de una incidencia, por

tanto, cerrar una incidencia lo antes posible podría ser de gran utilidad para reducir el

monto total.

Por último, para ver cómo afecta cada variable a cada una de las clases. Se emplea el

paquete “Shap” para medir el impacto de cada variable en el output del modelo,

diferenciando por cada una de las categorías creadas.

Para facilitar la interpretación se hace una breve introducción al gráfico: El eje Y está

compuesto por cada una de las variables, el eje de abscisas por el “Shap Value”. Si se

observa el gráfico con detenimiento se puede observar cómo el gráfico está compuesto

por “puntos” para cada una de las variables, estos puntos es cada una de las observaciones

entregadas al modelo. El color representa el valor de cada variable. Y por último, los



gráficos están ordenados de forma descendente en función de la importancia de la

variable.

Ilustración 59: Importancia de variables Primer Cuartil

Para el primer cuartil se aprecia cómo la variable “Gastos” es un buen indicador de que

una nueva incidencia va encontrarse en el primer cuartil. Sin embargo, la variable que

mayor representa a esta categoría es la variable creada que contiene información de los

siniestros en los que la compañía no tiene responsabilidad.

En el caso del segundo y tercer cuartil se analizan de forma conjunta ya que muestran una

importancia de las variables muy similar, con distribuciones de las observaciones

entregadas al modelo muy similares.

Ilustración 60: Importancia de variables Segundo y Tercer Cuartil




Para los cuartiles segundo y tercero, los que han sido identificados cómo costes generados

medios, se observa que el coste estimado por la compañía en un primer momento es

bastante acertado. Esta variable nos está indicando que la compañía estima bien los costes

medios, pero, en el caso de incidencias graves o leves, no dispone de un método tan

certero.

La diferencia entre la fecha del siniestro y el cierre de la incidencia es determinante para

este tipo de incidencias, por tanto, cómo se comentó anteriormente, tratar de cerrar una

incidencia lo antes posible ayudará a gestionar los recursos empleados para cubrir los

costes en gran medida.

Ilustración 61: Importancia de variables Cuarto Cuartil

Por último, se analiza la importancia de las variables para los siniestros categorizados

cómo de coste elevado, los que pertenecen a la clase del cuarto cuartil. En esta clase la

variable que más representa, aparte de la variable Gastos, la cuál algún experto podría

suponer desde un comienzo, es la variable incidencias de tipo F. Esto significa que este

tipo de incidencias corresponden a las incidencias de un mayor coste.



8 Conclusiones

La primera conclusión obtenida tras la realización de este proyecto es que sí es posible

diseñar un sistema de puntuación para gestionar los siniestros ocurridos en la compañía

Suez. Con esto se recalca que esta infraestructura diseñada puede permitir a la compañía

Suez anticipar reservas, o, conocer el grado de gravedad de una incidencia ocurrida para

tratar de realizar una toma de decisiones de forma ágil y cuantitativamente más precisa.

También se concluye que emplear la variable del coste total incurrido de los siniestros

para generar un sistema de “scoring” que consiga determinar la gravedad de un siniestro

en el momento de ocurrir es útil. Además, el utilizar una variable sintética, cómo se ha

hecho en este proyecto, a partir de los cuantiles, puede generar una ayuda a la

interpretabilidad y a evitar algún tipo de desbalanceo de las distintas categorías del

“score”. Esto supone una gran utilidad para crear nuevos sistemas de puntuación o

mejorar el sistema ya creado. Además, tras este proyecto se ha mostrado cómo generar

una variable sintética para realizar un “score” por lo que puede ser de gran utilidad para

generar en un futuro nuevas variables sintéticas con un mayor o menor número de

categorías, todo en función de la necesidad y de los datos de los que disponga Suez.

Tras el análisis y la realización de este proyecto se pone de manifiesto una posibilidad de

mejora en la recopilación de los datos por parte de Suez y, una operativa más homogénea

a la hora de recopilar datos de las incidencias en los distintos activos de los que dispone.

Esto generará una mejora en la calidad de los datos lo que permitirá crear sistemas más

precisos y más robustos que permitan a Suez desarrollar la gestión de sus incidencias de

una forma más eficiente.

Entre alguna de las recomendaciones que se pueden concluir para mejorar la calidad de

los datos se incluyen tratar de evitar que las variables numéricas presenten unas

distribuciones infladas en cero, esto significa, cómo se mostró en el análisis exploratorio,

que una gran cantidad del contenido de las variables numéricas presentaban el valor cero.

Una conclusión propia sería evaluar la importancia, con criterio de negocio, de estas

variables y averiguar cómo se están gestionando.

En las recomendaciones para las variables categóricas se incluye reducir la cardinalidad

de alguna de ellas, esto significa que el número de elementos o clases de una variable

categórica se traten de reducir. Esto permitirá generar unos modelos más estables y

robustos. Además, sería recomendable tener un sistema de recopilación de datos dónde


las opciones de las variables categóricas estén ya establecidas y la persona encargada de

introducir la incidencia tan sólo tenga que seleccionar la opción apropiada. Esto se

concluye tras haber encontrado en el análisis exploratorio clases, que se intuyen que eran

la misma, escritas de distintas formas (Por letras mayúsculas, tildes etc.).

Una última recomendación para el tratamiento de los datos es el tratamiento de los valores

nulos. En algunas variables se han encontrado porcentajes de observaciones de valores

nulos elevados, en algunas de ellas estos valores nulos sí aportaban información, ya que

eran por ejemplo una variable binaria donde la categoría “no” aparecía con un valor nulo,

por tanto, para facilitar el procesamiento de los datos se recomienda la utilización de algún

tipo de connotación que pueda acelerar el proceso de construcción de un modelo. Esto

supondría un ahorro de tiempo que se traduce en un ahorro de coste para la compañía.

En último lugar, se concluye que la utilización de algoritmos de clasificación basados en

métodos de conjunto (“ensemble”) y que emplean árboles de decisión para generar sus

predicciones muestran unos resultados, con el conjunto de datos, es decir con la

metodología de recopilación de datos que tiene diseñada la compañía Suez, que permiten

tener un sistema de puntuación interpretable, con gran explicabilidad, robusto y estable

ante cambios. Por tanto, se recomienda este tipo de algoritmos para este caso en particular.


9 Bibliografía

ArcGIS Pro 2.7 (2020) Esri, ‘Metodos de clasificación de datos’ disponible en

https://pro.arcgis.com/es/pro-app/latest/help/mapping/layer-properties/data-

classification-methods.htm [fecha de consulta: 11/06/2021)

Bodas, Diego. (2020) “Machine Learning” Data Science para finanzas, CUNEF.


Brownlee.J (2019): ‘A tour of Machine Learning Algorithms’. Disponible en

https://machinelearningmastery.com/a-tour-of-machine-learning-algorithms/ [fecha

consulta: 15/05/2021]

Fanjul-Hevia, A. and González-Manteiga, W. (2018). A comparative study of methods

for testing the equality of two or more ROC curves. Computational Statistics, 33:357–

377.

Fanjul-Hevia, A., González-Manteiga, W., and Pardo-Fernández, J. C. (2021). A non-

parametric test for comparing conditional ROC curves. Computational Statistics & Data

Analysis, 157:107146.

Géron, A. (2019) Hands-on Machine Learning with Scikit-Learn, Keras & TensonFlow.

Gravenstein Highway North, Sebastopol. OREILLY

Inácio de Carvalho, V., Jara, A., Hanson, T. E., and de Carvalho, M. (2013). Bayesian

nonparametric ROC regression modeling. Bayesian Analysis, 8(3):623–646.

Serafeim. L (2020): ‘ROC Curve explained using a COVID-19 hypothetical example:

Binary & Multi-Class’. Disponible en https://towardsdatascience.com/roc-curve-

explained-using-a-covid-19-hypothetical-example-binary-multi-class-classification-

bab188ea869c [fecha de consulta: 25/05/2021]

The Python Library Reference, jupyter-notebooks: sklearn, xgboost y yellow brick,

Pyodbc.

https://pro.arcgis.com/es/pro-app/latest/help/mapping/layer-properties/data-classification-methods.htm

https://pro.arcgis.com/es/pro-app/latest/help/mapping/layer-properties/data-classification-methods.htm

https://machinelearningmastery.com/a-tour-of-machine-learning-algorithms/

https://towardsdatascience.com/roc-curve-explained-using-a-covid-19-hypothetical-example-binary-multi-class-classification-bab188ea869c




Joaquin Amat, R (2020): “Random Forest con Python”. Disponible en

https://www.cienciadedatos.net/documentos/py08_random_forest_python.html

Rodriguez, Y (2018): “XgBoost”. Disponible en https://www.diegocalvo.es/xgboost/

https://www.cienciadedatos.net/documentos/py08_random_forest_python.html

https://www.diegocalvo.es/xgboost/


Anexo: Diccionario de Variables

Etiqueta original Nueva etiqueta Descripción de la variable

Id1 ID Numeración del 1 al 35.601

id ID_BBDD Numero de identificación de la incidencia

seguimiento SEGUIMIENTO Situación del seguimiento de la incidencia

creado F_CREACION Fecha de creación de la incidencia

modificado F_MODIFICADO Última fecha de modificación de la incidencia

INCIDENCIA___SINIESTRO TIPO_INDICENCIA Tipo (si es una incidencia F o G) o un siniestro

N_REFERENCIA REFERENCIA Número de referencia de la incidencia

RAMO RESP_CIVIL Tipo de responsabilidad civil (normal, ACSA, AGBAR)

FECHA_DE_SINIESTRO F_SINIESTRO Fecha en la que sucedió el siniestro

FECHA_DE_DECLARACION F_DECLARACION Fecha en la que se declaró el siniestro

Nº_POLIZA_COMPANIA N_POLIZA Número de póliza de la compañía

NOMBRE_EMPRESA N_EMPRESA Nombre de la empresa (75 empresas, Utes, aguas de…)

REFERENCIA_DEL_CLIENTE R_CLIENTE Referencia del cliente (comentario cualitativo para denominar al cliente de la incidencia, un

nombre, un código, una empresa, un lugar…)

REF__CIA REF_CIA Código de referencia de la incidencia

FECHA_RECLAMACION F_RECLAMACION Fecha de apertura de la reclamación

FECHA_DE_CIERRE F_CIERRE_RECLAMACION Fecha del cierre de la reclamación

SITUACION SITUACION Situación actual en la que se encuentra la incidencia (abierto, reabierto, cerrado)

SINIESTRORELACIONADO SINIESTRO_REL Siniestro relacionado con el siniestro actual (código, nombre del siniestro)

LUGAR LUGAR Luegar donde ha ocurrido el siniestro (dirección)

LOCALIDAD LOCALIDAD Localidad donde ha ocurrido el siniestro

PROVINCIA PROVINCIA Siniestro relacionado con el siniestro actual (código, nombre del siniestro)

CODIGO_POSTAL CP Código postal donde ha ocurrido el siniestro

DIRECCION_TERRITORIAL DIRECCION Dirección territorial donde ha ocurrido el siniestro

RESPONSABILIDAD RESPONSABILIDAD Se declara la responsabilidad de la causa del incidente (si, no, dudosa o compartida)

NATURALEZA NATURALEZA Daños patrimoniales puros, Daños materiales, Defensa y fianza, Daños personales

CAUSA CAUSA Causa o motivo que ha provocado la incidencia

DANOS_CAUSADOS DAÑOS Listado de daños, tanto mobiliario como de personas que ha causado la incidencia

_RECLAMACION_ASOCIADA_A_UNA_AVERIA_ RECLAMACION_AVERIA Si hay reclamación asociada o no

_ES_AVERIA_PROVOCADA_ AVERIA_PROV Si la averia es provocada o no

_DEBE_INTERVENIR_EL_PERITO_ PERITO Si debe intervenir el perito o no

FECHA_AVISO F_AVISO Fecha de aviso

LOCALIZACION_AVERIA LOCALIZACION_AVERIA Elemento que ha sido averiado a causa del incidente (Rotura tubería, rotura ramal…)

RAMAL RAMAL Si la avería provocada por el incidente se ha dado en el Ramal

TUBERIA TUBERIA Si la avería provocada por el incidente se ha dado en la tubería

ESTADO_DEL_TRAMITE ESTADO Estado actual del trámite (Pendiente, en negociación, inicial…)

TIPO_DE_RECLAMACION TIPO_RECLAMACIONTipo de reclamación que se ha pedido (Defensor del asegurador, amistosa, administrativa,

inicial, otras)PROCESO_JUDICIAL PROCESO_JUDICIAL Si ha existido o no proceso judicial a causa de la incidencia

TIPO_DE_PROCEDIMIENTO PROCEDIMIENTO Tipo de proceso judicial (civil, penal, contencioso, laboral)

LOCALIDAD_JUZGADO LOCALIDAD Localidad en la que se sitúa el juzgado

JUZGADO JUZGADO Orden o nivel de juzgado (audiencia, juzgado…)

PROFESIONALES_NOMBRE PROFESIONALES_NOMBRE Nombre de los profesionales

PROFESIONALES_PRIMER_APELLIDO PROFESIONALES_APELLIDO Apellido de los profesionales

RESERVA_DEDUCIBLE RESERVA_DEDUCIBLE Canitdad (en euros) de la reserva deducible

RESERVA_ASEGURADOR RESERVA_ASEGURADOR Cantidad (en euros) de la reserva del asegurador

PAGOS_DEDUCIBLE PAGOS_DEDUCIBLE Pago reducible

PAGOS_ASEGURADOR PAGOS_ASEGURADOR Pagos del asegurador

GASTOS GASTOS Gastos de la incidencia

TOTAL_COSTE COSTE Coste total de la incidencia

ABIERTO___CERRADO PROCESO_AB_CER Si el proceso judicial se encuentra actualmente abierto o cerrado

COSTE_ESTIMADO COSTE_ESTIMADO Coste estimado de la incidencia

lat LAT Latitud del lugar donde se encuentra el incidente

long LONG Longitud del lugar donde se encuentra el incidente

SCORING APLICADO A LA GESTION DE RIESGOS DE …

Documents

Transcript of SCORING APLICADO A LA GESTION DE RIESGOS DE …