SCORING APLICADO A LA GESTION DE RIESGOS DE …
Transcript of SCORING APLICADO A LA GESTION DE RIESGOS DE …
SCORING APLICADO A LA GESTION
DE RIESGOS DE
INFRAESTRUCTURAS
Scoring aplicado a la gestión del riesgo en infraestructuras Página 2 de 67
COLEGIO UNIVERSITARIO DE ESTUDIOS FINANCIEROS MÁSTER EN DATA SCIENCE FOR FINANCE
Scoring aplicados a la gestión de riesgos e infraestructuras
Realizado por:
D. Gonzalo Carretero Ursúa
D. Sergio Casares Fernández
D. Francisco del Val Yagüe
Dª Inés Martínez Pereda
Dirigido por:
Prof. D. Julián Carlos Oliver Raboso
CUNEF (Colegio Universitario de Estudios Financieros)
MADRID, a 18 de junio de 2021
Scoring aplicado a la gestión del riesgo en infraestructuras Página 3 de 67
Contenido
1. Introducción ............................................................................................................... 6
1.1. Introducción al trabajo .......................................................................................... 6
1.2. Introducción a Suez ................................................................................................ 9
2. Universo de modelos para aplicar .......................................................................... 10
3. Marco teórico (desarrollo de modelos) .................................................................. 12
3.1. Algoritmos agrupados por estilo de aprendizaje ............................................... 12
3.1.1. Aprendizaje supervisado: ................................................................................ 12
3.1.2. Aprendizaje no supervisado............................................................................. 13
3.2. Algoritmos de redes neuronales artificiales ....................................................... 13
3.3. Reducción de la dimensión .................................................................................. 14
3.4. Evaluación del modelo ......................................................................................... 14
3.3.1. “Cross Validation” ......................................................................................... 14
3.3.2. Matriz de confusión ......................................................................................... 15
3.3.4. Métricas de evaluación .................................................................................... 15
3.3.5. Curva de ROC & AUC .................................................................................... 16
4. Datos utilizados para el desarrollo del proyecto ................................................... 18
5. Almacenamiento, procesamiento y “data enviroment” ....................................... 20
6. Análisis exploratorio de datos ................................................................................ 24
6.1. Variables numéricas ............................................................................................. 30
6.2. Variables categóricas ............................................................................................ 39
6.3. Respuesta a hipótesis complementarias .............................................................. 45
7. Pre-Procesamiento y Modelización ........................................................................ 50
7.1. Pre-Procesamiento ................................................................................................ 50
7.2. Modelización ......................................................................................................... 52
8. Conclusiones ............................................................................................................. 63
9. Bibliografía ............................................................................................................... 65
Scoring aplicado a la gestión del riesgo en infraestructuras Página 4 de 67
Índice de ilustraciones
Ilustración 1: Universo de modelos de Machine Learning ............................................................. 10
Ilustración 2: Algoritmos basados en aprendizaje supervisado ...................................................... 12
Ilustración 3: Algoritmos basados en aprendizaje no supervisado ................................................. 13
Ilustración 4: Matriz de confusión ................................................................................................. 15
Ilustración 5: Curva ROC ............................................................................................................... 16
Ilustración 6: Curva AUC .............................................................................................................. 17
Ilustración 7: Conjunto de integraciones realizadas entre entornos ............................................... 20
Ilustración 8: Conexión de Microsoft SQL Server a Jupyter Notebook ........................................ 21
Ilustración 9:Estructura de uso de otro lenguaje de programación en el servidor SQL ................. 22
Ilustración 10: Análisis de valores nulos de las variables del modelo ........................................... 25
Ilustración 11: Filtrado de observaciones de la variable ESTADO_DEL_TRÁMITE .................. 26
Ilustración 12: Filtrado de observaciones de la variable ESTADO_DEL_TRÁMITE .................. 27
Ilustración 13: Distribución de la variable TOTAL_COSTE......................................................... 27
Ilustración 14: Función de Densidad de la Variable TOTAL_COSTE .......................................... 28
Ilustración 15: Distribución de valores por cuartiles y de manera conjunta .................................. 28
Ilustración 16: Distribución en 3D de valores del Gasto, del coste estimado y del coste total ...... 29
Ilustración 17: Conjunto final de variables .................................................................................... 30
Ilustración 18: Geolocalización del conjunto de incidencias recogidas ......................................... 31
Ilustración 19: Correlación variables numéricas ............................................................................ 32
Ilustración 20: Histogramas de las variables RESERVA_DEDUCIBLE,
RESERVA_ASEGURADOR y PAGOS_DEDUCIDBLE ............................................................ 33
Ilustración 21: Histogramas de las variables PAGOS_ASEGURADOR, Gastos y
TOTAL_COSTE ............................................................................................................................ 34
Ilustración 22: Histogramas de las variables COSTE_ESTIMADO, lat y long ............................. 36
Ilustración 23: Histogramas de las variables Diff_cierre_siniestro, Diff_cierre_declaracion y
Diff_siniestro_declaracion ............................................................................................................. 37
Ilustración 24: Pairplot del conjunto de variables numéricas ......................................................... 38
Ilustración 25: Distribución de incidencias por provincia .............................................................. 39
Ilustración 26: Distribución de incidencias por RESPONSABILIDAD ........................................ 40
Ilustración 27: Distribución de incidencias por ES_AVERIA_PROVOCADA ............................ 40
Ilustración 28: Distribución de incidencias por NATURALEZA .................................................. 41
Ilustración 29: Distribución de incidencias por
RECLAMACIÓN_ASOCIADA_A_UNA_AVERIA ................................................................... 41
Ilustración 30: Distribución de incidencias por TIPO_DE_RECLAMACIÓN ............................. 42
Ilustración 31: Distribución de incidencias por PROCESO_JUDICIAL ....................................... 42
Ilustración 32: TOTAL_COSTE entre AVERÍA_PROVOCADA y por NATURALEZA ........... 43
Ilustración 33: TOTAL_COSTE entre AVERÍA_PROVOCADA y por NATURALEZA ........... 44
Ilustración 34: TOTAL_COSTE entre AVERÍA_PROVOCADA y por NATURALEZA ........... 44
Ilustración 35: ¿Cuál es el coste medio por tipo de incidencia?..................................................... 45
Ilustración 36: ¿Cuál es el coste medio por provincia?: ................................................................. 46
Ilustración 37: ¿Cuál es el coste medio por daños causados? ........................................................ 46
Ilustración 38: ¿Cuál es el coste medio por tipo de naturaleza?..................................................... 47
Ilustración 39: ¿Cuál es el coste medio por tipo de juzgado? ........................................................ 47
Ilustración 40: ¿Cuál es el coste medio si la avería es provocada? ................................................ 47
Ilustración 41: ¿Cuál es el coste medio por tipo de responsabilidad? ............................................ 47
Ilustración 42: ¿Cuál es el coste medio por tipo de estado de trámite? .......................................... 48
Ilustración 43: ¿Cuál es el coste medio por tipo de reclamación? ................................................. 48
Ilustración 44: ¿Cuál es el coste medio por tipo de causa? ............................................................ 48
Ilustración 45: Variables seleccionadas para la modelización ....................................................... 50
Ilustración 46: Nodo inicial del modelo ......................................................................................... 53
Ilustración 47: Extracción parcial del modelo obtenido ................................................................. 53
Ilustración 48: Exactitud del modelo obtenido............................................................................... 54
Scoring aplicado a la gestión del riesgo en infraestructuras Página 5 de 67
Ilustración 49: Estadísticos del modelo obtenido ........................................................................... 54
Ilustración 50: Matriz de Confusión e Ilustración 51: Matriz de confusión Normalizada 55
Ilustración 52: Curva ROC por Cuartiles ....................................................................................... 56
Ilustración 53: Distribución probabilidad Primer y Segundo Cuartil ............................................. 57
Ilustración 54: Distribución probabilidad Tercer y Cuarto Cuartil ................................................ 57
Ilustración 55: Importancia de cada variable en función de la métrica “Weight”. ......................... 58
Ilustración 56: Evaluación de la importancia de las variables ....................................................... 58
Ilustración 57: Importancia de variables genérica en función de la métrica “Gain” ...................... 59
Ilustración 58: Importancia de variables ........................................................................................ 60
Ilustración 59: Importancia de variables Primer Cuartil ................................................................ 61
Ilustración 60: Importancia de variables Segundo y Tercer Cuartil ............................................... 61
Ilustración 61: Importancia de variables Cuarto Cuartil ................................................................ 62
Scoring aplicado a la gestión del riesgo en infraestructuras Página 6 de 67
1 Introducción
1.1 Introducción al trabajo
El presente trabajo pretende realizar un estudio en relación con las posibles técnicas de
“scoring” a partir de la recogida de datos facilitados por la compañía francesa Suez.
El primer paso es reunirse con el propietario de los datos para proponerle el proyecto a
realizar y poder conseguir datos de incidencias ocurridas en su actividad.
Una vez entregados los datos por parte de la compañía, se procede a realizar un análisis
exploratorio de estos con la finalidad de conocer las variables y sus características dentro
del conjunto de datos; además, por medio diferentes técnicas, tanto de análisis como de
visualización, se tratará de encontrar “insights” que sean capaz de explicar el
comportamiento de los datos o que puedan aportar valor a la compañía.
También se realiza un estudio de valores ausentes por cada una de las variables para
entender por qué son valores nulos y el porcentaje de cada variable con estos valores. Por
último, en las variables numéricas, se realiza un análisis de valores atípicos que contengan
las variables con el objetivo de entender si existen algún tipo de siniestros de características
especiales que puedan suponer algún coste mayor. Se ha estudiado la posibilidad de realizar
técnicas de reducción de la dimensión, ya que en el conjunto de datos disponibles
conteníamos un número elevado de observaciones y una cantidad de variables
considerable. Tras la evaluación de distintas medidas, que se expondrán en el desarrollo
del informe, se ha descartado realizar cualquier proceso de reducción de la dimensión.
Tras este estudio se determina la variable a partir de la cual será creado el “score” o
puntuación del siniestro. En este caso se empleará la variable “Total Coste” que contiene
la información sobre la cuantía total de cada incidencia en concreto. Para proceder a crear
la variable dependiente se crea una nueva variable a partir de los cuartiles de esta variable.
Por tanto, la variable dependiente creada contendrá las siguientes categorías:
- Primer Cuartil (Entendida cómo las incidencias de menor coste)
- Segundo Cuartil (Entendida cómo incidencias de coste medio-bajo)
- Tercer Cuartil (Entendida cómo los siniestros de cuantía media-alta)
- Cuarto Cuartil (Entendida cómo siniestros de grandes magnitudes y coste elevado)
Scoring aplicado a la gestión del riesgo en infraestructuras Página 7 de 67
Una vez realizado el análisis exploratorio y definido el “Score” que se va a emplear se
procede a realizar diversas técnicas de preprocesamiento del resto de variables y a realizar
una ingeniería de variables.
A lo largo del proyecto se prueban distintos preprocesamientos para evaluar el
comportamiento de los modelos de “score” o puntuación, entre los distintos
preprocesamientos de los datos se han empleado técnicas de codificación de variables cómo
“One Hot Encoding” o “Label Encoding”, técnicas para escalar y normalizar las variables
numéricas, diversos tratamientos de los valores atípicos, conocidos como “outliers” etc.
Para la ingeniería de variables también han sido probadas distintas técnicas. Con estas
distintas pruebas se pretende evaluar el comportamiento de los modelos de “score” con
cada una de las variables.
Para seleccionar las variables se han tenido en cuenta la cardinalidad, el porcentaje de
valores nulos por cada variable, presencia de valores atípicos y se han empleado modelos
de regularización como el Lasso.
La finalidad de probar distintos preprocesamientos e ingeniarías de variables es mejorar la
exactitud y la interpretabilidad de los modelos creados.
Tras tener los distintos conjuntos de datos, una vez ya tratados, se procede a separar una
parte de entrenamiento y una parte de test, con la finalidad de poder evaluar el
comportamiento y la usabilidad de cada uno de los modelos para este caso en concreto.
Se han probado distintas particiones, 80% entrenamiento y 20% test, 90% entrenamiento y
10% test, 75% entrenamiento y 25% test. Finalmente, para evaluación final la partición es
de un 80% para realizar el entrenamiento y un 20% para realizar el test.
Para realizar el modelo de “score” se han empleado diferentes algoritmos supervisados y
de deep learning. Entre ellos se han empleado de la familia de los árboles de decisión el
Random Forest y el XGBoost, y, de algoritmos de redes neuronales se ha utilizado el Multi-
Layer Perceptron Classifier.
El objetivo perseguido en este trabajo consiste en realizar un modelo que pueda indicarle a
la compañía, en el momento del suceso de un siniestro, una estimación fiable del coste que
le va a suponer dicha incidencia. Este tipo de modelos puede ayudar a acumular unas
reservas monetarias más precisas para cubrir el siniestro, con el objetivo de hacer una
Scoring aplicado a la gestión del riesgo en infraestructuras Página 8 de 67
gestión más eficiente de los recursos de los que dispone la compañía para cubrir las
incidencias de la actividad ordinaria.
Scoring aplicado a la gestión del riesgo en infraestructuras Página 9 de 67
1.2 Introducción a Suez
Suez es un grupo francés que opera principalmente en la industria de la distribución y
tratamiento de aguas, y en la industria de gestión de tratamiento de residuos y
mantenimiento.
Entre las actividades que desarrolla la empresa, cabe destacar las siguientes:
- Producción y distribución de agua potable
- Tratamiento de agua residual
- Diseño y fabricación de plantas de depuración de aguas
- Plantas desaladoras
- Recicla e incinera residuos en almacenes de gestión
- Realiza la descontaminación de tierras contaminadas
Está presente en los cinco continentes y apoya a las administraciones e industrias locales
en la gestión eficiente, sostenible e innovadora de los recursos.
Su presencia en España se basa en imaginar soluciones innovadoras para acompañar a sus
clientes en la transición de un modelo lineal que sobre consume los recursos hacia una
economía circular que los recicla y los valoriza. Por lo tanto, a través de la innovación, la
economía circular y la promoción del diálogo, contribuye al desarrollo sostenible en las
comunidades donde está presente.
La estrategia que sigue está basada en cuatro pilares: digitalización, innovación,
sostenibilidad y compromiso social.
En España cuentan con 10.959 profesionales los cuales están presentes en 1.069 municipios
en los cuales dependiendo de la Comunidad Autónoma en la que se encuentre tiene unas
concesiones con otras empresas y además cuentan con 1.509 clientes en mercado privado.
Opera en más de 800 instalaciones de diferente tipología, como Estaciones de Tratamiento
de Agua Potable (ETAPs), Estaciones Depuradoras de Aguas Residuales (EDARs) o
Instalaciones Desaladoras de Agua de Mar (IDAMs). A través de estas infraestructuras, el
Grupo presta diversos servicios y abastece a más de 14 millones de personas. Nuestras
innovadoras soluciones permiten valorizar hasta el 74% de los residuos generados y
garantizar la preservación de la biodiversidad en aquellas instalaciones ubicadas en
espacios sensibles. Contribuyendo de esta forma al desarrollo sostenible allí donde está
presente.1
1 https://www.suez.es/es-es
Scoring aplicado a la gestión del riesgo en infraestructuras Página 10 de 67
2 Universo de modelos para aplicar
Para el desarrollo de un sistema de “scoring” se pueden emplear diversas técnicas. Para
contextualizar los distintos métodos que se pueden llevar a cabo para la elaboración del
mismo se muestra una breve introducción sobre el conjunto de métodos que se han
planteado en un primer momento para la creación de nuestro sistema de puntuación.
Las circunferencias en rojo se incorporan al gráfico para poder visualizar, de forma ágil,
los métodos que se han considerado más importantes a la hora de desarrollar el “scoring”
para las incidencias de la compañía Suez.
Ilustración 1: Universo de modelos de Machine Learning
Jarroba (2020): Algoritmos de aprendizaje y conceptos del (Deep) machine learning.
Scoring aplicado a la gestión del riesgo en infraestructuras Página 11 de 67
Esta imagen permite guiarse a la hora de elaborar el sistema de “scoring” que se pretende
en la elaboración de este trabajo. Para ello, se tienen en cuenta diversas técnicas que pueden
ser de gran utilidad para los distintos procesos llevados a cabo en el desarrollo del proyecto.
Los modelos se dividen principalmente en cinco grupos:
• Machine Learning Supervisado
• Machine Learning No Supervisado
• Ensemble Learning
• Aprendizaje por refuerzo
• Redes Neuronales y Deep Learning
Scoring aplicado a la gestión del riesgo en infraestructuras Página 12 de 67
3 Marco teórico (desarrollo de modelos)
3.1. Algoritmos agrupados por estilo de aprendizaje
3.1.1. Aprendizaje supervisado:
En el caso del aprendizaje supervisado los datos de entrada tienen una finalidad que
es clasificar o predecir una variable dependiente.
Los problemas son de clasificación y regresión, es decir que buscan clasificar entre
unas clases ya predeterminadas o predecir un valor numérico. El objetivo es
encontrar la función que mejor adapte las variables independientes a la variable que
se trata de predecir.
Algunos de los algoritmos supervisados más conocidos son Regresión logística,
árboles de decisión y algoritmos derivados de estos, como el Random Forest o el
XGBoost, o máquinas de vector soporte, conocido por su término anglosajón
“Support Vector Machines”.
Ilustración 2: Algoritmos basados en aprendizaje supervisado
Fuente: Brownlee. J (2019): “A Tour of Machine Learning Algorithms”
Las diferentes técnicas de aprendizaje supervisado resultan de gran utilidad a la
hora de desarrollar un sistema de “scoring” de la gravedad de un siniestro. Es, por
tanto, que el sistema creado en este proyecto está basado en modelos de “machine
learning” supervisado.
Scoring aplicado a la gestión del riesgo en infraestructuras Página 13 de 67
3.1.2. Aprendizaje no supervisado
Estos algoritmos se caracterizan en que los datos de entrada no están etiquetados,
esto significa que no tenemos ninguna forma de identificar si pertenecen a algún
grupo determinado con características propias.
Algunos de los algoritmos de aprendizaje no supervisado de uso más frecuente
son K-Medias, K-Modes, PAM.
Ilustración 3: Algoritmos basados en aprendizaje no supervisado
Fuente: Brownlee. J (2019): “A Tour of Machine Learning Algorithms”
A pesar de haber realizado pruebas con aprendizaje no supervisado en el conjunto
de datos disponibles, no se ha llegado a encontrar una diferenciación de clases de
incidencias aceptables para poder afirmar la existencia de grupos claramente
diferenciados.
3.2. Algoritmos de redes neuronales artificiales
Una red neuronal artificial es un grupo interconectado de nodos que trata de simular
a la red de neuronas en un cerebro biológico. Cada nodo representa una neurona
artificial que se conectan desde la salida de una neurona a la entrada de otra neurona.
Se emplean para problemas de regresión y clasificación, aunque están compuestas
por cientos de algoritmos y variaciones que sirven para cualquier tipo de problema.
Los algoritmos de redes neuronales artificiales más populares son “Perceptron” y
Descenso de gradiente.
Scoring aplicado a la gestión del riesgo en infraestructuras Página 14 de 67
3.3. Reducción de la dimensión
La reducción de la dimensión es una técnica que nos permite averiguar la estructura
de los datos, pero en este caso de una manera no supervisada para describir los datos
lo máximo posible usando menos información.
o Análisis de componentes principales (PCA): es una técnica utilizada para
describir un conjunto de datos en términos de nuevas variables no
correlacionadas.
o Análisis Factorial
o Análisis de Correspondencias
o Análisis discriminante lineal (LDA): reconocimiento de patrones para
encontrar una combinación lineal de características.
Estás técnicas son de gran utilidad para un proyecto de “scoring” ya que pueden
facilitar el entrenamiento del modelo, agilizar los procesos de evaluación de los
mismo y, a su vez, hacer que el conjunto de variables y el modelo pueda ofrecer
una interpretabilidad más sencilla que permita realizar una toma de decisiones de
forma más rápida.
3.4. Evaluación del modelo
3.3.1. “Cross Validation”
El propósito de la validación cruzada es la verificación del modelo, y, por
consiguiente, evaluar la presencia de sobre ajuste conocido como “overfitting” o
infraajuste, conocido como “underfitting”. Una vez que hemos utilizado la
validación cruzada para seleccionar el modelo de mejor rendimiento, entrenamos
ese modelo con todos los datos.
Es de gran utilidad para encontrar los parámetros que configuren el algoritmo de la
mejor forma posible para el caso en el que se está empleando.
Scoring aplicado a la gestión del riesgo en infraestructuras Página 15 de 67
Esta técnica ha sido empleada en este proyecto para la búsqueda de los parámetros
que mejor configuraban cada algoritmo. Con esto se ha pretendido evitar problemas
de estabilidad y fiabilidad del modelo para poder ser puesto en producción.
3.3.2. Matriz de confusión
Aplica a problemas de clasificación. Permite visualizar el desempeño de un
algoritmo de aprendizaje supervisado. Es importante contrastar la predicción con la
realidad.
La finalidad es evaluar la forma en la que está clasificando un algoritmo y medir el
grado de ajuste con el objetivo que se propone al comienzo de un proyecto.
Ilustración 4: Matriz de confusión
Fuente: Bodas, Diego. “Machine Learning” Data Science para finanzas, 5 de mayo de 2020, CUNEF.
Presentación en Microsoft PowerPoint.
3.3.4. Métricas de evaluación
A continuación, se muestran las métricas que se han empleado para ajustar la
calidad del modelo:
“Accuracy”: Proporción entre el número de clasificados correctamente y número
total de observaciones a predecir.
Scoring aplicado a la gestión del riesgo en infraestructuras Página 16 de 67
Sensibilidad o “Recall”: Proporción de casos positivos que han sido identificados
correctamente.
Especificidad: Proporción de negativos que han sido identificados correctamente.
“Precision”: Proporción de clasificados cómo positivos y que son realmente
pertenecientes a esta clase.
3.3.5. Curva de ROC & AUC
Para finalizar con este capítulo, vamos a definir las siguientes métricas de evaluación de
un modelo:
o Curva ROC: es una representación gráfica de la sensibilidad frente a la
especificidad para un sistema clasificador según se varía el umbral de
discriminación. En otras palabras, representa TPR frente a FPR en
diferentes umbrales de clasificación. Reducir el umbral de clasificación
clasifica más elementos como positivos, por lo que aumentarán tanto los
falsos positivos como los verdaderos positivos.
Ilustración 5: Curva ROC
Fuente: Bodas, Diego. “Machine Learning” Data Science para finanzas, 5 de mayo de 2020, CUNEF.
Presentación en Microsoft PowerPoint.
Scoring aplicado a la gestión del riesgo en infraestructuras Página 17 de 67
o AUC, por sus siglas en inglés “Area Under Curve”: mide el área
bidimensional por debajo de la curva ROC completa.
Ilustración 6: Curva AUC
Fuente: Bodas, Diego. “Machine Learning” Data Science para finanzas, 5 de mayo de 2020, CUNEF.
Presentación en Microsoft PowerPoint.
Scoring aplicado a la gestión del riesgo en infraestructuras Página 18 de 67
4 Datos utilizados para el desarrollo del proyecto
Tras reunirnos con la compañía francesa SUEZ S.A conseguimos recopilar los datos de
toda España en relación con las incidencias y distintas averías correspondientes con el
suministro, canalización y tratamiento de agua.
La base de datos recibida, en formato “xlsx”, cuenta con un total de 35.601 observaciones
y 52 variables. La información que proporciona el conjunto de variables trata de aportar la
mayor información posible de cada una de las incidencias ocurridas, esto nos da a entender
que la finalidad de esta base de datos para la empresa no tiene un carácter analítico sino
informativo o documentario.
La información que aportan las variables se puede dividir en diferentes categorías:
Variables que tratan el seguimiento de la incidencia, como puede ser el número de
identificación de la incidencia, número de la incidencia, número de póliza de la compañía
etc. Este conjunto de variables aporta información a la empresa, pero no a la hora de realizar
un análisis de los datos o un modelo predictivo.
Variables que aportan información geográfica, como puede ser la localidad, latitud,
longitud, la provincia, el código postal, el lugar etc. Esta información puede aportar valor
tanto a la empresa como en la realización del trabajo (aunque debido a su cardinalidad,
varias deban ser obviadas).
Variables que aportan información sobre fechas, como la fecha de cierre del siniestro, fecha
de declaración del siniestro, fecha de aviso etc. Este conjunto de variables será analizado
de manera individual para poder obtener más información a partir de los datos que nos
ofrecen.
Variables relacionadas con las características de la incidencia, como el tipo de incidencia,
si la avería es provocada, si ha habido juicio, si debe intervenir el perito etc. Variables que
seguramente aporten bastante información a nivel de análisis de datos.
Variables relacionadas con el juicio celebrado, como el nombre del profesional, apellidos,
el tipo de juicio que ha sido, localidad del juzgado etc. Es información que puede aportar
valor, excepto aquella que hace referencia a información personal, pero cuya importancia
debe ser estudiada.
Por último, las variables relacionadas con el coste tanto del siniestro como los pagos de la
aseguradora (donde se encuentra nuestra variable “target”). Esta información es de vital
Scoring aplicado a la gestión del riesgo en infraestructuras Página 19 de 67
importancia ya que es la que nos va a ofrecer toda la información económica que afecta de
verdad al negocio. Esta información es la que se usará para poder obtener diferencias claves
entre el resto de las variables anteriormente descritas.
En apartados posteriores de este trabajo se llevará a cabo tanto el análisis descriptivo de los
datos como la modelización de estos con el fin de poder clasificar las observaciones en
función de nuestra variable objetivo (total coste).
Scoring aplicado a la gestión del riesgo en infraestructuras Página 20 de 67
5 Almacenamiento, procesamiento y “data enviroment”
La base de datos proporcionada por la empresa, en formato “xlsx”, ha sido transferida y
almacenada en un servidor de SQL (SQL server), desde dicho servidor, cuyo lenguaje de
programación es Structure Query Language (SQL), se han realizado diferentes
integraciones con otras plataformas, como Jupyter Notebook, para la manipulación de los
datos.
Una vez que la base de datos ha sido almacenada en el servidor y manipulada en Jupyter
Notebook, de manera local, se ha llevado a cabo la ejecución del código creado en Jupyter
Notebook dentro de Microsoft Azure Data Studio.
La estructura, de manera visual, del conjunto de entornos utilizados es la siguiente:
Ilustración 7: Conjunto de integraciones realizadas entre entornos
Fuente: Elaboración propia
Scoring aplicado a la gestión del riesgo en infraestructuras Página 21 de 67
El primer paso, la importación de la base de datos se ha realizado mediante la función
“importar” dentro del apartado de “Tareas” en el servidor de SQL (SQL server)
El segundo paso, la integración de Microsoft SQL Server (además de la base de datos)
desde Jupyter Notebook con la finalidad de utilizar lenguaje Python en el desarrollo del
proyecto. Para poder trabajar y manipular los datos de manera local se ha realizado
mediante el motor Pyodbc, el cual se trata de un entorno para bases de datos SQL.
Por medio de las diferentes credenciales
• Servidor: “server”
• Base de datos: “database”
• Nombre de usuario: “username”
• Contraseña: “password”
y por medio del motor pyodbc, se establecerá la integración y una vez conectado Microsoft
SQL server dentro de nuestro entorno Jupyter Notebook, mediante una “query” de SQL se
realizarán consultas a la BBDD con la finalidad de extraer muestras o la totalidad de los
datos.
Ilustración 8: Conexión de Microsoft SQL Server a Jupyter Notebook
Fuente: Oliver, Julián. “BBDD Relacionales - SQL” Data Science para finanzas, 17 de junio de
2021, CUNEF. Presentación en Microsoft PowerPoint.
Credenciales privadas Cr
ed
en
cia
les
pri
va
da
s
Scoring aplicado a la gestión del riesgo en infraestructuras Página 22 de 67
El tercer punto se centra en la ejecución del lenguaje Python dentro en Microsoft Azure
Data Studio (MADS), este proceso es el último paso para poder poner en producción
nuestro modelo dentro de un servidor (sin tener que utilizar nuestros recursos locales).
La estructura que presenta el código a desarrollar dentro de MADS se realiza de la siguiente
manera:
Ilustración 9:Estructura de uso de otro lenguaje de programación en el servidor SQL
Fuente: Oliver, Julián. “BBDD Relacionales - SQL” Data Science para finanzas, 17 de mayo de 2021,
CUNEF. Presentación en Microsoft PowerPoint.
La estructura que se sigue en este proceso consta de las siguientes partes:
• “EXECUTE”: programa “external script” que permite la inicialización del proceso
de uso de otro lenguaje dentro de Microsoft Azure Data Studio
• @input_data_1 = con el fin de seleccionar los datos que se van a utilizar
• @language = para seleccionar el idioma de lenguaje (R, Python…)
• @Script = el código, en el lenguaje anteriormente especificado, que se quiera
realizar
• WITH RESULT SETS = la salida que se quiere obtener
‘Python’
Scoring aplicado a la gestión del riesgo en infraestructuras Página 23 de 67
Este conjunto de pasos realizados representa las integraciones de plataformas realizadas en
el Trabajo de Fin de Máster que han tenido como finalidad, además de poder aplicar de
manera práctica el contenido aprendido en las diferentes asignaturas del Máster, la mejora
en la eficiencia y uso de los recursos de los que se disponen, ya que es preferible trabajar
en servidores externos que utilizar los recursos locales limitados de los que el usuario
dispone.
Scoring aplicado a la gestión del riesgo en infraestructuras Página 24 de 67
6 Análisis exploratorio de datos
El análisis exploratorio de datos (o estadística descriptiva) tiene por objetivo identificar las
principales características de un conjunto de datos mediante estadísticos descriptivos,
gráficos para visualizar y cruces entre variables. Es por eso por lo que en este apartado se
tratará de analizar, entender y visualizar el conjunto de datos recibidos por la empresa.
La finalidad del estudio (aparte de analizar, entender y visualizar los datos) será el de iniciar
todo el proceso de limpieza, transformación y preprocesamiento de los datos para poder
ser posteriormente utilizados en el desarrollo de los modelos.
El primer paso antes de comenzar con el análisis de datos es el de crear un diccionario de
variables donde se han recogido el nombre de esas variables, la transformación en el
nombre que se va a realizar con el fin de trabajar mejor con esa variable y el significado de
esa variable, dicho diccionario se anexará junto con el trabajo.
El primer paso para comenzar el análisis exploratorio ha sido realizar un análisis de los
valores nulos que se presentan por cada una de las variables con el objetivo de averiguar el
estado de la base de datos entregada y si estos valores nulos pudiesen dar algún tipo de
información. Dicho análisis se encuentra a continuación en la siguiente tabla:
Scoring aplicado a la gestión del riesgo en infraestructuras Página 25 de 67
Ilustración 10: Análisis de valores nulos de las variables del modelo
Fuente: Elaboración Propia
Nombre de la variable Nulos Total %Id1 0 35.601 0,0%id 0 35.601 0,0%
seguimiento 0 35.601 0,0%creado 0 35.601 0,0%
modificado 0 35.601 0,0%INCIDENCIA___SINIESTRO 0 35.601 0,0%
N_REFERENCIA 0 35.601 0,0%RAMO 0 35.601 0,0%
FECHA_DE_SINIESTRO 0 35.601 0,0%FECHA_DE_DECLARACION 0 35.601 0,0%
Nº_POLIZA_COMPANIA 0 35.601 0,0%NOMBRE_EMPRESA 0 35.601 0,0%
REFERENCIA_DEL_CLIENTE 24.056 35.601 67,6%REF__CIA 26.511 35.601 74,5%
FECHA_RECLAMACION 35.575 35.601 99,9%FECHA_DE_CIERRE 2.907 35.601 8,2%
SITUACION 0 35.601 0,0%SINIESTRORELACIONADO 33.797 35.601 94,9%
LUGAR 0 35.601 0,0%LOCALIDAD 0 35.601 0,0%PROVINCIA 4.056 35.601 11,4%
CODIGO_POSTAL 35.601 35.601 100,0%DIRECCION_TERRITORIAL 752 35.601 2,1%
RESPONSABILIDAD 624 35.601 1,8%NATURALEZA 144 35.601 0,4%
CAUSA 21 35.601 0,1%DANOS_CAUSADOS 1.295 35.601 3,6%
_RECLAMACION_ASOCIADA_A_UNA_AVERIA_ 18.490 35.601 51,9%_ES_AVERIA_PROVOCADA_ 410 35.601 1,2%
_DEBE_INTERVENIR_EL_PERITO_ 35.600 35.601 100,0%FECHA_AVISO 35.601 35.601 100,0%
LOCALIZACION_AVERIA 19.585 35.601 55,0%RAMAL 28.546 35.601 80,2%
TUBERIA 26.289 35.601 73,8%ESTADO_DEL_TRAMITE 7.991 35.601 22,5%
TIPO_DE_RECLAMACION 743 35.601 2,1%PROCESO_JUDICIAL 0 35.601 0,0%
TIPO_DE_PROCEDIMIENTO 30.984 35.601 87,0%LOCALIDAD_JUZGADO 31.018 35.601 87,1%
JUZGADO 30.984 35.601 87,0%PROFESIONALES_NOMBRE 35.601 35.601 100,0%
PROFESIONALES_PRIMER_APELLIDO 35.601 35.601 100,0%RESERVA_DEDUCIBLE 0 35.601 0,0%
RESERVA_ASEGURADOR 0 35.601 0,0%PAGOS_DEDUCIBLE 0 35.601 0,0%
PAGOS_ASEGURADOR 0 35.601 0,0%GASTOS 0 35.601 0,0%
TOTAL_COSTE 0 35.601 0,0%ABIERTO___CERRADO 0 35.601 0,0%
COSTE_ESTIMADO 0 35.601 0,0%lat 337 35.601 1,0%
long 337 35.601 1,0%
Scoring aplicado a la gestión del riesgo en infraestructuras Página 26 de 67
Tras el análisis de valores nulos se ha decidido eliminar una serie de variables por carecer
de valor tanto analítico como descriptivo. Dichas variables y su motivo se describen a
continuación:
Ilustración 11: Filtrado de observaciones de la variable ESTADO_DEL_TRÁMITE
Fuente: Elaboración Propia
Además de filtrar y eliminar diferentes variables de nuestro modelo, también se filtrará y
se eliminará un conjunto de observaciones. La variable ESTADO_DEL_TRÁMITE indica
la situación en la que se encuentra la incidencia, es por eso que se ha decidido filtrar el
conjunto de observaciones para tener únicamente aquellas que ya han finalizado.
Variable Motivo de eliminación de variable
Id1 No aporta información - Número de serie
id No aporta información
seguimiento Solo presenta una categoría
creado No aporta información
modificado No aporta información - Comentario interno
N_REFERENCIA No aporta información - Número de serie
RAMO Variable desbalanceada
Nº_POLIZA_COMPANIA No aporta información - Número de serie
NOMBRE_EMPRESA No aporta información al modelo
REFERENCIA_DEL_CLIENTE No aporta información - Número de serie
REF__CIA No aporta información - Número de serie
FECHA_RECLAMACION No aporta información
SITUACION Solo presenta una categoría
DANOS_CAUSADOS Variable desbalanceada
CAUSA Variable desbalanceada
SINIESTRORELACIONADO Comentarios internos no analizables
LUGAR Información no analizable
LOCALIDAD Información no analizable
CODIGO_POSTAL Información no analizable
DIRECCION_TERRITORIAL Información no analizable
_DEBE_INTERVENIR_EL_PERITO_ 100% de valores nulos
FECHA_AVISO 100% de valores nulos
LOCALIZACION_AVERIA Información no analizable
RAMAL Información no analizable
TUBERIA Mucho valor desconocido (82%)
TIPO_DE_PROCEDIMIENTO Mucho valor desconocido (76%)
LOCALIDAD_JUZGADO Alto valor de valores nulos
JUZGADO Alto valor de valores nulos
PROFESIONALES_NOMBRE Información protegida
PROFESIONALES_PRIMER_APELLIDO Información protegida
ABIERTO___CERRADO Solo presenta una categoría
_ES_AVERIA_PROVOCADA_ 99% pertecenece a Responsabilidad Civil AGBAR (no aporta información)
ESTADO_DEL_TRAMITE Observaciones filtradas a partir de esta variable
FECHA_DE_SINIESTRO Variable modificada
FECHA_DE_DECLARACION Variable modificada
FECHA_DE_CIERRE Variable modificada
Scoring aplicado a la gestión del riesgo en infraestructuras Página 27 de 67
Ilustración 12: Filtrado de observaciones de la variable ESTADO_DEL_TRÁMITE
Fuente: Elaboración Propia
Con este filtrado de los distintos valores de la variable ESTADO_DE_TRÁMITE, la base
de datos ha pasado de un total de 35.601 observaciones a 23.715 observaciones (una
reducción del 33,38% de las observaciones).
A continuación, el conjunto de variables también se dividirá entre variables dependientes
y la variable independiente, la cual es TOTAL_COSTE (que indica el coste total de la
incidencia). Se ha realizado un análisis individualizado de esta variable, el cual se muestra
a continuación:
Ilustración 13: Distribución de la variable TOTAL_COSTE
Fuente: Elaboración Propia
Como se puede observar en la ilustración anterior, el conjunto de valores de la variable
TOTAL_COSTE sigue una distribución asimétrica donde la mayoría de los valores se
Valores inciales ESTADO_DEL_TRÁMITE Filtrado observaciones
Finalizado Se mantiene
Pendiente resolución judicial Rechazada
Siniestro con cobertura rechazada Rechazada
Pendiente resolución Expediente Administrativo Rechazada
Pendiente recibir información del cliente Rechazada
Pendiente de informe pericial Rechazada
Pendiente de pago al perjudicado Rechazada
Pendiente de resolución de la Compañía Rechazada
En negociación con el perjudicado Rechazada
Pendiente de recibir finiquito firmado Rechazada
Pendiente devolución de franquicia a la compañía Rechazada
Pendiente sanidad lesionado Rechazada
Pendiente de reembolso al asegurado Rechazada
Inicial Rechazada
Sin reclamación del perjudicado Rechazada
None Rechazada
Scoring aplicado a la gestión del riesgo en infraestructuras Página 28 de 67
encuentran entre los 0 euros y los 2.000 euros. A partir de los 2.000 euros, el número de
valores en rangos superiores empieza a disminuir hasta hacerse imperceptible a partir de
los 8.000 euros.
Ilustración 14: Función de Densidad de la Variable TOTAL_COSTE
Los estadísticos obtenidos para evaluar la
distribución de la variable Total Coste son
los siguientes:
Curtosis: 4.465,69
Asimetría 57,34.
Esto nos permite ver que la distribución
muestra la presencia de colas pesadas, es
decir una distribución en las colas más
fuerte que si se compara con una distribución
normal, y, la presencia de una asimetría positiva. Por tanto, a se muestra un sesgo hacia
valores positivos.
El valor medio de las incidencias se sitúa en 2.051 euros y la desviación estándar de esos
valores es de 16.521 euros. El valor mínimo es de 0 euros y el máximo de 139.999 euros y
la distribución por cuartiles (0%, 25%, 50% y 75%) es de 0, 0, 1100 y 9420
respectivamente. A continuación, en la ilustración, se mostrará la distribución de valores
por cuartiles:
Ilustración 15: Distribución de valores por cuartiles y de manera conjunta
Fuente: Elaboración Propia
Fuente: Elaboración Propia
*Eje X en millones y eje Y en millonésimas
Scoring aplicado a la gestión del riesgo en infraestructuras Página 29 de 67
Ilustración 16: Distribución en 3D de valores del Gasto, del coste estimado y del coste total
Fuente: Elaboración Propia
La unión de las tres variables muestra una alta agrupación en los valores de la variable X e
Y (Gasto y Coste Estimado), pero, como anteriormente se ha podido observar, se pueden
observar valores extremos en la variable Z (Total Coste), alcanzándose el valor máximo en
139.999 euros.
Tras el análisis previo realizado, se considera a una serie de variables cómo imprescindibles
para ser incluidas en el modelo. Ya sea bien pues su alto grado de información, por contener
cualidades que puedan ayudar a diferenciar clases o por criterio de negocio.
Scoring aplicado a la gestión del riesgo en infraestructuras Página 30 de 67
Ilustración 17: Conjunto final de variables
Fuente: Elaboración Propia
*diff_Cierre_Siniestro, diff_Cierre_Declaracion y diff_Siniestro_Declaracion son
variables creadas posteriormente que representan la diferencia en días entre la fecha del
siniestro y el cierre del siniestro, la diferencia entre la declaración de la incidencia y el
cierre, y, por último, la fecha de la incidencia y la fecha de la declaración de la misma
A partir de esta distinción según el tipo de variable, se va a realizar un análisis exploratorio
de las variables numéricas y, por otra parte, de las variables categóricas.
6.1. Variables numéricas
Las variables numéricas utilizadas en este apartado se listan a continuación:
o RESERVA_DEDUCIBLE
o RESERVA_ASEGURADOR
o PAGOS_DEDUCIBLE'
o PAGOS_ASEGURADOR
o GASTOS
o TOTAL_COSTE
o COSTE_ESTIMADO
o Lat
o Long
o Diff_cierre_siniestro
o Diff_cierre_declaracion
o Diff_siniestro_declaracion
Numéricas Categóricas
RESERVA_DEDUCIBLE INCIDENCIA___SINIESTRO
RESERVA_ASEGURADOR PROVINCIA
PAGOS_DEDUCIBLE RESPONSABILIDAD
PAGOS_ASEGURADOR NATURALEZA
GASTOS _RECLAMACION_ASOCIADA_A_UNA_AVERIA_
TOTAL_COSTE TIPO_DE_RECLAMACION
COSTE_ESTIMADO PROCESO_JUDICIAL
lat
long
diff_Cierre_Siniestro
diff_Cierre_Declaracion
diff_Siniestro_Declaracion
Conjunto de Variables
Scoring aplicado a la gestión del riesgo en infraestructuras Página 31 de 67
Todas ellas convertidas a tipo “float”, es decir formato con decimales, para su posterior
manipulación y análisis.
El primer conjunto de variables que se va a analizar son la latitud y la longitud de los
siniestros, los cuales representan las coordenadas de las incidencias, con esto se puede
conseguir una aproximación cercana a poder conocer la localización y la frecuencia del
conjunto de incidencias, dicha distribución se muestra en la siguiente ilustración:
Ilustración 18: Geolocalización del conjunto de incidencias recogidas
Fuente: Elaboración propia
En la ilustración se puede observar como las comunidades de Cataluña y Valencia son las
que mayor número de siniestros presentan. Por otra parte, existe una clara diferencia entre
las zonas costeras (incluyendo las Islas Canarias y Baleares), las cuales presentan un mayor
número de incidencias que las zonas de interior.
En el caso de los datos disponibles no se dispone del total de activos que tiene en posesión
la compañía Suez, S.A., por tanto, se desconoce la frecuencia de incidencias que tiene cada
activo o cada provincia.
Las variables “lat” y “long” solo serán utilizadas de manera descriptiva y se eliminarán y
no se tendrán en cuenta en la modelización.
Scoring aplicado a la gestión del riesgo en infraestructuras Página 32 de 67
Respecto a la correlación de las distintas variables se puede encontrar una alta correlación
entre PAGOS_ASEGURADOR con TOTAL_COSTE y diff_Cierre_Siniestro con
diff_Cierre_Declaración. Coste_Estimado, Total_Coste y Gastos presentan una correlación
cercana a 0,6. El resto de las correlaciones presentan valores cercanos a 0, lo que indica
que apenas existe correlación entre variables.
Ilustración 19: Correlación variables numéricas
Fuente: Elaboración Propia
Determinante matriz de correlación: |1| (Aproximación)
Nos indica que existe falta de correlación entre las variables, además, observando el
gráfico, se comprueba que las correlaciones individuales entre pares de variables son
limitadas.
Además de la visualización de la matriz de correlaciones y su determinante se calcula el
test de esfericidad de Barlett para corroborar la ausencia de correlaciones entre las variables
y prueba de diferencia entre las varianzas.
Test de Barlett: 1,124e-05
Se rechaza la hipótesis nula y por tanto existe presencia de diferencias significativas en la
varianza.
Scoring aplicado a la gestión del riesgo en infraestructuras Página 33 de 67
Tras la realización de estas pruebas se puede comprobar una falta de correlación entre las
variables, por tanto, tras este estudio se descarta llevar a cabo técnicas de reducción de la
dimensión cómo el análisis factorial.
A continuación, se analizará la distribución del resto de variables de manera individual por
medio de histogramas junto con su función de densidad:
Ilustración 20: Histogramas de las variables RESERVA_DEDUCIBLE,
RESERVA_ASEGURADOR y PAGOS_DEDUCIDBLE
Fuente: Elaboración Propia
Los tres histogramas presentan una distribución similar con una concentración de valores
alrededor del 0.
La Curtosis de RESERVA_DEDUCIBLE es de 16.054,05 y su asimetría es de 121.57.
La Curtosis de RESERVA_ASEGURADOR es de -3 y su asimetría es de 0.
La Curtosis de PAGOS_DEDUCIDBLE es de 186,40 y su asimetría es de 7,53.
La reserva deducible muestra un valor de curtosis elevado, por tanto indica una presencia
de valores “pesados” en la cola de la distribución. Esto puede indicarnos que, de forma
ocasional, ha existido alguna incidencia con un valor en esta variable elevado, lo cual se
reconoce cómo un valor atípico.
Se muestra un sesgo hacia valores positivos limitado, esto es debido a una gran presencia
de incidencias con valor 0 en estaas variables.
Tras ver las distribuciones se puede observar cómo las variables tienen una tendencia al
valor cero. Tras un estudio más exhaustivo se identifica un número de ceros bastante
elevado en las variables, con el único fin de estudiar la distribución de las observaciones
distintas a cero se realiza un filtro en cada una de las variables.
Una vez realizado el filtro se muestra cómo la reducción de las observaciones es
considerada cómo demasiado elevada.
RESERVA DEDUCIBLE: 4 observaciones distintas a cero
RESERVA ASEGURADOR: 1 observaciones
PAGOS DEDUCIBLE: 12.086 observaciones
Scoring aplicado a la gestión del riesgo en infraestructuras Página 34 de 67
En cuanto a la variable Reserva Deducible y la variable Reserva Asegurador, se realiza una
reducción del número de observaciones que se considera demasiado elevada para poder
llevar a cabo un análisis sobre la distribución. Esto nos indica que, de forma generalizada,
no existen ni reservas deducibles ni reservas del asegurador en el caso de ocurrir una
incidencia.
En el caso de la variable de pagos deducible se puede extraer algo más de información de
la distribución de valores distintos a 0. La reducción también es notoria, por tanto, es un
indicativo de que frecuentemente no existe este tipo de pagos. En el caso de existir pagos
deducible se observa como se distribuyen generalmente entre valores de 1.000 y 2.000.
Ilustración 21: Histogramas de las variables PAGOS_ASEGURADOR, Gastos y
TOTAL_COSTE
Fuente: Elaboración Propia
La variable Total Coste no se mencionará ya qué fue analizada de forma más exhaustiva al
comienzo, ya que es la variable originaria de nuestra variable dependiente.
Los tres histogramas presentan una distribución similar con una concentración de valores
alrededor del 0, aunque Gastos y Total Coste presentan una mayor frecuencia de valores
no cercanos a 0.
La Curtosis de PAGOS_ASEGURADOR es de 5.129,65 y su asimetría es de 63,12.
La Curtosis de GASTOS es de 1.555,72 y su asimetría es de 29,90.
La Curtosis de TOTAL_ COSTE es de 4.465,69 y su asimetría es de 57,34.
Scoring aplicado a la gestión del riesgo en infraestructuras Página 35 de 67
La variable Pagos asegurador muestra una curtosis elevada, en comparación de una
distribución normal, por tanto se reconoce la presencia de valores pesados en las colas de
la distribución.
En estas tres variables, a pesar de mostrar una asimetría positiva, se aprecia una tendencia
en torno al valor 0. Por tanto, filtramos las observaciones para cada variable y eliminamos
los 0. Esto se realiza exclusivamente para el análisis de la distribución de los valores
distintos a 0, no para el preprocesamiento de los datos.
Tras el filtro, por cada variable, se reduce el número de observaciones de la siguiente forma:
Pagos asegurador: 1.517 observaciones
Gastos: 15.030 observaciones
Total Coste: 12.324 observaciones
Nuevamente se observa cómo la reducción de observaciones en el momento de la
introducción del filtro de 0 es bastante notable. Esto nos indica que estas variables
presentan generalmente un valor de 0.
En el caso de Pagos asegurador se puede observar una distribución más notable en el
momento de introducir el filtro, sin embargo se sigue mostrando una tendencia en torno al
cero fuerte. Se entiende que los valores de esta variable suelen ser limitados, pero existen
ocasiones, y lo corroboramos el estadístico de curtosis, que esta variable presenta una
cantidad elevada.
Scoring aplicado a la gestión del riesgo en infraestructuras Página 36 de 67
Ilustración 22: Histogramas de las variables COSTE_ESTIMADO, lat y long
Fuente: Elaboración Propia
La Curtosis de la variable Coste Estimado es de 18.290,12 y su asimetría es de 127,62.
Esto nos indica la presencia de colas pesadas en comparación de la distribución normal, y
además se muestra un sesgo hacia los valores positivos, por tanto, tampoco es una
distribución asimétrica.
El histograma de la variable COSTE_ESTIMADO presenta una distribución similar con
una concentración de valores alrededor del 0, aunque lat y long presentan una distribución
diferente, con una concentración de valores en 41º en lat (haciendo referencia a la latitud
de Barcelona) y una long en torno a 0 y 5 (haciendo referencia a la longitud de Barcelona).
La Curtosis de la variable Coste Estimado es de 18.290,12 y su asimetría es de 127,62.
Esto nos indica la presencia de colas pesadas en comparación de la distribución normal, y
además se muestra un sesgo hacia los valores positivos, por tanto, tampoco es una
distribución asimétrica.
No se realizará un análisis de la curtosis y la asimetría de lat y log ya que carece de sentido
al no tratarse de una distribución de datos que se pueda ajustar a una normal.
Se introduce un filtro que elimina los valores 0 de la variable Coste estimado.
Fuente: Elaboración Propia
Scoring aplicado a la gestión del riesgo en infraestructuras Página 37 de 67
La apreciación visual de la varaible coste es similar. Para explicar este comportamiento se
ha atendido a sus quintiles y cuartiles, se ha observado que hasta el 90% de la variable los
valores son muy reducidos, y en el caso del último décil si se aprecian valores elevados.
Ilustración 23: Histogramas de las variables Diff_cierre_siniestro, Diff_cierre_declaracion y
Diff_siniestro_declaracion
Fuente: Elaboración Propia
El conjunto de histogramas representados anteriormente describe la diferencia de fechas
(en número de días enteros entre las variables Fecha de Cierre, Fecha de Siniestro y Fecha
de declaración), siguen una distribución parecida en los diferentes histograma.
La Curtosis de Diff_cierre_siniestro es de 8,07 y su asimetría es de 2,42.
La Curtosis de Diff_cierre_declaracion es de 9,47 y su asimetría es de 2,68.
La Curtosis de Diff_siniestro_declaracion es de 62,81 y su asimetría es de 5,49.
Esto nos indica una distribución de las diferencias de días bastante cercana a una
distribución normal. Se aprecia que la diferencia de días desde la declaración del siniestros
y la fecha en la que ocurrio la incidencia tiene una distribución distinta a las otras variables
de días. Esta muestra una presencia de valores en las colas más elevada y una asimetría con
sesgo positivo superior.
Para concluir el análisis de las variables numéricas, se ha realizado un pairplot por cada
una de las combinaciones de variables, el resultado se puede observar en la siguiente
ilustración:
Scoring aplicado a la gestión del riesgo en infraestructuras Página 38 de 67
Ilustración 24: Pairplot del conjunto de variables numéricas
Fuente: Elaboración Propia
Por último, debido al elevado número de valores 0 en la variable TOTAL_COSTE, se ha
decidido analizar de manera diferenciada el resto de las variables dividiendo la población
en observaciones cuyo TOTAL_COSTE es 0 (11.391 observaciones) contra aquellas
observaciones cuyo valor de TOTAL_COSTE es mayor a 0 (12.324 observaciones). La
principal conclusión del análisis es:
• Se ha llegado a la conclusión de que os gastos y el coste estimado son mayores
cuando el total coste no es igual a cero, algo que, a priori, se podía imaginar, pero
lo hemos verificado de manera analítica.
Scoring aplicado a la gestión del riesgo en infraestructuras Página 39 de 67
6.2. Variables categóricas
Las variables categóricas utilizadas en este apartado se listan a continuación:
o Seguimiento
o INCIDENCIA___SINIESTRO
o RAMO
o SITUACION
o PROVINCIA
o RESPONSABILIDAD
o NATURALEZA
o CAUSA
o DANOS_CAUSADOS
o RECLAMACION_ASOCIADA_A_UNA_AVERIA
o ES_AVERIA_PROVOCADA_
o RAMAL
o TUBERIA
o TIPO_DE_RECLAMACION
o PROCESO_JUDICIAL
o ABIERTO___CERRADO
A continuación, realizará el análisis descriptivo de las variables categóricos, tanto de
manera univariable como multivariable
Ilustración 25: Distribución de incidencias por provincia
Fuente: Elaboración Propia
Scoring aplicado a la gestión del riesgo en infraestructuras Página 40 de 67
Como anteriormente se comentó se desconoce la distribución de los activos en el territorio
nacional, por tanto, se desconoce si existe mayor frecuencia en algunas ciudades derivada
de unas infraestructuras de peor calidad o peor mantenimiento.
Se muestra en el gráfico cómo Barcelona es el lugar donde más averías recoge de toda
España, seguido por Alicante y Valencia (en concordancia con lo visto en el gráfico de
incidencias del mapa de España). Por tanto, esto supone dos posibilidades, o tiene una
presencia de activos en Barcelona, y en general en la costa del levante superior, o, existe
una peor gestión de las infraestructuras en esas zonas.
Se muestra el gráfico en función de la responsabilidad de la incidencia ocurrida:
Ilustración 26: Distribución de incidencias por RESPONSABILIDAD
Fuente: Elaboración Propia
Un alto porcentaje de las incidencias presentan el valor “SI” en esta variable, seguido por
el “NO” en menor porcentaje. “DUDOSA” y “COMPARTIDA” suman un total de 3.477
observaciones. Por tanto, se puede concluir que en numerosas ocasiones la responsabilidad
es de la compañía, aunque, a pesar de esto, se observa que la categoría de “No” también
tiene un valor elevado.
Se concluye que de forma generalizada existe conocimiento de quien tiene la
responsabilidad de una incidencia.
A continuación, se muestra el gráfico para conocer si frecuentemente una avería es
provocada o no.
Ilustración 27: Distribución de incidencias por ES_AVERIA_PROVOCADA
Fuente: Elaboración Propia
Scoring aplicado a la gestión del riesgo en infraestructuras Página 41 de 67
El mayor porcentaje de incidencias no es una avería provocada, pero hay un total de 141
observaciones cuya avería ha sido provocada. Esto, a pesar de suponer un desbalanceo en
esta variable y que puede afectar en la elaboración del modelo de “scoring”, puede arrojar
una información muy valiosa.
Se muestra a continuación la visualización de la variable que nos entrega información sobre
la naturaleza de una incidencia:
Ilustración 28: Distribución de incidencias por NATURALEZA
Fuente: Elaboración Propia
La naturaleza de la incidencia se da principalmente por daños materiales, seguido por daños
personales y con una baja frecuencia en Pérdida de Beneficios, Desconocido y Daños
Patrimoniales Puros.
Una variable que puede arrojar una información valiosa para estimar el coste de una avería
es si existe una reclamación asociada con una incidencia.
Ilustración 29: Distribución de incidencias por RECLAMACIÓN_ASOCIADA_A_UNA_AVERIA
Fuente: Elaboración Propia
Scoring aplicado a la gestión del riesgo en infraestructuras Página 42 de 67
Se observa una distribución equitativa entre 0 (indicando que No) y Reclamación asociada.
Esto, a pesar de que es más frecuente que no exista reclamación, nos indica que existe un
gran número de casos en los que sí hay reclamación por parte de algún tercero.
En continuación con la variable anterior, existe una recopilación sobre el tipo de
reclamación sobre un siniestro.
Ilustración 30: Distribución de incidencias por TIPO_DE_RECLAMACIÓN
Fuente: Elaboración Propia
Una mayoría de las incidencias (21.948 observaciones) se dan de manera amistosa, aunque
el resto está formado por reclamación judicial (1.522 observaciones), otras (223
observaciones), administrativas (18 observaciones) y defensor del asegurado (4
observaciones).
Continuando con el tipo de reclamación y en que puede derivar, es de gran valor conocer
si ha existido un proceso judicial en una incidencia. Un proceso judicial,
independientemente del coste material derivado de una incidencia, supone un aumento del
gasto en abogados, procuradores, tiempo etc.
Ilustración 31: Distribución de incidencias por PROCESO_JUDICIAL
Fuente: Elaboración Propia
Scoring aplicado a la gestión del riesgo en infraestructuras Página 43 de 67
De manera general, las incidencias no llevan asociado un proceso judicial, pero hay un total
de 3374 incidencias que si lo presentan.
Como conclusión general de este apartado, se puede observar cómo tener responsabilidad
en el siniestro es lo más habitual, el tipo de daño normalmente es daños personales, el tipo
de avería no suele ser provocada y el tipo de reclamación en la gran mayoría de los casos
es amistosa sin existir un proceso judicial.
Para profundizar el análisis de las observaciones donde la incidencia ha sido provocada
se procede a realizar cruces para ver su comportamiento, y con esto tratar de entender si
un acto de mala fe puede derivar en costes muy elevados o en algún tipo de daño en
especial
Dicho análisis se muestra a continuación:
Ilustración 32: TOTAL_COSTE entre AVERÍA_PROVOCADA y por NATURALEZA
Fuente: Elaboración Propia
Se demuestra que el hecho de que la avería sea provocada no implica un aumento del
coste de la avería, pero, se puede observar que la varianza cuando la incidencia es
provocada es mayor.
Scoring aplicado a la gestión del riesgo en infraestructuras Página 44 de 67
Ilustración 33: TOTAL_COSTE entre AVERÍA_PROVOCADA y por NATURALEZA
Fuente: Elaboración Propia
El tipo de incidencia que presenta un mayor coste es aquella donde no hay responsabilidad
y se desconoce si la avería es provocada.
Ilustración 34: TOTAL_COSTE entre AVERÍA_PROVOCADA y por NATURALEZA
Fuente: Elaboración Propia
Los daños personales presentan un mayor tiempo para cerrar la incidencia, y, en media,
si la avería es provocada, tiene más duración (lo que implica un mayor coste asociado).
Scoring aplicado a la gestión del riesgo en infraestructuras Página 45 de 67
Por último, al igual que se ha realizado en el análisis descriptivo de las variables
numéricas, debido al elevado número de valores 0 en la variable TOTAL_COSTE, se ha
decidido analizar de manera diferenciada el resto de las variables dividiendo la población
en observaciones cuyo TOTAL_COSTE es 0 (11.391 observaciones) contra aquellas
observaciones cuyo valor de TOTAL_COSTE es mayor a 0 (12.324 observaciones). La
principal conclusión del análisis es:
• Cuando una incidencia pasa de 0 de TOTAL_COSTE a tener un valor (=/0), la
frecuencia es 2,89 veces mayor en daños personales, 1,3x en Desconocido y casi
5x en Pérdida de beneficios (reduciéndose un 10% las incidencias por daños
materiales).
• Las incidencias que tienen un TOTAL_COSTE =0, tienen una frecuencia 4 veces
superior a que si el Total_coste es mayor a 0
6.3. Respuesta a hipótesis complementarias
Aparte de realizar el análisis descriptivo de tanto de las variables numéricas como de las
categóricas, se ha decidido realizar una serie de preguntas de nuestro interés para poder
profundizar en el análisis.
Esto persigue entender el distinto comportamiento de las clases de cada una de las
variables categóricas en función de la variable del coste total en el que incurre una
incidencia.
Ilustración 35: ¿Cuál es el coste medio por tipo de incidencia?
Fuente: Elaboración propia
Scoring aplicado a la gestión del riesgo en infraestructuras Página 46 de 67
Ilustración 36: ¿Cuál es el coste medio por provincia?:
Fuente: Elaboración propia
Ilustración 37: ¿Cuál es el coste medio por daños causados?
Fuente: Elaboración propia
Scoring aplicado a la gestión del riesgo en infraestructuras Página 47 de 67
Ilustración 38: ¿Cuál es el coste medio por tipo de naturaleza?
Fuente: Elaboración propia
Ilustración 39: ¿Cuál es el coste medio por tipo de juzgado?
Fuente: Elaboración propia
Ilustración 40: ¿Cuál es el coste medio si la avería es provocada?
Fuente: Elaboración propia
Ilustración 41: ¿Cuál es el coste medio por tipo de responsabilidad?
Fuente: Elaboración propia
Scoring aplicado a la gestión del riesgo en infraestructuras Página 48 de 67
Ilustración 42: ¿Cuál es el coste medio por tipo de estado de trámite?
Fuente: Elaboración propia
Ilustración 43: ¿Cuál es el coste medio por tipo de reclamación?
Fuente: Elaboración propia
Ilustración 44: ¿Cuál es el coste medio por tipo de causa?
Fuente: Elaboración propia
Scoring aplicado a la gestión del riesgo en infraestructuras Página 49 de 67
Tras la realización de los cruces anteriormente comentados se han obtenido una serie de
respuestas que nos permite tener un conocimiento más profundo sobre las diferencias
entre las incidencias:
• La incidencia con mayor coste son los siniestros, ya que son sucesos o pérdidas
irreparables.
• Las provincias con mayor coste son Guipúzcoa, Sevilla y Madrid. A pesar de no
conocer la frecuencia de los siniestros si se puede apreciar que estas provincias
suponen unos gastos más elevados en media cuando ocurre una incidencia.
• El coste más elevado correspondiente a daños causados son las emisiones
atmosféricas toxicas o peligrosas. Se desconoce el porqué de este coste más
elevado, pero una primera idea es la posibilidad de multas o sanciones por parte
de la administración pública.
• Las incidencias con mayor coste son aquellas cuya reclamación es judicial (siendo
muy superior a cuando la reclamación de la incidencia es amistosa o
administrativa). Una posibilidad de esto, como fue comentado anteriormente, es
el incremento de gastos derivados por abogados, tiempo, procuradores etc…
Scoring aplicado a la gestión del riesgo en infraestructuras Página 50 de 67
7 Pre-Procesamiento y Modelización
7.1. Pre-Procesamiento
Con el fin de poder trabajar de manera más eficiente y por medio de los servidores de
SQL Server, se han desarrollado una serie de “notebooks” en Jupyter con las
transformaciones necesarias para el conjunto de variables.
• El procesamiento de las variables ha constado principalmente de:
• Filtrado de observaciones
• Eliminación de observaciones
• Cambiar valores nulos por 0 (u otro valor, ya sea un número o una palabra) en
función de cada variable
• Creación de nuevas variables (a partir de la diferencia de fechas)
• Normalización de las variables numéricas
• Transformación de la variable dependiente (TOTAL_COSTE) en categórica con
el fin de poder realizar modelos de clasificación
• División de la muestra en test y training (80% - 20%)
El primer paso realizado para el procesamiento de los datos es, en todos los procesos
creados, filtrar la variable de Incidencia Cerrada. Esta variable contiene información
sobre si la incendia está cerrada o se encuentra pendiente de algún tipo de resolución. A
partir de ahora se trabajará sólo con las incidencias cerradas.
En relación con la variable dependiente del modelo, se ha decidido utilizar cuantiles de
la variable Total Coste como método de división de cada uno de los grupos. Se han
empleado diversas formas para crear la variable dependiente, en función de la mediana
crear una binaria, cuartiles o quintiles. Finalmente, se ha seleccionado la opción de 4
categorías en función de los cuartiles.
Esta forma de crear la variable dependiente creará cuatro clases diferenciadas por el límite
impuesto por el cuartil de la variable Total Coste. Una ventaja al haber creado la variable
dependiente en función de cuantiles es que se evita un posible desbalanceo en las clases
de la variable “target”. Por esta razón no se procede a aplicar técnicas de “oversampling”
ni de “undersampling”.
Se muestra, a modo recordatorio, las variables que se han considerado imprescindibles
para la elaboración del modelo. Estas variables estarán presentes en todos los
preprocesamientos del conjunto de datos realizados.
Ilustración 45: Variables seleccionadas para la modelización
Scoring aplicado a la gestión del riesgo en infraestructuras Página 51 de 67
Fuente: Elaboración propia
Esto no significa que hayan sido las únicas variables empleadas, ya, que como se comentó
en un primer momento, se realizaron distintos preprocesamientos, y, con los mismos,
varias pruebas en cada modelo para ver el comportamiento de los datos y de los modelos.
En el conjunto de variables numéricas, tras observar que tienen distinta media y varianza,
y corroborar que sus escalas difieren notoriamente, se ha procedido a normalizarlas. Para
normalizar todas las variables numéricas se han tipificado.
Por último, las variables categóricas también han sido tratadas. En los distintos
preprocesamientos se han incluido acercamiento de las clases o filtrados, aunque en el
conjunto de datos finalmente empleado para modelizar no se ha llevado a cabo este tipo
de transformaciones.
Las variables categóricas han sido codificadas por método de “Label-Encoding”, dar un
valor número a cada una de las clases, y por método de la técnica “One-Hot-Enconding”,
creación de variables binarias para cada una de las clases de una categórica.
El último proceso realizado para realizar una última selección de variables, para ser
probado en los modelos, fue la realización de un modelo Lasso. Está técnica fue probada
al final del proceso de tratamiento de los datos, y, la cual arrojo unos resultados en los
modelos que se tradujeron en una mayor robustez y estabilidad del algoritmo en el
momento de predecir.
Numéricas Categóricas
RESERVA_DEDUCIBLE INCIDENCIA___SINIESTRO
RESERVA_ASEGURADOR PROVINCIA
PAGOS_DEDUCIBLE RESPONSABILIDAD
PAGOS_ASEGURADOR NATURALEZA
GASTOS _RECLAMACION_ASOCIADA_A_UNA_AVERIA_
TOTAL_COSTE TIPO_DE_RECLAMACION
COSTE_ESTIMADO PROCESO_JUDICIAL
diff_Cierre_Siniestro
diff_Cierre_Declaracion
diff_Siniestro_Declaracion
Conjunto de Variables
Scoring aplicado a la gestión del riesgo en infraestructuras Página 52 de 67
7.2. Modelización
Cómo se expuso anteriormente los principales algoritmos utilizados en la elaboración del
“scoring” son el Random Forest y el XGBoost en la familia de árboles de decisión, y,
también se han probado el algoritmo Multi-Layer Perceptron Classifier.
En primer lugar, se explica por qué se ha rechazado el uso de la red neuronal. El algoritmo
Multi-Layer Perceptron Classifier, al pertenecer a la rama de “Deep Learning”, es poco
interpretable, y al mismo tiempo su explicabilidad es bastante compleja. Aun así, el
modelo fue entrenado y probado para ser comparado con el resto de los algoritmos. La
red fue probada con la variable dependiente dividida por cuartiles, y probando distintos
parámetros y configuraciones de la misma. El principal problema encontrado al utilizar
este algoritmo en nuestro proyecto era la falta de robustez y una estabilidad bastante
limitada. En el momento de probar un mismo modelo con distintas particiones de los
datos, arrojaba unos resultados para cada una de las clases notorio. Esto se refiere a que
generalmente mostraba un claro sesgo hacia una de las clases. Además, al cambiar
mínimamente los datos, o la configuración, experimentaba unos cambios en las métricas
intensos. Esto, con el objetivo perseguido de ser puesto en producción, hacía que no se
considerase un buen modelo por falta de fiabilidad con el paso del tiempo, y, además, se
consideró que podría sufrir una degradación de su utilidad muy acelerada.
Por consiguiente, se probaron modelos basados en árboles de decisión, este tipo de
algoritmos, teniendo en cuenta que trabajamos con una compañía y con gente de negocio,
ofrecían una gran facilidad para interpretar y explicar el proceso que se está llevando a
cabo para realizar el “scoring”.
Otro de los puntos a tener en cuenta es el objetivo final de puesta de modelo en producción
en un servidor, por lo que el coste computacional del modelo debe ser asumible y lo más
ligero posible, al mismo tiempo sin perder ajuste, interpretabilidad y eficiencia. Por este
motivo se incluyeron al proyecto dos nuevos modelos, Random Forest que trabaja
utilizando la técnica de “bagging” (Entrena los modelos en paralelo) y XGBoost, que
emplea la técnica de “boosting” (trabaja de forma secuencial).
El modelo seleccionado para ser puesto en producción es el XGBoost. Los motivos
principales por los que ha sido escogido este modelo es la robustez que ha mostrado frente
a cambios en las particiones del conjunto de datos, las métricas obtenidas, que
posteriormente serán explicadas, la interpretabilidad que tiene este modelo basado en
árboles de decisión, y, por último, el coste computacional que ofrece el modelo para ser
puesto en servidor.
Se ha ejecutado el modelo seleccionado una serie de veces con el fin de obtener un mejor
resultado, para ello, se han modificado los diferentes hiperparámetros que presenta el
modelo.
Por último, se ha comprobado que el esfuerzo realizado en realizar una reducción y una
transformación de las variables tan exhaustivas no se ha visto recompensado con una
mejora en la predicción de los modelos. Es por eso que se optó por una transformación
menos compleja y por medio de reducción de variables basándose en una regresión Lasso
con el fin tanto de evitar un modelo complejo como el de obtener un menor error.
Scoring aplicado a la gestión del riesgo en infraestructuras Página 53 de 67
A continuación se muestra una visualización reducida de uno de los árboles generados
por el modelo XGBoost. El motivo por el cuál solo se muestra un sección del árbol de
decisión es la dimensión que tiene el árbol completo.
En primer lugar, se observa que la variable “INCIDENCIA SINIESTRO” ocupa el lugar
de nodo inicial. Esto significa que la primera decisión que elabora el modelo es en función
de esta variable.
Ilustración 46: Nodo inicial del modelo
A continuación, se muestran algunos nodos de toma de decisión generados por el modelo.
Es sólo una mínima parte del árbol completo, que, simplemente, tiene como objetivo
mostrar al lector la forma en la que ha trabajado el algoritmo empleado.
Ilustración 47: Extracción parcial del modelo obtenido
El nodo, es decir la variable que se encuentra en cada una de las circunferencias, contiene
una ruptura. En el primer caso, con la variable “PROCESO_JUDICIAL”, contiene si
existe menor que 0,5 o mayor, en el caso de satisfacer dicha condición se continúa por el
Fuente: Elaboración propia
Fuente: Elaboración propia
Scoring aplicado a la gestión del riesgo en infraestructuras Página 54 de 67
siguiente nodo, con la variable “Lat”, en el caso de no satisfacer dicha condición se
continuará por otro nodo, el cual no está mostrado en esta imagen.
Las métricas obtenidas por el modelo son las siguientes:
Ilustración 48: Exactitud del modelo obtenido
Fuente: Elaboración Propia
La exactitud, o, cómo frecuentemente es estudiada, “Accuracy”, obtiene un valor de 0,75.
Es decir que el porcentaje de incidencias bien clasificadas respecto el total obtiene un
valor aceptable, según el criterio propio establecido por los desarrolladores del proyecto.
Si atendemos a los resultados por cada una de las clases creadas se encuentran diferencias
notables en el funcionamiento del modelo. Se muestra con más detalle:
Ilustración 49: Estadísticos del modelo obtenido
Precisión Sensibilidad F1-Score
Primer Cuantil 0,83 0,88 0,85
Segundo Cuantil 0,54 0,39 0,45
Tercer Cuantil 0,59 0,47 0,52
Cuarto Cuantil 0,67 0,76 0,71
Fuente: Elaboración Propia
Se observa cómo el modelo obtiene las mejores puntuaciones para las incidencias que
tienen un coste total más reducido. Se detectan aproximadamente un 88% de ellas, y,
cuando el modelo predice que es una incidencia que pertenece al primer cuartil, en un
83% pertenece realmente a este grupo.
Exactitud 0,75
Scoring aplicado a la gestión del riesgo en infraestructuras Página 55 de 67
En el caso de las incidencias que pertenecen a un rango medio, del segundo y el tercer
cuartil, obtiene unas métricas menos precisas. En ninguno de los dos casos nuestro
modelo consigue detectar al menos el 50% de los casos de cada clase, y, en ambos casos,
tan solo entre un 50% y un 60% de las veces el modelo predice correctamente. A pesar
de esto, se considera que, tras los experimentos realizados con el preprocesamiento de los
datos, con otros modelos etc. son unos valores convincentes.
Por último, para el caso de las incidencias de mayor coste, las que se encuentran al final
de la cola de la distribución, obtiene unas métricas mejores que para los casos de coste
medio. Esto es algo positivo ya que estas son las incidencias más costosas, por tanto, es
el caso en el que el modelo puede aportar más valor a la compañía para gestionar la
incidencia. Para este tipo de incidencias el modelo está detectando casi el 80% de estas.
Sin embargo, tiene una precisión del 67%, es decir que, a pesar de detectar gran cantidad
de estas, en numerosos casos clasifica cómo incidencias de coste alto a incidencias que
realmente no pertenecen a esta clase.
Se muestra la matriz de confusión, matriz que nos aporta más información del porqué de
las métricas anteriormente comentadas, y la matriz de confusión normalizada.
Ilustración 50: Matriz de Confusión Ilustración 51: Matriz de confusión Normalizada
El eje de abscisas contiene el valor verdadero, es decir la clase verdadera, y el eje de
ordenadas contiene el valor que ha otorgado el modelo. Se observa claramente cómo para
la clase 0, las incidencias con menor coste son para las que mejor funciona el modelo.
Esto es debido a que el último preprocesamiento creado hacía que esta clase contenga un
mayor número de muestra.
Por otro lado, la información más valiosa que nos aportan las dos matrices es cuando está
prediciendo mal el modelo, cómo lo está haciendo. Si se observan las matrices,
especialmente la normalizada (derecha) se observa cómo el modelo cuando confunde una
Fuente: Elaboración propia Fuente: Elaboración propia
Scoring aplicado a la gestión del riesgo en infraestructuras Página 56 de 67
clase, de forma general, es la clase más cercana. Es decir, cuando confunde el cuartil 4,
por ejemplo, en la mayoría de los casos es del cuartil 3. Esta información resulta muy útil
para la compañía, ya que, realmente, no confunde, en términos generales, las clases más
diferentes.
Para analizar la ratio entre sensibilidad del modelo y la especificidad del modelo se
muestra la curva ROC (“Receiver Operating Characteristic”) para cada una de las clases.
Junto a ellas se muestran dos curvas más, “macro-average”, agrega las curvas ROC
individuales y realiza una media aritmética, y “micro-average” agrega las contribuciones
de cada clase para ver el valor medio.
Ilustración 52: Curva ROC por Cuartiles
Se puede observar como la sensibilidad, representado en el eje de ordenadas con el título
“True Positive Rate” es bastante buena en general. El objetivo que se persigue con el
modelo es que las curvas ROC se acerquen lo máximo posible al extremo superior
izquierdo, y así dejar la mayor área posible en la parte inferior de las curvas. Esta área se
representa con la métrica AUC “Area Under the Curve” o área bajo la curva ROC. En
este caso, se observa cómo para el primer cuartil y el cuarto son extremadamente buenos,
para el segundo y tercer cuartil son también elevados.
Para concluir con el comportamiento del modelo se analiza la probabilidad de ser
clasificado cómo el primer cuartil, el segundo, el tercero o el cuarto. Se muestran en los
siguientes gráficos las distribuciones de probabilidad por cada clase:
Fuente: Elaboración propia
Scoring aplicado a la gestión del riesgo en infraestructuras Página 57 de 67
Ilustración 53: Distribución probabilidad Primer y Segundo Cuartil
Fuente: Elaboración propia
Ilustración 54: Distribución probabilidad Tercer y Cuarto Cuartil
Fuente: Elaboración propia
La gran diferencia encontrada es que la probabilidad de que una nueva observación
entregada al modelo para predecir sea del primer cuartil es bastante elevada. En cuanto al
segundo y tercer cuartil vemos una distribución muy similar. Por último, el último cuartil,
las incidencias con un coste superior, se puede observar una mayor probabilidad de ser
clasificada en esta categoría que en el segundo y tercer cuartil, pero, que, sin embargo,
existe una gran diferencia respecto a la primera clase.
La importancia de las variables también se puede explicar en función de otras medidas
con la ayuda de la librería XGBoost.
Se muestra el gráfico de importancia de cada variable en función de la métrica “Weight”.
Esta métrica es la que ofrece XGboost por defecto y es el número de veces que una
variable es utilizada cómo nodo a lo largo de todos los árboles generados por el modelo.
Scoring aplicado a la gestión del riesgo en infraestructuras Página 58 de 67
Ilustración 55: Importancia de cada variable en función de la métrica “Weight”.
Es observable que la variable que contiene la información de la diferencia entre la fecha
del siniestro y el cierre de la incidencia es la que más nodos crea a lo largo de los árboles.
También se observa cómo las variables latitud y longitud son de gran importancia, esto
nos indica información sobre la ubicación de la incidencia, en que activo propiedad de la
compañía se ha producido. Como se pudo comprobar en el análisis exploratorio la media
de un coste por ciudad difiere de forma notoria.
La siguiente forma de evaluar la importancia de las variables es “Cover”, este método
consiste en calcular el número de veces que una variable es utilizada para crear nodos en
función de la cantidad de flujo de datos de entrenamiento que recorre esa división.
Ilustración 56: Evaluación de la importancia de las variables
Fuente: Elaboración propia
Fuente: Elaboración propia
Scoring aplicado a la gestión del riesgo en infraestructuras Página 59 de 67
En este caso se muestra cómo la variable “RESERVA_DEDUCIBLE” tiene una gran
importancia para los nodos en relación al flujo de datos. También, es de destacar, que el
tipo de daños causados afecta notoriamente, especialmente el caso de aguas residuales sin
depurar.
Por último, se muestra la importancia de variables genérica en función de la métrica
“Gain”. Esta métrica indica la importancia de la variable para reducir, en media, el
entrenamiento del modelo cuando se utiliza esta para crear nodos.
Ilustración 57: Importancia de variables genérica en función de la métrica “Gain”
En este caso obtenemos que la responsabilidad, en el caso de que en el momento sea de
conocimiento quien tiene la posible responsabilidad, es la variable que más impacta. En
segunda posición se encuentra si es una incidencia o no, que, si se recuerda, es el nodo
inicial.
Otra forma de evaluar el impacto de cada variable es atendiendo al impacto, en media,
que tiene la variable en el output. Además, podemos observarlo también diferenciando
por cada una de las clases que se han empleado en el modelo. Esta diferenciación será
explicada con gráficos de mayor precisión en el siguiente apartado.
Fuente: Elaboración propia
Scoring aplicado a la gestión del riesgo en infraestructuras Página 60 de 67
Ilustración 58: Importancia de variables
La variable gastos es una variable que puede explicar, o dar información al modelo, sobre
el coste total en el que va a incurrir una incidencia. También se observa cómo el coste
estimado que calcula la compañía en un primer momento está bastante relacionado con
la clase de incidencia que se ha producido, esto nos lleva a concluir que el método
empleado para estimar los costes es bastante acertado. Por último, destacar la variable de
diferencia de días entre la fecha del siniestro y el cierre del siniestro. Esta variable
mencionada agregará coste al valor total en el que incurre el coste de una incidencia, por
tanto, cerrar una incidencia lo antes posible podría ser de gran utilidad para reducir el
monto total.
Por último, para ver cómo afecta cada variable a cada una de las clases. Se emplea el
paquete “Shap” para medir el impacto de cada variable en el output del modelo,
diferenciando por cada una de las categorías creadas.
Para facilitar la interpretación se hace una breve introducción al gráfico: El eje Y está
compuesto por cada una de las variables, el eje de abscisas por el “Shap Value”. Si se
observa el gráfico con detenimiento se puede observar cómo el gráfico está compuesto
por “puntos” para cada una de las variables, estos puntos es cada una de las observaciones
entregadas al modelo. El color representa el valor de cada variable. Y por último, los
Fuente: Elaboración propia
Scoring aplicado a la gestión del riesgo en infraestructuras Página 61 de 67
gráficos están ordenados de forma descendente en función de la importancia de la
variable.
Ilustración 59: Importancia de variables Primer Cuartil
Para el primer cuartil se aprecia cómo la variable “Gastos” es un buen indicador de que
una nueva incidencia va encontrarse en el primer cuartil. Sin embargo, la variable que
mayor representa a esta categoría es la variable creada que contiene información de los
siniestros en los que la compañía no tiene responsabilidad.
En el caso del segundo y tercer cuartil se analizan de forma conjunta ya que muestran una
importancia de las variables muy similar, con distribuciones de las observaciones
entregadas al modelo muy similares.
Ilustración 60: Importancia de variables Segundo y Tercer Cuartil
Fuente: Elaboración propia
Fuente: Elaboración propia
Scoring aplicado a la gestión del riesgo en infraestructuras Página 62 de 67
Para los cuartiles segundo y tercero, los que han sido identificados cómo costes generados
medios, se observa que el coste estimado por la compañía en un primer momento es
bastante acertado. Esta variable nos está indicando que la compañía estima bien los costes
medios, pero, en el caso de incidencias graves o leves, no dispone de un método tan
certero.
La diferencia entre la fecha del siniestro y el cierre de la incidencia es determinante para
este tipo de incidencias, por tanto, cómo se comentó anteriormente, tratar de cerrar una
incidencia lo antes posible ayudará a gestionar los recursos empleados para cubrir los
costes en gran medida.
Ilustración 61: Importancia de variables Cuarto Cuartil
Por último, se analiza la importancia de las variables para los siniestros categorizados
cómo de coste elevado, los que pertenecen a la clase del cuarto cuartil. En esta clase la
variable que más representa, aparte de la variable Gastos, la cuál algún experto podría
suponer desde un comienzo, es la variable incidencias de tipo F. Esto significa que este
tipo de incidencias corresponden a las incidencias de un mayor coste.
Fuente: Elaboración propia
Scoring aplicado a la gestión del riesgo en infraestructuras Página 63 de 67
8 Conclusiones
La primera conclusión obtenida tras la realización de este proyecto es que sí es posible
diseñar un sistema de puntuación para gestionar los siniestros ocurridos en la compañía
Suez. Con esto se recalca que esta infraestructura diseñada puede permitir a la compañía
Suez anticipar reservas, o, conocer el grado de gravedad de una incidencia ocurrida para
tratar de realizar una toma de decisiones de forma ágil y cuantitativamente más precisa.
También se concluye que emplear la variable del coste total incurrido de los siniestros
para generar un sistema de “scoring” que consiga determinar la gravedad de un siniestro
en el momento de ocurrir es útil. Además, el utilizar una variable sintética, cómo se ha
hecho en este proyecto, a partir de los cuantiles, puede generar una ayuda a la
interpretabilidad y a evitar algún tipo de desbalanceo de las distintas categorías del
“score”. Esto supone una gran utilidad para crear nuevos sistemas de puntuación o
mejorar el sistema ya creado. Además, tras este proyecto se ha mostrado cómo generar
una variable sintética para realizar un “score” por lo que puede ser de gran utilidad para
generar en un futuro nuevas variables sintéticas con un mayor o menor número de
categorías, todo en función de la necesidad y de los datos de los que disponga Suez.
Tras el análisis y la realización de este proyecto se pone de manifiesto una posibilidad de
mejora en la recopilación de los datos por parte de Suez y, una operativa más homogénea
a la hora de recopilar datos de las incidencias en los distintos activos de los que dispone.
Esto generará una mejora en la calidad de los datos lo que permitirá crear sistemas más
precisos y más robustos que permitan a Suez desarrollar la gestión de sus incidencias de
una forma más eficiente.
Entre alguna de las recomendaciones que se pueden concluir para mejorar la calidad de
los datos se incluyen tratar de evitar que las variables numéricas presenten unas
distribuciones infladas en cero, esto significa, cómo se mostró en el análisis exploratorio,
que una gran cantidad del contenido de las variables numéricas presentaban el valor cero.
Una conclusión propia sería evaluar la importancia, con criterio de negocio, de estas
variables y averiguar cómo se están gestionando.
En las recomendaciones para las variables categóricas se incluye reducir la cardinalidad
de alguna de ellas, esto significa que el número de elementos o clases de una variable
categórica se traten de reducir. Esto permitirá generar unos modelos más estables y
robustos. Además, sería recomendable tener un sistema de recopilación de datos dónde
Scoring aplicado a la gestión del riesgo en infraestructuras Página 64 de 67
las opciones de las variables categóricas estén ya establecidas y la persona encargada de
introducir la incidencia tan sólo tenga que seleccionar la opción apropiada. Esto se
concluye tras haber encontrado en el análisis exploratorio clases, que se intuyen que eran
la misma, escritas de distintas formas (Por letras mayúsculas, tildes etc.).
Una última recomendación para el tratamiento de los datos es el tratamiento de los valores
nulos. En algunas variables se han encontrado porcentajes de observaciones de valores
nulos elevados, en algunas de ellas estos valores nulos sí aportaban información, ya que
eran por ejemplo una variable binaria donde la categoría “no” aparecía con un valor nulo,
por tanto, para facilitar el procesamiento de los datos se recomienda la utilización de algún
tipo de connotación que pueda acelerar el proceso de construcción de un modelo. Esto
supondría un ahorro de tiempo que se traduce en un ahorro de coste para la compañía.
En último lugar, se concluye que la utilización de algoritmos de clasificación basados en
métodos de conjunto (“ensemble”) y que emplean árboles de decisión para generar sus
predicciones muestran unos resultados, con el conjunto de datos, es decir con la
metodología de recopilación de datos que tiene diseñada la compañía Suez, que permiten
tener un sistema de puntuación interpretable, con gran explicabilidad, robusto y estable
ante cambios. Por tanto, se recomienda este tipo de algoritmos para este caso en particular.
Scoring aplicado a la gestión del riesgo en infraestructuras Página 65 de 67
9 Bibliografía
ArcGIS Pro 2.7 (2020) Esri, ‘Metodos de clasificación de datos’ disponible en
https://pro.arcgis.com/es/pro-app/latest/help/mapping/layer-properties/data-
classification-methods.htm [fecha de consulta: 11/06/2021)
Bodas, Diego. (2020) “Machine Learning” Data Science para finanzas, CUNEF.
Presentación en Microsoft PowerPoint.
Brownlee.J (2019): ‘A tour of Machine Learning Algorithms’. Disponible en
https://machinelearningmastery.com/a-tour-of-machine-learning-algorithms/ [fecha
consulta: 15/05/2021]
Fanjul-Hevia, A. and González-Manteiga, W. (2018). A comparative study of methods
for testing the equality of two or more ROC curves. Computational Statistics, 33:357–
377.
Fanjul-Hevia, A., González-Manteiga, W., and Pardo-Fernández, J. C. (2021). A non-
parametric test for comparing conditional ROC curves. Computational Statistics & Data
Analysis, 157:107146.
Géron, A. (2019) Hands-on Machine Learning with Scikit-Learn, Keras & TensonFlow.
Gravenstein Highway North, Sebastopol. OREILLY
Inácio de Carvalho, V., Jara, A., Hanson, T. E., and de Carvalho, M. (2013). Bayesian
nonparametric ROC regression modeling. Bayesian Analysis, 8(3):623–646.
Serafeim. L (2020): ‘ROC Curve explained using a COVID-19 hypothetical example:
Binary & Multi-Class’. Disponible en https://towardsdatascience.com/roc-curve-
explained-using-a-covid-19-hypothetical-example-binary-multi-class-classification-
bab188ea869c [fecha de consulta: 25/05/2021]
The Python Library Reference, jupyter-notebooks: sklearn, xgboost y yellow brick,
Pyodbc.
Scoring aplicado a la gestión del riesgo en infraestructuras Página 66 de 67
Joaquin Amat, R (2020): “Random Forest con Python”. Disponible en
https://www.cienciadedatos.net/documentos/py08_random_forest_python.html
Rodriguez, Y (2018): “XgBoost”. Disponible en https://www.diegocalvo.es/xgboost/
Scoring aplicado a la gestión del riesgo en infraestructuras Página 67 de 67
Anexo: Diccionario de Variables
Etiqueta original Nueva etiqueta Descripción de la variable
Id1 ID Numeración del 1 al 35.601
id ID_BBDD Numero de identificación de la incidencia
seguimiento SEGUIMIENTO Situación del seguimiento de la incidencia
creado F_CREACION Fecha de creación de la incidencia
modificado F_MODIFICADO Última fecha de modificación de la incidencia
INCIDENCIA___SINIESTRO TIPO_INDICENCIA Tipo (si es una incidencia F o G) o un siniestro
N_REFERENCIA REFERENCIA Número de referencia de la incidencia
RAMO RESP_CIVIL Tipo de responsabilidad civil (normal, ACSA, AGBAR)
FECHA_DE_SINIESTRO F_SINIESTRO Fecha en la que sucedió el siniestro
FECHA_DE_DECLARACION F_DECLARACION Fecha en la que se declaró el siniestro
Nº_POLIZA_COMPANIA N_POLIZA Número de póliza de la compañía
NOMBRE_EMPRESA N_EMPRESA Nombre de la empresa (75 empresas, Utes, aguas de…)
REFERENCIA_DEL_CLIENTE R_CLIENTE Referencia del cliente (comentario cualitativo para denominar al cliente de la incidencia, un
nombre, un código, una empresa, un lugar…)
REF__CIA REF_CIA Código de referencia de la incidencia
FECHA_RECLAMACION F_RECLAMACION Fecha de apertura de la reclamación
FECHA_DE_CIERRE F_CIERRE_RECLAMACION Fecha del cierre de la reclamación
SITUACION SITUACION Situación actual en la que se encuentra la incidencia (abierto, reabierto, cerrado)
SINIESTRORELACIONADO SINIESTRO_REL Siniestro relacionado con el siniestro actual (código, nombre del siniestro)
LUGAR LUGAR Luegar donde ha ocurrido el siniestro (dirección)
LOCALIDAD LOCALIDAD Localidad donde ha ocurrido el siniestro
PROVINCIA PROVINCIA Siniestro relacionado con el siniestro actual (código, nombre del siniestro)
CODIGO_POSTAL CP Código postal donde ha ocurrido el siniestro
DIRECCION_TERRITORIAL DIRECCION Dirección territorial donde ha ocurrido el siniestro
RESPONSABILIDAD RESPONSABILIDAD Se declara la responsabilidad de la causa del incidente (si, no, dudosa o compartida)
NATURALEZA NATURALEZA Daños patrimoniales puros, Daños materiales, Defensa y fianza, Daños personales
CAUSA CAUSA Causa o motivo que ha provocado la incidencia
DANOS_CAUSADOS DAÑOS Listado de daños, tanto mobiliario como de personas que ha causado la incidencia
_RECLAMACION_ASOCIADA_A_UNA_AVERIA_ RECLAMACION_AVERIA Si hay reclamación asociada o no
_ES_AVERIA_PROVOCADA_ AVERIA_PROV Si la averia es provocada o no
_DEBE_INTERVENIR_EL_PERITO_ PERITO Si debe intervenir el perito o no
FECHA_AVISO F_AVISO Fecha de aviso
LOCALIZACION_AVERIA LOCALIZACION_AVERIA Elemento que ha sido averiado a causa del incidente (Rotura tubería, rotura ramal…)
RAMAL RAMAL Si la avería provocada por el incidente se ha dado en el Ramal
TUBERIA TUBERIA Si la avería provocada por el incidente se ha dado en la tubería
ESTADO_DEL_TRAMITE ESTADO Estado actual del trámite (Pendiente, en negociación, inicial…)
TIPO_DE_RECLAMACION TIPO_RECLAMACIONTipo de reclamación que se ha pedido (Defensor del asegurador, amistosa, administrativa,
inicial, otras)PROCESO_JUDICIAL PROCESO_JUDICIAL Si ha existido o no proceso judicial a causa de la incidencia
TIPO_DE_PROCEDIMIENTO PROCEDIMIENTO Tipo de proceso judicial (civil, penal, contencioso, laboral)
LOCALIDAD_JUZGADO LOCALIDAD Localidad en la que se sitúa el juzgado
JUZGADO JUZGADO Orden o nivel de juzgado (audiencia, juzgado…)
PROFESIONALES_NOMBRE PROFESIONALES_NOMBRE Nombre de los profesionales
PROFESIONALES_PRIMER_APELLIDO PROFESIONALES_APELLIDO Apellido de los profesionales
RESERVA_DEDUCIBLE RESERVA_DEDUCIBLE Canitdad (en euros) de la reserva deducible
RESERVA_ASEGURADOR RESERVA_ASEGURADOR Cantidad (en euros) de la reserva del asegurador
PAGOS_DEDUCIBLE PAGOS_DEDUCIBLE Pago reducible
PAGOS_ASEGURADOR PAGOS_ASEGURADOR Pagos del asegurador
GASTOS GASTOS Gastos de la incidencia
TOTAL_COSTE COSTE Coste total de la incidencia
ABIERTO___CERRADO PROCESO_AB_CER Si el proceso judicial se encuentra actualmente abierto o cerrado
COSTE_ESTIMADO COSTE_ESTIMADO Coste estimado de la incidencia
lat LAT Latitud del lugar donde se encuentra el incidente
long LONG Longitud del lugar donde se encuentra el incidente