Credit scoring, aplicando técnicas de regresión logística ... · concepto de modelos de credit...
Transcript of Credit scoring, aplicando técnicas de regresión logística ... · concepto de modelos de credit...
-
Universidad Andina Simón Bolívar
Sede Ecuador
Área de Gestión
Maestría en Gestión Financiera y Administración de Riesgos Financieros
Credit scoring, aplicando técnicas de regresión logística y redes neuronales, para una cartera de microcrédito
Cristhian Oswaldo Montalván Acaro
Tutor: Felipe Alexander Andrade Cóndor
Quito, 2019
https://creativecommons.org/licenses/by-nc-nd/4.0/
-
2
-
3
3
Cláusula de cesión de derecho de publicación de tesis
Yo, Cristhian Oswaldo Montalván Acaro, autor de la tesis intitulada Credit
scoring, aplicando técnicas de regresión logística y redes neuronales, para una cartera
de microcrédito mediante el presente documento dejo constancia de que la obra es de mi
exclusiva autoría y producción, que la he elaborado para cumplir con uno de los requisitos
previos para la obtención del título de Máster en Gestión Financiera y Administración de
Riesgos Financieros en la Universidad Andina Simón Bolívar, Sede Ecuador.
1. Cedo a la Universidad Andina Simón Bolívar, Sede Ecuador, los derechos
exclusivos de reproducción, comunicación pública, distribución y divulgación, durante 36
meses a partir de mi graduación, pudiendo por lo tanto la Universidad, utilizar y usar esta
obra por cualquier medio conocido o por conocer, siempre y cuando no se lo haga para
obtener beneficio económico. Esta autorización incluye la reproducción total o parcial en
los formatos virtual, electrónico, digital, óptico, como usos en red local y en internet.
2. Declaro que en caso de presentarse cualquier reclamación de parte de terceros
respecto de los derechos de autor/a de la obra antes referida, yo asumiré toda
responsabilidad frente a terceros y a la Universidad.
3. En esta fecha entrego a la Secretaría General, el ejemplar respectivo y sus
anexos en formato impreso y digital o electrónico.
Fecha: …………………………………….
Firma: …………………………………….
-
4
-
5
5
Resumen
Esta investigación pretende contrastar la hipótesis de sí el uso de redes neuronales,
para la modelización del credit scoring de una cartera de microcrédito, logra un mejor
performance que utilizar una metodología de regresión logística.
Para esto se hace uso de la información de una cartera del producto de
microcrédito, proporcionada por una institución financiera ecuatoriana de mediano
tamaño, desembolsada entre los periodos de enero 2014 a diciembre 2017. La
información corresponde al momento del desembolso de los créditos, por lo cual se
construye modelos scoring de originación.
Los dos modelos por desarrollar son construidos con el programa estadístico R y
una vez se cuenta con estos, se procede a comparar su poder predictivo, capacidad para
diferenciar entre buenos y malos clientes, adaptación a los datos, etc.; a partir de distintos
estadísticos como KS, coeficiente de Gini, matriz de confusión, AUROC, criterio de
información de Akaike.
Además, se aplica los modelos en un periodo de información distinto al que se usó
en su construcción y de esta forma establecer si son generalizables, al ser funcionales con
información distinta al de su desarrollo.
El modelo de redes neuronales se ajusta de mejor forma a los datos, pues se
obtiene un criterio de información Akaike menor al de regresión logística, con una
diferencia de 8.029,2 puntos. De igual forma, los estadísticos KS, coeficiente de Gini y
curva ROC evidencia que hacer uso de las redes neuronales logra una mejor clasificación
de los clientes, con 5,19, 5,84 y 2,92 puntos porcentuales por encima de los estadísticos
del modelo de regresión logística, respectivamente. Finalmente, la matriz de confusión
muestra un menor error con el modelo de redes neuronales, al compararlos con un mismo
punto de corte óptimo.
Los resultados obtenidos evidencian que la metodología de redes neuronales
proporciona un modelo scoring más robusto que al usar una regresión logística, pudiendo
corroborar que la hipótesis planteada es verdadera, bajo el proceso de modelización
empleado.
Palabras clave: regresión logística, redes neuronales, score, originación,
modelos, proceso de modelización
-
6
-
7
7
Dedicado a todos aquellos que me quieren y quiero.
Sí, este trabajo está dedicado a ti.
-
8
-
9
9
Agradecimientos
Han sido muchas personas que, a lo largo de este sueño, me han apoyado e
incentivado a cumplirlo; a todas aquellas personas expreso mi agradecimiento:
• A Dios, que ha guiado mis pasos en este camino de la vida.
• A mi padre y madre, que, sin su esfuerzo, constancia y amor, no sería la persona
que me he esforzado en ser.
• A mis hermanos Oscar y Diana, que sin sus locuras y constante presión me hubiera
vuelto loco y no de la forma agradable, los adoro.
• A mi mejor amiga de la vida, Jessica, que siempre me incentiva a ser mejor, y
seguir adelante.
• Priscila, Samanta y Santiago, personas en las que pude confiar y puedo decir, sin
miedo, que aprecio.
• A personas que, a pesar de la distancia se hicieron presentes, los quiero chicos,
Alex y Eli.
• Y por qué no, algunas menciones especiales, Daniel, Cecilia, Gonzalo y Paúl,
espero se pregunten por que los incluí, pero tengo mis razones.
-
10
-
11
11
Tabla de contenidos
Capítulo primero: Planteamiento del problema .................................................. 17
1. Descripción de la realidad problemática ................................................ 17
2. Hipótesis ................................................................................................. 18
3. Objetivo general y específicos ................................................................ 18
4. Justificación ............................................................................................ 19
5. Delimitación del problema ..................................................................... 20
Capítulo segundo: Marco teórico ........................................................................ 21
1. Naturaleza de los modelos ...................................................................... 24
2. Modelo de regresión logística - logit ...................................................... 24
2.1 Estimación de los parámetros modelo logit ........................................ 25
2.2 Interpretación coeficientes de una regresión logística. ....................... 27
3. Modelo de Redes Neuronales ................................................................. 28
3.1 Modelo biológico ................................................................................ 28
3.2 Elementos de una red neuronal artificial ............................................ 30
3.3 Arquitectura de las redes neuronales .................................................. 33
3.4 Modos de operación de una red neuronal ........................................... 34
3.5 Clasificación de los modelos neuronales ............................................ 36
3.6 Algoritmo Backpropagation ............................................................... 37
3.7 Algoritmo RPROP+ ............................................................................ 38
4. Conceptos del proceso de modelización ................................................. 39
4.1 Prueba Dickey – Fuller aumentada ..................................................... 39
4.2 Muestreo aleatorio simple .................................................................. 39
4.3 Roll Rate ............................................................................................. 39
4.4 Valor de Información (IV) .................................................................. 40
4.5 Backward Stepwise y criterio de información de Akaike (AIC) ........ 40
4.6 Estadístico de Wald ............................................................................ 41
4.7 GVIF: Factor de inflación de la varianza generalizado ...................... 42
4.8 Estadístico de Kolmogorov – Smirnov (KS) ...................................... 42
-
12
4.9 Coeficiente de GINI............................................................................ 44
4.10 Matriz de confusión: error, sensibilidad y especificidad ................ 44
4.11 Estadístico AUROC ........................................................................ 46
Capítulo tercero: Proceso de modelación ........................................................... 47
1. Selección y consistencia de la muestra ................................................... 49
2. Determinación del periodo de modelización .......................................... 50
3. Definición de buen y mal cliente ............................................................ 54
4. Análisis de las variables independientes ................................................ 58
4.1 Análisis exploratorio de las variables ................................................. 59
4.2 Categorización de las variables .......................................................... 59
4.3 Elección de variables predictoras ....................................................... 60
Capítulo cuarto: Construcción y contraste de modelos ...................................... 63
1. Modelo de Regresión Logística .............................................................. 63
1.1 Significancia de las variables independientes .................................... 66
1.2 Consistencia de signos y coeficientes de las variables del modelo .... 66
1.3 Resultados del factor de inflación generalizado de la varianza .......... 70
1.4 Estadísticos del modelo de regresión logística ................................... 70
2. Modelo de Redes Neuronales ................................................................. 71
2.1 Estadísticos del modelo de redes neuronales ...................................... 75
3. Comparación Modelos Scoring .............................................................. 76
3.1 Poder predictivo en el periodo de Testing .......................................... 80
Capítulo quinto: Conclusiones y recomendaciones ............................................ 83
1. Conclusiones ........................................................................................... 83
2. Recomendaciones ................................................................................... 85
Bibliografía ......................................................................................................... 87
Anexos ................................................................................................................ 91
Anexo 1: Descripción del total de variables ................................................... 91
Anexo 2: Categorización de variables independientes – árboles .................... 94
Anexo 3: Código R ....................................................................................... 106
-
13
13
Lista de tablas
Tabla 1 Matriz de Confusión .......................................................................................... 45
Tabla 2 Indicadores de eficiencia ................................................................................... 45
Tabla 3 Tamaño muestra periodo de modelo ................................................................. 54
Tabla 4 Roll Rate – Definición de Cliente bueno, malo e indeterminado ...................... 55
Tabla 5 Definición del tipo de cliente ............................................................................ 57
Tabla 6 IV – Variable Num_Inst_Adeuda ...................................................................... 61
Tabla 7 Modelo Scoring Originación – Metodología logit ............................................ 64
Tabla 8 Estadísticos del modelo logit ............................................................................. 70
Tabla 9 Coeficientes – Capa 1 ........................................................................................ 73
Tabla 10 Coeficientes – Capa 2 ...................................................................................... 74
Tabla 11 Coeficientes – Capa 3 ...................................................................................... 75
Tabla 12 Coeficientes – Capa 4 ...................................................................................... 75
Tabla 13 Estadísticos del modelo redes neuronales ....................................................... 75
Tabla 14 Comparación estadísticos modelos – Periodo modelo .................................... 77
Tabla 15 Matrices de confusión: Punto de corte 0,8680071 .......................................... 78
Tabla 16 Matrices de confusión: Punto de corte 0,890068781 ...................................... 78
Tabla 17 Periodo Testing ................................................................................................ 80
Tabla 18 Estadísticos - Periodo Testing ......................................................................... 80
-
14
-
15
15
Lista de Figuras
Figura 1 Función Logística 25
Figura 2 Modelo de una neurona biológica 29
Figura 3 Modelo de neurona artificial inspirada en una neurona biológica 30
Figura 4 Funciones de activación usuales 32
Figura 5 Estructura de una red neuronal artificial multicapa 34
Figura 6 Clasificación de las redes neuronales 36
Figura 7 Regla valor de la información IV 40
Figura 8 Estándar estadístico KS 43
Figura 9 Esquema de modelización de un scoring 48
Figura 10 Definición del performance 49
Figura 11 Análisis de cosechas 51
Figura 12 Prueba ADF – Raíz Unitaria 52
Figura 13 Roll Rate: Atraso mayor a 90 días luego de 12 meses del desembolso 56
Figura 14 Árbol de decisión para la variable Num_Inst_Adeuda 60
Figura 15 Curva ROC del modelo logit 71
Figura 16 Arquitectura del modelo de redes neuronales 72
Figura 17 Red Neuronal 73
Figura 18 Curva ROC del modelo de redes neuronales 76
Figura 19 Comparación curvas ROC 79
-
16
-
17
17
Capítulo primero: Planteamiento del problema
1. Descripción de la realidad problemática
Evaluar el riesgo de crédito es de gran importancia para una institución financiera,
pues busca evitar pérdidas que pueden estar relacionadas a cualquier tipo de decisión de
concesión de crédito inapropiada. Además, la competencia empresarial para obtener más
ganancias y participación en el mercado se vuelve cada vez más agresiva con el paso de
los años, por lo que algunas instituciones asumen un mayor riesgo para lograr una ventaja
competitiva en el mercado, provocando que muchas sufran grandes pérdidas debido a un
aumento en el incumplimiento y préstamos incobrables (Yu 2008, 17).
En el proceso de otorgamiento de créditos, una institución no puede tomar
decisiones a partir de su juicio experto para cada una de las solicitudes recibidas, pues
con el aumento en el número de solicitantes y la competencia intensa en la industria
crediticia, este método no puede satisfacer las demandas en los aspectos económicos y de
eficiencia (Yu 2008, 17); sino que intentará adoptar sistemas de calificación de créditos
para facilitar y acelerar los procesos en la toma de decisiones. Por tal motivo, nace el
concepto de modelos de credit scoring o modelos de calificación de créditos (Islam, Zhou,
y Li 2009, 7).
Muchos algoritmos son usados para la construcción de un credit scoring, sin
embargo, cada vez se deberá buscar alternativas más efectivas para tomar decisiones más
precisas, por ejemplo, las redes neuronales (Islam, Zhou, y Li 2009, 7).
En el Ecuador, la cartera productiva, en la cual se considera la cartera comercial
y microcrédito, han tenido un incremento del 30,2% entre los periodos marzo 2015 y
marzo 2019, pasando de 11.285,4 millones de dólares a 14.698,8 millones de dólares,
respectivamente (Arias 2016, 3). De igual forma, la cartera vencida más cartera que no
devenga intereses para estos productos, que la Superintendencia de Bancos del Ecuador
llama cartera problemática, tuvo un incremento del 17,9% pasando de 192,32 millones
dólares a 226,76 millones de dólares, en los mismos periodos. Más preocupante son las
cifras de la cartera con calificación C, D y E pues pasan de 981,5 millones de dólares en
marzo del 2015 a 14.698,8 millones de dólares en marzo del 2019, teniendo un incremento
del 235,2%, representando el 22,4% del total de cartera productiva a marzo del 2019
(Paredes y Cóndor 2018, 2).
-
18
Varios factores pueden incidir en el crecimiento de la cartera vencida o el
incremento de la mora de una cartera, como malas prácticas en la concesión de créditos,
metas de créditos agresivas por parte de las instituciones, deterioro del empleo, recesión
económica, etc. Sin embargo, el anterior escenario evidencia la necesidad de contar con
nuevas herramientas para la gestión de riesgo de crédito que ayuden a minimizar la
probabilidad de pérdida de una institución, buscando alcanzar la eficiencia de la gestión
de riesgos a partir de mejores herramientas estadísticas e informáticas.
El presente trabajo será desarrollado a partir de información proporcionada por
una institución financiera ecuatoriana de la cual por razones de privacidad y seguridad no
se revelará el nombre, pero cuando sea necesario, será llamada Entidad Financiera X.
La Entidad Financiera X, evidenció un incremento del 1.6% en su saldo en mora
mayor a 90 días y un crecimiento del 4.4% en el saldo en mora mayor a 180 días, para su
cartera de microcrédito, comparando los meses junio 2017 y junio 2018. Frente a esta
situación, la institución se ha visto en la necesidad de contar con herramientas que apoyen
de forma eficaz y eficiente los procesos de concesión de crédito, y buscar contrastar
metodologías distintas a las que cuenta al momento, pues únicamente, hace uso de
metodologías de regresión logística.
2. Hipótesis
El hacer uso de redes neuronales, para la modelización del credit scoring de una
cartera de microcrédito, logra un mejor performance que utilizar una metodología de
regresión logística.
3. Objetivo general y específicos
Objetivo general:
Comparar la metodología de credit scoring de regresión logística y redes
neuronales en una cartera de microcrédito, de una institución financiera ecuatoriana.
Objetivos específicos:
• Conocer la teoría que respalda los métodos de regresión logística y de redes
neuronales, para la obtención de un modelo credit scoring.
-
19
19
• Detallar el proceso de modelización al usar metodologías de regresión logística y
de redes neuronales.
• Identificar el modelo de credit scoring, regresión logística o redes neuronales, que
tiene un mejor desempeño.
4. Justificación
Para las instituciones financieras es de gran importancia conocer con anticipación
la probabilidad de que un solicitante de crédito vaya a cumplir con su obligación, y poder
tomar decisiones más objetivas y eficientes sobre el otorgamiento de los préstamos y
sobre los términos que establecerán para sus diferentes productos.
La necesidad de modelos cuantitativos confiables que discriminen a los buenos y
malos clientes con precisión es crucial para el negocio de muchas instituciones de crédito,
pues podrán tomar medidas preventivas o correctivas en el proceso de concesión y
seguimiento de créditos. Es evidente que la modelización y análisis de riesgo se vuelven
muy importantes para la sostenibilidad y beneficio de las empresas convirtiendo el
análisis y modelización del riesgo de crédito en un tema valioso tanto para la comunidad
académica y de la industria (Yu 2008, 5).
Para cumplir este objetivo, se cuenta con los modelos matemáticos, credit scoring
(TransUnion 2007, 4). Los modelos credit scoring son algoritmos o métodos que pueden
ayudar a obtener la probabilidad de incumplimiento de un solicitante de crédito,
permitiendo evaluar el riesgo en el origen de la financiación (Gutierrez Girault 2007, 2).
Existe una gran variedad de metodologías disponibles para evaluar el riesgo de
crédito, los modelos de regresión logística se encuentran en el grupo de los más usados
en la industria por ser intuitivos, de buen poder predictivo y de fácil implementación; sin
embargo, existen otros métodos menos explorados, con un mayor nivel de complejidad
que podrían mejorar el poder predictivo, entre estos se encuentra los métodos de redes
neuronales (Bonilla, Olmeda, y Puertas 2003, 864).
Esta investigación pretende contrastar las historias de superioridad de la
metodología de redes neuronales sobre los métodos tradicionales como es la regresión
logística, con información de una institución financiera ecuatoriana, cotejando su poder
predictivo y estableciendo diferencias entre cada uno. Esto será muy útil para las
empresas financieras pues se impulsa el uso de algoritmos avanzados que pueden mejorar
la identificación de buenos y malos clientes.
-
20
Además, de comparar los resultados de los dos modelos a desarrollar, se busca
detallar cada uno de los pasos del proceso de modelización, identificando las diferencias
por hacer uso de dos metodologías distintas, sirviendo de guía para las instituciones
financieras que tratan con microcréditos, y aquellas que busquen desarrollar modelos de
credit scoring.
5. Delimitación del problema
En el presente proyecto se generan dos modelos scoring para la cartera de
microcrédito de una institución financiera ecuatoriana haciendo uso de dos metodologías
distintas, regresión logística y redes neuronales. Los dos modelos se enfocarán en el
proceso de otorgamiento de créditos, por lo cual se los categoriza como modelos de
originación. La Entidad Financiera X que facilita la información para el desarrollo del
presente trabajo cuenta con más de 1.000 colaboradores en todo el país a diciembre del
2017 y un valor en activo de más de 600 millones de dólares.
-
21
21
Capítulo segundo: Marco teórico
En el presente capítulo se expone las metodologías de regresión logística y redes
neuronales, con el fin de conocer la estructura tras cada modelo y los distintos conceptos
que serán empleados en el proceso de modelización y comparación de los scores
resultantes.
Una de las principales actividades de una institución financiera es la de
intermediación financiera, permitiendo transferir los recursos de aquellos individuos con
exceso de estos, a aquellos que lo necesitan, para consumirlo o invertirlo. Cumplir con
esta actividad, conduce a la institución a exponerse a un conjunto de riesgos, que conlleva
a la presencia de pérdidas.
Por lo cual, es de suma importancia, para la institución, contar con herramientas
eficientes para la identificación, medición, monitoreo, control, mitigación y divulgación
de los riesgos, a la cual está sujeta; es decir, contar con metodologías y políticas que
lleven a una correcta gestión de los riesgos (Bolivia et al. 2008, 40).
Así nacen las metodologías conocidas como credit scoring, que cuentan con
algunas definiciones, dependiendo de la perspectiva del autor. D. J. Hand y Henley (1997,
523) lo definen como un método estadístico formal, usado para clasificar a solicitantes de
crédito en grupos de buenos y malos; menciona que estos métodos han llegado a ser muy
importantes, con un dramático crecimiento a partir de los años 70, pues en aquellos años,
los métodos tradicionales para decidir si otorgar o no un crédito, para un individuo en
particular, era el uso del juicio humano, basado en la experiencia de decisiones tomadas
anteriormente.
Sin embargo, con el incremento de la demanda de crédito, alineado con una
competencia comercial más grande y una mejora de los recursos estadísticos y
tecnológicos, la industria financiera se vio en la necesidad de hacer un más eficaz y
eficiente proceso de otorgamiento de créditos, así como de la evaluación de su portafolio.
Es así, que la utilización de modelos credit scoring, para la evaluación del riesgo
de crédito, comienzan a ser usados en los años 70’s pero se generalizan a partir de los
90’s (Gutierrez Girault 2007, 2).
Pese a todo, tal como lo menciona Gutierrez Girault (2007, 2), a pesar de la
diversidad de modelos scoring, el juicio humano o del analista, no ha quedado rezagado,
continúa siendo utilizado, afirmando que en la práctica ambos métodos de evaluación
-
22
coexisten y complementan; siendo los basados en la experiencia denominados como
expertos y aquellos que se basan en un análisis estadístico como estadísticos.
Autores como Thomas, Edelman, y Crook (2002, 16) definen a un credit scoring
como un conjunto de modelos de decisión y sus técnicas implícitas que ayudan a los
prestamistas en la concesión de un crédito. Shanmugapriya (2012, 34) los considera como
un proceso en el cual se analiza el comportamiento pasado de los clientes para diferenciar
clientes en bancarrota y no bancarrota.
Existen algunas definiciones para un credit scoring; sin embargo, en este trabajo,
se considera a un credit scoring como un conjunto de metodologías que permitirán
evidenciar la probabilidad que un cliente cumpla o no con sus obligaciones, a partir de la
información que se conozca del mismo.
Los modelos credit scoring tienen muchas funciones dentro del ciclo de vida de
un crédito que comprende el otorgamiento, seguimiento, cobranza y recuperación
(Bolivia et al. 2008, cap. 2); sin embargo, este proyecto se enfocará en las metodologías
que sirven de apoyo, en la toma de decisiones del proceso de otorgamiento de créditos;
tales metodologías deben permitir medir los riesgos de los potenciales clientes, a fin de
precisar quiénes podrían ser sujetos de crédito, estableciendo variables significativas que
ayuden a identificar los individuos cuyo riesgo se ajuste al perfil de riesgo de la
institución.
En la literatura, se cuenta con diversas metodologías para modelar un credit
scoring, no obstante, se abordarán los modelos de regresión logística y de redes
neuronales; los primeros, considerados como tradicionales y comúnmente usados por las
instituciones por su poder de predicción y facilidad de interpretación y los segundos,
métodos menos explorados, que podrían mejorar el poder predictivo obtenido por los
modelos tradicionales (Bonilla, Olmeda, y Puertas 2003, 864).
En general cada método tiene ventajas y desventajas para la construcción de un
modelo de riesgo de crédito. Yu (2008, 17) expresa que modelos como las redes
neuronales tienen como ventaja el construir un modelo sin la necesidad que el usuario
tenga una comprensión profunda del problema, pudiendo utilizarlos independientemente
del cumplimiento de supuestos teóricos relativos a técnicas estadísticas o paramétricas,
además de funcionar mejor desde el punto de vista de la precisión en la clasificación.
Mientras que métodos más tradicionales, como la regresión logística, necesitan construir
el modelo en base al cumplimiento de algunos supuestos. Las ventajas de los métodos
tradicionales es que son relativamente simples, fáciles de interpretar e implementar, que
-
23
23
es algo que no se tiene en un modelo de redes neuronales pues su compleja estructura no
permite lograr resultados óptimos. Por lo cual, es difícil para alguien determinar cuál es
“el mejor” modelo en general, para todas las posibles situaciones.
Trabajos de Pitarque, Ruiz, y Roy (2000, 459) buscan apoyar, con sus resultados,
la idea que las redes neuronales han mostrado una capacidad clasificatoria igual o superior
que las técnicas estadísticas. Trabajan con una serie de simulaciones y aplicaciones sobre
datos reales, comparando las redes neuronales con la regresión logística y el análisis
discriminante. Si bien sus resultados muestran que las redes hacen un mejor trabajo en la
clasificación de la variable objetivo, plantean la pregunta si vale la pena ganar en
capacidad de clasificación a costa del costo computacional y de recursos involucrados en
el entrenamiento de las redes neuronales, concluyendo que ambas técnicas deberían
complementarse. Islam, Zhou, y Li (2009, 29) llega a conclusiones similares.
En cambio, Croall y Mason (1992, 74), Ladino (2014, 27), Larasati, DeYong, y
Slevitch (2011, 304) no muestran inclinación alguna hacia una u otra metodología,
estableciendo que no se puede demostrar la superioridad de metodologías como las redes
neuronales, sobre las tradicionales al tener cada una sus ventajas en distintos escenarios.
Bonilla, Olmeda, y Puertas (2003, 859) evalúan la capacidad predictiva de dos
modelos paramétricos (análisis discriminante y regresión logística) y cinco no
paramétricos, entre los que se encuentran las redes neuronales, sobre una base de 690
observaciones de solicitantes de tarjetas de crédito. Concluye que las redes neuronales
resultan ser el modelo de mayor capacidad predictiva, superando a todos los demás. Sin
embargo, la escasez de datos dificulta la adecuada comparación de los modelos. Compara
los mismos a partir del error de predicción, obteniendo un error del 12,50% y 12,33% en
el periodo de entrenamiento y el 12,22% y 10% en el periodo de testing para los modelos
logit y redes neuronales, respectivamente.
En cambio Trujillano et al. (2003, 504) compara la capacidad de predicción de un
modelo de regresión logística y redes neuronales a partir de la curva ROC, evidenciando
mejores valores con las redes neuronales, que se mantienen tanto en la muestra de
desarrollo como testing.
Zhang (2004, 272) expone que uno de los métodos comúnmente usados para
evaluar el poder de clasificación de los modelos es el estadístico de Kolmogorov –
Smirnov (K-S). El mismo compara un modelo de regresión logística y redes neuronales
a partir de los estadísticos K-S, curva ROC y matriz de confusión. El estadístico K-S fue
superior con 14 puntos porcentuales en las redes neuronales, mientras que para la curva
-
24
ROC y tasa de clasificación global fue superior el modelo de regresión logística con 4,41
y 10,57 puntos porcentuales, respectivamente. Zhang concluye que ningún método de
evaluación representa una panacea para los investigadores o analistas, sino mas bien es
necesaria una comprensión de los datos y el problema para la correcta elección de no solo
la metodología de modelación sino también del método de evaluación (Zhang 2004, 289).
En el presente trabajo se busca contrastar, si el hacer uso de redes neuronales, para
la modelización del credit scoring, logra un mejor performance que utilizar una
metodología de regresión logística, para una cartera de microcrédito de una institución
financiera ecuatoriana, comparando estadísticamente cada metodología.
1. Naturaleza de los modelos
El objetivo principal de los dos modelos es estimar la probabilidad de
incumplimiento de un solicitante de crédito; para esto es necesario contar con una variable
que identifique si el solicitante es un buen o mal cliente, esta variable será representada
con la letra Y, que es la variable dependiente del modelo.
La variable dependiente es una variable dicotómica (binaria) que toma los
siguientes valores:
𝑌 = {1: 𝑆𝑖 𝑒𝑙 𝑠𝑜𝑙𝑖𝑐𝑖𝑡𝑎𝑛𝑡𝑒 𝑑𝑒 𝑐𝑟é𝑑𝑖𝑡𝑜 𝑒𝑠 𝑑𝑒𝑓𝑖𝑛𝑖𝑑𝑜 𝑐𝑜𝑚𝑜 𝑢𝑛 𝑏𝑢𝑒𝑛 𝑐𝑙𝑖𝑒𝑛𝑡𝑒 0: 𝑆𝑖 𝑒𝑙 𝑠𝑜𝑙𝑖𝑐𝑖𝑡𝑎𝑛𝑡𝑒 𝑑𝑒 𝑐𝑟é𝑑𝑖𝑡𝑜 𝑒𝑠 𝑑𝑒𝑓𝑖𝑛𝑖𝑑𝑜 𝑐𝑜𝑚𝑜 𝑢𝑛 𝑚𝑎𝑙 𝑐𝑙𝑖𝑒𝑛𝑡𝑒
(1)
La definición de cliente bueno (1) y malo (0), para la variable dependiente Y, es
construida a partir de su información demográfica, comportamiento en el buró y/o dentro
de la institución.
Los modelos buscan estimar la probabilidad que la variable dependiente Y tome
el valor de 0 o 1, a partir de un conjunto de variables denominadas independientes, las
cuales serán representadas con la letra X, que pueden ser cualitativas o cuantitativas. Las
variables independientes son obtenidas a partir de diversas fuentes de información tanto
internas y externas del individuo, como puede ser su información crediticia, de buró,
demográfica, etc. Muchas de las cuales dependerán de las características del crédito que
se esté considerando.
2. Modelo de regresión logística - logit
Los modelos logit pertenecen al grupo de modelos de regresión con respuesta
cualitativa, en este caso binaria; mientras que las variables independientes pueden ser
cualitativas o cuantitativas, o una mezcla de ambas (Flórez y Rincón 2002, 124).
-
25
25
El modelo está basado en una función de distribución logística, cuya estructura se
presenta a continuación:
𝑃(𝑌 = 1| 𝑋) = 𝐹(𝒛) =exp(𝒛)
1 + exp(𝒛), − ∞ < 𝑧 < ∞ (2)
Con 𝑧 = 𝑋𝑇𝛽 = 𝛽0 + 𝛽1𝑥1 +⋯+ 𝛽𝑛𝑥𝑛.
Figura 1
Función Logística
Fuente: Flórez y Rincón (2002, 128) Elaboración: Propia
Donde:
• Y: Es la variable dependiente, binaria, que puede tomar dos posibles valores, que
se etiquetará con 0 (cliente malo) y 1 (cliente bueno).
• X: Es el conjunto de n variables independientes (𝑥1, 𝑥2, … , 𝑥𝑛) relacionadas con
la información propia del solicitante, tomadas con el fin de explicar y/o predecir
el valor de Y.
• 𝐹(𝑧): Es la función de probabilidad, que depende de un vector de parámetros 𝛽 =
(𝛽0, 𝛽1, … , 𝛽𝑛), que permitirán relacionar las variables independientes X, con la
dependiente Y. Esta función tiene un rango entre [0, 1] y se conoce como función
de distribución logística.
El objetivo del modelo es hallar los coeficientes 𝛽 que mejor se ajusten a la
expresión (2).
2.1 Estimación de los parámetros modelo logit
La estimación de los coeficientes 𝛽 puede realizarse a partir del método de
máxima verosimilitud (Gujarati, Guerrero, y Medina 2005, 574).
Supóngase se cuenta con un conjunto de k individuos; de tal forma que,
catalogarles como buenos o malos clientes será definido por la variable 𝑌𝑖, considerando
𝑖 = 1, 2,… , 𝑘.
1
0
-
26
En vista que cada 𝑌𝑖 es una variable aleatoria de Bernoulli, por tomar dos valores,
0 o 1, podemos expresar la probabilidad que suceda uno u otro evento, como sigue:
𝑃(𝑌𝑖 = 1) = 𝑃𝑖 𝑃(𝑌𝑖 = 0) = 1 − 𝑃𝑖
Su función de probabilidad será:
𝑓𝑖(𝑌𝑖) = 𝑃𝑖𝑌𝑖 × (1 − 𝑃𝑖)
1−𝑌𝑖 , 𝑐𝑜𝑛 𝑖 = 1, 2, 3, … , 𝑘 (3)
Es decir, la función 𝑓𝑖(𝑌𝑖) denota la probabilidad que 𝑌𝑖 = 1 𝑜 0.
Como cada observación es independiente, la probabilidad conjunta de observar
los k valores de la variable Y, se expresa como:
𝑓(𝑌1, 𝑌2, … , 𝑌𝑘) =∏𝑓𝑖(𝑌𝑖)
𝑘
𝑖=1
=∏𝑃𝑖𝑌𝑖 × (1 − 𝑃𝑖)
1−𝑌𝑖
𝑘
𝑖=1
(4)
Donde ∏ es el operador producto. A esta probabilidad conjunta se la conoce como
función de verosimilitud (FLV). Al tomar el logaritmo de esta función se tiene:
ln (𝑓(𝑌1, 𝑌2, … , 𝑌𝑘)) =∑[𝑌𝑖 ln 𝑃𝑖 + (1 − 𝑌𝑖) ln(1 − 𝑃𝑖)]
𝑘
𝑖=1
= ∑[𝑌𝑖 ln 𝑃𝑖 − 𝑌𝑖 ln(1 − 𝑃𝑖) + ln(1 − 𝑃𝑖)]
𝑘
𝑖=1
= ∑[𝑌𝑖 ln (𝑃𝑖
1 − 𝑃𝑖)] +∑ln(1 − 𝑃𝑖) (5)
𝑘
𝑖=1
𝑘
𝑖=1
Tal como se expuso en (2), la probabilidad que un individuo sea un buen o mal
cliente es representado por:
𝑃𝑖 =exp(𝑋𝑖
𝑇𝛽)
1 + exp(𝑋𝑖𝑇𝛽)
(6)
De aquí se puede, fácilmente, demostrar que:
1 − 𝑃𝑖 =1
1 + exp(𝑋𝑖𝑇𝛽)
(7)
De igual forma,
ln (𝑃𝑖
1 − 𝑃𝑖) =𝑋𝑖
𝑇𝛽 (8)
Considerando (7) y (8) en (5), se puede expresar el logaritmo de la función de
verosimilitud, como sigue:
-
27
27
ln (𝑓(𝑌1, 𝑌2, … , 𝑌𝑘)) =∑𝑌𝑖(𝑋𝑖𝑇𝛽) −∑ln(1 + exp(𝑋𝑖
𝑇𝛽))
𝑘
𝑖=1
𝑘
𝑖=1
(9)
Podemos observar que (9) es una función que depende de los coeficientes 𝛽, pues
𝑌𝑖 y 𝑋𝑖 se conocen.
El método de máxima verosimilitud consiste en maximizar la expresión (9), para
buscar la máxima capacidad predictiva. Para esto se deriva parcialmente, respecto a cada
una de las incógnitas; es decir, respecto a cada 𝛽𝑗, con 𝑗 = 1, … , 𝑛. Obteniendo un sistema
de n ecuaciones no lineales, que deberán resolverse por procedimientos numéricos.
Una vez obtenidos los valores 𝛽 se verifica que en verdad maximicen la función
de verosimilitud a partir de la condición de maximización de segundo orden. Luego de
este proceso, se obtiene los coeficientes, necesarios para estimar la probabilidad de
incumplimiento de un individuo, a partir de la ecuación (2).
2.2 Interpretación coeficientes de una regresión logística.
Una de las razones, por las cuales se utiliza con mayor frecuencia un modelo de
regresión logística es que su interpretación es relativamente sencilla. Para apreciar este
beneficio, es de ayuda entender el significado de odds. Tal como lo expresa (Allison 2012,
15) muchas personas consideran a una probabilidad como la forma “natural” de
cuantificar que un evento ocurra, considerando valores que se mueven entre 0 y 1. Sin
embargo, existen otras formas de representar un cambio natural en algún evento, esto son
los odds ratios.
El mismo autor, define los odds, como la relación entre el número esperado de
veces que un evento ocurra y el número esperado de veces que este no ocurra. De esta
forma, la relación entre el odds y la probabilidad es:
𝑂𝑑𝑑𝑠 = 𝑃𝑟𝑜𝑏𝑎𝑏𝑖𝑙𝑖𝑑𝑎𝑑 𝑞𝑢𝑒 𝑢𝑛 𝑒𝑣𝑒𝑛𝑡𝑜 𝑜𝑐𝑢𝑟𝑟𝑎
1 − 𝑃𝑟𝑜𝑏𝑎𝑏𝑖𝑙𝑖𝑑𝑎𝑑 𝑞𝑢𝑒 𝑢𝑛 𝑒𝑣𝑒𝑛𝑡𝑜 𝑜𝑐𝑢𝑟𝑟𝑎
Esta expresión tiene relevancia en un modelo de regresión logística, pues si se
considera (6) y (7) se tiene,
𝑃𝑖1 − 𝑃𝑖
=
exp(𝑋𝑖𝑇𝛽)
1+exp(𝑋𝑖𝑇𝛽)
1
1+exp(𝑋𝑖𝑇𝛽)
= exp(𝑋𝑖𝑇𝛽) (10)
A esta expresión se la considera como transformación logit de la probabilidad 𝑃𝑖,
cuya parte izquierda es una razón de probabilidades u odds (Flórez y Rincón 2002, 128).
Al considerar el logaritmo natural de (10) se obtiene el logaritmo de la razón de
-
28
probabilidades conocido como logit y es por este término que al modelo de regresión
logística se lo conoce, también, como modelo logit. Así, se llega a la ecuación (8).
L = ln (𝑃𝑖
1 − 𝑃𝑖) =𝑋𝑖
𝑇𝛽 = 𝛽0 + 𝛽1𝑥1 +⋯+ 𝛽𝑛𝑥𝑛 (11)
De esta forma, la interpretación del modelo está dada por esta expresión logit (L);
por ejemplo, 𝛽2 mide el cambio en L ocasionado por un cambio unitario en 𝑥2,
suponiendo constantes el resto de variables explicativas (Gujarati, Guerrero, y Medina
2005, 575).
La interpretación del modelo también puede darse a partir del odds ratio, la cual
es una medida de la magnitud de asociación entre dos variables; en este caso, cada una de
las independientes con la dependiente. Un odds ratio mayor a 1, muestra que existe una
relación positiva o directa entre las dos variables, mientras que un odds ratio menor a 1,
establece una relación negativa o inversa. Cuando el odds ratio es igual a 1, significa que
no existe una relación entre las mismas (Salas 1996, 11).
El odds ratio puede calcularse a partir de la estimación de los parámetros del
modelo:
𝑜𝑑𝑑𝑠 𝑟𝑎𝑡𝑖𝑜 = 𝑒𝛽 (12)
3. Modelo de Redes Neuronales
Las redes neuronales artificiales (RNA) son modelos matemáticos-
computacionales que intentan imitar el funcionamiento del cerebro y la forma como este
procesa la información. Se cataloga dentro de las técnicas no paramétricas de credit
scoring, como sistemas con la capacidad de aprender a través de entrenamiento, también
conocido como la interpretación que ellas hacen de la información que reciben (Bahamón
2013, 37).
3.1 Modelo biológico
La figura 2 muestra un tipo común de neurona biológica, que está compuesta
principalmente por:
• Un cuerpo central, que contiene el núcleo celular, denominado Soma.
• La conexión entre neuronas se establece a partir de una prolongación del Soma,
llamada Axón, que también se ramifica en su extremo final para establecer
conexión con otras neuronas, estas ramificaciones son conocidas como terminales
axónicos.
-
29
29
• Las dendritas que son ramificaciones del cuerpo central, con las cuales se logra la
conexión sináptica.
Figura 2
Modelo de una neurona biológica
Fuente y elaboración: Tablada y Torres (2009, 23)
Se estima que alrededor de cien mil millones de neuronas son las que conforman
el sistema nervioso; estas se diferencian del resto de células vivas en el hecho que poseen
capacidad de comunicarse.
En general, las dendritas y el Soma reciben las señales de entrada, el cuerpo celular
las combina y emite señales de salida; a continuación, el Axón transmite esta señal a sus
terminales, que se encargan de distribuir la información a otro conjunto de neuronas (Brío
y Molina 2002, 5).
Un aspecto muy importante en el proceso de comunicación entre neuronas es el
término conocido como sinapsis. Brío y Molina (2002, 6) lo definen como la unión entre
dos neuronas, en el proceso de generación y transmisión de la señal nerviosa.
En cambio González y Hernando (2000, 46) lo precisa como contactos especiales,
a través de los cuales fluyen neurotransmisores que llevan las señales que se transmiten
entre los terminales axónicos de una neurona y las dendritas de la neurona siguiente.
Con relación al tipo de sinapsis, se puede establecer dos tipos de neuronas, las
neuronas presinápticas que son las que envían las señales y las postsinápticas las cuales
reciben. Así, se define dos tipos de sinapsis:
- Sinapsis excitadora: es aquella cuyos neurotransmisores facilitan la
generación de impulsos a mayor velocidad.
- Sinapsis inhibidoras: Sus neurotransmisores dificultan la emisión de impulsos.
A continuación, se establece una similitud directa entre las redes neuronales
artificiales y el proceso sináptico.
-
30
3.2 Elementos de una red neuronal artificial
Para introducir los elementos de una red neuronal artificial, se hará uso de la figura
3, que cuenta con una sola neurona; es decir, una pequeña parte de un sistema de red
neuronal artificial. Además, se puede evidenciar que esta tiene una forma similar a la
neurona biológica de la figura 2.
Figura 3
Modelo de neurona artificial inspirada en una neurona biológica
Fuente: Rico, Paredes, y Fernández (2009, 73)
Elaboración: Propia
Los aspectos que se buscan representar son los que se exponen a continuación. Se
puede observar (figura 3) que se tiene un elemento central, llamado neurona artificial la
cual recibe información del exterior o de otras neuronas. Las dendritas son la estructura
a través de la cual la neurona artificial recibe información, que luego es procesada de
acuerdo con la intensidad asignada al nexo entre la unión de las entradas y las neuronas;
este nexo se denomina sinapsis y a la intensidad descrita se le conoce como peso sináptico
(𝑾).
Las redes neuronales intentan reproducir el comportamiento del cerebro, por lo
cual, cualquier modelo de red neuronal consta de dispositivos elementales de proceso,
denominados neuronas; las cuales son definidas por Brío y Molina (2002, 12) como un
dispositivo que a partir de un conjunto de entradas que proceden ya sea del exterior u
otras neuronas, proporcionan una salida o respuesta.
Los elementos que constituyen a una neurona z son los siguientes (figura 3):
- Conjunto de entradas 𝑥𝑖(𝑡), 𝑖 = 1,… , 𝑛: las cuales pueden ser binarias o
continuas, dependiendo del tipo de modelo y aplicación.
… …
Estímulos externos o
salidas de otras neuronas
SinapsisCuerpo Celular Axón
Variables de entrada
PesosFunción de Agregación
Función de Activación
Variable de Salida
Dendritas
Neurona Artificial z
-
31
31
- Pesos sinápticos de la neurona z: catalogados como 𝑤𝑧𝑖, que representa la
intensidad de interacción entre la entrada i y la neurona z.
Dependiendo de los pesos, se puede obtener la salida necesaria, considerando
entradas específicas. Cuanto más grande sea el peso, más fuerte y relevante
será el nodo de entrada.
- Función de agregación también llamada regla de propagación: Se denomina
función de agregación a aquella regla que relaciona las entradas y los pesos
para obtener el valor de la señal postsináptica ℎ𝑧, conocido como potencial
postsináptico:
ℎ𝑧(𝑡) = 𝜎𝑧(𝑤𝑧𝑖, 𝑥𝑖(𝑡)) (13)
La función más habitual es lineal y consiste en la suma ponderada de las
entradas con los pesos sinápticos,
ℎ𝑧(𝑡) = ∑𝑤𝑧𝑖𝑥𝑖
𝑛
𝑖=1
(14)
Dado una entrada positiva, si el peso también es positivo, entonces este tenderá
a excitar a la neurona, si el peso es negativo, tenderá a inhibirla (Brío y Molina
2002, 16).
- Función de activación: La misma proporciona el estado de activación, en el
tiempo t, 𝑎𝑧(𝑡), a partir del potencial postsináptico ℎ𝑧(𝑡) y del estado de
activación anterior 𝑎𝑧(𝑡 − 1).
𝑎𝑧(𝑡) = 𝑓𝑧(𝑎𝑧(𝑡 − 1), ℎ𝑧(𝑡)) (15)
Sin embargo muchos modelos de redes neuronales consideran que el estado
actual de la neurona (tiempo t) no depende de su estado anterior (Brío y Molina
2002, 17), por lo cual
𝑎𝑧(𝑡) = 𝑓𝑧(ℎ𝑧(𝑡)) (16)
En general se puede establecer dos estados posibles, reposo y excitado, a los
cuales se les asigna un valor que puede ser continuo o discreto (González y
Hernando 2000, 52).
En la mayor parte de modelos la función de activación 𝑓(. ) es monótona
creciente y continua. En la figura 4, se expone las funciones de activación más
usuales, en donde: x representa el potencial postsináptico y el estado de
activación.
-
32
Figura 4
Funciones de activación usuales
Fuente y elaboración: Brío y Molina (2002, 18)
Muchas veces se adiciona al grupo de pesos, un parámetro adicional 𝜃𝑧, el cual
se resta del potencial postsináptico, y representa características propias de la
neurona, de tal forma que no es igual en todas ellas.
Por ejemplo, en el caso de neuronas todo-nada, el parámetro representa el nivel
mínimo que debe lograr el potencial postsináptico para que la neurona se
active. De tal forma, el argumento de la función de activación se expresa se la
siguiente forma
∑𝑤𝑧𝑖𝑥𝑖
𝑛
𝑖=1
− 𝜃𝑧 (17)
- Función de salida: Es la función que proporciona la salida de la neurona 𝑦𝑧(𝑡),
que depende del estado de activación 𝑎𝑧(𝑡). Por lo general la función de salida
es la identidad (𝐹(𝑥) = 𝑥) por lo cual la salida es considerada con el estado
de activación de la neurona
𝑦𝑧(𝑡) = 𝐹𝑧(𝑎𝑧(𝑡)) = 𝑎𝑧(𝑡) (18)
Finalmente, el modelo neuronal que Brío y Molina (2002, 19) denomina como
estándar queda como se muestra a continuación
-
33
33
𝑦𝑧(𝑡) = 𝑓𝑧 (∑𝑤𝑧𝑖𝑥𝑖 − 𝜃𝑧
𝑛
𝑖=1
)
= 𝑓𝑧 (∑𝑤𝑧𝑖𝑥𝑖
𝑛
𝑖=0
) (19)
Con 𝑤𝑧0 = 𝜃𝑧 y 𝑥0 = −1.
3.3 Arquitectura de las redes neuronales
En la sección anterior se mostró los principales componentes de una red neuronal.
A continuación, se expone las características de cada nodo de la red, así como la
organización de esta.
Generalmente, se puede encontrar tres tipos de neuronas:
- Las que toman la información de entrada, de las fuentes externas de la red.
- Las que procesan la información y generan cualquier tipo de representación
interna de la misma. A estos se los denomina unidades ocultas pues no tienen
relación directa con la información de entrada o de salida.
- Cuando ya se tiene procesada la información, esta pasa a los nodos de salida,
los cuales dan una respuesta al sistema.
La distribución de estas neuronas está dada formando niveles o capas de un
número determinado de neuronas cada una. Así, se puede determinar tres tipos de capas:
de entrada, ocultas y de salida, conformadas por los tipos de neuronas ya descritas.
El número de capas ocultas puede estar entre cero y un número elevado y pueden
estar interconectadas de diversas formas, estos dos aspectos determinan las distintas
tipologías de redes neuronales.
Otro aspecto importante en la arquitectura de una red neuronal es la forma en la
que se realizan las conexiones entre las neuronas, es decir, la forma en la que las salidas
de las neuronas están encaminadas para convertirse en las entradas de otras neuronas.
Incluso se puede dar que la salida de un nodo sea la entrada de sí misma, llamando a este
tipo de conexión como auto recurrente.
González y Hernando (2000, 67) mencionan dos tipos de conexiones,
propagación hacia atrás que es cuando las salidas de los nodos pueden conectarse con
capas previas o del mismo nivel, incluso con sí mismos. Y propagación hacia delante,
cuando la salida de los nodos se conecta únicamente con nodos de capas posteriores.
-
34
Figura 5
Estructura de una red neuronal artificial multicapa
Fuente: Tudela y Nardó (2011, 59)
Elaboración: Propia
Es así, que la arquitectura de las redes neuronales se basa en la forma en que se
organizan y disponen las neuronas formando capas más o menos alejadas de la entrada y
salida de la red, tal como se muestra en la figura 5.
En general, no se cuenta con una regla que determine el número óptimo de
neuronal ocultas que ayudan a resolver un problema; sino más bien, es a base de prueba
y error, realizando cambios en el que se sume o reste el número de neuronas ocultas hasta
alcanzar la estructura que mejor se ajuste a la solución de un problema dado (Tudela y
Nardó 2011, 59).
Se suele distinguir entre redes con una sola capa o un solo nivel de neuronas
denominadas como redes monocapa y, con múltiples capas. Es así que, los principales
parámetros de una red neuronal serían el número de capas, el número de neuronas en cada
capa, el grado de conectividad y el tipo de conexión entre cada neurona (Carranza Bravo
2010, 12).
3.4 Modos de operación de una red neuronal
Se considera dos tipos de operación en un sistema neuronal: el modo recuerdo o
ejecución y el modo aprendizaje.
- Fase de aprendizaje
Se tiene un especial interés en esta fase pues una de las principales características
de una red neuronal es que son sistemas entrenables, es decir, son capaces de llevar a cabo
1
2
3
n
…
1
2
…
m
3
Capa de entrada
Capa oculta
Capa de salida
Salidas
Entrada 1
Entrada 2
Entrada 3
Entrada n
1
2
…
k
……
-
35
35
un específico procesamiento aprendiendo de un grupo de patrones de aprendizaje o
ejemplos.
Puede definirse al aprendizaje como el proceso en el cual se modifica los pesos de
la neurona en respuesta a la información de entrada. Tal como expresa, (González y
Hernando 2000, 75) en el proceso de aprendizaje se destruye, modifica y crea conexiones
entre las neuronas; que una conexión se destruya significa que su peso pasa a tener el
valor de cero y que se cree significa que toma un valor diferente de cero.
Como ya se mencionó, en el proceso de aprendizaje se modifican los pesos de las
conexiones. Por lo cual, se puede establecer que la red neuronal ha terminado su fase de
aprendizaje una vez que los pesos logren estabilidad en el tiempo. Generalmente, se
modifica los pesos sinápticos siguiendo cierta regla de aprendizaje, que es construida a
partir de una función de error. Este proceso es iterativo, es decir, los pesos van
actualizándose una y otra vez hasta que la red neuronal logra un rendimiento deseado
(Brío y Molina 2002, 26).
Es importante conocer las reglas de aprendizaje de la red; que son los criterios
para cambiar los pesos de las conexiones, con el objetivo que esta aprenda. Se considera
dos tipos de reglas, aprendizaje supervisado y no supervisado, cuya diferencia principal
radica en la existencia o no de un agente externo que controle el proceso.
Redes neuronales con aprendizaje supervisado: En este tipo de aprendizaje se
tiene la participación de un agente externo o supervisor que establece la respuesta que
debería tener la red a partir de una entrada específica. Este supervisor comprueba la salida
de la red y si no se da la coincidencia con la deseada, se modifica los pesos de las
conexiones, hasta que la salida se aproxime al valor requerido (González y Hernando
2000, 76).
Redes neuronales con aprendizaje no supervisado: Este tipo de aprendizaje no
requiere de un agente externo para ajustar los pesos de las conexiones, la red no recibe
información que le indique la salida deseada en función de una determinada entrada. Esto
significa que no se conoce si la salida de la neurona es correcta o no, se dice que estas
redes son capaces de autoorganizarse (González y Hernando 2000, 82).
Un criterio a tener en cuenta en las reglas de aprendizaje es lo que se conoce como
aprendizaje on line y off line. González y Hernando (2000, 76) establecen que en el
aprendizaje on line los pesos varían dinámicamente siempre que se ingrese nueva
información al sistema; mientras que, en el aprendizaje off line, una vez que la red a
aprendido, los pesos se mantienen fijos.
-
36
- Fase de Recuerdo
Por lo general, una vez que la red a concluido su fase de aprendizaje esta se “apaga
o desconecta”; es decir, pasa a un estado off line, por lo cual, los pesos, conexiones y
estructura de la red se mantiene fijos y esta puede procesar nueva información.
3.5 Clasificación de los modelos neuronales
Por lo expresado hasta el momento se puede deducir que dependiendo del modelo
de neurona que se utilice, su arquitectura, tipo de conexión, y algoritmo de aprendizaje se
obtendrán distintos modelos de redes neuronales.
En la figura 6 se expone, a modo de resumen, la clasificación de las redes
neuronales por tipo de aprendizaje y arquitectura ya expuestas anteriormente.
Figura 6
Clasificación de las redes neuronales
Fuente: Brío y Molina (2002, 31).
Elaboración: Propia.
En el caso de un credit scoring, los nodos de entrada representan las variables
independientes X, que son las características propias del solicitante de crédito. La
respuesta de la neurona producirá una salida que representa la variable dependiente Y,
descrita anteriormente (Jiménez-Caballero y Martínez 2000, 3).
El método que se utilizará para encontrar los pesos de la red neuronal, del presente
proyecto, es el algoritmo RPROP+ (resilient backpropagation with weight backtracking).
MODELOS DE REDES NEURONALES ARTIFICIALES
HÍBRIDOS SUPERVISADOSNO
SUPERVISADOSREFORZADOS
Conexión hacia delante
• Perceptrón• Adalina/Madalina• Perceptrón Multicapa• BackPropagation• Time-delay NN• CMAC• Correlación en cascada• Máquina de Boltzmann• LVQ• GRNN• Support Vector Machines
Conexión hacia atrás
• BSB• Fuzzy Cog. Map• BP Through Time
Conexión hacia delante
• LAM y OLAM• Mapas de Kohonen• Neocognitrón• Redes PCA
Conexión hacia atrás
• ART• Hopfield• BAM
• Premio-castigo asociativo• Crítico adaptivo
• RBF• Contrapropagación
-
37
37
Tal como lo expresa Riedmiller y Braun (1993, 586) el algoritmo
Backpropagation es el más extensamente usado para aprendizaje supervisado y redes
neuronales multicapa. Desafortunadamente este puede ser muy lento para aplicaciones
prácticas (Schiffmann, Joost, y Werner 1994, 3). Para superar esta dificultad se propone
diversas variantes a este método como el método RPROP+, el cual es usado en este
trabajo. Tanto el algoritmo Backpropagation como su variante RPROP+, son descritos a
continuación.
3.6 Algoritmo Backpropagation
El algoritmo de backpropagation es el más ampliamente usado para modelos con
aprendizaje supervisado multicapa. La idea básica de este algoritmo es la siguiente:
En un espacio de N+1 dimensiones, donde N es el número de pesos de la red, se
representa una superficie que muestre el error que se genera en la red neuronal, para un
determinado valor en los pesos de esta.
El algoritmo backpropagation hace que se vaya bajando por la superficie del error
hasta lograr un mínimo, es por esta razón que la variación de un peso 𝑤𝑖𝑗 de la red, en
una iteración, al procesar un conjunto de patrones 𝑝𝑖, es proporcional al gradiente
descendente (González y Hernando 2000, 146).
∆𝑤𝑗𝑖 = −𝛼𝜕𝐸𝑝
𝜕𝑤𝑗𝑖 (20)
Considerando a E la función de error, se tiene que:
𝜕𝐸𝑝
𝜕𝑤𝑗𝑖=
𝜕𝐸𝑝
𝜕𝑦𝑝𝑗×
𝜕𝑦𝑝𝑗
𝜕𝑁𝑒𝑡𝑗×𝜕𝑁𝑒𝑡𝑗
𝜕𝑤𝑗𝑖 (21)
Donde 𝑤𝑗𝑖 representa el peso de la neurona j a la neurona i, 𝑦𝑝𝑗 es la salida de la
neurona j en el patrón p, y 𝑁𝑒𝑡𝑗 es la suma ponderada de las entradas a la neurona j, es
decir:
𝑁𝑒𝑡𝑗 =∑𝑤𝑗𝑖 × 𝑦𝑖
𝑘
𝑖=1
(22)
𝑦𝑝𝑗 = 𝑓(𝑁𝑒𝑡𝑗)
Siendo k, en número de entradas de la neurona j y f la función de activación,
derivable.
Es así, que la actualización de los pesos está dada por la siguiente ecuación:
-
38
𝑤𝑗𝑖(𝑡 + 1) = 𝑤𝑗𝑖(𝑡) − 𝛼𝜕𝐸𝑝
𝜕𝑤𝑗𝑖(𝑡 + 1) (23)
Es evidente que la elección de 𝛼 tiene un efecto importante en el tiempo de
convergencia del algoritmo, el cual se detiene cuando el error resulte aceptablemente
pequeño para cada uno de los patrones aprendidos.
3.7 Algoritmo RPROP+
Una alternativa al algoritmo de backpropagation es el resiliente backpropagation
(RPROP+) en el que, en lugar de usar la magnitud de la derivada 𝜕𝐸𝑝
𝜕𝑤𝑗𝑖, presente en la
ecuación 20, se considera únicamente su signo multiplicado por una constante. Este
algoritmo tiene la ventaja de ser uno de los algoritmos de aprendizaje más rápidos
(Almeida et al. 2009, 4).
El algoritmo RPROP+ consiste en los siguiente (Igel y Hüsken 2000, 116): Para
cada peso se introduce su valor de actualización ∆𝑗𝑖, que determina el tamaño de la
actualización del peso.
∆𝑗𝑖𝑡 =
{
𝜂+ × ∆𝑗𝑖
𝑡−1, 𝑠𝑖 𝜕𝐸𝑝𝜕𝑤𝑗𝑖
(𝑡−1)
×𝜕𝐸𝑝𝜕𝑤𝑗𝑖
(𝑡)
> 0
𝜂− × ∆𝑗𝑖𝑡−1, 𝑠𝑖
𝜕𝐸𝑝
𝜕𝑤𝑗𝑖
(𝑡−1)
×𝜕𝐸𝑝
𝜕𝑤𝑗𝑖
(𝑡)
< 0 (24)
∆𝑗𝑖𝑡−1, 𝑐𝑎𝑠𝑜 𝑐𝑜𝑛𝑡𝑟𝑎𝑟𝑖𝑜
Donde 0 < 𝜂− < 1 < 𝜂+. ∆𝑗𝑖 están acotados por dos parámetros ∆𝑚𝑖𝑛 y ∆𝑚𝑎𝑥.
Una vez obtenido los tamaños de actualización es necesario obtener el valor de
variación de los pesos ∆𝑤𝑗𝑖, distinguiendo dos casos.
Si el signo de la derivada parcial no ha cambiado se tiene:
𝑆𝑖 𝜕𝐸𝑝
𝜕𝑤𝑗𝑖
(𝑡−1)
×𝜕𝐸𝑝
𝜕𝑤𝑗𝑖
(𝑡)
≥ 0 𝑒𝑛𝑡𝑜𝑛𝑐𝑒𝑠 ∆𝑤𝑗𝑖𝑡 = −𝑠𝑖𝑔𝑛 (
𝜕𝐸𝑝
𝜕𝑤𝑗𝑖
(𝑡)
) × ∆𝑗𝑖𝑡 (25)
Donde el operador signo retorna el valor de +1 si el argumento es positivo, -1 si
es negativo y 0 en otro caso. En caso de que el signo de la derivada parcial cambia, se
tiene:
𝑆𝑖 𝜕𝐸𝑝
𝜕𝑤𝑗𝑖
(𝑡−1)
×𝜕𝐸𝑝
𝜕𝑤𝑗𝑖
(𝑡)
< 0 𝑒𝑛𝑡𝑜𝑛𝑐𝑒𝑠 ∆𝑤𝑗𝑖𝑡 = −∆𝑤𝑗𝑖
𝑡−1 𝑦 𝜕𝐸𝑝
𝜕𝑤𝑗𝑖
(𝑡)
= 0 (26)
Finalmente se actualiza los nuevos pesos, los cuales están dados por,
-
39
39
𝑤𝑗𝑖(𝑡 + 1) = 𝑤𝑗𝑖(𝑡) + ∆𝑤𝑗𝑖(𝑡) (27)
La función de error que será usada para optimizar los pesos es la suma de los
errores cuadráticos definida de la siguiente forma (Ladino 2014, 14):
𝐸 =1
2∑(𝑦𝑖 − �̂�𝑖)
2
𝑛
𝑖=1
(28)
Donde n es el número de datos en entrenamiento, observaciones, 𝑦𝑖 es la salida
deseada y �̂�𝑖 es la salida de la red.
4. Conceptos del proceso de modelización
Para la construcción de los modelos scoring, ya sea con el uso de regresión
logística o redes neuronales, es necesario definir algunos conceptos:
4.1 Prueba Dickey – Fuller aumentada
La prueba de Dickey Fuller aumentada permite corroborar la estacionariedad de
una serie de tiempo. Cuando una serie no es estacionaria presenta al menos una raíz
unitaria, por lo que se busca contrastar la siguiente hipótesis (Santos 2008, 197):
• Ho: la serie tiene raíz unitaria.
• Ha: la serie es estacionaria.
Se rechaza Ho si:
Valor absoluto (Estadístico de la prueba (ADF)) > valores críticos de la prueba
(1%, 5%, 10%)
4.2 Muestreo aleatorio simple
El tamaño de muestra necesario para estimar p (proporción poblacional) con un
límite para el error de estimación B, está dado por (Scheaffer, Mendenhall, y Ott 2013,
100):
𝑛 =𝑁𝑝𝑞
(𝑁 − 1)𝐷 + 𝑝𝑞 donde: 𝑞 = 1 − 𝑝 𝑦 𝐷 =
𝐵2
4 (29)
4.3 Roll Rate
Implica comparar el peor atraso en un X número de meses, con los posteriores X
meses. Y así, calcular el porcentaje de operaciones o clientes que mantienen, mejoran o
empeoran su comportamiento, en distintos rangos de atraso. El propósito es identificar el
-
40
punto de no retorno; es decir, el nivel de atraso en la cual, una operación es considerada
como insalvable (Siddiqi 2006, 40). 1
4.4 Valor de Información (IV)
El valor de información es un valor numérico que permite cuantificar el poder de
predicción de una variable independiente. El mismo, funciona con variables categóricas
(Zeng 2013, 6). Se calcula a partir de la siguiente expresión,
𝐼𝑉 = ∑(𝑏𝑖𝑏−𝑚𝑖𝑚)
𝑛
𝑖=1
× ln(
𝑏𝑖𝑏⁄
𝑚𝑖𝑚⁄) (30)
Donde, n es el número de categorías en la variable independiente, 𝑏𝑖 y 𝑚𝑖 es el
número de buenos y malos clientes dentro de la categoría i. Y b y m: el número total de
buenos y malos clientes en el periodo de modelo, respectivamente.
Intuitivamente, mientras más grande sea el valor del IV, más predictiva será la
variable independiente categorizada. Sin embargo las variables con valores superiores a
0.5 deberían ser revisadas pues puede darse el caso de sobreestimación (Siddiqi 2006,
82).
Una regla, propuesta por (Siddiqi 2006, 81), para los valores aceptados del IV es:
Figura 7
Regla valor de la información IV
Fuente: Siddiqi (2006, 81)
Elaboración: Propia
4.5 Backward Stepwise y criterio de información de Akaike (AIC)
La técnica de pasos hacia atrás (Backward Stepwise) consiste en introducir en el
modelo todas las variables e ir excluyendo una tras otra según algún criterio de evaluación
(Moral 2006, 200). En este caso, se utiliza el AIC como criterio de selección de variables,
considerando aquellas que logren el menor valor AIC.
1 Es decir, no se recupera el monto que la entidad otorga a la persona.
Valor IV Nivel de Predicción
Menor que 0,02 No predictivo
Entre 0,02 y 0,1 Débil
Entre 0,1 y 0,3 Medio
Mayor que 0,3 Fuerte
-
41
41
El criterio de información de Akaike penaliza los modelos con muchos parámetros
y busca determinar la significancia de incluir algunos parámetros en el modelo (Sánchez
2012, 70). Este criterio se define como sigue:
Para un conjunto de m modelos, de tal forma que,
𝑀𝑗𝑚 ⊃ 𝑀𝑗−1
𝑚−1 ⊃ ⋯ ⊃ 𝑀𝑗−𝑖1 (31)
Donde, 𝑗 > 𝑖, 𝑖 > 0 y los subíndices denotan el número de variables en cada modelo. Se
busca elegir aquel valor de 𝑗 que minimice la siguiente expresión,
𝐴𝐼𝐶 = −2 log 𝐿 + 2𝑘 (32)
Siendo, L es la función de máxima verosimilitud, que se define como:
𝐿 = −𝑛
2log 2𝜋 −
𝑛
2log 𝜎2 −
1
2∑
𝑒𝑡2
𝜎2
𝑛
𝑡=1
(33)
Donde, k es igual al número de parámetros del modelo, n corresponde al número
de datos para la construcción de este y 𝜎2 el promedio de los residuales 𝑒𝑡 al cuadrado.
Como se puede observar, AIC penaliza modelos según su desviación de los datos reales,
siendo el mejor modelo aquel que manifieste el valor más pequeño entre todos los
modelos evaluados, siendo este el que mejor ajusta a los datos (Sánchez 2012, 71).
4.6 Estadístico de Wald
Para corroborar la significancia de los coeficientes de un modelo logit, se contrasta
la siguiente hipótesis nula:
𝐻0: 𝛽𝑖 = 0
Considerando a 𝛽𝑖 como el coeficiente estimado correspondiente a la variable
independiente 𝑥𝑖.
Así, se cuenta con el estadístico de Wald (Wasserman 2010, 183): Sea 𝜃 un
parámetro escalar, 𝜃 un estimador de 𝜃 y sea 𝑠�̂� el error estándar estimado de 𝜃.
Considerar probar 𝐻0: 𝜃 = 𝜃0 versus 𝐻1: 𝜃 ≠ 𝜃0. Se asume que 𝜃 es asintóticamente
normal,
√𝑛 (𝜃 − 𝜃0)
𝑠�̂�⟼ 𝑁(0, 1). (34)
Con un nivel de significancia de 𝛼, la prueba de Wald establece: Se rechaza 𝐻0
cuando |𝑊| > 𝑧𝛼/2 donde,
𝑊 =𝜃 − 𝜃0𝑠�̂�
(35)
-
42
En este caso, 𝜃0 = 0, por lo cual el estadístico de Wald se simplifica a,
𝑊 =�̂�
𝑠�̂� (36)
4.7 GVIF: Factor de inflación de la varianza generalizado
GVIF es una medida de cuanto de la varianza del coeficiente estimado 𝛽𝑗 está
inflado por la existencia de correlación entre las variables independientes del modelo. Se
usa comúnmente cuando se tiene variables categóricas con más de dos valores posibles o
con variables polinomiales (Fox 2003, 16), está dado por,
𝐺𝑉𝐼𝐹𝑖 =det 𝑅𝑖 × det 𝑅−𝑖
det 𝑅 (37)
Siendo det 𝑅𝑖 el determinante de la matriz de correlación sobre las columnas de
la variable 𝑖, det 𝑅−𝑖 el determinante de la matriz de correlación sobre las columnas del
resto de variables del modelo, distintas a la variable 𝑖 y det 𝑅 el determinante de la matriz
completa de correlación. Cuando el número de coeficientes de cada variable es uno, el
GVIF coincide con VIF.2 A pesar, de no tener una regla formal, generalmente se acepta
que valores de GVIF superiores a 10 puede ser perjudicial (Yoo et al. 2014, 3).
4.8 Estadístico de Kolmogorov – Smirnov (KS)
El estadístico de Komogorov Smirnov consiste en medir cuan distintas son las
funciones de distribución de buenos y malos clientes para cada valor de puntaje score.
El valor del estadístico está dado por (Rezac y Řezáč 2011, 4):
𝐾𝑆 = 𝑀𝑎𝑥𝑖(𝑃𝑏(𝑖) − 𝑃𝑔(𝑖)) (38)
Donde:
i: es el valor de score, en el rango L - H, que es, 𝐿 ≤ 𝑖 ≤ 𝐻.
𝑷𝒈(𝒊), 𝑷𝒃(𝒊): Proporción de buenos y malos con score menor o igual a i, en la
población.
𝑃𝑔(𝑖) =𝑁𝑔(𝑖)
𝑁𝑔=∑𝑝𝑔(𝑗)
𝑖
𝑗=𝐿
2 Factor de inflación de la varianza (VIF): =
1
1−𝑅𝑖2 siendo 𝑅𝑖
2 el coeficiente de determinación, que
representa la proporción de la varianza de la variable independiente i, que se asocia con las otras variables
independientes en el modelo.
-
43
43
𝑃𝑏(𝑖) =𝑁𝑏(𝑖)
𝑁𝑏=∑𝑝𝑏(𝑗) (39)
𝑖
𝑗=𝐿
Con:
𝑁𝑔: El total de buenos en la población.
𝑁𝑏: El total de malos en la población.
𝑁𝑔(𝑖), 𝑁𝑏(𝑖): El número de buenos y malos en la población con scores menores
o iguales a i.
𝑁𝑔(𝑖) = ∑𝑛𝑔(𝑗)
𝑖
𝑗=𝐿
𝑦
𝑁𝑏(𝑖) = ∑𝑛𝑏(𝑗) (40)
𝑖
𝑗=𝐿
𝑝𝑔(𝑖), 𝑝𝑏(𝑖): Es la proporción de buenos con score i y malos con score i en la
población.
𝑝𝑔(𝑖) =𝑛𝑔(𝑖)
𝑁𝑔𝑝𝑏(𝑖) =
𝑛𝑏(𝑖)
𝑁𝑏 (41)
Finalmente, 𝑛𝑔(𝑖) 𝑦 𝑛𝑏(𝑖) el número de buenos casos y malos con score i, en una
población.
El estadístico puede ser usado para medir la capacidad de clasificación de un
modelo, tomando valores entre 0 y 1. Se considera que un modelo con un KS menor a
20% debe ser cuestionado y mayor a 70% sea, probablemente, muy bueno para ser cierto
(Anderson 2007, 196). TransUnion, empresa líder en gestión de la información de crédito,
mide la efectividad de sus scores de riesgos de acuerdo con los siguientes estándares
internacionales.
Figura 8
Estándar estadístico KS
Fuente y elaboración: TransUnion (2012, 3)
-
44
4.9 Coeficiente de GINI
El coeficiente de Gini es un estadístico usado para medir cuan bien el modelo
scoring distingue entre los buenos y malos clientes, toma valores entre 0 y 1,
considerando que, si el coeficiente de Gini es igual a 1, entonces el modelo separa
perfectamente a buenos y malos (Anderson 2007, 204).
El estadístico está dado por la siguiente ecuación:
𝐺𝑖𝑛𝑖 = 1 −∑(
𝐻′
𝑖=𝐿
𝑃𝑏(𝑖 + 1) − 𝑃𝑏(𝑖))(𝑃𝑔(𝑖 + 1) + 𝑃𝑔(𝑖)) (42)
Donde:
i: es el valor de score, en el rango L - H, que es, 𝐿 ≤ 𝑖 ≤ 𝐻.
𝑷𝒈(𝒊), 𝑷𝒃(𝒊): Proporción de buenos y malos con score menor o igual a i, en la
población, respectivamente.
Se considera que para modelos de originación, un coeficiente de Gini menor a
35% es sospechoso y mayor o igual a 50% es más que satisfactorio (Anderson 2007, 205).
4.10 Matriz de confusión: error, sensibilidad y especificidad
Una forma simple de evaluar la predictividad de un modelo, es calculando el
porcentaje de clientes que este clasifica de forma correcta. Este porcentaje de clasificación
es derivado, de la matriz de confusión, la cual es construida de la siguiente forma:
- Elegir un punto de corte, para los valores de score obtenidos.
- Clasificar a todas las operaciones o clientes con un valor de score por debajo del
punto de corte, como malos esperados. Y a los que tiene un valor de score por
encima del punto de corte, como buenos esperados.
- Construir una tabla cruzada entre la clasificación real u original de bueno/malo y
la de bueno/malo esperado, obtenida en el paso anterior.
- Calcular las diferentes ratios que pueden ser obtenidos del modelo, como error,
valor de sensibilidad y especificidad.
Los casos correctamente clasificados son denominados como verdaderos
positivos (buenos) y verdaderos negativos (malos). Si no son bien clasificados se tiene a
los falsos positivos (malos que son clasificados como buenos) y a los falsos negativos
(buenos que son clasificados como malos).
Además, se define como sensibilidad y especificidad, a la habilidad del modelo
de catalogar correctamente al cliente bueno y malo, respectivamente. La forma general
-
45
45
de la matriz de confusión es mostrada en la tabla 1. Y en la tabla 2 se expone los
indicadores de eficiencia, que serán usados para comparar los dos modelos desarrollados,
construidos a partir de la matriz de confusión.
Tabla 1
Matriz de Confusión
Matriz de Confusión Real
0: Malo 1: Bueno
Est
imad
o
0: Malo A B
1: Bueno C D
Fuente y elaboración propias
Tabla 2
Indicadores de eficiencia
Nombre de
Indicador Definición Fórmula
Tasa de aciertos Cociente entre el número de predicciones
correctas y el total.
𝐴 + 𝐷
𝐴 + 𝐵 + 𝐶 + 𝐷
Error Cociente entre el número de predicciones
incorrectas y el total.
𝐵 + 𝐶
𝐴 + 𝐵 + 𝐶 + 𝐷
Sensibilidad Cociente entre el número de buenos
clasificados correctamente y el total de buenos.
𝐷
𝐵 + 𝐷
Especificidad Cociente entre el número de malos clasificados
correctamente y el total de malos.
𝐴
𝐴 + 𝐶
Fuente y elaboración propias
Una forma de obtener el punto de corte que permita nivelar la predicción correcta
de buenos y malos es hacer uso del Índice de Youden, que está dado por:
Í𝑛𝑑𝑖𝑐𝑒 𝑑𝑒 𝑌𝑜𝑢𝑑𝑒𝑛 (𝑌𝐼) = max(𝑆𝑒𝑛𝑠𝑖𝑏𝑖𝑙𝑖𝑑𝑎𝑑 + 𝐸𝑠𝑝𝑒𝑐𝑖𝑓𝑖𝑐𝑖𝑑𝑎𝑑 − 1) (42)
En una curva ROC, que será definida en el siguiente apartado, el índice de Youden
es la distancia vertical máxima entre la curva y la diagonal. Siendo el punto de corte
óptimo, aquel en el cual se alcanza el valor de YI (Cadarso Suárez 2010, 19).
-
46
4.11 Estadístico AUROC
Es una medida de performance cercanamente relacionada al coeficiente de Gini y
mide el área entre la curva y la diagonal conformada en la gráfica de
𝑠𝑒𝑛𝑠𝑖𝑏𝑖𝑙𝑖𝑑𝑎𝑑 𝑣𝑠 (1 − 𝑒𝑠𝑝𝑒𝑐𝑖𝑓𝑖𝑐𝑖𝑑𝑎𝑑), comúnmente llamada Curva ROC, para el total
de los valores de probabilidad. Permite medir la eficacia predictiva de un modelo,
evaluando gráficamente la capacidad de este para discriminar entre buenos y malos.
La relación entre el estadístico AUROC y el coeficiente de Gini es el que se
muestra a continuación (D. Hand y Till 2001, 173):
𝐴𝑈𝑅𝑂𝐶 =𝐺𝑖𝑛𝑖 + 1
2 (43)
El valor de AUROC varía entre 0 y 1. Un valor de 0,5 implicaría que el modelo
es igual a hacer una clasificación aleatoria para catalogar a un cliente como bueno o malo,
un valor de 1 significa que las clasificaciones son perfectamente correctas y un valor de
0 implica que las mismas con totalmente incorrectas (Anderson 2007, 207). Tal como
expresa (Siddiqi 2006, 124) el valor del estadístico AUROC debe estar sobre 0,5, y un
valor superior a 0,7 se considera adecuado.
-
47
47
Capítulo tercero: Proceso de modelación
En el presente capítulo se busca exponer los resultados obtenidos en el proceso de
modelación de un modelo credit scoring, previo a aplicar las metodologías de regresión
logística y redes neuronales.
Se aplicará las dos metodologías, en el proceso de modelización de un scoring,
para una cartera de microcrédito de una institución financiera ecuatoriana de mediano
tamaño, del sector privado; la cual será nombrada Institución X. Mencionada cartera de
Microcrédito, corresponde a créditos desembolsados entre enero del 2014 y diciembre del
2017.
Además, es importante mencionar que las operaciones seleccionadas
corresponden a clientes bancarizados, es decir, que fueron reportados en la central de
riesgos al menos una vez durante los últimos treinta y seis meses, anteriores al
correspondiente desembolso; esto con el fin de hacer uso de variables de central de riesgos
para explicar el comportamiento del cliente.
Los modelos credit scoring pueden ser aplicados en cualquier momento durante
el ciclo de vida de un crédito; diferenciándose principalmente por
a) El objetivo para el que se lo construye, y
b) La disponibilidad de información con la que se cuenta.
Tal como lo expresa Bolivia et al. (2008, 56) por lo general se clasifica los
modelos scoring en dos tipos:
- Scoring de originación: Interviene en la fase de aprobación o evaluación de
solicitudes de nuevos créditos.
- Scoring de comportamiento: Se realiza para dar seguimiento a los clientes ya
incorporados a la institución.
En el presente estudio se busca desarrollar dos modelos credit scoring de originación. Es
decir, los modelos buscarán determinar la probabilidad de incumplimiento asociado a
solicitudes de nuevos créditos, permitiendo:
a) Segmentar la población de solicitantes de crédito asociando al solicitante una
probabilidad de incumplimiento, la cual puede ser expresada como un puntaje
(score) de tal forma que a mayor puntaje menor probabilidad de incumplimiento,
y a menor puntaje, mayor probabilidad de incumplimiento; esto, dependiendo de
-
48
cómo haya sido definida la variable dependiente bueno/malo, la cual se explicará
más adelante.
b) Apoyar en la toma de decisiones de aprobación o rechazo de las mismas.
c) Establecer estrategias comerciales diferenciadas por punto de corte, pues se puede
discriminar a solicitantes que deben ser rechazados (puntaje más bajo) de aquellos
cuya aprobación de crédito debería ser inmediata (puntaje más alto).
De esta forma, se plantea las siguientes etapas para el desarrollo de los modelos scoring
de originación:
Figura 9
Esquema de modelización de un scoring
Fuente y elaboración propias
En este capítulo, se desarrollará los puntos correspondientes a:
- Selección y consistencia de la muestra.
- Definición de un buen y mal cliente.
- Análisis de las variables independientes.
-
49
49
1. Selección y consistencia de la muestra
Para el desarrollo de un modelo scoring es necesario contar con una muestra de
clientes previos, y su respectiva información crediticia; la cual permitirá explicar su
comportamiento. Tal muestra, debe cumplir dos principios fundamentales:
- La muestra debe ser representativa: Representativa en el hecho que esta debe
representar a aquellos solicitantes que aplicarán a un crédito en un futuro.
- Y debe contar con información suficiente: Este punto se refiere a que la muestra
debe incorporar casos de diferente tipo de comportamiento de pago (bueno y
malo), de tal forma que sea posible identificar las características, más
representativas, que reflejen el comportamiento de pago de los clientes de la
muestra (Thomas, Edelman, y Crook 2002, 137).
Por la necesidad que la muestra sea representativa, se prefiere considerar grupos
de muestras recientes, pues son los que presentarán características más similares a
potenciales clientes.
Sin embargo, un scoring es construido bajo el supuesto que el comportamiento
futuro será un reflejo del comportamiento pasado y para definir este comportamiento es
necesario establecer una definición de buen o mal cliente. En este sentido, es necesario
contar con un periodo de tiempo al cual se denomina periodo de desempeño, en el que se
pueda observar el comportamiento de pago del cliente y de esta forma poder catalogarlo
como bueno o malo.
Por otra parte, para definir a un cliente como bueno o malo se establece una
muestra a la cual se denomina periodo de observación o periodo de modelización, en ella
no se puede considerar grupos de créditos recientes pues no se contaría con el tiempo
suficiente para observar el comportamiento de pago del cliente. De esta manera es
importante establecer dos periodos, tal como se ilustra en la figura 10:
Figura 10
Definición del performance
Fuente: Siddiqi (2006, 33)
Elaboración: Propia
Periodo de modelización
Periodo de desempeñoUsualmente 12 meses
Nuevo cliente ¿Bueno o malo?
-
50
La figura 10, sintetiza los dos periodos que se deben determinar al momento de
seleccionar la muestra.
- Periodo de modelización: Periodo que cumpla con los requisitos de ser madura
y estable. Representa el tiempo en el cual se sitúa el modelador para observar el
desempeño del cliente.
- Periodo de desempeño: Tiempo en el cual se puede definir el comportamiento
de pago de un cliente, de tal forma que pueda ser catalogado como buen o mal
cliente.
Tal como lo expresa Thomas, Edelman, y Crook (2002, 137), usualmente se fija
un periodo de desempeño de 12 meses para un scoring de originación. Por lo cual, la
interrogante es conocer cuál será el periodo de modelización que cumpla con las dos
características descritas (madura y estable).
2. Determinación del periodo de modelización
Se busca determinar un periodo de tiempo que cumpla con las características de
madurez y estabilidad en el tiempo.
a) Madurez
Se considera a una cartera como madura cuando cuenta con el tiempo suficiente
para determinar el comportamiento de pago del cliente; es decir, que pudo ser observada
en un periodo igual al periodo de desempeño. Es importante la madurez de la cart