Credit scoring, aplicando técnicas de regresión logística ... · concepto de modelos de credit...

Universidad Andina Simón Bolívar

Sede Ecuador

Área de Gestión

Maestría en Gestión Financiera y Administración de Riesgos Financieros

Credit scoring, aplicando técnicas de regresión logística y redes neuronales, para una cartera de microcrédito

Cristhian Oswaldo Montalván Acaro

Tutor: Felipe Alexander Andrade Cóndor

Quito, 2019

https://creativecommons.org/licenses/by-nc-nd/4.0/

3

3

Cláusula de cesión de derecho de publicación de tesis

Yo, Cristhian Oswaldo Montalván Acaro, autor de la tesis intitulada Credit

scoring, aplicando técnicas de regresión logística y redes neuronales, para una cartera

de microcrédito mediante el presente documento dejo constancia de que la obra es de mi

exclusiva autoría y producción, que la he elaborado para cumplir con uno de los requisitos

previos para la obtención del título de Máster en Gestión Financiera y Administración de

Riesgos Financieros en la Universidad Andina Simón Bolívar, Sede Ecuador.

1. Cedo a la Universidad Andina Simón Bolívar, Sede Ecuador, los derechos

exclusivos de reproducción, comunicación pública, distribución y divulgación, durante 36

meses a partir de mi graduación, pudiendo por lo tanto la Universidad, utilizar y usar esta

obra por cualquier medio conocido o por conocer, siempre y cuando no se lo haga para

obtener beneficio económico. Esta autorización incluye la reproducción total o parcial en

los formatos virtual, electrónico, digital, óptico, como usos en red local y en internet.

2. Declaro que en caso de presentarse cualquier reclamación de parte de terceros

respecto de los derechos de autor/a de la obra antes referida, yo asumiré toda

responsabilidad frente a terceros y a la Universidad.

3. En esta fecha entrego a la Secretaría General, el ejemplar respectivo y sus

anexos en formato impreso y digital o electrónico.

Fecha: …………………………………….

Firma: …………………………………….

5

5

Resumen

Esta investigación pretende contrastar la hipótesis de sí el uso de redes neuronales,

para la modelización del credit scoring de una cartera de microcrédito, logra un mejor

performance que utilizar una metodología de regresión logística.

Para esto se hace uso de la información de una cartera del producto de

microcrédito, proporcionada por una institución financiera ecuatoriana de mediano

tamaño, desembolsada entre los periodos de enero 2014 a diciembre 2017. La

información corresponde al momento del desembolso de los créditos, por lo cual se

construye modelos scoring de originación.

Los dos modelos por desarrollar son construidos con el programa estadístico R y

una vez se cuenta con estos, se procede a comparar su poder predictivo, capacidad para

diferenciar entre buenos y malos clientes, adaptación a los datos, etc.; a partir de distintos

estadísticos como KS, coeficiente de Gini, matriz de confusión, AUROC, criterio de

información de Akaike.

Además, se aplica los modelos en un periodo de información distinto al que se usó

en su construcción y de esta forma establecer si son generalizables, al ser funcionales con

información distinta al de su desarrollo.

El modelo de redes neuronales se ajusta de mejor forma a los datos, pues se

obtiene un criterio de información Akaike menor al de regresión logística, con una

diferencia de 8.029,2 puntos. De igual forma, los estadísticos KS, coeficiente de Gini y

curva ROC evidencia que hacer uso de las redes neuronales logra una mejor clasificación

de los clientes, con 5,19, 5,84 y 2,92 puntos porcentuales por encima de los estadísticos

del modelo de regresión logística, respectivamente. Finalmente, la matriz de confusión

muestra un menor error con el modelo de redes neuronales, al compararlos con un mismo

punto de corte óptimo.

Los resultados obtenidos evidencian que la metodología de redes neuronales

proporciona un modelo scoring más robusto que al usar una regresión logística, pudiendo

corroborar que la hipótesis planteada es verdadera, bajo el proceso de modelización

empleado.

Palabras clave: regresión logística, redes neuronales, score, originación,

modelos, proceso de modelización

7

7

Dedicado a todos aquellos que me quieren y quiero.

Sí, este trabajo está dedicado a ti.

9

9

Agradecimientos

Han sido muchas personas que, a lo largo de este sueño, me han apoyado e

incentivado a cumplirlo; a todas aquellas personas expreso mi agradecimiento:

• A Dios, que ha guiado mis pasos en este camino de la vida.

• A mi padre y madre, que, sin su esfuerzo, constancia y amor, no sería la persona

que me he esforzado en ser.

• A mis hermanos Oscar y Diana, que sin sus locuras y constante presión me hubiera

vuelto loco y no de la forma agradable, los adoro.

• A mi mejor amiga de la vida, Jessica, que siempre me incentiva a ser mejor, y

seguir adelante.

• Priscila, Samanta y Santiago, personas en las que pude confiar y puedo decir, sin

miedo, que aprecio.

• A personas que, a pesar de la distancia se hicieron presentes, los quiero chicos,

Alex y Eli.

• Y por qué no, algunas menciones especiales, Daniel, Cecilia, Gonzalo y Paúl,

espero se pregunten por que los incluí, pero tengo mis razones.

11

11

Tabla de contenidos

Capítulo primero: Planteamiento del problema .................................................. 17

1. Descripción de la realidad problemática ................................................ 17

2. Hipótesis ................................................................................................. 18

3. Objetivo general y específicos ................................................................ 18

4. Justificación ............................................................................................ 19

5. Delimitación del problema ..................................................................... 20

Capítulo segundo: Marco teórico ........................................................................ 21

1. Naturaleza de los modelos ...................................................................... 24

2. Modelo de regresión logística - logit ...................................................... 24

2.1 Estimación de los parámetros modelo logit ........................................ 25

2.2 Interpretación coeficientes de una regresión logística. ....................... 27

3. Modelo de Redes Neuronales ................................................................. 28

3.1 Modelo biológico ................................................................................ 28

3.2 Elementos de una red neuronal artificial ............................................ 30

3.3 Arquitectura de las redes neuronales .................................................. 33

3.4 Modos de operación de una red neuronal ........................................... 34

3.5 Clasificación de los modelos neuronales ............................................ 36

3.6 Algoritmo Backpropagation ............................................................... 37

3.7 Algoritmo RPROP+ ............................................................................ 38

4. Conceptos del proceso de modelización ................................................. 39

4.1 Prueba Dickey – Fuller aumentada ..................................................... 39

4.2 Muestreo aleatorio simple .................................................................. 39

4.3 Roll Rate ............................................................................................. 39

4.4 Valor de Información (IV) .................................................................. 40

4.5 Backward Stepwise y criterio de información de Akaike (AIC) ........ 40

4.6 Estadístico de Wald ............................................................................ 41

4.7 GVIF: Factor de inflación de la varianza generalizado ...................... 42

4.8 Estadístico de Kolmogorov – Smirnov (KS) ...................................... 42

12

4.9 Coeficiente de GINI............................................................................ 44

4.10 Matriz de confusión: error, sensibilidad y especificidad ................ 44

4.11 Estadístico AUROC ........................................................................ 46

Capítulo tercero: Proceso de modelación ........................................................... 47

1. Selección y consistencia de la muestra ................................................... 49

2. Determinación del periodo de modelización .......................................... 50

3. Definición de buen y mal cliente ............................................................ 54

4. Análisis de las variables independientes ................................................ 58

4.1 Análisis exploratorio de las variables ................................................. 59

4.2 Categorización de las variables .......................................................... 59

4.3 Elección de variables predictoras ....................................................... 60

Capítulo cuarto: Construcción y contraste de modelos ...................................... 63

1. Modelo de Regresión Logística .............................................................. 63

1.1 Significancia de las variables independientes .................................... 66

1.2 Consistencia de signos y coeficientes de las variables del modelo .... 66

1.3 Resultados del factor de inflación generalizado de la varianza .......... 70

1.4 Estadísticos del modelo de regresión logística ................................... 70

2. Modelo de Redes Neuronales ................................................................. 71

2.1 Estadísticos del modelo de redes neuronales ...................................... 75

3. Comparación Modelos Scoring .............................................................. 76

3.1 Poder predictivo en el periodo de Testing .......................................... 80

Capítulo quinto: Conclusiones y recomendaciones ............................................ 83

1. Conclusiones ........................................................................................... 83

2. Recomendaciones ................................................................................... 85

Bibliografía ......................................................................................................... 87

Anexos ................................................................................................................ 91

Anexo 1: Descripción del total de variables ................................................... 91

Anexo 2: Categorización de variables independientes – árboles .................... 94

Anexo 3: Código R ....................................................................................... 106

13

13

Lista de tablas

Tabla 1 Matriz de Confusión .......................................................................................... 45

Tabla 2 Indicadores de eficiencia ................................................................................... 45

Tabla 3 Tamaño muestra periodo de modelo ................................................................. 54

Tabla 4 Roll Rate – Definición de Cliente bueno, malo e indeterminado ...................... 55

Tabla 5 Definición del tipo de cliente ............................................................................ 57

Tabla 6 IV – Variable Num_Inst_Adeuda ...................................................................... 61

Tabla 7 Modelo Scoring Originación – Metodología logit ............................................ 64

Tabla 8 Estadísticos del modelo logit ............................................................................. 70

Tabla 9 Coeficientes – Capa 1 ........................................................................................ 73

Tabla 10 Coeficientes – Capa 2 ...................................................................................... 74



Tabla 13 Estadísticos del modelo redes neuronales ....................................................... 75

Tabla 14 Comparación estadísticos modelos – Periodo modelo .................................... 77

Tabla 15 Matrices de confusión: Punto de corte 0,8680071 .......................................... 78

Tabla 16 Matrices de confusión: Punto de corte 0,890068781 ...................................... 78

Tabla 17 Periodo Testing ................................................................................................ 80

Tabla 18 Estadísticos - Periodo Testing ......................................................................... 80

15

15

Lista de Figuras

Figura 1 Función Logística 25

Figura 2 Modelo de una neurona biológica 29

Figura 3 Modelo de neurona artificial inspirada en una neurona biológica 30

Figura 4 Funciones de activación usuales 32

Figura 5 Estructura de una red neuronal artificial multicapa 34

Figura 6 Clasificación de las redes neuronales 36

Figura 7 Regla valor de la información IV 40

Figura 8 Estándar estadístico KS 43

Figura 9 Esquema de modelización de un scoring 48

Figura 10 Definición del performance 49

Figura 11 Análisis de cosechas 51

Figura 12 Prueba ADF – Raíz Unitaria 52

Figura 13 Roll Rate: Atraso mayor a 90 días luego de 12 meses del desembolso 56

Figura 14 Árbol de decisión para la variable Num_Inst_Adeuda 60

Figura 15 Curva ROC del modelo logit 71

Figura 16 Arquitectura del modelo de redes neuronales 72

Figura 17 Red Neuronal 73

Figura 18 Curva ROC del modelo de redes neuronales 76

Figura 19 Comparación curvas ROC 79

17

17

Capítulo primero: Planteamiento del problema

1. Descripción de la realidad problemática

Evaluar el riesgo de crédito es de gran importancia para una institución financiera,

pues busca evitar pérdidas que pueden estar relacionadas a cualquier tipo de decisión de

concesión de crédito inapropiada. Además, la competencia empresarial para obtener más

ganancias y participación en el mercado se vuelve cada vez más agresiva con el paso de

los años, por lo que algunas instituciones asumen un mayor riesgo para lograr una ventaja

competitiva en el mercado, provocando que muchas sufran grandes pérdidas debido a un

aumento en el incumplimiento y préstamos incobrables (Yu 2008, 17).

En el proceso de otorgamiento de créditos, una institución no puede tomar

decisiones a partir de su juicio experto para cada una de las solicitudes recibidas, pues

con el aumento en el número de solicitantes y la competencia intensa en la industria

crediticia, este método no puede satisfacer las demandas en los aspectos económicos y de

eficiencia (Yu 2008, 17); sino que intentará adoptar sistemas de calificación de créditos

para facilitar y acelerar los procesos en la toma de decisiones. Por tal motivo, nace el

concepto de modelos de credit scoring o modelos de calificación de créditos (Islam, Zhou,

y Li 2009, 7).

Muchos algoritmos son usados para la construcción de un credit scoring, sin

embargo, cada vez se deberá buscar alternativas más efectivas para tomar decisiones más

precisas, por ejemplo, las redes neuronales (Islam, Zhou, y Li 2009, 7).

En el Ecuador, la cartera productiva, en la cual se considera la cartera comercial

y microcrédito, han tenido un incremento del 30,2% entre los periodos marzo 2015 y

marzo 2019, pasando de 11.285,4 millones de dólares a 14.698,8 millones de dólares,

respectivamente (Arias 2016, 3). De igual forma, la cartera vencida más cartera que no

devenga intereses para estos productos, que la Superintendencia de Bancos del Ecuador

llama cartera problemática, tuvo un incremento del 17,9% pasando de 192,32 millones

dólares a 226,76 millones de dólares, en los mismos periodos. Más preocupante son las

cifras de la cartera con calificación C, D y E pues pasan de 981,5 millones de dólares en

marzo del 2015 a 14.698,8 millones de dólares en marzo del 2019, teniendo un incremento

del 235,2%, representando el 22,4% del total de cartera productiva a marzo del 2019

(Paredes y Cóndor 2018, 2).

18

Varios factores pueden incidir en el crecimiento de la cartera vencida o el

incremento de la mora de una cartera, como malas prácticas en la concesión de créditos,

metas de créditos agresivas por parte de las instituciones, deterioro del empleo, recesión

económica, etc. Sin embargo, el anterior escenario evidencia la necesidad de contar con

nuevas herramientas para la gestión de riesgo de crédito que ayuden a minimizar la

probabilidad de pérdida de una institución, buscando alcanzar la eficiencia de la gestión

de riesgos a partir de mejores herramientas estadísticas e informáticas.

El presente trabajo será desarrollado a partir de información proporcionada por

una institución financiera ecuatoriana de la cual por razones de privacidad y seguridad no

se revelará el nombre, pero cuando sea necesario, será llamada Entidad Financiera X.

La Entidad Financiera X, evidenció un incremento del 1.6% en su saldo en mora

mayor a 90 días y un crecimiento del 4.4% en el saldo en mora mayor a 180 días, para su

cartera de microcrédito, comparando los meses junio 2017 y junio 2018. Frente a esta

situación, la institución se ha visto en la necesidad de contar con herramientas que apoyen

de forma eficaz y eficiente los procesos de concesión de crédito, y buscar contrastar

metodologías distintas a las que cuenta al momento, pues únicamente, hace uso de

metodologías de regresión logística.

2. Hipótesis

El hacer uso de redes neuronales, para la modelización del credit scoring de una

cartera de microcrédito, logra un mejor performance que utilizar una metodología de

regresión logística.

3. Objetivo general y específicos

Objetivo general:

Comparar la metodología de credit scoring de regresión logística y redes

neuronales en una cartera de microcrédito, de una institución financiera ecuatoriana.

Objetivos específicos:

• Conocer la teoría que respalda los métodos de regresión logística y de redes

neuronales, para la obtención de un modelo credit scoring.

19

19

• Detallar el proceso de modelización al usar metodologías de regresión logística y

de redes neuronales.

• Identificar el modelo de credit scoring, regresión logística o redes neuronales, que

tiene un mejor desempeño.

4. Justificación

Para las instituciones financieras es de gran importancia conocer con anticipación

la probabilidad de que un solicitante de crédito vaya a cumplir con su obligación, y poder

tomar decisiones más objetivas y eficientes sobre el otorgamiento de los préstamos y

sobre los términos que establecerán para sus diferentes productos.

La necesidad de modelos cuantitativos confiables que discriminen a los buenos y

malos clientes con precisión es crucial para el negocio de muchas instituciones de crédito,

pues podrán tomar medidas preventivas o correctivas en el proceso de concesión y

seguimiento de créditos. Es evidente que la modelización y análisis de riesgo se vuelven

muy importantes para la sostenibilidad y beneficio de las empresas convirtiendo el

análisis y modelización del riesgo de crédito en un tema valioso tanto para la comunidad

académica y de la industria (Yu 2008, 5).

Para cumplir este objetivo, se cuenta con los modelos matemáticos, credit scoring

(TransUnion 2007, 4). Los modelos credit scoring son algoritmos o métodos que pueden

ayudar a obtener la probabilidad de incumplimiento de un solicitante de crédito,

permitiendo evaluar el riesgo en el origen de la financiación (Gutierrez Girault 2007, 2).

Existe una gran variedad de metodologías disponibles para evaluar el riesgo de

crédito, los modelos de regresión logística se encuentran en el grupo de los más usados

en la industria por ser intuitivos, de buen poder predictivo y de fácil implementación; sin

embargo, existen otros métodos menos explorados, con un mayor nivel de complejidad

que podrían mejorar el poder predictivo, entre estos se encuentra los métodos de redes

neuronales (Bonilla, Olmeda, y Puertas 2003, 864).

Esta investigación pretende contrastar las historias de superioridad de la

metodología de redes neuronales sobre los métodos tradicionales como es la regresión

logística, con información de una institución financiera ecuatoriana, cotejando su poder

predictivo y estableciendo diferencias entre cada uno. Esto será muy útil para las

empresas financieras pues se impulsa el uso de algoritmos avanzados que pueden mejorar

la identificación de buenos y malos clientes.

20

Además, de comparar los resultados de los dos modelos a desarrollar, se busca

detallar cada uno de los pasos del proceso de modelización, identificando las diferencias

por hacer uso de dos metodologías distintas, sirviendo de guía para las instituciones

financieras que tratan con microcréditos, y aquellas que busquen desarrollar modelos de

credit scoring.

5. Delimitación del problema

En el presente proyecto se generan dos modelos scoring para la cartera de

microcrédito de una institución financiera ecuatoriana haciendo uso de dos metodologías

distintas, regresión logística y redes neuronales. Los dos modelos se enfocarán en el

proceso de otorgamiento de créditos, por lo cual se los categoriza como modelos de

originación. La Entidad Financiera X que facilita la información para el desarrollo del

presente trabajo cuenta con más de 1.000 colaboradores en todo el país a diciembre del

2017 y un valor en activo de más de 600 millones de dólares.

21

21

Capítulo segundo: Marco teórico

En el presente capítulo se expone las metodologías de regresión logística y redes

neuronales, con el fin de conocer la estructura tras cada modelo y los distintos conceptos

que serán empleados en el proceso de modelización y comparación de los scores

resultantes.

Una de las principales actividades de una institución financiera es la de

intermediación financiera, permitiendo transferir los recursos de aquellos individuos con

exceso de estos, a aquellos que lo necesitan, para consumirlo o invertirlo. Cumplir con

esta actividad, conduce a la institución a exponerse a un conjunto de riesgos, que conlleva

a la presencia de pérdidas.

Por lo cual, es de suma importancia, para la institución, contar con herramientas

eficientes para la identificación, medición, monitoreo, control, mitigación y divulgación

de los riesgos, a la cual está sujeta; es decir, contar con metodologías y políticas que

lleven a una correcta gestión de los riesgos (Bolivia et al. 2008, 40).

Así nacen las metodologías conocidas como credit scoring, que cuentan con

algunas definiciones, dependiendo de la perspectiva del autor. D. J. Hand y Henley (1997,

523) lo definen como un método estadístico formal, usado para clasificar a solicitantes de

crédito en grupos de buenos y malos; menciona que estos métodos han llegado a ser muy

importantes, con un dramático crecimiento a partir de los años 70, pues en aquellos años,

los métodos tradicionales para decidir si otorgar o no un crédito, para un individuo en

particular, era el uso del juicio humano, basado en la experiencia de decisiones tomadas

anteriormente.

Sin embargo, con el incremento de la demanda de crédito, alineado con una

competencia comercial más grande y una mejora de los recursos estadísticos y

tecnológicos, la industria financiera se vio en la necesidad de hacer un más eficaz y

eficiente proceso de otorgamiento de créditos, así como de la evaluación de su portafolio.

Es así, que la utilización de modelos credit scoring, para la evaluación del riesgo

de crédito, comienzan a ser usados en los años 70’s pero se generalizan a partir de los

90’s (Gutierrez Girault 2007, 2).

Pese a todo, tal como lo menciona Gutierrez Girault (2007, 2), a pesar de la

diversidad de modelos scoring, el juicio humano o del analista, no ha quedado rezagado,

continúa siendo utilizado, afirmando que en la práctica ambos métodos de evaluación

22

coexisten y complementan; siendo los basados en la experiencia denominados como

expertos y aquellos que se basan en un análisis estadístico como estadísticos.

Autores como Thomas, Edelman, y Crook (2002, 16) definen a un credit scoring

como un conjunto de modelos de decisión y sus técnicas implícitas que ayudan a los

prestamistas en la concesión de un crédito. Shanmugapriya (2012, 34) los considera como

un proceso en el cual se analiza el comportamiento pasado de los clientes para diferenciar

clientes en bancarrota y no bancarrota.

Existen algunas definiciones para un credit scoring; sin embargo, en este trabajo,

se considera a un credit scoring como un conjunto de metodologías que permitirán

evidenciar la probabilidad que un cliente cumpla o no con sus obligaciones, a partir de la

información que se conozca del mismo.

Los modelos credit scoring tienen muchas funciones dentro del ciclo de vida de

un crédito que comprende el otorgamiento, seguimiento, cobranza y recuperación

(Bolivia et al. 2008, cap. 2); sin embargo, este proyecto se enfocará en las metodologías

que sirven de apoyo, en la toma de decisiones del proceso de otorgamiento de créditos;

tales metodologías deben permitir medir los riesgos de los potenciales clientes, a fin de

precisar quiénes podrían ser sujetos de crédito, estableciendo variables significativas que

ayuden a identificar los individuos cuyo riesgo se ajuste al perfil de riesgo de la

institución.

En la literatura, se cuenta con diversas metodologías para modelar un credit

scoring, no obstante, se abordarán los modelos de regresión logística y de redes

neuronales; los primeros, considerados como tradicionales y comúnmente usados por las

instituciones por su poder de predicción y facilidad de interpretación y los segundos,

métodos menos explorados, que podrían mejorar el poder predictivo obtenido por los

modelos tradicionales (Bonilla, Olmeda, y Puertas 2003, 864).

En general cada método tiene ventajas y desventajas para la construcción de un

modelo de riesgo de crédito. Yu (2008, 17) expresa que modelos como las redes

neuronales tienen como ventaja el construir un modelo sin la necesidad que el usuario

tenga una comprensión profunda del problema, pudiendo utilizarlos independientemente

del cumplimiento de supuestos teóricos relativos a técnicas estadísticas o paramétricas,

además de funcionar mejor desde el punto de vista de la precisión en la clasificación.

Mientras que métodos más tradicionales, como la regresión logística, necesitan construir

el modelo en base al cumplimiento de algunos supuestos. Las ventajas de los métodos

tradicionales es que son relativamente simples, fáciles de interpretar e implementar, que

23

23

es algo que no se tiene en un modelo de redes neuronales pues su compleja estructura no

permite lograr resultados óptimos. Por lo cual, es difícil para alguien determinar cuál es

“el mejor” modelo en general, para todas las posibles situaciones.

Trabajos de Pitarque, Ruiz, y Roy (2000, 459) buscan apoyar, con sus resultados,

la idea que las redes neuronales han mostrado una capacidad clasificatoria igual o superior

que las técnicas estadísticas. Trabajan con una serie de simulaciones y aplicaciones sobre

datos reales, comparando las redes neuronales con la regresión logística y el análisis

discriminante. Si bien sus resultados muestran que las redes hacen un mejor trabajo en la

clasificación de la variable objetivo, plantean la pregunta si vale la pena ganar en

capacidad de clasificación a costa del costo computacional y de recursos involucrados en

el entrenamiento de las redes neuronales, concluyendo que ambas técnicas deberían

complementarse. Islam, Zhou, y Li (2009, 29) llega a conclusiones similares.

En cambio, Croall y Mason (1992, 74), Ladino (2014, 27), Larasati, DeYong, y

Slevitch (2011, 304) no muestran inclinación alguna hacia una u otra metodología,

estableciendo que no se puede demostrar la superioridad de metodologías como las redes

neuronales, sobre las tradicionales al tener cada una sus ventajas en distintos escenarios.

Bonilla, Olmeda, y Puertas (2003, 859) evalúan la capacidad predictiva de dos

modelos paramétricos (análisis discriminante y regresión logística) y cinco no

paramétricos, entre los que se encuentran las redes neuronales, sobre una base de 690

observaciones de solicitantes de tarjetas de crédito. Concluye que las redes neuronales

resultan ser el modelo de mayor capacidad predictiva, superando a todos los demás. Sin

embargo, la escasez de datos dificulta la adecuada comparación de los modelos. Compara

los mismos a partir del error de predicción, obteniendo un error del 12,50% y 12,33% en

el periodo de entrenamiento y el 12,22% y 10% en el periodo de testing para los modelos

logit y redes neuronales, respectivamente.

En cambio Trujillano et al. (2003, 504) compara la capacidad de predicción de un

modelo de regresión logística y redes neuronales a partir de la curva ROC, evidenciando

mejores valores con las redes neuronales, que se mantienen tanto en la muestra de

desarrollo como testing.

Zhang (2004, 272) expone que uno de los métodos comúnmente usados para

evaluar el poder de clasificación de los modelos es el estadístico de Kolmogorov –

Smirnov (K-S). El mismo compara un modelo de regresión logística y redes neuronales

a partir de los estadísticos K-S, curva ROC y matriz de confusión. El estadístico K-S fue

superior con 14 puntos porcentuales en las redes neuronales, mientras que para la curva

24

ROC y tasa de clasificación global fue superior el modelo de regresión logística con 4,41

y 10,57 puntos porcentuales, respectivamente. Zhang concluye que ningún método de

evaluación representa una panacea para los investigadores o analistas, sino mas bien es

necesaria una comprensión de los datos y el problema para la correcta elección de no solo

la metodología de modelación sino también del método de evaluación (Zhang 2004, 289).

En el presente trabajo se busca contrastar, si el hacer uso de redes neuronales, para

la modelización del credit scoring, logra un mejor performance que utilizar una

metodología de regresión logística, para una cartera de microcrédito de una institución

financiera ecuatoriana, comparando estadísticamente cada metodología.

1. Naturaleza de los modelos

El objetivo principal de los dos modelos es estimar la probabilidad de

incumplimiento de un solicitante de crédito; para esto es necesario contar con una variable

que identifique si el solicitante es un buen o mal cliente, esta variable será representada

con la letra Y, que es la variable dependiente del modelo.

La variable dependiente es una variable dicotómica (binaria) que toma los

siguientes valores:

𝑌 = {1: 𝑆𝑖 𝑒𝑙 𝑠𝑜𝑙𝑖𝑐𝑖𝑡𝑎𝑛𝑡𝑒 𝑑𝑒 𝑐𝑟é𝑑𝑖𝑡𝑜 𝑒𝑠 𝑑𝑒𝑓𝑖𝑛𝑖𝑑𝑜 𝑐𝑜𝑚𝑜 𝑢𝑛 𝑏𝑢𝑒𝑛 𝑐𝑙𝑖𝑒𝑛𝑡𝑒 0: 𝑆𝑖 𝑒𝑙 𝑠𝑜𝑙𝑖𝑐𝑖𝑡𝑎𝑛𝑡𝑒 𝑑𝑒 𝑐𝑟é𝑑𝑖𝑡𝑜 𝑒𝑠 𝑑𝑒𝑓𝑖𝑛𝑖𝑑𝑜 𝑐𝑜𝑚𝑜 𝑢𝑛 𝑚𝑎𝑙 𝑐𝑙𝑖𝑒𝑛𝑡𝑒

(1)

La definición de cliente bueno (1) y malo (0), para la variable dependiente Y, es

construida a partir de su información demográfica, comportamiento en el buró y/o dentro

de la institución.

Los modelos buscan estimar la probabilidad que la variable dependiente Y tome

el valor de 0 o 1, a partir de un conjunto de variables denominadas independientes, las

cuales serán representadas con la letra X, que pueden ser cualitativas o cuantitativas. Las

variables independientes son obtenidas a partir de diversas fuentes de información tanto

internas y externas del individuo, como puede ser su información crediticia, de buró,

demográfica, etc. Muchas de las cuales dependerán de las características del crédito que

se esté considerando.

2. Modelo de regresión logística - logit

Los modelos logit pertenecen al grupo de modelos de regresión con respuesta

cualitativa, en este caso binaria; mientras que las variables independientes pueden ser

cualitativas o cuantitativas, o una mezcla de ambas (Flórez y Rincón 2002, 124).

25

25

El modelo está basado en una función de distribución logística, cuya estructura se

presenta a continuación:

𝑃(𝑌 = 1| 𝑋) = 𝐹(𝒛) =exp(𝒛)

1 + exp(𝒛), − ∞ < 𝑧 < ∞ (2)

Con 𝑧 = 𝑋𝑇𝛽 = 𝛽0 + 𝛽1𝑥1 +⋯+ 𝛽𝑛𝑥𝑛.

Figura 1

Función Logística

Fuente: Flórez y Rincón (2002, 128) Elaboración: Propia

Donde:

• Y: Es la variable dependiente, binaria, que puede tomar dos posibles valores, que

se etiquetará con 0 (cliente malo) y 1 (cliente bueno).

• X: Es el conjunto de n variables independientes (𝑥1, 𝑥2, … , 𝑥𝑛) relacionadas con

la información propia del solicitante, tomadas con el fin de explicar y/o predecir

el valor de Y.

• 𝐹(𝑧): Es la función de probabilidad, que depende de un vector de parámetros 𝛽 =

(𝛽0, 𝛽1, … , 𝛽𝑛), que permitirán relacionar las variables independientes X, con la

dependiente Y. Esta función tiene un rango entre [0, 1] y se conoce como función

de distribución logística.

El objetivo del modelo es hallar los coeficientes 𝛽 que mejor se ajusten a la

expresión (2).

2.1 Estimación de los parámetros modelo logit

La estimación de los coeficientes 𝛽 puede realizarse a partir del método de

máxima verosimilitud (Gujarati, Guerrero, y Medina 2005, 574).

Supóngase se cuenta con un conjunto de k individuos; de tal forma que,

catalogarles como buenos o malos clientes será definido por la variable 𝑌𝑖, considerando

𝑖 = 1, 2,… , 𝑘.

1

0

26

En vista que cada 𝑌𝑖 es una variable aleatoria de Bernoulli, por tomar dos valores,

0 o 1, podemos expresar la probabilidad que suceda uno u otro evento, como sigue:

𝑃(𝑌𝑖 = 1) = 𝑃𝑖 𝑃(𝑌𝑖 = 0) = 1 − 𝑃𝑖

Su función de probabilidad será:

𝑓𝑖(𝑌𝑖) = 𝑃𝑖𝑌𝑖 × (1 − 𝑃𝑖)

1−𝑌𝑖 , 𝑐𝑜𝑛 𝑖 = 1, 2, 3, … , 𝑘 (3)

Es decir, la función 𝑓𝑖(𝑌𝑖) denota la probabilidad que 𝑌𝑖 = 1 𝑜 0.

Como cada observación es independiente, la probabilidad conjunta de observar

los k valores de la variable Y, se expresa como:

𝑓(𝑌1, 𝑌2, … , 𝑌𝑘) =∏𝑓𝑖(𝑌𝑖)

𝑘

𝑖=1

=∏𝑃𝑖𝑌𝑖 × (1 − 𝑃𝑖)

1−𝑌𝑖

𝑘

𝑖=1

(4)

Donde ∏ es el operador producto. A esta probabilidad conjunta se la conoce como

función de verosimilitud (FLV). Al tomar el logaritmo de esta función se tiene:

ln (𝑓(𝑌1, 𝑌2, … , 𝑌𝑘)) =∑[𝑌𝑖 ln 𝑃𝑖 + (1 − 𝑌𝑖) ln(1 − 𝑃𝑖)]

𝑘

𝑖=1

= ∑[𝑌𝑖 ln 𝑃𝑖 − 𝑌𝑖 ln(1 − 𝑃𝑖) + ln(1 − 𝑃𝑖)]

𝑘

𝑖=1

= ∑[𝑌𝑖 ln (𝑃𝑖

1 − 𝑃𝑖)] +∑ln(1 − 𝑃𝑖) (5)

𝑘

𝑖=1

𝑘

𝑖=1

Tal como se expuso en (2), la probabilidad que un individuo sea un buen o mal

cliente es representado por:

𝑃𝑖 =exp(𝑋𝑖

𝑇𝛽)

1 + exp(𝑋𝑖𝑇𝛽)

(6)

De aquí se puede, fácilmente, demostrar que:

1 − 𝑃𝑖 =1

1 + exp(𝑋𝑖𝑇𝛽)

(7)

De igual forma,

ln (𝑃𝑖

1 − 𝑃𝑖) =𝑋𝑖

𝑇𝛽 (8)

Considerando (7) y (8) en (5), se puede expresar el logaritmo de la función de

verosimilitud, como sigue:

27

27

ln (𝑓(𝑌1, 𝑌2, … , 𝑌𝑘)) =∑𝑌𝑖(𝑋𝑖𝑇𝛽) −∑ln(1 + exp(𝑋𝑖

𝑇𝛽))

𝑘

𝑖=1

𝑘

𝑖=1

(9)

Podemos observar que (9) es una función que depende de los coeficientes 𝛽, pues

𝑌𝑖 y 𝑋𝑖 se conocen.

El método de máxima verosimilitud consiste en maximizar la expresión (9), para

buscar la máxima capacidad predictiva. Para esto se deriva parcialmente, respecto a cada

una de las incógnitas; es decir, respecto a cada 𝛽𝑗, con 𝑗 = 1, … , 𝑛. Obteniendo un sistema

de n ecuaciones no lineales, que deberán resolverse por procedimientos numéricos.

Una vez obtenidos los valores 𝛽 se verifica que en verdad maximicen la función

de verosimilitud a partir de la condición de maximización de segundo orden. Luego de

este proceso, se obtiene los coeficientes, necesarios para estimar la probabilidad de

incumplimiento de un individuo, a partir de la ecuación (2).

2.2 Interpretación coeficientes de una regresión logística.

Una de las razones, por las cuales se utiliza con mayor frecuencia un modelo de

regresión logística es que su interpretación es relativamente sencilla. Para apreciar este

beneficio, es de ayuda entender el significado de odds. Tal como lo expresa (Allison 2012,

15) muchas personas consideran a una probabilidad como la forma “natural” de

cuantificar que un evento ocurra, considerando valores que se mueven entre 0 y 1. Sin

embargo, existen otras formas de representar un cambio natural en algún evento, esto son

los odds ratios.

El mismo autor, define los odds, como la relación entre el número esperado de

veces que un evento ocurra y el número esperado de veces que este no ocurra. De esta

forma, la relación entre el odds y la probabilidad es:

𝑂𝑑𝑑𝑠 = 𝑃𝑟𝑜𝑏𝑎𝑏𝑖𝑙𝑖𝑑𝑎𝑑 𝑞𝑢𝑒 𝑢𝑛 𝑒𝑣𝑒𝑛𝑡𝑜 𝑜𝑐𝑢𝑟𝑟𝑎

1 − 𝑃𝑟𝑜𝑏𝑎𝑏𝑖𝑙𝑖𝑑𝑎𝑑 𝑞𝑢𝑒 𝑢𝑛 𝑒𝑣𝑒𝑛𝑡𝑜 𝑜𝑐𝑢𝑟𝑟𝑎

Esta expresión tiene relevancia en un modelo de regresión logística, pues si se

considera (6) y (7) se tiene,

𝑃𝑖1 − 𝑃𝑖

=

exp(𝑋𝑖𝑇𝛽)

1+exp(𝑋𝑖𝑇𝛽)

1

1+exp(𝑋𝑖𝑇𝛽)

= exp(𝑋𝑖𝑇𝛽) (10)

A esta expresión se la considera como transformación logit de la probabilidad 𝑃𝑖,

cuya parte izquierda es una razón de probabilidades u odds (Flórez y Rincón 2002, 128).

Al considerar el logaritmo natural de (10) se obtiene el logaritmo de la razón de

28

probabilidades conocido como logit y es por este término que al modelo de regresión

logística se lo conoce, también, como modelo logit. Así, se llega a la ecuación (8).

L = ln (𝑃𝑖

1 − 𝑃𝑖) =𝑋𝑖

𝑇𝛽 = 𝛽0 + 𝛽1𝑥1 +⋯+ 𝛽𝑛𝑥𝑛 (11)

De esta forma, la interpretación del modelo está dada por esta expresión logit (L);

por ejemplo, 𝛽2 mide el cambio en L ocasionado por un cambio unitario en 𝑥2,

suponiendo constantes el resto de variables explicativas (Gujarati, Guerrero, y Medina

2005, 575).

La interpretación del modelo también puede darse a partir del odds ratio, la cual

es una medida de la magnitud de asociación entre dos variables; en este caso, cada una de

las independientes con la dependiente. Un odds ratio mayor a 1, muestra que existe una

relación positiva o directa entre las dos variables, mientras que un odds ratio menor a 1,

establece una relación negativa o inversa. Cuando el odds ratio es igual a 1, significa que

no existe una relación entre las mismas (Salas 1996, 11).

El odds ratio puede calcularse a partir de la estimación de los parámetros del

modelo:

𝑜𝑑𝑑𝑠 𝑟𝑎𝑡𝑖𝑜 = 𝑒𝛽 (12)

3. Modelo de Redes Neuronales

Las redes neuronales artificiales (RNA) son modelos matemáticos-

computacionales que intentan imitar el funcionamiento del cerebro y la forma como este

procesa la información. Se cataloga dentro de las técnicas no paramétricas de credit

scoring, como sistemas con la capacidad de aprender a través de entrenamiento, también

conocido como la interpretación que ellas hacen de la información que reciben (Bahamón

2013, 37).

3.1 Modelo biológico

La figura 2 muestra un tipo común de neurona biológica, que está compuesta

principalmente por:

• Un cuerpo central, que contiene el núcleo celular, denominado Soma.

• La conexión entre neuronas se establece a partir de una prolongación del Soma,

llamada Axón, que también se ramifica en su extremo final para establecer

conexión con otras neuronas, estas ramificaciones son conocidas como terminales

axónicos.

29

29

• Las dendritas que son ramificaciones del cuerpo central, con las cuales se logra la

conexión sináptica.

Figura 2

Modelo de una neurona biológica

Fuente y elaboración: Tablada y Torres (2009, 23)

Se estima que alrededor de cien mil millones de neuronas son las que conforman

el sistema nervioso; estas se diferencian del resto de células vivas en el hecho que poseen

capacidad de comunicarse.

En general, las dendritas y el Soma reciben las señales de entrada, el cuerpo celular

las combina y emite señales de salida; a continuación, el Axón transmite esta señal a sus

terminales, que se encargan de distribuir la información a otro conjunto de neuronas (Brío

y Molina 2002, 5).

Un aspecto muy importante en el proceso de comunicación entre neuronas es el

término conocido como sinapsis. Brío y Molina (2002, 6) lo definen como la unión entre

dos neuronas, en el proceso de generación y transmisión de la señal nerviosa.

En cambio González y Hernando (2000, 46) lo precisa como contactos especiales,

a través de los cuales fluyen neurotransmisores que llevan las señales que se transmiten

entre los terminales axónicos de una neurona y las dendritas de la neurona siguiente.

Con relación al tipo de sinapsis, se puede establecer dos tipos de neuronas, las

neuronas presinápticas que son las que envían las señales y las postsinápticas las cuales

reciben. Así, se define dos tipos de sinapsis:

- Sinapsis excitadora: es aquella cuyos neurotransmisores facilitan la

generación de impulsos a mayor velocidad.

- Sinapsis inhibidoras: Sus neurotransmisores dificultan la emisión de impulsos.

A continuación, se establece una similitud directa entre las redes neuronales

artificiales y el proceso sináptico.

30

3.2 Elementos de una red neuronal artificial

Para introducir los elementos de una red neuronal artificial, se hará uso de la figura

3, que cuenta con una sola neurona; es decir, una pequeña parte de un sistema de red

neuronal artificial. Además, se puede evidenciar que esta tiene una forma similar a la

neurona biológica de la figura 2.

Figura 3

Modelo de neurona artificial inspirada en una neurona biológica

Fuente: Rico, Paredes, y Fernández (2009, 73)

Elaboración: Propia

Los aspectos que se buscan representar son los que se exponen a continuación. Se

puede observar (figura 3) que se tiene un elemento central, llamado neurona artificial la

cual recibe información del exterior o de otras neuronas. Las dendritas son la estructura

a través de la cual la neurona artificial recibe información, que luego es procesada de

acuerdo con la intensidad asignada al nexo entre la unión de las entradas y las neuronas;

este nexo se denomina sinapsis y a la intensidad descrita se le conoce como peso sináptico

(𝑾).

Las redes neuronales intentan reproducir el comportamiento del cerebro, por lo

cual, cualquier modelo de red neuronal consta de dispositivos elementales de proceso,

denominados neuronas; las cuales son definidas por Brío y Molina (2002, 12) como un

dispositivo que a partir de un conjunto de entradas que proceden ya sea del exterior u

otras neuronas, proporcionan una salida o respuesta.

Los elementos que constituyen a una neurona z son los siguientes (figura 3):

- Conjunto de entradas 𝑥𝑖(𝑡), 𝑖 = 1,… , 𝑛: las cuales pueden ser binarias o

continuas, dependiendo del tipo de modelo y aplicación.

… …

Estímulos externos o

salidas de otras neuronas

SinapsisCuerpo Celular Axón

Variables de entrada

PesosFunción de Agregación

Función de Activación

Variable de Salida

Dendritas

Neurona Artificial z

31

31

- Pesos sinápticos de la neurona z: catalogados como 𝑤𝑧𝑖, que representa la

intensidad de interacción entre la entrada i y la neurona z.

Dependiendo de los pesos, se puede obtener la salida necesaria, considerando

entradas específicas. Cuanto más grande sea el peso, más fuerte y relevante

será el nodo de entrada.

- Función de agregación también llamada regla de propagación: Se denomina

función de agregación a aquella regla que relaciona las entradas y los pesos

para obtener el valor de la señal postsináptica ℎ𝑧, conocido como potencial

postsináptico:

ℎ𝑧(𝑡) = 𝜎𝑧(𝑤𝑧𝑖, 𝑥𝑖(𝑡)) (13)

La función más habitual es lineal y consiste en la suma ponderada de las

entradas con los pesos sinápticos,

ℎ𝑧(𝑡) = ∑𝑤𝑧𝑖𝑥𝑖

𝑛

𝑖=1

(14)

Dado una entrada positiva, si el peso también es positivo, entonces este tenderá

a excitar a la neurona, si el peso es negativo, tenderá a inhibirla (Brío y Molina

2002, 16).

- Función de activación: La misma proporciona el estado de activación, en el

tiempo t, 𝑎𝑧(𝑡), a partir del potencial postsináptico ℎ𝑧(𝑡) y del estado de

activación anterior 𝑎𝑧(𝑡 − 1).

𝑎𝑧(𝑡) = 𝑓𝑧(𝑎𝑧(𝑡 − 1), ℎ𝑧(𝑡)) (15)

Sin embargo muchos modelos de redes neuronales consideran que el estado

actual de la neurona (tiempo t) no depende de su estado anterior (Brío y Molina

2002, 17), por lo cual

𝑎𝑧(𝑡) = 𝑓𝑧(ℎ𝑧(𝑡)) (16)

En general se puede establecer dos estados posibles, reposo y excitado, a los

cuales se les asigna un valor que puede ser continuo o discreto (González y

Hernando 2000, 52).

En la mayor parte de modelos la función de activación 𝑓(. ) es monótona

creciente y continua. En la figura 4, se expone las funciones de activación más

usuales, en donde: x representa el potencial postsináptico y el estado de

activación.

32

Figura 4

Funciones de activación usuales

Fuente y elaboración: Brío y Molina (2002, 18)

Muchas veces se adiciona al grupo de pesos, un parámetro adicional 𝜃𝑧, el cual

se resta del potencial postsináptico, y representa características propias de la

neurona, de tal forma que no es igual en todas ellas.

Por ejemplo, en el caso de neuronas todo-nada, el parámetro representa el nivel

mínimo que debe lograr el potencial postsináptico para que la neurona se

active. De tal forma, el argumento de la función de activación se expresa se la

siguiente forma

∑𝑤𝑧𝑖𝑥𝑖

𝑛

𝑖=1

− 𝜃𝑧 (17)

- Función de salida: Es la función que proporciona la salida de la neurona 𝑦𝑧(𝑡),

que depende del estado de activación 𝑎𝑧(𝑡). Por lo general la función de salida

es la identidad (𝐹(𝑥) = 𝑥) por lo cual la salida es considerada con el estado

de activación de la neurona

𝑦𝑧(𝑡) = 𝐹𝑧(𝑎𝑧(𝑡)) = 𝑎𝑧(𝑡) (18)

Finalmente, el modelo neuronal que Brío y Molina (2002, 19) denomina como

estándar queda como se muestra a continuación

33

33

𝑦𝑧(𝑡) = 𝑓𝑧 (∑𝑤𝑧𝑖𝑥𝑖 − 𝜃𝑧

𝑛

𝑖=1

)

= 𝑓𝑧 (∑𝑤𝑧𝑖𝑥𝑖

𝑛

𝑖=0

) (19)

Con 𝑤𝑧0 = 𝜃𝑧 y 𝑥0 = −1.

3.3 Arquitectura de las redes neuronales

En la sección anterior se mostró los principales componentes de una red neuronal.

A continuación, se expone las características de cada nodo de la red, así como la

organización de esta.

Generalmente, se puede encontrar tres tipos de neuronas:

- Las que toman la información de entrada, de las fuentes externas de la red.

- Las que procesan la información y generan cualquier tipo de representación

interna de la misma. A estos se los denomina unidades ocultas pues no tienen

relación directa con la información de entrada o de salida.

- Cuando ya se tiene procesada la información, esta pasa a los nodos de salida,

los cuales dan una respuesta al sistema.

La distribución de estas neuronas está dada formando niveles o capas de un

número determinado de neuronas cada una. Así, se puede determinar tres tipos de capas:

de entrada, ocultas y de salida, conformadas por los tipos de neuronas ya descritas.

El número de capas ocultas puede estar entre cero y un número elevado y pueden

estar interconectadas de diversas formas, estos dos aspectos determinan las distintas

tipologías de redes neuronales.

Otro aspecto importante en la arquitectura de una red neuronal es la forma en la

que se realizan las conexiones entre las neuronas, es decir, la forma en la que las salidas

de las neuronas están encaminadas para convertirse en las entradas de otras neuronas.

Incluso se puede dar que la salida de un nodo sea la entrada de sí misma, llamando a este

tipo de conexión como auto recurrente.

González y Hernando (2000, 67) mencionan dos tipos de conexiones,

propagación hacia atrás que es cuando las salidas de los nodos pueden conectarse con

capas previas o del mismo nivel, incluso con sí mismos. Y propagación hacia delante,

cuando la salida de los nodos se conecta únicamente con nodos de capas posteriores.

34

Figura 5

Estructura de una red neuronal artificial multicapa

Fuente: Tudela y Nardó (2011, 59)


Es así, que la arquitectura de las redes neuronales se basa en la forma en que se

organizan y disponen las neuronas formando capas más o menos alejadas de la entrada y

salida de la red, tal como se muestra en la figura 5.

En general, no se cuenta con una regla que determine el número óptimo de

neuronal ocultas que ayudan a resolver un problema; sino más bien, es a base de prueba

y error, realizando cambios en el que se sume o reste el número de neuronas ocultas hasta

alcanzar la estructura que mejor se ajuste a la solución de un problema dado (Tudela y

Nardó 2011, 59).

Se suele distinguir entre redes con una sola capa o un solo nivel de neuronas

denominadas como redes monocapa y, con múltiples capas. Es así que, los principales

parámetros de una red neuronal serían el número de capas, el número de neuronas en cada

capa, el grado de conectividad y el tipo de conexión entre cada neurona (Carranza Bravo

2010, 12).

3.4 Modos de operación de una red neuronal

Se considera dos tipos de operación en un sistema neuronal: el modo recuerdo o

ejecución y el modo aprendizaje.

- Fase de aprendizaje

Se tiene un especial interés en esta fase pues una de las principales características

de una red neuronal es que son sistemas entrenables, es decir, son capaces de llevar a cabo

1

2

3

n

…

1

2

…

m

3

Capa de entrada

Capa oculta

Capa de salida

Salidas

Entrada 1

Entrada 2

Entrada 3

Entrada n

1

2

…

k

……

35

35

un específico procesamiento aprendiendo de un grupo de patrones de aprendizaje o

ejemplos.

Puede definirse al aprendizaje como el proceso en el cual se modifica los pesos de

la neurona en respuesta a la información de entrada. Tal como expresa, (González y

Hernando 2000, 75) en el proceso de aprendizaje se destruye, modifica y crea conexiones

entre las neuronas; que una conexión se destruya significa que su peso pasa a tener el

valor de cero y que se cree significa que toma un valor diferente de cero.

Como ya se mencionó, en el proceso de aprendizaje se modifican los pesos de las

conexiones. Por lo cual, se puede establecer que la red neuronal ha terminado su fase de

aprendizaje una vez que los pesos logren estabilidad en el tiempo. Generalmente, se

modifica los pesos sinápticos siguiendo cierta regla de aprendizaje, que es construida a

partir de una función de error. Este proceso es iterativo, es decir, los pesos van

actualizándose una y otra vez hasta que la red neuronal logra un rendimiento deseado

(Brío y Molina 2002, 26).

Es importante conocer las reglas de aprendizaje de la red; que son los criterios

para cambiar los pesos de las conexiones, con el objetivo que esta aprenda. Se considera

dos tipos de reglas, aprendizaje supervisado y no supervisado, cuya diferencia principal

radica en la existencia o no de un agente externo que controle el proceso.

Redes neuronales con aprendizaje supervisado: En este tipo de aprendizaje se

tiene la participación de un agente externo o supervisor que establece la respuesta que

debería tener la red a partir de una entrada específica. Este supervisor comprueba la salida

de la red y si no se da la coincidencia con la deseada, se modifica los pesos de las

conexiones, hasta que la salida se aproxime al valor requerido (González y Hernando

2000, 76).

Redes neuronales con aprendizaje no supervisado: Este tipo de aprendizaje no

requiere de un agente externo para ajustar los pesos de las conexiones, la red no recibe

información que le indique la salida deseada en función de una determinada entrada. Esto

significa que no se conoce si la salida de la neurona es correcta o no, se dice que estas

redes son capaces de autoorganizarse (González y Hernando 2000, 82).

Un criterio a tener en cuenta en las reglas de aprendizaje es lo que se conoce como

aprendizaje on line y off line. González y Hernando (2000, 76) establecen que en el

aprendizaje on line los pesos varían dinámicamente siempre que se ingrese nueva

información al sistema; mientras que, en el aprendizaje off line, una vez que la red a

aprendido, los pesos se mantienen fijos.

36

- Fase de Recuerdo

Por lo general, una vez que la red a concluido su fase de aprendizaje esta se “apaga

o desconecta”; es decir, pasa a un estado off line, por lo cual, los pesos, conexiones y

estructura de la red se mantiene fijos y esta puede procesar nueva información.

3.5 Clasificación de los modelos neuronales

Por lo expresado hasta el momento se puede deducir que dependiendo del modelo

de neurona que se utilice, su arquitectura, tipo de conexión, y algoritmo de aprendizaje se

obtendrán distintos modelos de redes neuronales.

En la figura 6 se expone, a modo de resumen, la clasificación de las redes

neuronales por tipo de aprendizaje y arquitectura ya expuestas anteriormente.

Figura 6

Clasificación de las redes neuronales

Fuente: Brío y Molina (2002, 31).

Elaboración: Propia.

En el caso de un credit scoring, los nodos de entrada representan las variables

independientes X, que son las características propias del solicitante de crédito. La

respuesta de la neurona producirá una salida que representa la variable dependiente Y,

descrita anteriormente (Jiménez-Caballero y Martínez 2000, 3).

El método que se utilizará para encontrar los pesos de la red neuronal, del presente

proyecto, es el algoritmo RPROP+ (resilient backpropagation with weight backtracking).

MODELOS DE REDES NEURONALES ARTIFICIALES

HÍBRIDOS SUPERVISADOSNO

SUPERVISADOSREFORZADOS

Conexión hacia delante

• Perceptrón• Adalina/Madalina• Perceptrón Multicapa• BackPropagation• Time-delay NN• CMAC• Correlación en cascada• Máquina de Boltzmann• LVQ• GRNN• Support Vector Machines

Conexión hacia atrás

• BSB• Fuzzy Cog. Map• BP Through Time

Conexión hacia delante

• LAM y OLAM• Mapas de Kohonen• Neocognitrón• Redes PCA

Conexión hacia atrás

• ART• Hopfield• BAM

• Premio-castigo asociativo• Crítico adaptivo

• RBF• Contrapropagación

37

37

Tal como lo expresa Riedmiller y Braun (1993, 586) el algoritmo

Backpropagation es el más extensamente usado para aprendizaje supervisado y redes

neuronales multicapa. Desafortunadamente este puede ser muy lento para aplicaciones

prácticas (Schiffmann, Joost, y Werner 1994, 3). Para superar esta dificultad se propone

diversas variantes a este método como el método RPROP+, el cual es usado en este

trabajo. Tanto el algoritmo Backpropagation como su variante RPROP+, son descritos a

continuación.

3.6 Algoritmo Backpropagation

El algoritmo de backpropagation es el más ampliamente usado para modelos con

aprendizaje supervisado multicapa. La idea básica de este algoritmo es la siguiente:

En un espacio de N+1 dimensiones, donde N es el número de pesos de la red, se

representa una superficie que muestre el error que se genera en la red neuronal, para un

determinado valor en los pesos de esta.

El algoritmo backpropagation hace que se vaya bajando por la superficie del error

hasta lograr un mínimo, es por esta razón que la variación de un peso 𝑤𝑖𝑗 de la red, en

una iteración, al procesar un conjunto de patrones 𝑝𝑖, es proporcional al gradiente

descendente (González y Hernando 2000, 146).

∆𝑤𝑗𝑖 = −𝛼𝜕𝐸𝑝

𝜕𝑤𝑗𝑖 (20)

Considerando a E la función de error, se tiene que:

𝜕𝐸𝑝

𝜕𝑤𝑗𝑖=

𝜕𝐸𝑝

𝜕𝑦𝑝𝑗×

𝜕𝑦𝑝𝑗

𝜕𝑁𝑒𝑡𝑗×𝜕𝑁𝑒𝑡𝑗

𝜕𝑤𝑗𝑖 (21)

Donde 𝑤𝑗𝑖 representa el peso de la neurona j a la neurona i, 𝑦𝑝𝑗 es la salida de la

neurona j en el patrón p, y 𝑁𝑒𝑡𝑗 es la suma ponderada de las entradas a la neurona j, es

decir:

𝑁𝑒𝑡𝑗 =∑𝑤𝑗𝑖 × 𝑦𝑖

𝑘

𝑖=1

(22)

𝑦𝑝𝑗 = 𝑓(𝑁𝑒𝑡𝑗)

Siendo k, en número de entradas de la neurona j y f la función de activación,

derivable.

Es así, que la actualización de los pesos está dada por la siguiente ecuación:

38

𝑤𝑗𝑖(𝑡 + 1) = 𝑤𝑗𝑖(𝑡) − 𝛼𝜕𝐸𝑝

𝜕𝑤𝑗𝑖(𝑡 + 1) (23)

Es evidente que la elección de 𝛼 tiene un efecto importante en el tiempo de

convergencia del algoritmo, el cual se detiene cuando el error resulte aceptablemente

pequeño para cada uno de los patrones aprendidos.

3.7 Algoritmo RPROP+

Una alternativa al algoritmo de backpropagation es el resiliente backpropagation

(RPROP+) en el que, en lugar de usar la magnitud de la derivada 𝜕𝐸𝑝

𝜕𝑤𝑗𝑖, presente en la

ecuación 20, se considera únicamente su signo multiplicado por una constante. Este

algoritmo tiene la ventaja de ser uno de los algoritmos de aprendizaje más rápidos

(Almeida et al. 2009, 4).

El algoritmo RPROP+ consiste en los siguiente (Igel y Hüsken 2000, 116): Para

cada peso se introduce su valor de actualización ∆𝑗𝑖, que determina el tamaño de la

actualización del peso.

∆𝑗𝑖𝑡 =

{

𝜂+ × ∆𝑗𝑖

𝑡−1, 𝑠𝑖 𝜕𝐸𝑝𝜕𝑤𝑗𝑖

(𝑡−1)

×𝜕𝐸𝑝𝜕𝑤𝑗𝑖

(𝑡)

> 0

𝜂− × ∆𝑗𝑖𝑡−1, 𝑠𝑖

𝜕𝐸𝑝

𝜕𝑤𝑗𝑖

(𝑡−1)

×𝜕𝐸𝑝

𝜕𝑤𝑗𝑖

(𝑡)

< 0 (24)

∆𝑗𝑖𝑡−1, 𝑐𝑎𝑠𝑜 𝑐𝑜𝑛𝑡𝑟𝑎𝑟𝑖𝑜

Donde 0 < 𝜂− < 1 < 𝜂+. ∆𝑗𝑖 están acotados por dos parámetros ∆𝑚𝑖𝑛 y ∆𝑚𝑎𝑥.

Una vez obtenido los tamaños de actualización es necesario obtener el valor de

variación de los pesos ∆𝑤𝑗𝑖, distinguiendo dos casos.

Si el signo de la derivada parcial no ha cambiado se tiene:

𝑆𝑖 𝜕𝐸𝑝

𝜕𝑤𝑗𝑖

(𝑡−1)

×𝜕𝐸𝑝

𝜕𝑤𝑗𝑖

(𝑡)

≥ 0 𝑒𝑛𝑡𝑜𝑛𝑐𝑒𝑠 ∆𝑤𝑗𝑖𝑡 = −𝑠𝑖𝑔𝑛 (

𝜕𝐸𝑝

𝜕𝑤𝑗𝑖

(𝑡)

) × ∆𝑗𝑖𝑡 (25)

Donde el operador signo retorna el valor de +1 si el argumento es positivo, -1 si

es negativo y 0 en otro caso. En caso de que el signo de la derivada parcial cambia, se

tiene:

𝑆𝑖 𝜕𝐸𝑝

𝜕𝑤𝑗𝑖

(𝑡−1)

×𝜕𝐸𝑝

𝜕𝑤𝑗𝑖

(𝑡)

< 0 𝑒𝑛𝑡𝑜𝑛𝑐𝑒𝑠 ∆𝑤𝑗𝑖𝑡 = −∆𝑤𝑗𝑖

𝑡−1 𝑦 𝜕𝐸𝑝

𝜕𝑤𝑗𝑖

(𝑡)

= 0 (26)

Finalmente se actualiza los nuevos pesos, los cuales están dados por,

39

39

𝑤𝑗𝑖(𝑡 + 1) = 𝑤𝑗𝑖(𝑡) + ∆𝑤𝑗𝑖(𝑡) (27)

La función de error que será usada para optimizar los pesos es la suma de los

errores cuadráticos definida de la siguiente forma (Ladino 2014, 14):

𝐸 =1

2∑(𝑦𝑖 − �̂�𝑖)

2

𝑛

𝑖=1

(28)

Donde n es el número de datos en entrenamiento, observaciones, 𝑦𝑖 es la salida

deseada y �̂�𝑖 es la salida de la red.

4. Conceptos del proceso de modelización

Para la construcción de los modelos scoring, ya sea con el uso de regresión

logística o redes neuronales, es necesario definir algunos conceptos:

4.1 Prueba Dickey – Fuller aumentada

La prueba de Dickey Fuller aumentada permite corroborar la estacionariedad de

una serie de tiempo. Cuando una serie no es estacionaria presenta al menos una raíz

unitaria, por lo que se busca contrastar la siguiente hipótesis (Santos 2008, 197):

• Ho: la serie tiene raíz unitaria.

• Ha: la serie es estacionaria.

Se rechaza Ho si:

Valor absoluto (Estadístico de la prueba (ADF)) > valores críticos de la prueba

(1%, 5%, 10%)

4.2 Muestreo aleatorio simple

El tamaño de muestra necesario para estimar p (proporción poblacional) con un

límite para el error de estimación B, está dado por (Scheaffer, Mendenhall, y Ott 2013,

100):

𝑛 =𝑁𝑝𝑞

(𝑁 − 1)𝐷 + 𝑝𝑞 donde: 𝑞 = 1 − 𝑝 𝑦 𝐷 =

𝐵2

4 (29)

4.3 Roll Rate

Implica comparar el peor atraso en un X número de meses, con los posteriores X

meses. Y así, calcular el porcentaje de operaciones o clientes que mantienen, mejoran o

empeoran su comportamiento, en distintos rangos de atraso. El propósito es identificar el

40

punto de no retorno; es decir, el nivel de atraso en la cual, una operación es considerada

como insalvable (Siddiqi 2006, 40). 1

4.4 Valor de Información (IV)

El valor de información es un valor numérico que permite cuantificar el poder de

predicción de una variable independiente. El mismo, funciona con variables categóricas

(Zeng 2013, 6). Se calcula a partir de la siguiente expresión,

𝐼𝑉 = ∑(𝑏𝑖𝑏−𝑚𝑖𝑚)

𝑛

𝑖=1

× ln(

𝑏𝑖𝑏⁄

𝑚𝑖𝑚⁄) (30)

Donde, n es el número de categorías en la variable independiente, 𝑏𝑖 y 𝑚𝑖 es el

número de buenos y malos clientes dentro de la categoría i. Y b y m: el número total de

buenos y malos clientes en el periodo de modelo, respectivamente.

Intuitivamente, mientras más grande sea el valor del IV, más predictiva será la

variable independiente categorizada. Sin embargo las variables con valores superiores a

0.5 deberían ser revisadas pues puede darse el caso de sobreestimación (Siddiqi 2006,

82).

Una regla, propuesta por (Siddiqi 2006, 81), para los valores aceptados del IV es:

Figura 7

Regla valor de la información IV

Fuente: Siddiqi (2006, 81)


4.5 Backward Stepwise y criterio de información de Akaike (AIC)

La técnica de pasos hacia atrás (Backward Stepwise) consiste en introducir en el

modelo todas las variables e ir excluyendo una tras otra según algún criterio de evaluación

(Moral 2006, 200). En este caso, se utiliza el AIC como criterio de selección de variables,

considerando aquellas que logren el menor valor AIC.

1 Es decir, no se recupera el monto que la entidad otorga a la persona.

Valor IV Nivel de Predicción

Menor que 0,02 No predictivo

Entre 0,02 y 0,1 Débil

Entre 0,1 y 0,3 Medio

Mayor que 0,3 Fuerte

41

41

El criterio de información de Akaike penaliza los modelos con muchos parámetros

y busca determinar la significancia de incluir algunos parámetros en el modelo (Sánchez

2012, 70). Este criterio se define como sigue:

Para un conjunto de m modelos, de tal forma que,

𝑀𝑗𝑚 ⊃ 𝑀𝑗−1

𝑚−1 ⊃ ⋯ ⊃ 𝑀𝑗−𝑖1 (31)

Donde, 𝑗 > 𝑖, 𝑖 > 0 y los subíndices denotan el número de variables en cada modelo. Se

busca elegir aquel valor de 𝑗 que minimice la siguiente expresión,

𝐴𝐼𝐶 = −2 log 𝐿 + 2𝑘 (32)

Siendo, L es la función de máxima verosimilitud, que se define como:

𝐿 = −𝑛

2log 2𝜋 −

𝑛

2log 𝜎2 −

1

2∑

𝑒𝑡2

𝜎2

𝑛

𝑡=1

(33)

Donde, k es igual al número de parámetros del modelo, n corresponde al número

de datos para la construcción de este y 𝜎2 el promedio de los residuales 𝑒𝑡 al cuadrado.

Como se puede observar, AIC penaliza modelos según su desviación de los datos reales,

siendo el mejor modelo aquel que manifieste el valor más pequeño entre todos los

modelos evaluados, siendo este el que mejor ajusta a los datos (Sánchez 2012, 71).

4.6 Estadístico de Wald

Para corroborar la significancia de los coeficientes de un modelo logit, se contrasta

la siguiente hipótesis nula:

𝐻0: 𝛽𝑖 = 0

Considerando a 𝛽𝑖 como el coeficiente estimado correspondiente a la variable

independiente 𝑥𝑖.

Así, se cuenta con el estadístico de Wald (Wasserman 2010, 183): Sea 𝜃 un

parámetro escalar, 𝜃 un estimador de 𝜃 y sea 𝑠�̂� el error estándar estimado de 𝜃.

Considerar probar 𝐻0: 𝜃 = 𝜃0 versus 𝐻1: 𝜃 ≠ 𝜃0. Se asume que 𝜃 es asintóticamente

normal,

√𝑛 (𝜃 − 𝜃0)

𝑠�̂�⟼ 𝑁(0, 1). (34)

Con un nivel de significancia de 𝛼, la prueba de Wald establece: Se rechaza 𝐻0

cuando |𝑊| > 𝑧𝛼/2 donde,

𝑊 =𝜃 − 𝜃0𝑠�̂�

(35)

42

En este caso, 𝜃0 = 0, por lo cual el estadístico de Wald se simplifica a,

𝑊 =�̂�

𝑠�̂� (36)

4.7 GVIF: Factor de inflación de la varianza generalizado

GVIF es una medida de cuanto de la varianza del coeficiente estimado 𝛽𝑗 está

inflado por la existencia de correlación entre las variables independientes del modelo. Se

usa comúnmente cuando se tiene variables categóricas con más de dos valores posibles o

con variables polinomiales (Fox 2003, 16), está dado por,

𝐺𝑉𝐼𝐹𝑖 =det 𝑅𝑖 × det 𝑅−𝑖

det 𝑅 (37)

Siendo det 𝑅𝑖 el determinante de la matriz de correlación sobre las columnas de

la variable 𝑖, det 𝑅−𝑖 el determinante de la matriz de correlación sobre las columnas del

resto de variables del modelo, distintas a la variable 𝑖 y det 𝑅 el determinante de la matriz

completa de correlación. Cuando el número de coeficientes de cada variable es uno, el

GVIF coincide con VIF.2 A pesar, de no tener una regla formal, generalmente se acepta

que valores de GVIF superiores a 10 puede ser perjudicial (Yoo et al. 2014, 3).

4.8 Estadístico de Kolmogorov – Smirnov (KS)

El estadístico de Komogorov Smirnov consiste en medir cuan distintas son las

funciones de distribución de buenos y malos clientes para cada valor de puntaje score.

El valor del estadístico está dado por (Rezac y Řezáč 2011, 4):

𝐾𝑆 = 𝑀𝑎𝑥𝑖(𝑃𝑏(𝑖) − 𝑃𝑔(𝑖)) (38)

Donde:

i: es el valor de score, en el rango L - H, que es, 𝐿 ≤ 𝑖 ≤ 𝐻.

𝑷𝒈(𝒊), 𝑷𝒃(𝒊): Proporción de buenos y malos con score menor o igual a i, en la

población.

𝑃𝑔(𝑖) =𝑁𝑔(𝑖)

𝑁𝑔=∑𝑝𝑔(𝑗)

𝑖

𝑗=𝐿

2 Factor de inflación de la varianza (VIF): =

1

1−𝑅𝑖2 siendo 𝑅𝑖

2 el coeficiente de determinación, que

representa la proporción de la varianza de la variable independiente i, que se asocia con las otras variables

independientes en el modelo.

43

43

𝑃𝑏(𝑖) =𝑁𝑏(𝑖)

𝑁𝑏=∑𝑝𝑏(𝑗) (39)

𝑖

𝑗=𝐿

Con:

𝑁𝑔: El total de buenos en la población.

𝑁𝑏: El total de malos en la población.

𝑁𝑔(𝑖), 𝑁𝑏(𝑖): El número de buenos y malos en la población con scores menores

o iguales a i.

𝑁𝑔(𝑖) = ∑𝑛𝑔(𝑗)

𝑖

𝑗=𝐿

𝑦

𝑁𝑏(𝑖) = ∑𝑛𝑏(𝑗) (40)

𝑖

𝑗=𝐿

𝑝𝑔(𝑖), 𝑝𝑏(𝑖): Es la proporción de buenos con score i y malos con score i en la

población.

𝑝𝑔(𝑖) =𝑛𝑔(𝑖)

𝑁𝑔𝑝𝑏(𝑖) =

𝑛𝑏(𝑖)

𝑁𝑏 (41)

Finalmente, 𝑛𝑔(𝑖) 𝑦 𝑛𝑏(𝑖) el número de buenos casos y malos con score i, en una

población.

El estadístico puede ser usado para medir la capacidad de clasificación de un

modelo, tomando valores entre 0 y 1. Se considera que un modelo con un KS menor a

20% debe ser cuestionado y mayor a 70% sea, probablemente, muy bueno para ser cierto

(Anderson 2007, 196). TransUnion, empresa líder en gestión de la información de crédito,

mide la efectividad de sus scores de riesgos de acuerdo con los siguientes estándares

internacionales.

Figura 8

Estándar estadístico KS

Fuente y elaboración: TransUnion (2012, 3)

44

4.9 Coeficiente de GINI

El coeficiente de Gini es un estadístico usado para medir cuan bien el modelo

scoring distingue entre los buenos y malos clientes, toma valores entre 0 y 1,

considerando que, si el coeficiente de Gini es igual a 1, entonces el modelo separa

perfectamente a buenos y malos (Anderson 2007, 204).

El estadístico está dado por la siguiente ecuación:

𝐺𝑖𝑛𝑖 = 1 −∑(

𝐻′

𝑖=𝐿

𝑃𝑏(𝑖 + 1) − 𝑃𝑏(𝑖))(𝑃𝑔(𝑖 + 1) + 𝑃𝑔(𝑖)) (42)

Donde:

i: es el valor de score, en el rango L - H, que es, 𝐿 ≤ 𝑖 ≤ 𝐻.

𝑷𝒈(𝒊), 𝑷𝒃(𝒊): Proporción de buenos y malos con score menor o igual a i, en la

población, respectivamente.

Se considera que para modelos de originación, un coeficiente de Gini menor a

35% es sospechoso y mayor o igual a 50% es más que satisfactorio (Anderson 2007, 205).

4.10 Matriz de confusión: error, sensibilidad y especificidad

Una forma simple de evaluar la predictividad de un modelo, es calculando el

porcentaje de clientes que este clasifica de forma correcta. Este porcentaje de clasificación

es derivado, de la matriz de confusión, la cual es construida de la siguiente forma:

- Elegir un punto de corte, para los valores de score obtenidos.

- Clasificar a todas las operaciones o clientes con un valor de score por debajo del

punto de corte, como malos esperados. Y a los que tiene un valor de score por

encima del punto de corte, como buenos esperados.

- Construir una tabla cruzada entre la clasificación real u original de bueno/malo y

la de bueno/malo esperado, obtenida en el paso anterior.

- Calcular las diferentes ratios que pueden ser obtenidos del modelo, como error,

valor de sensibilidad y especificidad.

Los casos correctamente clasificados son denominados como verdaderos

positivos (buenos) y verdaderos negativos (malos). Si no son bien clasificados se tiene a

los falsos positivos (malos que son clasificados como buenos) y a los falsos negativos

(buenos que son clasificados como malos).

Además, se define como sensibilidad y especificidad, a la habilidad del modelo

de catalogar correctamente al cliente bueno y malo, respectivamente. La forma general

45

45

de la matriz de confusión es mostrada en la tabla 1. Y en la tabla 2 se expone los

indicadores de eficiencia, que serán usados para comparar los dos modelos desarrollados,

construidos a partir de la matriz de confusión.

Tabla 1

Matriz de Confusión

Matriz de Confusión Real

0: Malo 1: Bueno

Est

imad

o

0: Malo A B

1: Bueno C D

Fuente y elaboración propias

Tabla 2

Indicadores de eficiencia

Nombre de

Indicador Definición Fórmula

Tasa de aciertos Cociente entre el número de predicciones

correctas y el total.

𝐴 + 𝐷

𝐴 + 𝐵 + 𝐶 + 𝐷

Error Cociente entre el número de predicciones

incorrectas y el total.

𝐵 + 𝐶

𝐴 + 𝐵 + 𝐶 + 𝐷

Sensibilidad Cociente entre el número de buenos

clasificados correctamente y el total de buenos.

𝐷

𝐵 + 𝐷

Especificidad Cociente entre el número de malos clasificados

correctamente y el total de malos.

𝐴

𝐴 + 𝐶


Una forma de obtener el punto de corte que permita nivelar la predicción correcta

de buenos y malos es hacer uso del Índice de Youden, que está dado por:

Í𝑛𝑑𝑖𝑐𝑒 𝑑𝑒 𝑌𝑜𝑢𝑑𝑒𝑛 (𝑌𝐼) = max(𝑆𝑒𝑛𝑠𝑖𝑏𝑖𝑙𝑖𝑑𝑎𝑑 + 𝐸𝑠𝑝𝑒𝑐𝑖𝑓𝑖𝑐𝑖𝑑𝑎𝑑 − 1) (42)

En una curva ROC, que será definida en el siguiente apartado, el índice de Youden

es la distancia vertical máxima entre la curva y la diagonal. Siendo el punto de corte

óptimo, aquel en el cual se alcanza el valor de YI (Cadarso Suárez 2010, 19).

46

4.11 Estadístico AUROC

Es una medida de performance cercanamente relacionada al coeficiente de Gini y

mide el área entre la curva y la diagonal conformada en la gráfica de

𝑠𝑒𝑛𝑠𝑖𝑏𝑖𝑙𝑖𝑑𝑎𝑑 𝑣𝑠 (1 − 𝑒𝑠𝑝𝑒𝑐𝑖𝑓𝑖𝑐𝑖𝑑𝑎𝑑), comúnmente llamada Curva ROC, para el total

de los valores de probabilidad. Permite medir la eficacia predictiva de un modelo,

evaluando gráficamente la capacidad de este para discriminar entre buenos y malos.

La relación entre el estadístico AUROC y el coeficiente de Gini es el que se

muestra a continuación (D. Hand y Till 2001, 173):

𝐴𝑈𝑅𝑂𝐶 =𝐺𝑖𝑛𝑖 + 1

2 (43)

El valor de AUROC varía entre 0 y 1. Un valor de 0,5 implicaría que el modelo

es igual a hacer una clasificación aleatoria para catalogar a un cliente como bueno o malo,

un valor de 1 significa que las clasificaciones son perfectamente correctas y un valor de

0 implica que las mismas con totalmente incorrectas (Anderson 2007, 207). Tal como

expresa (Siddiqi 2006, 124) el valor del estadístico AUROC debe estar sobre 0,5, y un

valor superior a 0,7 se considera adecuado.

47

47

Capítulo tercero: Proceso de modelación

En el presente capítulo se busca exponer los resultados obtenidos en el proceso de

modelación de un modelo credit scoring, previo a aplicar las metodologías de regresión

logística y redes neuronales.

Se aplicará las dos metodologías, en el proceso de modelización de un scoring,

para una cartera de microcrédito de una institución financiera ecuatoriana de mediano

tamaño, del sector privado; la cual será nombrada Institución X. Mencionada cartera de

Microcrédito, corresponde a créditos desembolsados entre enero del 2014 y diciembre del

2017.

Además, es importante mencionar que las operaciones seleccionadas

corresponden a clientes bancarizados, es decir, que fueron reportados en la central de

riesgos al menos una vez durante los últimos treinta y seis meses, anteriores al

correspondiente desembolso; esto con el fin de hacer uso de variables de central de riesgos

para explicar el comportamiento del cliente.

Los modelos credit scoring pueden ser aplicados en cualquier momento durante

el ciclo de vida de un crédito; diferenciándose principalmente por

a) El objetivo para el que se lo construye, y

b) La disponibilidad de información con la que se cuenta.

Tal como lo expresa Bolivia et al. (2008, 56) por lo general se clasifica los

modelos scoring en dos tipos:

- Scoring de originación: Interviene en la fase de aprobación o evaluación de

solicitudes de nuevos créditos.

- Scoring de comportamiento: Se realiza para dar seguimiento a los clientes ya

incorporados a la institución.

En el presente estudio se busca desarrollar dos modelos credit scoring de originación. Es

decir, los modelos buscarán determinar la probabilidad de incumplimiento asociado a

solicitudes de nuevos créditos, permitiendo:

a) Segmentar la población de solicitantes de crédito asociando al solicitante una

probabilidad de incumplimiento, la cual puede ser expresada como un puntaje

(score) de tal forma que a mayor puntaje menor probabilidad de incumplimiento,

y a menor puntaje, mayor probabilidad de incumplimiento; esto, dependiendo de

48

cómo haya sido definida la variable dependiente bueno/malo, la cual se explicará

más adelante.

b) Apoyar en la toma de decisiones de aprobación o rechazo de las mismas.

c) Establecer estrategias comerciales diferenciadas por punto de corte, pues se puede

discriminar a solicitantes que deben ser rechazados (puntaje más bajo) de aquellos

cuya aprobación de crédito debería ser inmediata (puntaje más alto).

De esta forma, se plantea las siguientes etapas para el desarrollo de los modelos scoring

de originación:

Figura 9

Esquema de modelización de un scoring


En este capítulo, se desarrollará los puntos correspondientes a:

- Selección y consistencia de la muestra.

- Definición de un buen y mal cliente.

- Análisis de las variables independientes.

49

49

1. Selección y consistencia de la muestra

Para el desarrollo de un modelo scoring es necesario contar con una muestra de

clientes previos, y su respectiva información crediticia; la cual permitirá explicar su

comportamiento. Tal muestra, debe cumplir dos principios fundamentales:

- La muestra debe ser representativa: Representativa en el hecho que esta debe

representar a aquellos solicitantes que aplicarán a un crédito en un futuro.

- Y debe contar con información suficiente: Este punto se refiere a que la muestra

debe incorporar casos de diferente tipo de comportamiento de pago (bueno y

malo), de tal forma que sea posible identificar las características, más

representativas, que reflejen el comportamiento de pago de los clientes de la

muestra (Thomas, Edelman, y Crook 2002, 137).

Por la necesidad que la muestra sea representativa, se prefiere considerar grupos

de muestras recientes, pues son los que presentarán características más similares a

potenciales clientes.

Sin embargo, un scoring es construido bajo el supuesto que el comportamiento

futuro será un reflejo del comportamiento pasado y para definir este comportamiento es

necesario establecer una definición de buen o mal cliente. En este sentido, es necesario

contar con un periodo de tiempo al cual se denomina periodo de desempeño, en el que se

pueda observar el comportamiento de pago del cliente y de esta forma poder catalogarlo

como bueno o malo.

Por otra parte, para definir a un cliente como bueno o malo se establece una

muestra a la cual se denomina periodo de observación o periodo de modelización, en ella

no se puede considerar grupos de créditos recientes pues no se contaría con el tiempo

suficiente para observar el comportamiento de pago del cliente. De esta manera es

importante establecer dos periodos, tal como se ilustra en la figura 10:

Figura 10

Definición del performance

Fuente: Siddiqi (2006, 33)


Periodo de modelización

Periodo de desempeñoUsualmente 12 meses

Nuevo cliente ¿Bueno o malo?

50

La figura 10, sintetiza los dos periodos que se deben determinar al momento de

seleccionar la muestra.

- Periodo de modelización: Periodo que cumpla con los requisitos de ser madura

y estable. Representa el tiempo en el cual se sitúa el modelador para observar el

desempeño del cliente.

- Periodo de desempeño: Tiempo en el cual se puede definir el comportamiento

de pago de un cliente, de tal forma que pueda ser catalogado como buen o mal

cliente.

Tal como lo expresa Thomas, Edelman, y Crook (2002, 137), usualmente se fija

un periodo de desempeño de 12 meses para un scoring de originación. Por lo cual, la

interrogante es conocer cuál será el periodo de modelización que cumpla con las dos

características descritas (madura y estable).

2. Determinación del periodo de modelización

Se busca determinar un periodo de tiempo que cumpla con las características de

madurez y estabilidad en el tiempo.

a) Madurez

Se considera a una cartera como madura cuando cuenta con el tiempo suficiente

para determinar el comportamiento de pago del cliente; es decir, que pudo ser observada

en un periodo igual al periodo de desempeño. Es importante la madurez de la cart

Credit scoring, aplicando técnicas de regresión logística ... · concepto de modelos de credit...

Documents

Transcript of Credit scoring, aplicando técnicas de regresión logística ... · concepto de modelos de credit...