Credit scoring, aplicando técnicas de regresión logística ... · concepto de modelos de credit...

108
Universidad Andina Simón Bolívar Sede Ecuador Área de Gestión Maestría en Gestión Financiera y Administración de Riesgos Financieros Credit scoring, aplicando técnicas de regresión logística y redes neuronales, para una cartera de microcrédito Cristhian Oswaldo Montalván Acaro Tutor: Felipe Alexander Andrade Cóndor Quito, 2019

Transcript of Credit scoring, aplicando técnicas de regresión logística ... · concepto de modelos de credit...

  • Universidad Andina Simón Bolívar

    Sede Ecuador

    Área de Gestión

    Maestría en Gestión Financiera y Administración de Riesgos Financieros

    Credit scoring, aplicando técnicas de regresión logística y redes neuronales, para una cartera de microcrédito

    Cristhian Oswaldo Montalván Acaro

    Tutor: Felipe Alexander Andrade Cóndor

    Quito, 2019

    https://creativecommons.org/licenses/by-nc-nd/4.0/

  • 2

  • 3

    3

    Cláusula de cesión de derecho de publicación de tesis

    Yo, Cristhian Oswaldo Montalván Acaro, autor de la tesis intitulada Credit

    scoring, aplicando técnicas de regresión logística y redes neuronales, para una cartera

    de microcrédito mediante el presente documento dejo constancia de que la obra es de mi

    exclusiva autoría y producción, que la he elaborado para cumplir con uno de los requisitos

    previos para la obtención del título de Máster en Gestión Financiera y Administración de

    Riesgos Financieros en la Universidad Andina Simón Bolívar, Sede Ecuador.

    1. Cedo a la Universidad Andina Simón Bolívar, Sede Ecuador, los derechos

    exclusivos de reproducción, comunicación pública, distribución y divulgación, durante 36

    meses a partir de mi graduación, pudiendo por lo tanto la Universidad, utilizar y usar esta

    obra por cualquier medio conocido o por conocer, siempre y cuando no se lo haga para

    obtener beneficio económico. Esta autorización incluye la reproducción total o parcial en

    los formatos virtual, electrónico, digital, óptico, como usos en red local y en internet.

    2. Declaro que en caso de presentarse cualquier reclamación de parte de terceros

    respecto de los derechos de autor/a de la obra antes referida, yo asumiré toda

    responsabilidad frente a terceros y a la Universidad.

    3. En esta fecha entrego a la Secretaría General, el ejemplar respectivo y sus

    anexos en formato impreso y digital o electrónico.

    Fecha: …………………………………….

    Firma: …………………………………….

  • 4

  • 5

    5

    Resumen

    Esta investigación pretende contrastar la hipótesis de sí el uso de redes neuronales,

    para la modelización del credit scoring de una cartera de microcrédito, logra un mejor

    performance que utilizar una metodología de regresión logística.

    Para esto se hace uso de la información de una cartera del producto de

    microcrédito, proporcionada por una institución financiera ecuatoriana de mediano

    tamaño, desembolsada entre los periodos de enero 2014 a diciembre 2017. La

    información corresponde al momento del desembolso de los créditos, por lo cual se

    construye modelos scoring de originación.

    Los dos modelos por desarrollar son construidos con el programa estadístico R y

    una vez se cuenta con estos, se procede a comparar su poder predictivo, capacidad para

    diferenciar entre buenos y malos clientes, adaptación a los datos, etc.; a partir de distintos

    estadísticos como KS, coeficiente de Gini, matriz de confusión, AUROC, criterio de

    información de Akaike.

    Además, se aplica los modelos en un periodo de información distinto al que se usó

    en su construcción y de esta forma establecer si son generalizables, al ser funcionales con

    información distinta al de su desarrollo.

    El modelo de redes neuronales se ajusta de mejor forma a los datos, pues se

    obtiene un criterio de información Akaike menor al de regresión logística, con una

    diferencia de 8.029,2 puntos. De igual forma, los estadísticos KS, coeficiente de Gini y

    curva ROC evidencia que hacer uso de las redes neuronales logra una mejor clasificación

    de los clientes, con 5,19, 5,84 y 2,92 puntos porcentuales por encima de los estadísticos

    del modelo de regresión logística, respectivamente. Finalmente, la matriz de confusión

    muestra un menor error con el modelo de redes neuronales, al compararlos con un mismo

    punto de corte óptimo.

    Los resultados obtenidos evidencian que la metodología de redes neuronales

    proporciona un modelo scoring más robusto que al usar una regresión logística, pudiendo

    corroborar que la hipótesis planteada es verdadera, bajo el proceso de modelización

    empleado.

    Palabras clave: regresión logística, redes neuronales, score, originación,

    modelos, proceso de modelización

  • 6

  • 7

    7

    Dedicado a todos aquellos que me quieren y quiero.

    Sí, este trabajo está dedicado a ti.

  • 8

  • 9

    9

    Agradecimientos

    Han sido muchas personas que, a lo largo de este sueño, me han apoyado e

    incentivado a cumplirlo; a todas aquellas personas expreso mi agradecimiento:

    • A Dios, que ha guiado mis pasos en este camino de la vida.

    • A mi padre y madre, que, sin su esfuerzo, constancia y amor, no sería la persona

    que me he esforzado en ser.

    • A mis hermanos Oscar y Diana, que sin sus locuras y constante presión me hubiera

    vuelto loco y no de la forma agradable, los adoro.

    • A mi mejor amiga de la vida, Jessica, que siempre me incentiva a ser mejor, y

    seguir adelante.

    • Priscila, Samanta y Santiago, personas en las que pude confiar y puedo decir, sin

    miedo, que aprecio.

    • A personas que, a pesar de la distancia se hicieron presentes, los quiero chicos,

    Alex y Eli.

    • Y por qué no, algunas menciones especiales, Daniel, Cecilia, Gonzalo y Paúl,

    espero se pregunten por que los incluí, pero tengo mis razones.

  • 10

  • 11

    11

    Tabla de contenidos

    Capítulo primero: Planteamiento del problema .................................................. 17

    1. Descripción de la realidad problemática ................................................ 17

    2. Hipótesis ................................................................................................. 18

    3. Objetivo general y específicos ................................................................ 18

    4. Justificación ............................................................................................ 19

    5. Delimitación del problema ..................................................................... 20

    Capítulo segundo: Marco teórico ........................................................................ 21

    1. Naturaleza de los modelos ...................................................................... 24

    2. Modelo de regresión logística - logit ...................................................... 24

    2.1 Estimación de los parámetros modelo logit ........................................ 25

    2.2 Interpretación coeficientes de una regresión logística. ....................... 27

    3. Modelo de Redes Neuronales ................................................................. 28

    3.1 Modelo biológico ................................................................................ 28

    3.2 Elementos de una red neuronal artificial ............................................ 30

    3.3 Arquitectura de las redes neuronales .................................................. 33

    3.4 Modos de operación de una red neuronal ........................................... 34

    3.5 Clasificación de los modelos neuronales ............................................ 36

    3.6 Algoritmo Backpropagation ............................................................... 37

    3.7 Algoritmo RPROP+ ............................................................................ 38

    4. Conceptos del proceso de modelización ................................................. 39

    4.1 Prueba Dickey – Fuller aumentada ..................................................... 39

    4.2 Muestreo aleatorio simple .................................................................. 39

    4.3 Roll Rate ............................................................................................. 39

    4.4 Valor de Información (IV) .................................................................. 40

    4.5 Backward Stepwise y criterio de información de Akaike (AIC) ........ 40

    4.6 Estadístico de Wald ............................................................................ 41

    4.7 GVIF: Factor de inflación de la varianza generalizado ...................... 42

    4.8 Estadístico de Kolmogorov – Smirnov (KS) ...................................... 42

  • 12

    4.9 Coeficiente de GINI............................................................................ 44

    4.10 Matriz de confusión: error, sensibilidad y especificidad ................ 44

    4.11 Estadístico AUROC ........................................................................ 46

    Capítulo tercero: Proceso de modelación ........................................................... 47

    1. Selección y consistencia de la muestra ................................................... 49

    2. Determinación del periodo de modelización .......................................... 50

    3. Definición de buen y mal cliente ............................................................ 54

    4. Análisis de las variables independientes ................................................ 58

    4.1 Análisis exploratorio de las variables ................................................. 59

    4.2 Categorización de las variables .......................................................... 59

    4.3 Elección de variables predictoras ....................................................... 60

    Capítulo cuarto: Construcción y contraste de modelos ...................................... 63

    1. Modelo de Regresión Logística .............................................................. 63

    1.1 Significancia de las variables independientes .................................... 66

    1.2 Consistencia de signos y coeficientes de las variables del modelo .... 66

    1.3 Resultados del factor de inflación generalizado de la varianza .......... 70

    1.4 Estadísticos del modelo de regresión logística ................................... 70

    2. Modelo de Redes Neuronales ................................................................. 71

    2.1 Estadísticos del modelo de redes neuronales ...................................... 75

    3. Comparación Modelos Scoring .............................................................. 76

    3.1 Poder predictivo en el periodo de Testing .......................................... 80

    Capítulo quinto: Conclusiones y recomendaciones ............................................ 83

    1. Conclusiones ........................................................................................... 83

    2. Recomendaciones ................................................................................... 85

    Bibliografía ......................................................................................................... 87

    Anexos ................................................................................................................ 91

    Anexo 1: Descripción del total de variables ................................................... 91

    Anexo 2: Categorización de variables independientes – árboles .................... 94

    Anexo 3: Código R ....................................................................................... 106

  • 13

    13

    Lista de tablas

    Tabla 1 Matriz de Confusión .......................................................................................... 45

    Tabla 2 Indicadores de eficiencia ................................................................................... 45

    Tabla 3 Tamaño muestra periodo de modelo ................................................................. 54

    Tabla 4 Roll Rate – Definición de Cliente bueno, malo e indeterminado ...................... 55

    Tabla 5 Definición del tipo de cliente ............................................................................ 57

    Tabla 6 IV – Variable Num_Inst_Adeuda ...................................................................... 61

    Tabla 7 Modelo Scoring Originación – Metodología logit ............................................ 64

    Tabla 8 Estadísticos del modelo logit ............................................................................. 70

    Tabla 9 Coeficientes – Capa 1 ........................................................................................ 73

    Tabla 10 Coeficientes – Capa 2 ...................................................................................... 74

    Tabla 11 Coeficientes – Capa 3 ...................................................................................... 75

    Tabla 12 Coeficientes – Capa 4 ...................................................................................... 75

    Tabla 13 Estadísticos del modelo redes neuronales ....................................................... 75

    Tabla 14 Comparación estadísticos modelos – Periodo modelo .................................... 77

    Tabla 15 Matrices de confusión: Punto de corte 0,8680071 .......................................... 78

    Tabla 16 Matrices de confusión: Punto de corte 0,890068781 ...................................... 78

    Tabla 17 Periodo Testing ................................................................................................ 80

    Tabla 18 Estadísticos - Periodo Testing ......................................................................... 80

  • 14

  • 15

    15

    Lista de Figuras

    Figura 1 Función Logística 25

    Figura 2 Modelo de una neurona biológica 29

    Figura 3 Modelo de neurona artificial inspirada en una neurona biológica 30

    Figura 4 Funciones de activación usuales 32

    Figura 5 Estructura de una red neuronal artificial multicapa 34

    Figura 6 Clasificación de las redes neuronales 36

    Figura 7 Regla valor de la información IV 40

    Figura 8 Estándar estadístico KS 43

    Figura 9 Esquema de modelización de un scoring 48

    Figura 10 Definición del performance 49

    Figura 11 Análisis de cosechas 51

    Figura 12 Prueba ADF – Raíz Unitaria 52

    Figura 13 Roll Rate: Atraso mayor a 90 días luego de 12 meses del desembolso 56

    Figura 14 Árbol de decisión para la variable Num_Inst_Adeuda 60

    Figura 15 Curva ROC del modelo logit 71

    Figura 16 Arquitectura del modelo de redes neuronales 72

    Figura 17 Red Neuronal 73

    Figura 18 Curva ROC del modelo de redes neuronales 76

    Figura 19 Comparación curvas ROC 79

  • 16

  • 17

    17

    Capítulo primero: Planteamiento del problema

    1. Descripción de la realidad problemática

    Evaluar el riesgo de crédito es de gran importancia para una institución financiera,

    pues busca evitar pérdidas que pueden estar relacionadas a cualquier tipo de decisión de

    concesión de crédito inapropiada. Además, la competencia empresarial para obtener más

    ganancias y participación en el mercado se vuelve cada vez más agresiva con el paso de

    los años, por lo que algunas instituciones asumen un mayor riesgo para lograr una ventaja

    competitiva en el mercado, provocando que muchas sufran grandes pérdidas debido a un

    aumento en el incumplimiento y préstamos incobrables (Yu 2008, 17).

    En el proceso de otorgamiento de créditos, una institución no puede tomar

    decisiones a partir de su juicio experto para cada una de las solicitudes recibidas, pues

    con el aumento en el número de solicitantes y la competencia intensa en la industria

    crediticia, este método no puede satisfacer las demandas en los aspectos económicos y de

    eficiencia (Yu 2008, 17); sino que intentará adoptar sistemas de calificación de créditos

    para facilitar y acelerar los procesos en la toma de decisiones. Por tal motivo, nace el

    concepto de modelos de credit scoring o modelos de calificación de créditos (Islam, Zhou,

    y Li 2009, 7).

    Muchos algoritmos son usados para la construcción de un credit scoring, sin

    embargo, cada vez se deberá buscar alternativas más efectivas para tomar decisiones más

    precisas, por ejemplo, las redes neuronales (Islam, Zhou, y Li 2009, 7).

    En el Ecuador, la cartera productiva, en la cual se considera la cartera comercial

    y microcrédito, han tenido un incremento del 30,2% entre los periodos marzo 2015 y

    marzo 2019, pasando de 11.285,4 millones de dólares a 14.698,8 millones de dólares,

    respectivamente (Arias 2016, 3). De igual forma, la cartera vencida más cartera que no

    devenga intereses para estos productos, que la Superintendencia de Bancos del Ecuador

    llama cartera problemática, tuvo un incremento del 17,9% pasando de 192,32 millones

    dólares a 226,76 millones de dólares, en los mismos periodos. Más preocupante son las

    cifras de la cartera con calificación C, D y E pues pasan de 981,5 millones de dólares en

    marzo del 2015 a 14.698,8 millones de dólares en marzo del 2019, teniendo un incremento

    del 235,2%, representando el 22,4% del total de cartera productiva a marzo del 2019

    (Paredes y Cóndor 2018, 2).

  • 18

    Varios factores pueden incidir en el crecimiento de la cartera vencida o el

    incremento de la mora de una cartera, como malas prácticas en la concesión de créditos,

    metas de créditos agresivas por parte de las instituciones, deterioro del empleo, recesión

    económica, etc. Sin embargo, el anterior escenario evidencia la necesidad de contar con

    nuevas herramientas para la gestión de riesgo de crédito que ayuden a minimizar la

    probabilidad de pérdida de una institución, buscando alcanzar la eficiencia de la gestión

    de riesgos a partir de mejores herramientas estadísticas e informáticas.

    El presente trabajo será desarrollado a partir de información proporcionada por

    una institución financiera ecuatoriana de la cual por razones de privacidad y seguridad no

    se revelará el nombre, pero cuando sea necesario, será llamada Entidad Financiera X.

    La Entidad Financiera X, evidenció un incremento del 1.6% en su saldo en mora

    mayor a 90 días y un crecimiento del 4.4% en el saldo en mora mayor a 180 días, para su

    cartera de microcrédito, comparando los meses junio 2017 y junio 2018. Frente a esta

    situación, la institución se ha visto en la necesidad de contar con herramientas que apoyen

    de forma eficaz y eficiente los procesos de concesión de crédito, y buscar contrastar

    metodologías distintas a las que cuenta al momento, pues únicamente, hace uso de

    metodologías de regresión logística.

    2. Hipótesis

    El hacer uso de redes neuronales, para la modelización del credit scoring de una

    cartera de microcrédito, logra un mejor performance que utilizar una metodología de

    regresión logística.

    3. Objetivo general y específicos

    Objetivo general:

    Comparar la metodología de credit scoring de regresión logística y redes

    neuronales en una cartera de microcrédito, de una institución financiera ecuatoriana.

    Objetivos específicos:

    • Conocer la teoría que respalda los métodos de regresión logística y de redes

    neuronales, para la obtención de un modelo credit scoring.

  • 19

    19

    • Detallar el proceso de modelización al usar metodologías de regresión logística y

    de redes neuronales.

    • Identificar el modelo de credit scoring, regresión logística o redes neuronales, que

    tiene un mejor desempeño.

    4. Justificación

    Para las instituciones financieras es de gran importancia conocer con anticipación

    la probabilidad de que un solicitante de crédito vaya a cumplir con su obligación, y poder

    tomar decisiones más objetivas y eficientes sobre el otorgamiento de los préstamos y

    sobre los términos que establecerán para sus diferentes productos.

    La necesidad de modelos cuantitativos confiables que discriminen a los buenos y

    malos clientes con precisión es crucial para el negocio de muchas instituciones de crédito,

    pues podrán tomar medidas preventivas o correctivas en el proceso de concesión y

    seguimiento de créditos. Es evidente que la modelización y análisis de riesgo se vuelven

    muy importantes para la sostenibilidad y beneficio de las empresas convirtiendo el

    análisis y modelización del riesgo de crédito en un tema valioso tanto para la comunidad

    académica y de la industria (Yu 2008, 5).

    Para cumplir este objetivo, se cuenta con los modelos matemáticos, credit scoring

    (TransUnion 2007, 4). Los modelos credit scoring son algoritmos o métodos que pueden

    ayudar a obtener la probabilidad de incumplimiento de un solicitante de crédito,

    permitiendo evaluar el riesgo en el origen de la financiación (Gutierrez Girault 2007, 2).

    Existe una gran variedad de metodologías disponibles para evaluar el riesgo de

    crédito, los modelos de regresión logística se encuentran en el grupo de los más usados

    en la industria por ser intuitivos, de buen poder predictivo y de fácil implementación; sin

    embargo, existen otros métodos menos explorados, con un mayor nivel de complejidad

    que podrían mejorar el poder predictivo, entre estos se encuentra los métodos de redes

    neuronales (Bonilla, Olmeda, y Puertas 2003, 864).

    Esta investigación pretende contrastar las historias de superioridad de la

    metodología de redes neuronales sobre los métodos tradicionales como es la regresión

    logística, con información de una institución financiera ecuatoriana, cotejando su poder

    predictivo y estableciendo diferencias entre cada uno. Esto será muy útil para las

    empresas financieras pues se impulsa el uso de algoritmos avanzados que pueden mejorar

    la identificación de buenos y malos clientes.

  • 20

    Además, de comparar los resultados de los dos modelos a desarrollar, se busca

    detallar cada uno de los pasos del proceso de modelización, identificando las diferencias

    por hacer uso de dos metodologías distintas, sirviendo de guía para las instituciones

    financieras que tratan con microcréditos, y aquellas que busquen desarrollar modelos de

    credit scoring.

    5. Delimitación del problema

    En el presente proyecto se generan dos modelos scoring para la cartera de

    microcrédito de una institución financiera ecuatoriana haciendo uso de dos metodologías

    distintas, regresión logística y redes neuronales. Los dos modelos se enfocarán en el

    proceso de otorgamiento de créditos, por lo cual se los categoriza como modelos de

    originación. La Entidad Financiera X que facilita la información para el desarrollo del

    presente trabajo cuenta con más de 1.000 colaboradores en todo el país a diciembre del

    2017 y un valor en activo de más de 600 millones de dólares.

  • 21

    21

    Capítulo segundo: Marco teórico

    En el presente capítulo se expone las metodologías de regresión logística y redes

    neuronales, con el fin de conocer la estructura tras cada modelo y los distintos conceptos

    que serán empleados en el proceso de modelización y comparación de los scores

    resultantes.

    Una de las principales actividades de una institución financiera es la de

    intermediación financiera, permitiendo transferir los recursos de aquellos individuos con

    exceso de estos, a aquellos que lo necesitan, para consumirlo o invertirlo. Cumplir con

    esta actividad, conduce a la institución a exponerse a un conjunto de riesgos, que conlleva

    a la presencia de pérdidas.

    Por lo cual, es de suma importancia, para la institución, contar con herramientas

    eficientes para la identificación, medición, monitoreo, control, mitigación y divulgación

    de los riesgos, a la cual está sujeta; es decir, contar con metodologías y políticas que

    lleven a una correcta gestión de los riesgos (Bolivia et al. 2008, 40).

    Así nacen las metodologías conocidas como credit scoring, que cuentan con

    algunas definiciones, dependiendo de la perspectiva del autor. D. J. Hand y Henley (1997,

    523) lo definen como un método estadístico formal, usado para clasificar a solicitantes de

    crédito en grupos de buenos y malos; menciona que estos métodos han llegado a ser muy

    importantes, con un dramático crecimiento a partir de los años 70, pues en aquellos años,

    los métodos tradicionales para decidir si otorgar o no un crédito, para un individuo en

    particular, era el uso del juicio humano, basado en la experiencia de decisiones tomadas

    anteriormente.

    Sin embargo, con el incremento de la demanda de crédito, alineado con una

    competencia comercial más grande y una mejora de los recursos estadísticos y

    tecnológicos, la industria financiera se vio en la necesidad de hacer un más eficaz y

    eficiente proceso de otorgamiento de créditos, así como de la evaluación de su portafolio.

    Es así, que la utilización de modelos credit scoring, para la evaluación del riesgo

    de crédito, comienzan a ser usados en los años 70’s pero se generalizan a partir de los

    90’s (Gutierrez Girault 2007, 2).

    Pese a todo, tal como lo menciona Gutierrez Girault (2007, 2), a pesar de la

    diversidad de modelos scoring, el juicio humano o del analista, no ha quedado rezagado,

    continúa siendo utilizado, afirmando que en la práctica ambos métodos de evaluación

  • 22

    coexisten y complementan; siendo los basados en la experiencia denominados como

    expertos y aquellos que se basan en un análisis estadístico como estadísticos.

    Autores como Thomas, Edelman, y Crook (2002, 16) definen a un credit scoring

    como un conjunto de modelos de decisión y sus técnicas implícitas que ayudan a los

    prestamistas en la concesión de un crédito. Shanmugapriya (2012, 34) los considera como

    un proceso en el cual se analiza el comportamiento pasado de los clientes para diferenciar

    clientes en bancarrota y no bancarrota.

    Existen algunas definiciones para un credit scoring; sin embargo, en este trabajo,

    se considera a un credit scoring como un conjunto de metodologías que permitirán

    evidenciar la probabilidad que un cliente cumpla o no con sus obligaciones, a partir de la

    información que se conozca del mismo.

    Los modelos credit scoring tienen muchas funciones dentro del ciclo de vida de

    un crédito que comprende el otorgamiento, seguimiento, cobranza y recuperación

    (Bolivia et al. 2008, cap. 2); sin embargo, este proyecto se enfocará en las metodologías

    que sirven de apoyo, en la toma de decisiones del proceso de otorgamiento de créditos;

    tales metodologías deben permitir medir los riesgos de los potenciales clientes, a fin de

    precisar quiénes podrían ser sujetos de crédito, estableciendo variables significativas que

    ayuden a identificar los individuos cuyo riesgo se ajuste al perfil de riesgo de la

    institución.

    En la literatura, se cuenta con diversas metodologías para modelar un credit

    scoring, no obstante, se abordarán los modelos de regresión logística y de redes

    neuronales; los primeros, considerados como tradicionales y comúnmente usados por las

    instituciones por su poder de predicción y facilidad de interpretación y los segundos,

    métodos menos explorados, que podrían mejorar el poder predictivo obtenido por los

    modelos tradicionales (Bonilla, Olmeda, y Puertas 2003, 864).

    En general cada método tiene ventajas y desventajas para la construcción de un

    modelo de riesgo de crédito. Yu (2008, 17) expresa que modelos como las redes

    neuronales tienen como ventaja el construir un modelo sin la necesidad que el usuario

    tenga una comprensión profunda del problema, pudiendo utilizarlos independientemente

    del cumplimiento de supuestos teóricos relativos a técnicas estadísticas o paramétricas,

    además de funcionar mejor desde el punto de vista de la precisión en la clasificación.

    Mientras que métodos más tradicionales, como la regresión logística, necesitan construir

    el modelo en base al cumplimiento de algunos supuestos. Las ventajas de los métodos

    tradicionales es que son relativamente simples, fáciles de interpretar e implementar, que

  • 23

    23

    es algo que no se tiene en un modelo de redes neuronales pues su compleja estructura no

    permite lograr resultados óptimos. Por lo cual, es difícil para alguien determinar cuál es

    “el mejor” modelo en general, para todas las posibles situaciones.

    Trabajos de Pitarque, Ruiz, y Roy (2000, 459) buscan apoyar, con sus resultados,

    la idea que las redes neuronales han mostrado una capacidad clasificatoria igual o superior

    que las técnicas estadísticas. Trabajan con una serie de simulaciones y aplicaciones sobre

    datos reales, comparando las redes neuronales con la regresión logística y el análisis

    discriminante. Si bien sus resultados muestran que las redes hacen un mejor trabajo en la

    clasificación de la variable objetivo, plantean la pregunta si vale la pena ganar en

    capacidad de clasificación a costa del costo computacional y de recursos involucrados en

    el entrenamiento de las redes neuronales, concluyendo que ambas técnicas deberían

    complementarse. Islam, Zhou, y Li (2009, 29) llega a conclusiones similares.

    En cambio, Croall y Mason (1992, 74), Ladino (2014, 27), Larasati, DeYong, y

    Slevitch (2011, 304) no muestran inclinación alguna hacia una u otra metodología,

    estableciendo que no se puede demostrar la superioridad de metodologías como las redes

    neuronales, sobre las tradicionales al tener cada una sus ventajas en distintos escenarios.

    Bonilla, Olmeda, y Puertas (2003, 859) evalúan la capacidad predictiva de dos

    modelos paramétricos (análisis discriminante y regresión logística) y cinco no

    paramétricos, entre los que se encuentran las redes neuronales, sobre una base de 690

    observaciones de solicitantes de tarjetas de crédito. Concluye que las redes neuronales

    resultan ser el modelo de mayor capacidad predictiva, superando a todos los demás. Sin

    embargo, la escasez de datos dificulta la adecuada comparación de los modelos. Compara

    los mismos a partir del error de predicción, obteniendo un error del 12,50% y 12,33% en

    el periodo de entrenamiento y el 12,22% y 10% en el periodo de testing para los modelos

    logit y redes neuronales, respectivamente.

    En cambio Trujillano et al. (2003, 504) compara la capacidad de predicción de un

    modelo de regresión logística y redes neuronales a partir de la curva ROC, evidenciando

    mejores valores con las redes neuronales, que se mantienen tanto en la muestra de

    desarrollo como testing.

    Zhang (2004, 272) expone que uno de los métodos comúnmente usados para

    evaluar el poder de clasificación de los modelos es el estadístico de Kolmogorov –

    Smirnov (K-S). El mismo compara un modelo de regresión logística y redes neuronales

    a partir de los estadísticos K-S, curva ROC y matriz de confusión. El estadístico K-S fue

    superior con 14 puntos porcentuales en las redes neuronales, mientras que para la curva

  • 24

    ROC y tasa de clasificación global fue superior el modelo de regresión logística con 4,41

    y 10,57 puntos porcentuales, respectivamente. Zhang concluye que ningún método de

    evaluación representa una panacea para los investigadores o analistas, sino mas bien es

    necesaria una comprensión de los datos y el problema para la correcta elección de no solo

    la metodología de modelación sino también del método de evaluación (Zhang 2004, 289).

    En el presente trabajo se busca contrastar, si el hacer uso de redes neuronales, para

    la modelización del credit scoring, logra un mejor performance que utilizar una

    metodología de regresión logística, para una cartera de microcrédito de una institución

    financiera ecuatoriana, comparando estadísticamente cada metodología.

    1. Naturaleza de los modelos

    El objetivo principal de los dos modelos es estimar la probabilidad de

    incumplimiento de un solicitante de crédito; para esto es necesario contar con una variable

    que identifique si el solicitante es un buen o mal cliente, esta variable será representada

    con la letra Y, que es la variable dependiente del modelo.

    La variable dependiente es una variable dicotómica (binaria) que toma los

    siguientes valores:

    𝑌 = {1: 𝑆𝑖 𝑒𝑙 𝑠𝑜𝑙𝑖𝑐𝑖𝑡𝑎𝑛𝑡𝑒 𝑑𝑒 𝑐𝑟é𝑑𝑖𝑡𝑜 𝑒𝑠 𝑑𝑒𝑓𝑖𝑛𝑖𝑑𝑜 𝑐𝑜𝑚𝑜 𝑢𝑛 𝑏𝑢𝑒𝑛 𝑐𝑙𝑖𝑒𝑛𝑡𝑒 0: 𝑆𝑖 𝑒𝑙 𝑠𝑜𝑙𝑖𝑐𝑖𝑡𝑎𝑛𝑡𝑒 𝑑𝑒 𝑐𝑟é𝑑𝑖𝑡𝑜 𝑒𝑠 𝑑𝑒𝑓𝑖𝑛𝑖𝑑𝑜 𝑐𝑜𝑚𝑜 𝑢𝑛 𝑚𝑎𝑙 𝑐𝑙𝑖𝑒𝑛𝑡𝑒

    (1)

    La definición de cliente bueno (1) y malo (0), para la variable dependiente Y, es

    construida a partir de su información demográfica, comportamiento en el buró y/o dentro

    de la institución.

    Los modelos buscan estimar la probabilidad que la variable dependiente Y tome

    el valor de 0 o 1, a partir de un conjunto de variables denominadas independientes, las

    cuales serán representadas con la letra X, que pueden ser cualitativas o cuantitativas. Las

    variables independientes son obtenidas a partir de diversas fuentes de información tanto

    internas y externas del individuo, como puede ser su información crediticia, de buró,

    demográfica, etc. Muchas de las cuales dependerán de las características del crédito que

    se esté considerando.

    2. Modelo de regresión logística - logit

    Los modelos logit pertenecen al grupo de modelos de regresión con respuesta

    cualitativa, en este caso binaria; mientras que las variables independientes pueden ser

    cualitativas o cuantitativas, o una mezcla de ambas (Flórez y Rincón 2002, 124).

  • 25

    25

    El modelo está basado en una función de distribución logística, cuya estructura se

    presenta a continuación:

    𝑃(𝑌 = 1| 𝑋) = 𝐹(𝒛) =exp(𝒛)

    1 + exp(𝒛), − ∞ < 𝑧 < ∞ (2)

    Con 𝑧 = 𝑋𝑇𝛽 = 𝛽0 + 𝛽1𝑥1 +⋯+ 𝛽𝑛𝑥𝑛.

    Figura 1

    Función Logística

    Fuente: Flórez y Rincón (2002, 128) Elaboración: Propia

    Donde:

    • Y: Es la variable dependiente, binaria, que puede tomar dos posibles valores, que

    se etiquetará con 0 (cliente malo) y 1 (cliente bueno).

    • X: Es el conjunto de n variables independientes (𝑥1, 𝑥2, … , 𝑥𝑛) relacionadas con

    la información propia del solicitante, tomadas con el fin de explicar y/o predecir

    el valor de Y.

    • 𝐹(𝑧): Es la función de probabilidad, que depende de un vector de parámetros 𝛽 =

    (𝛽0, 𝛽1, … , 𝛽𝑛), que permitirán relacionar las variables independientes X, con la

    dependiente Y. Esta función tiene un rango entre [0, 1] y se conoce como función

    de distribución logística.

    El objetivo del modelo es hallar los coeficientes 𝛽 que mejor se ajusten a la

    expresión (2).

    2.1 Estimación de los parámetros modelo logit

    La estimación de los coeficientes 𝛽 puede realizarse a partir del método de

    máxima verosimilitud (Gujarati, Guerrero, y Medina 2005, 574).

    Supóngase se cuenta con un conjunto de k individuos; de tal forma que,

    catalogarles como buenos o malos clientes será definido por la variable 𝑌𝑖, considerando

    𝑖 = 1, 2,… , 𝑘.

    1

    0

  • 26

    En vista que cada 𝑌𝑖 es una variable aleatoria de Bernoulli, por tomar dos valores,

    0 o 1, podemos expresar la probabilidad que suceda uno u otro evento, como sigue:

    𝑃(𝑌𝑖 = 1) = 𝑃𝑖 𝑃(𝑌𝑖 = 0) = 1 − 𝑃𝑖

    Su función de probabilidad será:

    𝑓𝑖(𝑌𝑖) = 𝑃𝑖𝑌𝑖 × (1 − 𝑃𝑖)

    1−𝑌𝑖 , 𝑐𝑜𝑛 𝑖 = 1, 2, 3, … , 𝑘 (3)

    Es decir, la función 𝑓𝑖(𝑌𝑖) denota la probabilidad que 𝑌𝑖 = 1 𝑜 0.

    Como cada observación es independiente, la probabilidad conjunta de observar

    los k valores de la variable Y, se expresa como:

    𝑓(𝑌1, 𝑌2, … , 𝑌𝑘) =∏𝑓𝑖(𝑌𝑖)

    𝑘

    𝑖=1

    =∏𝑃𝑖𝑌𝑖 × (1 − 𝑃𝑖)

    1−𝑌𝑖

    𝑘

    𝑖=1

    (4)

    Donde ∏ es el operador producto. A esta probabilidad conjunta se la conoce como

    función de verosimilitud (FLV). Al tomar el logaritmo de esta función se tiene:

    ln (𝑓(𝑌1, 𝑌2, … , 𝑌𝑘)) =∑[𝑌𝑖 ln 𝑃𝑖 + (1 − 𝑌𝑖) ln(1 − 𝑃𝑖)]

    𝑘

    𝑖=1

    = ∑[𝑌𝑖 ln 𝑃𝑖 − 𝑌𝑖 ln(1 − 𝑃𝑖) + ln(1 − 𝑃𝑖)]

    𝑘

    𝑖=1

    = ∑[𝑌𝑖 ln (𝑃𝑖

    1 − 𝑃𝑖)] +∑ln(1 − 𝑃𝑖) (5)

    𝑘

    𝑖=1

    𝑘

    𝑖=1

    Tal como se expuso en (2), la probabilidad que un individuo sea un buen o mal

    cliente es representado por:

    𝑃𝑖 =exp(𝑋𝑖

    𝑇𝛽)

    1 + exp(𝑋𝑖𝑇𝛽)

    (6)

    De aquí se puede, fácilmente, demostrar que:

    1 − 𝑃𝑖 =1

    1 + exp(𝑋𝑖𝑇𝛽)

    (7)

    De igual forma,

    ln (𝑃𝑖

    1 − 𝑃𝑖) =𝑋𝑖

    𝑇𝛽 (8)

    Considerando (7) y (8) en (5), se puede expresar el logaritmo de la función de

    verosimilitud, como sigue:

  • 27

    27

    ln (𝑓(𝑌1, 𝑌2, … , 𝑌𝑘)) =∑𝑌𝑖(𝑋𝑖𝑇𝛽) −∑ln(1 + exp(𝑋𝑖

    𝑇𝛽))

    𝑘

    𝑖=1

    𝑘

    𝑖=1

    (9)

    Podemos observar que (9) es una función que depende de los coeficientes 𝛽, pues

    𝑌𝑖 y 𝑋𝑖 se conocen.

    El método de máxima verosimilitud consiste en maximizar la expresión (9), para

    buscar la máxima capacidad predictiva. Para esto se deriva parcialmente, respecto a cada

    una de las incógnitas; es decir, respecto a cada 𝛽𝑗, con 𝑗 = 1, … , 𝑛. Obteniendo un sistema

    de n ecuaciones no lineales, que deberán resolverse por procedimientos numéricos.

    Una vez obtenidos los valores 𝛽 se verifica que en verdad maximicen la función

    de verosimilitud a partir de la condición de maximización de segundo orden. Luego de

    este proceso, se obtiene los coeficientes, necesarios para estimar la probabilidad de

    incumplimiento de un individuo, a partir de la ecuación (2).

    2.2 Interpretación coeficientes de una regresión logística.

    Una de las razones, por las cuales se utiliza con mayor frecuencia un modelo de

    regresión logística es que su interpretación es relativamente sencilla. Para apreciar este

    beneficio, es de ayuda entender el significado de odds. Tal como lo expresa (Allison 2012,

    15) muchas personas consideran a una probabilidad como la forma “natural” de

    cuantificar que un evento ocurra, considerando valores que se mueven entre 0 y 1. Sin

    embargo, existen otras formas de representar un cambio natural en algún evento, esto son

    los odds ratios.

    El mismo autor, define los odds, como la relación entre el número esperado de

    veces que un evento ocurra y el número esperado de veces que este no ocurra. De esta

    forma, la relación entre el odds y la probabilidad es:

    𝑂𝑑𝑑𝑠 = 𝑃𝑟𝑜𝑏𝑎𝑏𝑖𝑙𝑖𝑑𝑎𝑑 𝑞𝑢𝑒 𝑢𝑛 𝑒𝑣𝑒𝑛𝑡𝑜 𝑜𝑐𝑢𝑟𝑟𝑎

    1 − 𝑃𝑟𝑜𝑏𝑎𝑏𝑖𝑙𝑖𝑑𝑎𝑑 𝑞𝑢𝑒 𝑢𝑛 𝑒𝑣𝑒𝑛𝑡𝑜 𝑜𝑐𝑢𝑟𝑟𝑎

    Esta expresión tiene relevancia en un modelo de regresión logística, pues si se

    considera (6) y (7) se tiene,

    𝑃𝑖1 − 𝑃𝑖

    =

    exp(𝑋𝑖𝑇𝛽)

    1+exp(𝑋𝑖𝑇𝛽)

    1

    1+exp(𝑋𝑖𝑇𝛽)

    = exp(𝑋𝑖𝑇𝛽) (10)

    A esta expresión se la considera como transformación logit de la probabilidad 𝑃𝑖,

    cuya parte izquierda es una razón de probabilidades u odds (Flórez y Rincón 2002, 128).

    Al considerar el logaritmo natural de (10) se obtiene el logaritmo de la razón de

  • 28

    probabilidades conocido como logit y es por este término que al modelo de regresión

    logística se lo conoce, también, como modelo logit. Así, se llega a la ecuación (8).

    L = ln (𝑃𝑖

    1 − 𝑃𝑖) =𝑋𝑖

    𝑇𝛽 = 𝛽0 + 𝛽1𝑥1 +⋯+ 𝛽𝑛𝑥𝑛 (11)

    De esta forma, la interpretación del modelo está dada por esta expresión logit (L);

    por ejemplo, 𝛽2 mide el cambio en L ocasionado por un cambio unitario en 𝑥2,

    suponiendo constantes el resto de variables explicativas (Gujarati, Guerrero, y Medina

    2005, 575).

    La interpretación del modelo también puede darse a partir del odds ratio, la cual

    es una medida de la magnitud de asociación entre dos variables; en este caso, cada una de

    las independientes con la dependiente. Un odds ratio mayor a 1, muestra que existe una

    relación positiva o directa entre las dos variables, mientras que un odds ratio menor a 1,

    establece una relación negativa o inversa. Cuando el odds ratio es igual a 1, significa que

    no existe una relación entre las mismas (Salas 1996, 11).

    El odds ratio puede calcularse a partir de la estimación de los parámetros del

    modelo:

    𝑜𝑑𝑑𝑠 𝑟𝑎𝑡𝑖𝑜 = 𝑒𝛽 (12)

    3. Modelo de Redes Neuronales

    Las redes neuronales artificiales (RNA) son modelos matemáticos-

    computacionales que intentan imitar el funcionamiento del cerebro y la forma como este

    procesa la información. Se cataloga dentro de las técnicas no paramétricas de credit

    scoring, como sistemas con la capacidad de aprender a través de entrenamiento, también

    conocido como la interpretación que ellas hacen de la información que reciben (Bahamón

    2013, 37).

    3.1 Modelo biológico

    La figura 2 muestra un tipo común de neurona biológica, que está compuesta

    principalmente por:

    • Un cuerpo central, que contiene el núcleo celular, denominado Soma.

    • La conexión entre neuronas se establece a partir de una prolongación del Soma,

    llamada Axón, que también se ramifica en su extremo final para establecer

    conexión con otras neuronas, estas ramificaciones son conocidas como terminales

    axónicos.

  • 29

    29

    • Las dendritas que son ramificaciones del cuerpo central, con las cuales se logra la

    conexión sináptica.

    Figura 2

    Modelo de una neurona biológica

    Fuente y elaboración: Tablada y Torres (2009, 23)

    Se estima que alrededor de cien mil millones de neuronas son las que conforman

    el sistema nervioso; estas se diferencian del resto de células vivas en el hecho que poseen

    capacidad de comunicarse.

    En general, las dendritas y el Soma reciben las señales de entrada, el cuerpo celular

    las combina y emite señales de salida; a continuación, el Axón transmite esta señal a sus

    terminales, que se encargan de distribuir la información a otro conjunto de neuronas (Brío

    y Molina 2002, 5).

    Un aspecto muy importante en el proceso de comunicación entre neuronas es el

    término conocido como sinapsis. Brío y Molina (2002, 6) lo definen como la unión entre

    dos neuronas, en el proceso de generación y transmisión de la señal nerviosa.

    En cambio González y Hernando (2000, 46) lo precisa como contactos especiales,

    a través de los cuales fluyen neurotransmisores que llevan las señales que se transmiten

    entre los terminales axónicos de una neurona y las dendritas de la neurona siguiente.

    Con relación al tipo de sinapsis, se puede establecer dos tipos de neuronas, las

    neuronas presinápticas que son las que envían las señales y las postsinápticas las cuales

    reciben. Así, se define dos tipos de sinapsis:

    - Sinapsis excitadora: es aquella cuyos neurotransmisores facilitan la

    generación de impulsos a mayor velocidad.

    - Sinapsis inhibidoras: Sus neurotransmisores dificultan la emisión de impulsos.

    A continuación, se establece una similitud directa entre las redes neuronales

    artificiales y el proceso sináptico.

  • 30

    3.2 Elementos de una red neuronal artificial

    Para introducir los elementos de una red neuronal artificial, se hará uso de la figura

    3, que cuenta con una sola neurona; es decir, una pequeña parte de un sistema de red

    neuronal artificial. Además, se puede evidenciar que esta tiene una forma similar a la

    neurona biológica de la figura 2.

    Figura 3

    Modelo de neurona artificial inspirada en una neurona biológica

    Fuente: Rico, Paredes, y Fernández (2009, 73)

    Elaboración: Propia

    Los aspectos que se buscan representar son los que se exponen a continuación. Se

    puede observar (figura 3) que se tiene un elemento central, llamado neurona artificial la

    cual recibe información del exterior o de otras neuronas. Las dendritas son la estructura

    a través de la cual la neurona artificial recibe información, que luego es procesada de

    acuerdo con la intensidad asignada al nexo entre la unión de las entradas y las neuronas;

    este nexo se denomina sinapsis y a la intensidad descrita se le conoce como peso sináptico

    (𝑾).

    Las redes neuronales intentan reproducir el comportamiento del cerebro, por lo

    cual, cualquier modelo de red neuronal consta de dispositivos elementales de proceso,

    denominados neuronas; las cuales son definidas por Brío y Molina (2002, 12) como un

    dispositivo que a partir de un conjunto de entradas que proceden ya sea del exterior u

    otras neuronas, proporcionan una salida o respuesta.

    Los elementos que constituyen a una neurona z son los siguientes (figura 3):

    - Conjunto de entradas 𝑥𝑖(𝑡), 𝑖 = 1,… , 𝑛: las cuales pueden ser binarias o

    continuas, dependiendo del tipo de modelo y aplicación.

    … …

    Estímulos externos o

    salidas de otras neuronas

    SinapsisCuerpo Celular Axón

    Variables de entrada

    PesosFunción de Agregación

    Función de Activación

    Variable de Salida

    Dendritas

    Neurona Artificial z

  • 31

    31

    - Pesos sinápticos de la neurona z: catalogados como 𝑤𝑧𝑖, que representa la

    intensidad de interacción entre la entrada i y la neurona z.

    Dependiendo de los pesos, se puede obtener la salida necesaria, considerando

    entradas específicas. Cuanto más grande sea el peso, más fuerte y relevante

    será el nodo de entrada.

    - Función de agregación también llamada regla de propagación: Se denomina

    función de agregación a aquella regla que relaciona las entradas y los pesos

    para obtener el valor de la señal postsináptica ℎ𝑧, conocido como potencial

    postsináptico:

    ℎ𝑧(𝑡) = 𝜎𝑧(𝑤𝑧𝑖, 𝑥𝑖(𝑡)) (13)

    La función más habitual es lineal y consiste en la suma ponderada de las

    entradas con los pesos sinápticos,

    ℎ𝑧(𝑡) = ∑𝑤𝑧𝑖𝑥𝑖

    𝑛

    𝑖=1

    (14)

    Dado una entrada positiva, si el peso también es positivo, entonces este tenderá

    a excitar a la neurona, si el peso es negativo, tenderá a inhibirla (Brío y Molina

    2002, 16).

    - Función de activación: La misma proporciona el estado de activación, en el

    tiempo t, 𝑎𝑧(𝑡), a partir del potencial postsináptico ℎ𝑧(𝑡) y del estado de

    activación anterior 𝑎𝑧(𝑡 − 1).

    𝑎𝑧(𝑡) = 𝑓𝑧(𝑎𝑧(𝑡 − 1), ℎ𝑧(𝑡)) (15)

    Sin embargo muchos modelos de redes neuronales consideran que el estado

    actual de la neurona (tiempo t) no depende de su estado anterior (Brío y Molina

    2002, 17), por lo cual

    𝑎𝑧(𝑡) = 𝑓𝑧(ℎ𝑧(𝑡)) (16)

    En general se puede establecer dos estados posibles, reposo y excitado, a los

    cuales se les asigna un valor que puede ser continuo o discreto (González y

    Hernando 2000, 52).

    En la mayor parte de modelos la función de activación 𝑓(. ) es monótona

    creciente y continua. En la figura 4, se expone las funciones de activación más

    usuales, en donde: x representa el potencial postsináptico y el estado de

    activación.

  • 32

    Figura 4

    Funciones de activación usuales

    Fuente y elaboración: Brío y Molina (2002, 18)

    Muchas veces se adiciona al grupo de pesos, un parámetro adicional 𝜃𝑧, el cual

    se resta del potencial postsináptico, y representa características propias de la

    neurona, de tal forma que no es igual en todas ellas.

    Por ejemplo, en el caso de neuronas todo-nada, el parámetro representa el nivel

    mínimo que debe lograr el potencial postsináptico para que la neurona se

    active. De tal forma, el argumento de la función de activación se expresa se la

    siguiente forma

    ∑𝑤𝑧𝑖𝑥𝑖

    𝑛

    𝑖=1

    − 𝜃𝑧 (17)

    - Función de salida: Es la función que proporciona la salida de la neurona 𝑦𝑧(𝑡),

    que depende del estado de activación 𝑎𝑧(𝑡). Por lo general la función de salida

    es la identidad (𝐹(𝑥) = 𝑥) por lo cual la salida es considerada con el estado

    de activación de la neurona

    𝑦𝑧(𝑡) = 𝐹𝑧(𝑎𝑧(𝑡)) = 𝑎𝑧(𝑡) (18)

    Finalmente, el modelo neuronal que Brío y Molina (2002, 19) denomina como

    estándar queda como se muestra a continuación

  • 33

    33

    𝑦𝑧(𝑡) = 𝑓𝑧 (∑𝑤𝑧𝑖𝑥𝑖 − 𝜃𝑧

    𝑛

    𝑖=1

    )

    = 𝑓𝑧 (∑𝑤𝑧𝑖𝑥𝑖

    𝑛

    𝑖=0

    ) (19)

    Con 𝑤𝑧0 = 𝜃𝑧 y 𝑥0 = −1.

    3.3 Arquitectura de las redes neuronales

    En la sección anterior se mostró los principales componentes de una red neuronal.

    A continuación, se expone las características de cada nodo de la red, así como la

    organización de esta.

    Generalmente, se puede encontrar tres tipos de neuronas:

    - Las que toman la información de entrada, de las fuentes externas de la red.

    - Las que procesan la información y generan cualquier tipo de representación

    interna de la misma. A estos se los denomina unidades ocultas pues no tienen

    relación directa con la información de entrada o de salida.

    - Cuando ya se tiene procesada la información, esta pasa a los nodos de salida,

    los cuales dan una respuesta al sistema.

    La distribución de estas neuronas está dada formando niveles o capas de un

    número determinado de neuronas cada una. Así, se puede determinar tres tipos de capas:

    de entrada, ocultas y de salida, conformadas por los tipos de neuronas ya descritas.

    El número de capas ocultas puede estar entre cero y un número elevado y pueden

    estar interconectadas de diversas formas, estos dos aspectos determinan las distintas

    tipologías de redes neuronales.

    Otro aspecto importante en la arquitectura de una red neuronal es la forma en la

    que se realizan las conexiones entre las neuronas, es decir, la forma en la que las salidas

    de las neuronas están encaminadas para convertirse en las entradas de otras neuronas.

    Incluso se puede dar que la salida de un nodo sea la entrada de sí misma, llamando a este

    tipo de conexión como auto recurrente.

    González y Hernando (2000, 67) mencionan dos tipos de conexiones,

    propagación hacia atrás que es cuando las salidas de los nodos pueden conectarse con

    capas previas o del mismo nivel, incluso con sí mismos. Y propagación hacia delante,

    cuando la salida de los nodos se conecta únicamente con nodos de capas posteriores.

  • 34

    Figura 5

    Estructura de una red neuronal artificial multicapa

    Fuente: Tudela y Nardó (2011, 59)

    Elaboración: Propia

    Es así, que la arquitectura de las redes neuronales se basa en la forma en que se

    organizan y disponen las neuronas formando capas más o menos alejadas de la entrada y

    salida de la red, tal como se muestra en la figura 5.

    En general, no se cuenta con una regla que determine el número óptimo de

    neuronal ocultas que ayudan a resolver un problema; sino más bien, es a base de prueba

    y error, realizando cambios en el que se sume o reste el número de neuronas ocultas hasta

    alcanzar la estructura que mejor se ajuste a la solución de un problema dado (Tudela y

    Nardó 2011, 59).

    Se suele distinguir entre redes con una sola capa o un solo nivel de neuronas

    denominadas como redes monocapa y, con múltiples capas. Es así que, los principales

    parámetros de una red neuronal serían el número de capas, el número de neuronas en cada

    capa, el grado de conectividad y el tipo de conexión entre cada neurona (Carranza Bravo

    2010, 12).

    3.4 Modos de operación de una red neuronal

    Se considera dos tipos de operación en un sistema neuronal: el modo recuerdo o

    ejecución y el modo aprendizaje.

    - Fase de aprendizaje

    Se tiene un especial interés en esta fase pues una de las principales características

    de una red neuronal es que son sistemas entrenables, es decir, son capaces de llevar a cabo

    1

    2

    3

    n

    1

    2

    m

    3

    Capa de entrada

    Capa oculta

    Capa de salida

    Salidas

    Entrada 1

    Entrada 2

    Entrada 3

    Entrada n

    1

    2

    k

    ……

  • 35

    35

    un específico procesamiento aprendiendo de un grupo de patrones de aprendizaje o

    ejemplos.

    Puede definirse al aprendizaje como el proceso en el cual se modifica los pesos de

    la neurona en respuesta a la información de entrada. Tal como expresa, (González y

    Hernando 2000, 75) en el proceso de aprendizaje se destruye, modifica y crea conexiones

    entre las neuronas; que una conexión se destruya significa que su peso pasa a tener el

    valor de cero y que se cree significa que toma un valor diferente de cero.

    Como ya se mencionó, en el proceso de aprendizaje se modifican los pesos de las

    conexiones. Por lo cual, se puede establecer que la red neuronal ha terminado su fase de

    aprendizaje una vez que los pesos logren estabilidad en el tiempo. Generalmente, se

    modifica los pesos sinápticos siguiendo cierta regla de aprendizaje, que es construida a

    partir de una función de error. Este proceso es iterativo, es decir, los pesos van

    actualizándose una y otra vez hasta que la red neuronal logra un rendimiento deseado

    (Brío y Molina 2002, 26).

    Es importante conocer las reglas de aprendizaje de la red; que son los criterios

    para cambiar los pesos de las conexiones, con el objetivo que esta aprenda. Se considera

    dos tipos de reglas, aprendizaje supervisado y no supervisado, cuya diferencia principal

    radica en la existencia o no de un agente externo que controle el proceso.

    Redes neuronales con aprendizaje supervisado: En este tipo de aprendizaje se

    tiene la participación de un agente externo o supervisor que establece la respuesta que

    debería tener la red a partir de una entrada específica. Este supervisor comprueba la salida

    de la red y si no se da la coincidencia con la deseada, se modifica los pesos de las

    conexiones, hasta que la salida se aproxime al valor requerido (González y Hernando

    2000, 76).

    Redes neuronales con aprendizaje no supervisado: Este tipo de aprendizaje no

    requiere de un agente externo para ajustar los pesos de las conexiones, la red no recibe

    información que le indique la salida deseada en función de una determinada entrada. Esto

    significa que no se conoce si la salida de la neurona es correcta o no, se dice que estas

    redes son capaces de autoorganizarse (González y Hernando 2000, 82).

    Un criterio a tener en cuenta en las reglas de aprendizaje es lo que se conoce como

    aprendizaje on line y off line. González y Hernando (2000, 76) establecen que en el

    aprendizaje on line los pesos varían dinámicamente siempre que se ingrese nueva

    información al sistema; mientras que, en el aprendizaje off line, una vez que la red a

    aprendido, los pesos se mantienen fijos.

  • 36

    - Fase de Recuerdo

    Por lo general, una vez que la red a concluido su fase de aprendizaje esta se “apaga

    o desconecta”; es decir, pasa a un estado off line, por lo cual, los pesos, conexiones y

    estructura de la red se mantiene fijos y esta puede procesar nueva información.

    3.5 Clasificación de los modelos neuronales

    Por lo expresado hasta el momento se puede deducir que dependiendo del modelo

    de neurona que se utilice, su arquitectura, tipo de conexión, y algoritmo de aprendizaje se

    obtendrán distintos modelos de redes neuronales.

    En la figura 6 se expone, a modo de resumen, la clasificación de las redes

    neuronales por tipo de aprendizaje y arquitectura ya expuestas anteriormente.

    Figura 6

    Clasificación de las redes neuronales

    Fuente: Brío y Molina (2002, 31).

    Elaboración: Propia.

    En el caso de un credit scoring, los nodos de entrada representan las variables

    independientes X, que son las características propias del solicitante de crédito. La

    respuesta de la neurona producirá una salida que representa la variable dependiente Y,

    descrita anteriormente (Jiménez-Caballero y Martínez 2000, 3).

    El método que se utilizará para encontrar los pesos de la red neuronal, del presente

    proyecto, es el algoritmo RPROP+ (resilient backpropagation with weight backtracking).

    MODELOS DE REDES NEURONALES ARTIFICIALES

    HÍBRIDOS SUPERVISADOSNO

    SUPERVISADOSREFORZADOS

    Conexión hacia delante

    • Perceptrón• Adalina/Madalina• Perceptrón Multicapa• BackPropagation• Time-delay NN• CMAC• Correlación en cascada• Máquina de Boltzmann• LVQ• GRNN• Support Vector Machines

    Conexión hacia atrás

    • BSB• Fuzzy Cog. Map• BP Through Time

    Conexión hacia delante

    • LAM y OLAM• Mapas de Kohonen• Neocognitrón• Redes PCA

    Conexión hacia atrás

    • ART• Hopfield• BAM

    • Premio-castigo asociativo• Crítico adaptivo

    • RBF• Contrapropagación

  • 37

    37

    Tal como lo expresa Riedmiller y Braun (1993, 586) el algoritmo

    Backpropagation es el más extensamente usado para aprendizaje supervisado y redes

    neuronales multicapa. Desafortunadamente este puede ser muy lento para aplicaciones

    prácticas (Schiffmann, Joost, y Werner 1994, 3). Para superar esta dificultad se propone

    diversas variantes a este método como el método RPROP+, el cual es usado en este

    trabajo. Tanto el algoritmo Backpropagation como su variante RPROP+, son descritos a

    continuación.

    3.6 Algoritmo Backpropagation

    El algoritmo de backpropagation es el más ampliamente usado para modelos con

    aprendizaje supervisado multicapa. La idea básica de este algoritmo es la siguiente:

    En un espacio de N+1 dimensiones, donde N es el número de pesos de la red, se

    representa una superficie que muestre el error que se genera en la red neuronal, para un

    determinado valor en los pesos de esta.

    El algoritmo backpropagation hace que se vaya bajando por la superficie del error

    hasta lograr un mínimo, es por esta razón que la variación de un peso 𝑤𝑖𝑗 de la red, en

    una iteración, al procesar un conjunto de patrones 𝑝𝑖, es proporcional al gradiente

    descendente (González y Hernando 2000, 146).

    ∆𝑤𝑗𝑖 = −𝛼𝜕𝐸𝑝

    𝜕𝑤𝑗𝑖 (20)

    Considerando a E la función de error, se tiene que:

    𝜕𝐸𝑝

    𝜕𝑤𝑗𝑖=

    𝜕𝐸𝑝

    𝜕𝑦𝑝𝑗×

    𝜕𝑦𝑝𝑗

    𝜕𝑁𝑒𝑡𝑗×𝜕𝑁𝑒𝑡𝑗

    𝜕𝑤𝑗𝑖 (21)

    Donde 𝑤𝑗𝑖 representa el peso de la neurona j a la neurona i, 𝑦𝑝𝑗 es la salida de la

    neurona j en el patrón p, y 𝑁𝑒𝑡𝑗 es la suma ponderada de las entradas a la neurona j, es

    decir:

    𝑁𝑒𝑡𝑗 =∑𝑤𝑗𝑖 × 𝑦𝑖

    𝑘

    𝑖=1

    (22)

    𝑦𝑝𝑗 = 𝑓(𝑁𝑒𝑡𝑗)

    Siendo k, en número de entradas de la neurona j y f la función de activación,

    derivable.

    Es así, que la actualización de los pesos está dada por la siguiente ecuación:

  • 38

    𝑤𝑗𝑖(𝑡 + 1) = 𝑤𝑗𝑖(𝑡) − 𝛼𝜕𝐸𝑝

    𝜕𝑤𝑗𝑖(𝑡 + 1) (23)

    Es evidente que la elección de 𝛼 tiene un efecto importante en el tiempo de

    convergencia del algoritmo, el cual se detiene cuando el error resulte aceptablemente

    pequeño para cada uno de los patrones aprendidos.

    3.7 Algoritmo RPROP+

    Una alternativa al algoritmo de backpropagation es el resiliente backpropagation

    (RPROP+) en el que, en lugar de usar la magnitud de la derivada 𝜕𝐸𝑝

    𝜕𝑤𝑗𝑖, presente en la

    ecuación 20, se considera únicamente su signo multiplicado por una constante. Este

    algoritmo tiene la ventaja de ser uno de los algoritmos de aprendizaje más rápidos

    (Almeida et al. 2009, 4).

    El algoritmo RPROP+ consiste en los siguiente (Igel y Hüsken 2000, 116): Para

    cada peso se introduce su valor de actualización ∆𝑗𝑖, que determina el tamaño de la

    actualización del peso.

    ∆𝑗𝑖𝑡 =

    {

    𝜂+ × ∆𝑗𝑖

    𝑡−1, 𝑠𝑖 𝜕𝐸𝑝𝜕𝑤𝑗𝑖

    (𝑡−1)

    ×𝜕𝐸𝑝𝜕𝑤𝑗𝑖

    (𝑡)

    > 0

    𝜂− × ∆𝑗𝑖𝑡−1, 𝑠𝑖

    𝜕𝐸𝑝

    𝜕𝑤𝑗𝑖

    (𝑡−1)

    ×𝜕𝐸𝑝

    𝜕𝑤𝑗𝑖

    (𝑡)

    < 0 (24)

    ∆𝑗𝑖𝑡−1, 𝑐𝑎𝑠𝑜 𝑐𝑜𝑛𝑡𝑟𝑎𝑟𝑖𝑜

    Donde 0 < 𝜂− < 1 < 𝜂+. ∆𝑗𝑖 están acotados por dos parámetros ∆𝑚𝑖𝑛 y ∆𝑚𝑎𝑥.

    Una vez obtenido los tamaños de actualización es necesario obtener el valor de

    variación de los pesos ∆𝑤𝑗𝑖, distinguiendo dos casos.

    Si el signo de la derivada parcial no ha cambiado se tiene:

    𝑆𝑖 𝜕𝐸𝑝

    𝜕𝑤𝑗𝑖

    (𝑡−1)

    ×𝜕𝐸𝑝

    𝜕𝑤𝑗𝑖

    (𝑡)

    ≥ 0 𝑒𝑛𝑡𝑜𝑛𝑐𝑒𝑠 ∆𝑤𝑗𝑖𝑡 = −𝑠𝑖𝑔𝑛 (

    𝜕𝐸𝑝

    𝜕𝑤𝑗𝑖

    (𝑡)

    ) × ∆𝑗𝑖𝑡 (25)

    Donde el operador signo retorna el valor de +1 si el argumento es positivo, -1 si

    es negativo y 0 en otro caso. En caso de que el signo de la derivada parcial cambia, se

    tiene:

    𝑆𝑖 𝜕𝐸𝑝

    𝜕𝑤𝑗𝑖

    (𝑡−1)

    ×𝜕𝐸𝑝

    𝜕𝑤𝑗𝑖

    (𝑡)

    < 0 𝑒𝑛𝑡𝑜𝑛𝑐𝑒𝑠 ∆𝑤𝑗𝑖𝑡 = −∆𝑤𝑗𝑖

    𝑡−1 𝑦 𝜕𝐸𝑝

    𝜕𝑤𝑗𝑖

    (𝑡)

    = 0 (26)

    Finalmente se actualiza los nuevos pesos, los cuales están dados por,

  • 39

    39

    𝑤𝑗𝑖(𝑡 + 1) = 𝑤𝑗𝑖(𝑡) + ∆𝑤𝑗𝑖(𝑡) (27)

    La función de error que será usada para optimizar los pesos es la suma de los

    errores cuadráticos definida de la siguiente forma (Ladino 2014, 14):

    𝐸 =1

    2∑(𝑦𝑖 − �̂�𝑖)

    2

    𝑛

    𝑖=1

    (28)

    Donde n es el número de datos en entrenamiento, observaciones, 𝑦𝑖 es la salida

    deseada y �̂�𝑖 es la salida de la red.

    4. Conceptos del proceso de modelización

    Para la construcción de los modelos scoring, ya sea con el uso de regresión

    logística o redes neuronales, es necesario definir algunos conceptos:

    4.1 Prueba Dickey – Fuller aumentada

    La prueba de Dickey Fuller aumentada permite corroborar la estacionariedad de

    una serie de tiempo. Cuando una serie no es estacionaria presenta al menos una raíz

    unitaria, por lo que se busca contrastar la siguiente hipótesis (Santos 2008, 197):

    • Ho: la serie tiene raíz unitaria.

    • Ha: la serie es estacionaria.

    Se rechaza Ho si:

    Valor absoluto (Estadístico de la prueba (ADF)) > valores críticos de la prueba

    (1%, 5%, 10%)

    4.2 Muestreo aleatorio simple

    El tamaño de muestra necesario para estimar p (proporción poblacional) con un

    límite para el error de estimación B, está dado por (Scheaffer, Mendenhall, y Ott 2013,

    100):

    𝑛 =𝑁𝑝𝑞

    (𝑁 − 1)𝐷 + 𝑝𝑞 donde: 𝑞 = 1 − 𝑝 𝑦 𝐷 =

    𝐵2

    4 (29)

    4.3 Roll Rate

    Implica comparar el peor atraso en un X número de meses, con los posteriores X

    meses. Y así, calcular el porcentaje de operaciones o clientes que mantienen, mejoran o

    empeoran su comportamiento, en distintos rangos de atraso. El propósito es identificar el

  • 40

    punto de no retorno; es decir, el nivel de atraso en la cual, una operación es considerada

    como insalvable (Siddiqi 2006, 40). 1

    4.4 Valor de Información (IV)

    El valor de información es un valor numérico que permite cuantificar el poder de

    predicción de una variable independiente. El mismo, funciona con variables categóricas

    (Zeng 2013, 6). Se calcula a partir de la siguiente expresión,

    𝐼𝑉 = ∑(𝑏𝑖𝑏−𝑚𝑖𝑚)

    𝑛

    𝑖=1

    × ln(

    𝑏𝑖𝑏⁄

    𝑚𝑖𝑚⁄) (30)

    Donde, n es el número de categorías en la variable independiente, 𝑏𝑖 y 𝑚𝑖 es el

    número de buenos y malos clientes dentro de la categoría i. Y b y m: el número total de

    buenos y malos clientes en el periodo de modelo, respectivamente.

    Intuitivamente, mientras más grande sea el valor del IV, más predictiva será la

    variable independiente categorizada. Sin embargo las variables con valores superiores a

    0.5 deberían ser revisadas pues puede darse el caso de sobreestimación (Siddiqi 2006,

    82).

    Una regla, propuesta por (Siddiqi 2006, 81), para los valores aceptados del IV es:

    Figura 7

    Regla valor de la información IV

    Fuente: Siddiqi (2006, 81)

    Elaboración: Propia

    4.5 Backward Stepwise y criterio de información de Akaike (AIC)

    La técnica de pasos hacia atrás (Backward Stepwise) consiste en introducir en el

    modelo todas las variables e ir excluyendo una tras otra según algún criterio de evaluación

    (Moral 2006, 200). En este caso, se utiliza el AIC como criterio de selección de variables,

    considerando aquellas que logren el menor valor AIC.

    1 Es decir, no se recupera el monto que la entidad otorga a la persona.

    Valor IV Nivel de Predicción

    Menor que 0,02 No predictivo

    Entre 0,02 y 0,1 Débil

    Entre 0,1 y 0,3 Medio

    Mayor que 0,3 Fuerte

  • 41

    41

    El criterio de información de Akaike penaliza los modelos con muchos parámetros

    y busca determinar la significancia de incluir algunos parámetros en el modelo (Sánchez

    2012, 70). Este criterio se define como sigue:

    Para un conjunto de m modelos, de tal forma que,

    𝑀𝑗𝑚 ⊃ 𝑀𝑗−1

    𝑚−1 ⊃ ⋯ ⊃ 𝑀𝑗−𝑖1 (31)

    Donde, 𝑗 > 𝑖, 𝑖 > 0 y los subíndices denotan el número de variables en cada modelo. Se

    busca elegir aquel valor de 𝑗 que minimice la siguiente expresión,

    𝐴𝐼𝐶 = −2 log 𝐿 + 2𝑘 (32)

    Siendo, L es la función de máxima verosimilitud, que se define como:

    𝐿 = −𝑛

    2log 2𝜋 −

    𝑛

    2log 𝜎2 −

    1

    2∑

    𝑒𝑡2

    𝜎2

    𝑛

    𝑡=1

    (33)

    Donde, k es igual al número de parámetros del modelo, n corresponde al número

    de datos para la construcción de este y 𝜎2 el promedio de los residuales 𝑒𝑡 al cuadrado.

    Como se puede observar, AIC penaliza modelos según su desviación de los datos reales,

    siendo el mejor modelo aquel que manifieste el valor más pequeño entre todos los

    modelos evaluados, siendo este el que mejor ajusta a los datos (Sánchez 2012, 71).

    4.6 Estadístico de Wald

    Para corroborar la significancia de los coeficientes de un modelo logit, se contrasta

    la siguiente hipótesis nula:

    𝐻0: 𝛽𝑖 = 0

    Considerando a 𝛽𝑖 como el coeficiente estimado correspondiente a la variable

    independiente 𝑥𝑖.

    Así, se cuenta con el estadístico de Wald (Wasserman 2010, 183): Sea 𝜃 un

    parámetro escalar, 𝜃 un estimador de 𝜃 y sea 𝑠�̂� el error estándar estimado de 𝜃.

    Considerar probar 𝐻0: 𝜃 = 𝜃0 versus 𝐻1: 𝜃 ≠ 𝜃0. Se asume que 𝜃 es asintóticamente

    normal,

    √𝑛 (𝜃 − 𝜃0)

    𝑠�̂�⟼ 𝑁(0, 1). (34)

    Con un nivel de significancia de 𝛼, la prueba de Wald establece: Se rechaza 𝐻0

    cuando |𝑊| > 𝑧𝛼/2 donde,

    𝑊 =𝜃 − 𝜃0𝑠�̂�

    (35)

  • 42

    En este caso, 𝜃0 = 0, por lo cual el estadístico de Wald se simplifica a,

    𝑊 =�̂�

    𝑠�̂� (36)

    4.7 GVIF: Factor de inflación de la varianza generalizado

    GVIF es una medida de cuanto de la varianza del coeficiente estimado 𝛽𝑗 está

    inflado por la existencia de correlación entre las variables independientes del modelo. Se

    usa comúnmente cuando se tiene variables categóricas con más de dos valores posibles o

    con variables polinomiales (Fox 2003, 16), está dado por,

    𝐺𝑉𝐼𝐹𝑖 =det 𝑅𝑖 × det 𝑅−𝑖

    det 𝑅 (37)

    Siendo det 𝑅𝑖 el determinante de la matriz de correlación sobre las columnas de

    la variable 𝑖, det 𝑅−𝑖 el determinante de la matriz de correlación sobre las columnas del

    resto de variables del modelo, distintas a la variable 𝑖 y det 𝑅 el determinante de la matriz

    completa de correlación. Cuando el número de coeficientes de cada variable es uno, el

    GVIF coincide con VIF.2 A pesar, de no tener una regla formal, generalmente se acepta

    que valores de GVIF superiores a 10 puede ser perjudicial (Yoo et al. 2014, 3).

    4.8 Estadístico de Kolmogorov – Smirnov (KS)

    El estadístico de Komogorov Smirnov consiste en medir cuan distintas son las

    funciones de distribución de buenos y malos clientes para cada valor de puntaje score.

    El valor del estadístico está dado por (Rezac y Řezáč 2011, 4):

    𝐾𝑆 = 𝑀𝑎𝑥𝑖(𝑃𝑏(𝑖) − 𝑃𝑔(𝑖)) (38)

    Donde:

    i: es el valor de score, en el rango L - H, que es, 𝐿 ≤ 𝑖 ≤ 𝐻.

    𝑷𝒈(𝒊), 𝑷𝒃(𝒊): Proporción de buenos y malos con score menor o igual a i, en la

    población.

    𝑃𝑔(𝑖) =𝑁𝑔(𝑖)

    𝑁𝑔=∑𝑝𝑔(𝑗)

    𝑖

    𝑗=𝐿

    2 Factor de inflación de la varianza (VIF): =

    1

    1−𝑅𝑖2 siendo 𝑅𝑖

    2 el coeficiente de determinación, que

    representa la proporción de la varianza de la variable independiente i, que se asocia con las otras variables

    independientes en el modelo.

  • 43

    43

    𝑃𝑏(𝑖) =𝑁𝑏(𝑖)

    𝑁𝑏=∑𝑝𝑏(𝑗) (39)

    𝑖

    𝑗=𝐿

    Con:

    𝑁𝑔: El total de buenos en la población.

    𝑁𝑏: El total de malos en la población.

    𝑁𝑔(𝑖), 𝑁𝑏(𝑖): El número de buenos y malos en la población con scores menores

    o iguales a i.

    𝑁𝑔(𝑖) = ∑𝑛𝑔(𝑗)

    𝑖

    𝑗=𝐿

    𝑦

    𝑁𝑏(𝑖) = ∑𝑛𝑏(𝑗) (40)

    𝑖

    𝑗=𝐿

    𝑝𝑔(𝑖), 𝑝𝑏(𝑖): Es la proporción de buenos con score i y malos con score i en la

    población.

    𝑝𝑔(𝑖) =𝑛𝑔(𝑖)

    𝑁𝑔𝑝𝑏(𝑖) =

    𝑛𝑏(𝑖)

    𝑁𝑏 (41)

    Finalmente, 𝑛𝑔(𝑖) 𝑦 𝑛𝑏(𝑖) el número de buenos casos y malos con score i, en una

    población.

    El estadístico puede ser usado para medir la capacidad de clasificación de un

    modelo, tomando valores entre 0 y 1. Se considera que un modelo con un KS menor a

    20% debe ser cuestionado y mayor a 70% sea, probablemente, muy bueno para ser cierto

    (Anderson 2007, 196). TransUnion, empresa líder en gestión de la información de crédito,

    mide la efectividad de sus scores de riesgos de acuerdo con los siguientes estándares

    internacionales.

    Figura 8

    Estándar estadístico KS

    Fuente y elaboración: TransUnion (2012, 3)

  • 44

    4.9 Coeficiente de GINI

    El coeficiente de Gini es un estadístico usado para medir cuan bien el modelo

    scoring distingue entre los buenos y malos clientes, toma valores entre 0 y 1,

    considerando que, si el coeficiente de Gini es igual a 1, entonces el modelo separa

    perfectamente a buenos y malos (Anderson 2007, 204).

    El estadístico está dado por la siguiente ecuación:

    𝐺𝑖𝑛𝑖 = 1 −∑(

    𝐻′

    𝑖=𝐿

    𝑃𝑏(𝑖 + 1) − 𝑃𝑏(𝑖))(𝑃𝑔(𝑖 + 1) + 𝑃𝑔(𝑖)) (42)

    Donde:

    i: es el valor de score, en el rango L - H, que es, 𝐿 ≤ 𝑖 ≤ 𝐻.

    𝑷𝒈(𝒊), 𝑷𝒃(𝒊): Proporción de buenos y malos con score menor o igual a i, en la

    población, respectivamente.

    Se considera que para modelos de originación, un coeficiente de Gini menor a

    35% es sospechoso y mayor o igual a 50% es más que satisfactorio (Anderson 2007, 205).

    4.10 Matriz de confusión: error, sensibilidad y especificidad

    Una forma simple de evaluar la predictividad de un modelo, es calculando el

    porcentaje de clientes que este clasifica de forma correcta. Este porcentaje de clasificación

    es derivado, de la matriz de confusión, la cual es construida de la siguiente forma:

    - Elegir un punto de corte, para los valores de score obtenidos.

    - Clasificar a todas las operaciones o clientes con un valor de score por debajo del

    punto de corte, como malos esperados. Y a los que tiene un valor de score por

    encima del punto de corte, como buenos esperados.

    - Construir una tabla cruzada entre la clasificación real u original de bueno/malo y

    la de bueno/malo esperado, obtenida en el paso anterior.

    - Calcular las diferentes ratios que pueden ser obtenidos del modelo, como error,

    valor de sensibilidad y especificidad.

    Los casos correctamente clasificados son denominados como verdaderos

    positivos (buenos) y verdaderos negativos (malos). Si no son bien clasificados se tiene a

    los falsos positivos (malos que son clasificados como buenos) y a los falsos negativos

    (buenos que son clasificados como malos).

    Además, se define como sensibilidad y especificidad, a la habilidad del modelo

    de catalogar correctamente al cliente bueno y malo, respectivamente. La forma general

  • 45

    45

    de la matriz de confusión es mostrada en la tabla 1. Y en la tabla 2 se expone los

    indicadores de eficiencia, que serán usados para comparar los dos modelos desarrollados,

    construidos a partir de la matriz de confusión.

    Tabla 1

    Matriz de Confusión

    Matriz de Confusión Real

    0: Malo 1: Bueno

    Est

    imad

    o

    0: Malo A B

    1: Bueno C D

    Fuente y elaboración propias

    Tabla 2

    Indicadores de eficiencia

    Nombre de

    Indicador Definición Fórmula

    Tasa de aciertos Cociente entre el número de predicciones

    correctas y el total.

    𝐴 + 𝐷

    𝐴 + 𝐵 + 𝐶 + 𝐷

    Error Cociente entre el número de predicciones

    incorrectas y el total.

    𝐵 + 𝐶

    𝐴 + 𝐵 + 𝐶 + 𝐷

    Sensibilidad Cociente entre el número de buenos

    clasificados correctamente y el total de buenos.

    𝐷

    𝐵 + 𝐷

    Especificidad Cociente entre el número de malos clasificados

    correctamente y el total de malos.

    𝐴

    𝐴 + 𝐶

    Fuente y elaboración propias

    Una forma de obtener el punto de corte que permita nivelar la predicción correcta

    de buenos y malos es hacer uso del Índice de Youden, que está dado por:

    Í𝑛𝑑𝑖𝑐𝑒 𝑑𝑒 𝑌𝑜𝑢𝑑𝑒𝑛 (𝑌𝐼) = max(𝑆𝑒𝑛𝑠𝑖𝑏𝑖𝑙𝑖𝑑𝑎𝑑 + 𝐸𝑠𝑝𝑒𝑐𝑖𝑓𝑖𝑐𝑖𝑑𝑎𝑑 − 1) (42)

    En una curva ROC, que será definida en el siguiente apartado, el índice de Youden

    es la distancia vertical máxima entre la curva y la diagonal. Siendo el punto de corte

    óptimo, aquel en el cual se alcanza el valor de YI (Cadarso Suárez 2010, 19).

  • 46

    4.11 Estadístico AUROC

    Es una medida de performance cercanamente relacionada al coeficiente de Gini y

    mide el área entre la curva y la diagonal conformada en la gráfica de

    𝑠𝑒𝑛𝑠𝑖𝑏𝑖𝑙𝑖𝑑𝑎𝑑 𝑣𝑠 (1 − 𝑒𝑠𝑝𝑒𝑐𝑖𝑓𝑖𝑐𝑖𝑑𝑎𝑑), comúnmente llamada Curva ROC, para el total

    de los valores de probabilidad. Permite medir la eficacia predictiva de un modelo,

    evaluando gráficamente la capacidad de este para discriminar entre buenos y malos.

    La relación entre el estadístico AUROC y el coeficiente de Gini es el que se

    muestra a continuación (D. Hand y Till 2001, 173):

    𝐴𝑈𝑅𝑂𝐶 =𝐺𝑖𝑛𝑖 + 1

    2 (43)

    El valor de AUROC varía entre 0 y 1. Un valor de 0,5 implicaría que el modelo

    es igual a hacer una clasificación aleatoria para catalogar a un cliente como bueno o malo,

    un valor de 1 significa que las clasificaciones son perfectamente correctas y un valor de

    0 implica que las mismas con totalmente incorrectas (Anderson 2007, 207). Tal como

    expresa (Siddiqi 2006, 124) el valor del estadístico AUROC debe estar sobre 0,5, y un

    valor superior a 0,7 se considera adecuado.

  • 47

    47

    Capítulo tercero: Proceso de modelación

    En el presente capítulo se busca exponer los resultados obtenidos en el proceso de

    modelación de un modelo credit scoring, previo a aplicar las metodologías de regresión

    logística y redes neuronales.

    Se aplicará las dos metodologías, en el proceso de modelización de un scoring,

    para una cartera de microcrédito de una institución financiera ecuatoriana de mediano

    tamaño, del sector privado; la cual será nombrada Institución X. Mencionada cartera de

    Microcrédito, corresponde a créditos desembolsados entre enero del 2014 y diciembre del

    2017.

    Además, es importante mencionar que las operaciones seleccionadas

    corresponden a clientes bancarizados, es decir, que fueron reportados en la central de

    riesgos al menos una vez durante los últimos treinta y seis meses, anteriores al

    correspondiente desembolso; esto con el fin de hacer uso de variables de central de riesgos

    para explicar el comportamiento del cliente.

    Los modelos credit scoring pueden ser aplicados en cualquier momento durante

    el ciclo de vida de un crédito; diferenciándose principalmente por

    a) El objetivo para el que se lo construye, y

    b) La disponibilidad de información con la que se cuenta.

    Tal como lo expresa Bolivia et al. (2008, 56) por lo general se clasifica los

    modelos scoring en dos tipos:

    - Scoring de originación: Interviene en la fase de aprobación o evaluación de

    solicitudes de nuevos créditos.

    - Scoring de comportamiento: Se realiza para dar seguimiento a los clientes ya

    incorporados a la institución.

    En el presente estudio se busca desarrollar dos modelos credit scoring de originación. Es

    decir, los modelos buscarán determinar la probabilidad de incumplimiento asociado a

    solicitudes de nuevos créditos, permitiendo:

    a) Segmentar la población de solicitantes de crédito asociando al solicitante una

    probabilidad de incumplimiento, la cual puede ser expresada como un puntaje

    (score) de tal forma que a mayor puntaje menor probabilidad de incumplimiento,

    y a menor puntaje, mayor probabilidad de incumplimiento; esto, dependiendo de

  • 48

    cómo haya sido definida la variable dependiente bueno/malo, la cual se explicará

    más adelante.

    b) Apoyar en la toma de decisiones de aprobación o rechazo de las mismas.

    c) Establecer estrategias comerciales diferenciadas por punto de corte, pues se puede

    discriminar a solicitantes que deben ser rechazados (puntaje más bajo) de aquellos

    cuya aprobación de crédito debería ser inmediata (puntaje más alto).

    De esta forma, se plantea las siguientes etapas para el desarrollo de los modelos scoring

    de originación:

    Figura 9

    Esquema de modelización de un scoring

    Fuente y elaboración propias

    En este capítulo, se desarrollará los puntos correspondientes a:

    - Selección y consistencia de la muestra.

    - Definición de un buen y mal cliente.

    - Análisis de las variables independientes.

  • 49

    49

    1. Selección y consistencia de la muestra

    Para el desarrollo de un modelo scoring es necesario contar con una muestra de

    clientes previos, y su respectiva información crediticia; la cual permitirá explicar su

    comportamiento. Tal muestra, debe cumplir dos principios fundamentales:

    - La muestra debe ser representativa: Representativa en el hecho que esta debe

    representar a aquellos solicitantes que aplicarán a un crédito en un futuro.

    - Y debe contar con información suficiente: Este punto se refiere a que la muestra

    debe incorporar casos de diferente tipo de comportamiento de pago (bueno y

    malo), de tal forma que sea posible identificar las características, más

    representativas, que reflejen el comportamiento de pago de los clientes de la

    muestra (Thomas, Edelman, y Crook 2002, 137).

    Por la necesidad que la muestra sea representativa, se prefiere considerar grupos

    de muestras recientes, pues son los que presentarán características más similares a

    potenciales clientes.

    Sin embargo, un scoring es construido bajo el supuesto que el comportamiento

    futuro será un reflejo del comportamiento pasado y para definir este comportamiento es

    necesario establecer una definición de buen o mal cliente. En este sentido, es necesario

    contar con un periodo de tiempo al cual se denomina periodo de desempeño, en el que se

    pueda observar el comportamiento de pago del cliente y de esta forma poder catalogarlo

    como bueno o malo.

    Por otra parte, para definir a un cliente como bueno o malo se establece una

    muestra a la cual se denomina periodo de observación o periodo de modelización, en ella

    no se puede considerar grupos de créditos recientes pues no se contaría con el tiempo

    suficiente para observar el comportamiento de pago del cliente. De esta manera es

    importante establecer dos periodos, tal como se ilustra en la figura 10:

    Figura 10

    Definición del performance

    Fuente: Siddiqi (2006, 33)

    Elaboración: Propia

    Periodo de modelización

    Periodo de desempeñoUsualmente 12 meses

    Nuevo cliente ¿Bueno o malo?

  • 50

    La figura 10, sintetiza los dos periodos que se deben determinar al momento de

    seleccionar la muestra.

    - Periodo de modelización: Periodo que cumpla con los requisitos de ser madura

    y estable. Representa el tiempo en el cual se sitúa el modelador para observar el

    desempeño del cliente.

    - Periodo de desempeño: Tiempo en el cual se puede definir el comportamiento

    de pago de un cliente, de tal forma que pueda ser catalogado como buen o mal

    cliente.

    Tal como lo expresa Thomas, Edelman, y Crook (2002, 137), usualmente se fija

    un periodo de desempeño de 12 meses para un scoring de originación. Por lo cual, la

    interrogante es conocer cuál será el periodo de modelización que cumpla con las dos

    características descritas (madura y estable).

    2. Determinación del periodo de modelización

    Se busca determinar un periodo de tiempo que cumpla con las características de

    madurez y estabilidad en el tiempo.

    a) Madurez

    Se considera a una cartera como madura cuando cuenta con el tiempo suficiente

    para determinar el comportamiento de pago del cliente; es decir, que pudo ser observada

    en un periodo igual al periodo de desempeño. Es importante la madurez de la cart