Post on 03-Jul-2022
Biblioteca Canlpi.m Ciudad de Mé*-o
r
TECNOLOGICO DE MONTERREY®
Campus Ciudad de México
Escuela de Graduados en Ingeniería y Arquitectura
Maestría en Ciencias de la Computación
Aplicación de redes neuronales y redes bayesianas para la calificación de comportamiento de clientes de crédito
Autor: Rodrigo Campos Sandoval
Director de la tesis: Dr. Álvaro de Albornoz Bueno
Agosto 2011
Tabla de Contenido
Capítulo l. Introducción ............................................................. 1 1.1 Antecedentes .......................................................................................................................... 1
1.1.1 Calificación de crédito y de comportamiento ................................................................. 1 1.1.2 Historia de la calificación de crédito .............................................................................. 2 1.1.3 Calificación de crédito y minería de datos ...... ........ ...... ................. ........ .............. .......... 5
1.2 Problema ................................................................................................ ... ......... ..... ..... .......... 5 1.3 Objetivo ............................................................................................................................... 11 1.4 Restricciones del modelo ..................................................................................................... 11 1.5 Estructura ............................................................................................................................. 12
Capítulo 2. Métodos para determinar la calificación de crédito y de comportamiento .......................................................................... 13
2.1 Descripción general de los métodos de calificación de crédito y comportamiento ............. 13 2.2 Fundamento matemático del costo por solicitante de crédito .............................................. 14 2.3 Métodos estadísticos para estimar la calificación de crédito ............................................... 18
2.3.1 Análisis discriminante .................................................................................................. 20 2.3.2 Técnicas de Regresión .................................................................................................. 22 2.3.3 Métodos de partición recursiva - Árboles de clasificación ........................................... 23
2.4 Métodos de investigación de operaciones para estimar la calificación de crédito .............. 25 2.4.1 Programación lineal ...................................................................................................... 25
2.5 Métodos de Inteligencia A11ificial para estimar la calificación de crédito .......................... 27 2.5.1 Redes neuronales .......................................................................................................... 27 2.5.2 Redes bayesianas .......................................................................................................... 48 2.5.3 Algoritmos genéticos .......................................................................... .................. ........ 58 2.5.4 Máquinas de soporte vectorial. ....................................... ......... .... ....... .......................... 60
2.6 Calificación de comportamiento ..................................................................................... 62
Capítulo 3. Selección de variables para los métodos de calificación y estimación de series de tiempo .................................................. 65
3.1 Selección de características ................................................................................................. 65 3.1.2 Criterios de selección ............................................................ ............................ ............ 69 3.1.3 Medidas de información ............................................................................................... 70
3.2 Estadística usada en la selección de características ............................................................. 72 3.2.1 Análisis de correlación ................................................................................................. 72
3.3 Estimación de series de tiempo ........................................................................................... 75 3.3.1 Promedio móvil ........................................................................ ............ ............. .. ......... 75 3.3.2 Suavizado exponencial ....... ............... ........ ............ ............................................ ........... 76 3.3.3 ARIMA ......................................................................................................................... 78
3.4 Modelos híbridos ................................................................................................................. 84 3.5 Análisis crítico ..................................................................................................................... 86
Capítulo 4. Modelo de calificación de comportamiento para clientes de crédito ..................................................................................... 96
4.1 Colección de datos ............................................................................................................... 96 4.2 Selección de características .................................................................................. .......... ..... 99 4.3 Análisis estadístico ............................................................................................... .... .. ....... 101
11
4.4 Generación de grupos de crédito ........................................................................................ 103 4.5 Reducción de instancias ..................................................................................................... 103 4.6 Algoritmo de aprendizaje ................................................................................................... 104 4. 7 Definición de bueno y malo ............................................................................................... 107 4.8 Medición del rendimiento del modelo de calificación de comportamiento ....................... 108
Capítulo 5. Caso de estudio y análisis de resultados ............. 111 5.1 Fuentes de Datos ................................................................................................................ 111
5.1.1 Características de los datos ......................................................................................... 111 5 .1.2 Datos transaccionales mensuales ................................................................................ 1 12 5.1.3 Datos de comportamiento externo .............................................................................. 113 5.1.4 Datos de transacciones diarias .................................................................................... 120
5.2 Selección de instancias que caen en mora y créditos cumplidos .................................. 121 5.3 Selección de características ................................................................................................ 122
5.3.1 Análisis de correlación ................................................. ..... ................... .... .......... .. ....... 123 5.4 Reducción de instancias ..................................................................................................... 138 5.5 Generación de series de tiempo ......................................................................................... 145
5.5.1 Estimación de datos mediante algoritmo basado en frecuencias ................................ 151 5.6 Proceso de aprendizaje ....................................................................................................... 156
5.6.1 Selección de algoritmos para el aprendizaje ............................................................... 156 5.6.2 Resultados de las pruebas efectuadas con la Red Bayesiana ...................................... 157 5.6.3 Resultados de las pruebas efectuadas con la red neuronal. ................. ........................ 166 5.6.4 Red Bayesiana vs Red Neuronal. ................................................................................ 193
Capítulo 6. Conclusiones y trabajo futuro ............................. 195 Bibliografía ................................................................................ 205 Anexo 1. Basilea . ....................................................................... 207
Basilea 1 .................................................................................................................................... 207 Basilea 11 .................................................................................................................................. 207
Pilar 1: el cálculo de los requisitos mínimos de capital. ....................................................... 208 Pilar 11: el proceso de supervisión de la gestión de los fondos propios ............................... 21 O Pilar 111: La disciplina de mercado ....................................................................................... 211
Capítulo l. Introducción.
1.1 Antecedentes
1.1.1 Calificación de crédito y de comportamiento.
En la vida económica y financiera se entiende al crédito como la confianza en la capacidad y
voluntad de cumplimiento de un individuo, es decir, la esperanza del cumplimiento de una
obligación contraída.
El riesgo de crédito es medido como la incertidumbre de pérdidas de crédito futuras sobre
sus niveles esperados. Las alertas tempranas de riesgo crediticio son un problema complicado que
descubre y distingue: las fuentes del riesgo. su alcance, su nivel y su tendencia. Este proceso
puede proveer información de sopor1e para la toma de decisiones, lo cual reduce el riesgo de
pérdida en el tiempo.
La calificación de crédito es el conjunto de modelos y técnicas que ayudan a los
prestamistas en la decisión del otorgamiento del crédito al consumo. Esas técnicas deciden quién
obtendrá crédito, cuánto crédito deben obtener y qué estrategias operativas mejorarán la
rentabi I idad.
Podríamos considerar que la calificación de crédito establece la capacidad acreedora del
cliente, pero esto es incorrecto. La capacidad acreedora no es un atributo de los individuos tal
como el número de dependientes o el ingreso. Ésta refleja las circunstancias del prestatario y el
prestamista y. la perspectiva de los escenarios económicos futuros. De esta manera un prestamista
podría establecer a una persona como sujeto de crédito pero otro podría no hacerlo.
2
Un prestamista debe tomar dos tipos de decisiones: primero, si otorgar crédito a un nuevo
aspirante, segundo, cómo tratar con aplicaciones existentes, incluyendo si se incrementan sus
límites de crédito. Las técnicas que ayudan en la primera decisión son llamadas calificación de
crédito, mientras que las que ayudan en el segundo tipo de decisión son llamadas calificación de
comportamiento.
En ambos casos, no importando las técnicas usadas, el punto vital es que existe una larga
muestra de clientes previos con sus detalles de aplicaciones e historia de crédito subsecuente
disponible. Todas las técnicas usan la muestra para identificar las conexiones entre las
características de los el ientes y que tan "bueno"' o "malo" es su historia subsecuente.
1.1.2 Historia ele la calificación ele crédito.
La calificación de crédito es de manera resumida una forma de identificar grupos en una
población cuando no se pueden ver las características que definen a estos grupos con excepción
de aquellas que se encuentran relacionadas. La primera forma de resolver esto fue introducida en
la estadística por Fisher [Fisher; 1936]. Para 1941, Durand fue el primero que reconoció que se
podían usar las mismas ideas para discriminar entre créditos buenos y malos [Durand; 1941 ].
Durante los años 1930, algunas empresas de órdenes por correo habían introducido
sistemas de calificación para solventar las inconsistencias entre sus analistas de crédito. Con la
segunda guerra mundial las compañías financieras y de órdenes por correo se vieron en
dificultades debido a la cantidad de analistas que fueron llamados al servicio militar. Con esto se
empezaron a documentar las reglas usadas para decidir quién debe recibir crédito. Algunas de
3
dichas reglas fueron usadas por gente no experta en el tema para tomar decisiones de crédito -
uno de los primeros ejemplos de sistemas expertos.
Poco después del fin de la segunda guerra mundial se empezaron a unir las técnicas de
automatización del otorgamiento de crédito y las técnicas estadísticas de clasificación. La primer
consultoría en este ramo se fundó en los años 50 en San Francisco por Bill Fair y Earl Isaac.
El arribo de las tarjetas de crédito en la última parte de los años 60 hizo que los bancos y
otros emisores de tarjeta de crédito observarán el beneficio de la calificación de crédito. La gran
cantidad de solicitudes de tarjeta hacían imposible un proceso manual para decidir el
otorgamiento del crédito. Se encontró que la calificación de crédito y el poder creciente de
cómputo hacían posible una reducción de la tasa de mora en un 50%. El evento que aseguró la
aceptación definitiva de la calificación de crédito fue el Acto de Oportunidades de Crédito Igual y
sus enmiendas en los Estados Unidos en 1975 y 1976 [United States Code; 1975]. Estos vetaban
la discriminación en el otorgamiento del crédito a menos que la discriminación fuera --generada
empíricamente y estadísticamente válida"'.
En los años 80, el éxito de la calificación de crédito en tarjetas de crédito ayudó a que los
bancos empezaran a usar la técnica en otros productos como créditos personales. Posteriormente
a esto se empezó a usar en préstamos hipotecarios.
De manera resumida encontramos los siguientes cuatro períodos [Iscanoglu Aysegul;
2005] por los que ha atravesado la calificación de crédito:
• Edad primitiva: 1930-1966. Se construyen las primeras aplicaciones básicas enfocadas al
análisis de relaciones y la comparación de las empresas en mora y sin mora, esto con el
propósito de desarrollar la idea e rendimiento.
4
• Análisis discriminante: 1966-1970. En este período se gana poder predictivo, s111
embargo, el método del análisis discriminante requiere suposiciones fuertes sobre las
variables y por tanto el nivel de predicción no es alto, además no incluye la idea del
rendimiento relativo de las variables. El análisis discriminante fue un método que
representó un cambio significativo ya que abrió la puerta a los métodos computacionales.
• Edad de la regresión: 1970-1990. La regresión lineal fue aplicada inicialmente s111
resultados buenos debido a que la probabilidad de mora toma valores entre O y pero la
regresión lineal toma valores entre - oo y + oo. Se usó entonces la regresión "probif' pero
ésta tenía supuestos de normalidad. En los años 80 el estudio de la regresión logística
incrementó el interés en la regresión debido a que no tiene requisitos de normalidad sobre
las variables, permite predicciones e interpretación de coeficientes y proporciona una
salida en el intervalo [0,1 ]. Después de 1980 muchos otros métodos estadísticos han sido
aplicados como K-nearest neighbors, árboles de regresión y clasificación, análisis de
supervivencia, etc.
• Edad de máquina: 1990 en adelante. Este es otro punto clave en la calificación de crédito.
Los métodos estadísticos ceden el paso a los métodos de aprendizaje de máquina, en
particular las redes neuronales toman una fuerte participación en el problema.
5
1.1.3 Calificación de crédito y minería de datos.
Una vez que se ha definido el contexto histórico en que se ha desarrollado la calificación de
crédito debemos remarcar que nos encontramos en una era en que el desarrollo de modelos de
calificación de crédito hace uso de la minería de datos, entendida ésta como la exploración y
análisis de datos para descubrir patrones significativos y relaciones.
Algo que detonó este cambio es que a partir de los años 90 los bancos reconocieron la
importancia de la información que tienen sobre sus clientes. sobre todo después de la factibilidad
de usar sistemas de cómputo para analizar patrones transaccionales del cliente y por tanto del
comportamiento del mismo.
La calificación de crédito es una de las primeras herramientas de administración de riesgo
financiero desarrolladas; puede ser considerada como el abuelo de la minería de datos debido a
que fue uno de los usos más tempranos de datos sobre el comportamiento del cliente. De hecho.
las técnicas más comunes usadas en la minería de datos -segmentación, modelos de propensión y
agrupamiento - son también técnicas que han sido usadas con éxito en la calificación de crédito.
1.2 Problema.
Las pérdidas por incumplimiento de obligaciones de los acreditados, medidas a través de la
cartera vencida, dificultan la sustentabilidad y el crecimiento de las instituciones financieras y de
aquellas empresas que operan con base en el otorgamiento de crédito; pudiendo llegar a
6
representar un severo daño al sistema financiero ya que éste es un fundamento para la operación
de la economía.
A fin de ayudar a vigilar y regular la operación del sistema financiero, fue generado el
acuerdo de Basilea 11 1• En este acuerdo se sugieren las provisiones que deben realizar las
instituciones financieras para asegurar que cuenten con recursos monetarios suficientes para
respaldar el riesgo derivado de su operación. Este sustento económico asegura que la empresa
contará con recursos para afrontar sus responsabilidades en caso de incumplimiento de sus
acreditados.
Las instituciones financieras definen modelos de crédito y de comportamiento que les
ayudan a soportar las decisiones de otorgamiento y administración del crédito buscando una
reducción en los índices de ca11era vencida. por tanto menores provisiones y un consecuente
aumento en la utilidad, lo que facilita su crecimiento. En cuanto a las pequeñas y medianas
empresas que operan con base en el otorgamiento de crédito, la definición de estos modelos no se
encuentra comúnmente en la literatura, sin embargo existe la necesidad de controlar las pérdidas
derivadas del incumplimiento de los acreditados.
Los modelos de calificación de crédito permiten decidir si el solicitante debe obtener
crédito con base en la probabilidad de que incumpla con sus obligaciones. Esto requiere de un
proceso de predicción (basado en datos históricos). Los modelos de comportamiento permiten
predecir cómo se comportará un cliente que ha obtenido un crédito. En ambos casos buscamos
una reducción en los índices de cartera vencida.
La calificación de crédito es uno de los elementos usados como parte del proceso de
estimación del riesgo de crédito, el cual ha atraído la atención de las instituciones financieras
debido a las recientes crisis económicas.
1 Vea la sección correspondiente en los anexos.
7
En el presente, la calificación de crédito es una técnica ampliamente usada que ayuda a
los prestamistas a tomar decisiones de otorgamiento de crédito. Comparado con un JU1c10
subjetivo, la administración de nesgo de crédito usando modelos de calificación tiene las
siguientes ventajas:
• Mejora la eficiencia y ahorro de tiempo en el proceso de aprobación de crédito
• Reduce la subjetividad en el proceso de aprobación
• Toman en cuenta más factores de los que el ser humano puede detectar
Dado que México participa de un entorno económico en el que el volumen de
instituciones financieras ha aumentado (y por tanto la competencia por el mercado de crédito),
una estrategia de riesgo de crédito con base en modelos analíticos permite un mejor control de la
tasa de incumplimiento y permite un menor volumen de reservas necesarias para cubrir los
créditos malos.
La literatura sobre el tema de la calificación de crédito es escasa y es bien conocido que
las técnicas estadísticas son uno de los métodos más usados. Sin embargo, es importante recalcar
que algunos textos científicos han explorado el tema usando técnicas inteligentes. Si bien no
existe un acuerdo en cuanto a que método es mejor, e incluso a si la estadística, las técnicas de
inteligencia artificial, la programación lineal, etc. son más exactos en cuanto a la predicción, es
prioritario buscar nuevos medios de mejora de la precisión obtenida dado que hasta un pequeño
movimiento en la precisión puede redituar en una mejora en la rentabilidad.
8
El problema que planteo en esta investigación es la determinación del incumplimiento de
pago de clientes que han recibido crédito. es decir. con base en el comportamiento de éstos con
respecto al uso de su línea de crédito, predecir quiénes caerán en mora desde el punto de vista de
cada individuo y del comportamiento de grupos de crédito (comportamiento del portafolio de
crédito). buscando incidir en la reducción de la cartera vencida. lo cual repercutirá en un modelo
que proporcione ahorros. Si bien el modelo se apoya en un conjunto de variables financieras, la
metodología puede ser aplicable a otro tipo de instituciones.
El trabajo a desarrollar en la presente investigación debe contribuir para que tanto
instituciones financieras. como pequeñas y medianas empresas que hacen uso del crédito a
clientes para sus ventas. dispongan de métodos no disponibles en la literatura normalmente,
sirviendo esto de base para el desarrollo de modelos propios y reduciendo costos por pérdidas
debidas a incumplimiento.
En términos computacionales se busca resolver un problema de clasificación de
comportamiento de clientes de crédito mediante técnicas de Inteligencia Artificial. Este problema
es dificil de resolver ya que la idea es predecir cómo se comportará un cliente sólo basados en
datos históricos de comportamiento de otras personas.
Una vez que he definido el problema de la investigación desarrollaré algunas ideas que
considero relevantes en los procesos de calificación de crédito y de comportamiento. las cuales
establecen los requerimientos de trabajo para esta investigación.
Con relación a la calificación de crédito, ésta presenta las siguientes características que lo
describen en términos matemáticos, en términos de datos y de la universalidad del método:
9
• Espacio de soluciones que en su versión más simple es discreto, el cliente es moroso o no
lo es. Esta condición puede modificarse si consideramos que existen modelos estadísticos
que podrían reflejar la probabilidad de incumplimiento.
• Atemporal, es decir que no precisa en que momento el cliente caerá en condición de
morosidad.
• El modelo utiliza información de dos fuentes principales: la forma de la aplicación (la
cual contiene datos sociodemográficos como el número de hijos, los ingresos, etc.) y los
datos del Buró de Crédito. La primera es información que se recolecta cuando el cliente
realiza su solicitud de crédito, la segunda corresponde a información del comportamiento
del cliente, normalmente implica un gran costo para las instituciones financieras y es
información muy sensible con respecto al cliente.
• No existe una definición del mejor método que resuelve este problema, con la
consiguiente dificultad y variedad de métodos que se pueden intentar para resolverlo.
Desde el punto de vista matemático una definición de la calificación de crédito es la
siguiente:
T Hagamos X=(x 1, x1, • •• , Xm) un conjunto de 111 variables aleatorias que describen la
información de la forma de una aplicación del cliente y las referencias del Buró de Crédito. El
valor actual de las variables de un solicitante particular k se denota por Xk = (x 1k, X1k,- .. , x111k)T
10
Todas las muestras se denotan por S={(Xk, Yk)}, k = 1,2, ... , N, donde N es el número de
muestras, Xk es el vector atributo del k-ésimo cliente, y Yk es su resultado observado
correspondiente de un repago en tiempo. Si el el iente es bueno, Yk = 1, de lo contrario, Yk = -1. El
problema de la evaluación del riesgo de crédito es hacer una clasificación de bueno o malo para
un cliente usando sus características. Esto es, usando un vector de atributos Xk, se puede
determinar el estado de crédito de un cliente específico.
En cuanto a los modelos de comportamiento encontramos las siguientes características
generales:
• Es común tener más de dos posibles valores de clasificación.
• Es común la estimación de períodos de tiempo en que ocurrirá la descomposición de la
cartera.
• Adicionalmente a las variables de la forma de la aplicación y el Buró de Crédito, se
incluye información de comportamiento transaccional del cliente.
• Los estudios de comportamiento pueden tener una gran variedad de propósitos: verificar
la descomposición de la cartera, estimar en qué tiempo un crédito caerá en mora, realizar
una clasificación del crédito de acuerdo al comportamiento del mismo, etc.
11
1.3 Objetivo.
Crear un modelo de calificación de comportamiento de clientes de crédito que permita predecir el
buen o mal comportamiento de un cliente con base en datos históricos, con el fin de apoyar en las
tareas de reducción del índice de cartera vencida en las instituciones otorgantes de crédito, así
como las previsiones financieras que respaldan su operación. Desarrollar un modelo de
predicción del comportamiento de diferentes grupos de créditos. Se buscará que los modelos:
• Estén soportados por un proceso que inicie desde la fase de selección de las variables y el
conjunto de datos, el desarrollo del modelo y la estimación de los resultados.
• La metodología para el desarrollo cubra no sólo las etapas de aprendizaje (características
de los modelos desarrollados a partir de datos preparados), de manera que sea fácil de
entender y utilizar por otras instituciones de otorgamiento de crédito.
1.4 Restricciones del modelo
Los siguientes aspectos son considerados como alcances del modelo:
• Los resultados permitirán comparar los métodos empleados pero no podrán ser tomados
como un método universal ya que sabemos que no existe un método que aplicado a
cualquier conjunto de datos sea superior.
12
• El modelo a construir utilizará un solo producto de crédito debido a que el
comportamiento de los productos es completamente diferente (no es lo mismo una tarjeta
de crédito que no tiene garantía de pago que una hipoteca en que existe la garantía del
bien inmueble).
• Debido a las restricciones de períodos de tiempo, un pronóstico sobre las variables es
requerido. Esto implica el uso de algunos conceptos estadísticos para la generación de
dicho pronóstico; si bien es cierto que esto ya no corresponde necesariamente a la
realidad, también es de notar que la generación de escenarios diferentes permiten validar
que el modelo puede reaccionar ante diferentes esquemas planteados.
1.5 Estructura.
El contenido del documento es el siguiente. En el Capítulo 2 se muestran algunos de los métodos
disponibles para realizar calificación de crédito (estadísticos, investigación de operaciones e
Inteligencia Artificial), así como para estimar la calilicación de comportamiento. En el Capítulo 3
se habla del proceso de selección de las variables, los métodos de pronóstico de series de tiempo,
los métodos que conjuntan diferentes técnicas (híbridos) y se termina con un análisis crítico. En
el Capítulo 4 se presenta la metodología para el modelo de calificación de comportamiento para
clientes de crédito que se construye. El Capítulo 5 presenta el caso de estudio realizado para la
construcción del modelo y el análisis de los resultados obtenidos. Las conclus iones y trabajo
futuro se presentan en el Capítulo 6.
13
Capítulo 2. Métodos para determinar la calificación de crédito y de comportamiento.
2.1 Descripción general de los métodos de calificación de crédito y comportamiento.
Existe un gran número de métodos que han sido utilizados para estimar la calificación de crédito
y de comportamiento. No se pretende ser exhaustivo en la descripción de los mismos ni presentar
el conjunto completo de métodos que pueden utilizarse. Se mostrarán sólo algunos métodos que
me parecieron relevantes. Dentro de éstos se observará que existen dos en los que se presenta un
mayor nivel de detalle: las redes neuronales y las redes bayesianas. La razón es que de entre
tocios los algoritmos presentados. fueron esos dos los elegidos para determinar la calificación ele
crédito.
De manera simple mencionaré que existen tres metodologías para la construcción de
modelos de calificación de crédito: los modelos estadísticos. los modelos basados en
investigación de operaciones y los métodos inteligentes.
La calificación de comportamiento puede reducirse a un problema ele clasificación (cuya
solución se resuelve por analogía a los modelos ele calificación de crédito). Sin embargo también
puede enfocarse a determinar el tiempo en el que un acreditado caerá en mora.
14
2.2 Fundamento matemático del costo por solicitante de crédito.
Se presenta a continuación una breve explicación sobre el costo asociado a procesos de
calificación de crédito. La sección es importante porque permite establecer un planteamiento
común sobre el que se basan los métodos de calificación de crédito. Como se observará más
adelante, los diferentes métodos tratan de resolver un problema de estimación de coeficientes de
un polinomio y ordenes de magnitud de los exponentes correspondientes.
Hagamos X = (X 1, X1, .... Xp) el conjunto de p variables aleatorias que describen
información disponible del problema de clasificación de crédito. Usamos la palabra variable o
característica para describir una X, típica. El valor actual de las variables para un solicitante
particular es X= (x 1.x1 ..... xp), Llamamos a los diferentes valores o respuestas x, de la variable X,
los atributos de la característica.
Supongamos que A es el conjunto de todos los posibles valores que las variables X = (X 1•
X1 •.. . ,Xp) pueden tomar. El objetivo es encontrar una regla que divide a A en dos subconjuntos
Ar; y Af/. Se clasifican las respuestas en A(; como "buenas" y las de A 11 como "malas''. Existen dos
tipos de costos correspondientes a los dos diferentes tipos de errores: 1) se puede clasificar a
alguien que es bueno como malo y por tanto rechazar la solicitud de la persona. en este caso la
ganancia potencial L se pierde; 2) se clasifica a alguien que es malo como bueno. en este caso la
deuda ocurrirá cuando el cliente caiga en mora. Llamamos a este valor D.
Sea PG el porcentaje de solicitantes buenos y Pri el de solicitantes malos. Asumamos que A
es finito, con sólo un número finito de atributos diferentes x.
Sea p(xlG) la probabilidad de que un solicitante X bueno tenga los atributos x.
p(x I G) = pr~ba~ilid ad(solicitante es bueno y tiene los atributos x)
probabilid ad(solicitante es bueno)
p(xlB) la probabilidad de que un solicitante X malo tenga los atributos x.
q(Glx) es la probabilidad de que alguien con los atributos x sea bueno
(G I x) = probabilid_ad(solicitante tiene los atributos x y es bueno)
q probabilidad(solicitante tiene los atributos x)
p(x) = Probabilidad(Solicitante tiene los atributos x)
De (1) y (2)
q(Gx)p(x) = p(xG)pu
Llegamos al teorema de Bayes:
q(G x) = p(xG)P<; p(x)
De manera similar,
q(Bx)= p(xB)pH p(x)
15
(1)
(2)
(3)
(4)
(5)
16
Dividiendo (4) entre (5)
q(Gx) p(xG)pr; =
q(Bx) p(xB)p8
(6)
El costo estimado por solicitante si aceptamos aquellos con atributos en ÁG y rechazamos
aquellos con atributos en As es:
L ¿p(xG)Pc; +D ¿p(x'B)p8 =L ¿q(Gx)p(x)+D ¿q(Bx)p(x) (7) Xe1~; XeA11 XeA,;
La regla que minimiza el costo es directa. Si la instancia se clasifica en Ac;, incurrimos en
costo si es malo, en cuyo caso el costo es Dp(xlB)PH· Si se clasifica en AH, se incurre en un costo
si es bueno; el costo esperado es Lp(xl G)pc;
De esta manera se clasifica a X en Au si:
Dp(x B)p8 :::; Lp(xG)pr; (8)
La regla que minimiza los costos esperados está dada por:
D p(xG)pc D q(G x) Ac; = {xDp(x B)p8 :::; Lp(xG)pc;} = {x :::; '} = {x :::; }
L p(x B)p8 L q(B x) (9)
17
La anterior solución plantea que conocemos el valor de D y L, lo cual no siempre es fácil
de estimar. Una alternativa es encontrar la probabilidad de cometer un error de un tipo mientras
controlamos hasta un cierto nivel la probabilidad de cometer un error del otro tipo.
Supongamos que deseamos una tasa de aceptación a. Entonces Ac; debe satisfacer:
¿p(xG)pu + ¿p(xB)p¡¡ =a (1 O) .YE,{; XeA,;
Mientras al mismo tiempo se minimiza la tasa de mora
( 11)
Si definimos b(x)=p(xlB) para cada x e A, entonces queremos encontrar el conjunto Ac;
tal que podemos
Minimizar ¿b(x) = ¿ ( b(x) )p(x) .\'eA, ; .\'EA,; p(X)
sujeto a ¿ p(x) = a XEA,;
(12)
Usando multiplicadores de Lagrange, se puede ver que el conjunto de atributos x, donde
b(x)
p(x) ::; e, (13)
e se escoge tal que la suma p(x) que satisfacen esta restricción es igual a a.
18
Por tanto
b(x) 1-c p(xG)p<; A<;={x ~c}={xq(Bx)~c}={x ~ }
p(x) e p(x B)pR ( 14)
2.3 Métodos estadísticos para estimar la calificación de crédito.
La calificación de crédito desarrollada a partir de los años 50 y 60 se basó en la discriminación
estadística y los métodos de clasificación. A inicios del 2000 los métodos estadísticos fueron la
técnica más usada para la construcción de scorecards ~de crédito. Esto se debió a que permiten
usar conocimiento de las propiedades de los estimadores muestrales y las herramientas de
intervalos de confianza y pruebas de hipótesis, lo que permite verificar el poder de discriminación
del scorecard y la impo11ancia relativa ele las diferentes características.
Dentro de las técnicas estadísticas usadas para la calificación de crédito encontramos el
análisis discriminante, la regresión logística. la regresión ··probif'. etc. Describiremos a
continuación de manera breve en que consisten y como se aplican en particular al problema que
se busca resolver.
Antes de presentar el tema del análisis discriminante se hablará del análisis de correlación
canónico (un método multivariante usado en estadística), con la idea de introducir la terminología
matemática requerida para el análisis discriminante.
El análisis de correlación canónica [Hair y otros; 2005: Capítulo 1] puede verse como una
extensión lógica de un análisis de regresión múltiple. El análisis de regresión múltiple implica
2 Un scorecard en el contexto de la calilicación de crédito es un método para asignar una calilicación a individuos sujetos de crédito. la cual rellcja que tan ··bueno·· se espera sea un individuo en relación con el cumplimiento de sus obligaciones. Normalmente se ..:valllan una serie d..: Yariables y se asigna una calilicación a ella5 sumando al final el valor obtenido por cada variable con la idea de obtener una calilicación final.
19
una única variable dependiente métrica y varias variables métricas independientes. Con el análisis
canónico el objetivo es correlacionar simultáneamente varias variables dependientes métricas y
varias variables métricas independientes. Mientras que la regresión múltiple implica una única
variable dependiente, la correlación canónica implica varias variables dependientes. El principio
subyacente es desarrollar una combinación lineal de cada conjunto de variables (tanto
independientes como dependientes) para maximizar la correlación entre los dos conjuntos. Dicho
de otra forma, el procedimiento implica obtener un conjunto de ponderaciones para las variables
dependientes e independientes que proporcione la correlación única máxima entre el conjunto de
variables dependientes y el conjunto de variables independientes.
Sean x 1, ... ,X¡, un conjunto de variables x y y 1, ···Ye¡ un conjunto de variables y. Busquemos
una combinación lineal de y como:
( 15)
y una combinación lineal de x como
(16)
Seleccionemos los valores de los coeficientes a y b de manera que se max11rnce la
correlación entre U1 y V1• Como consecuencia de esta particular elección de los coeficientes, a la
combinación lineal U1 se le denomina primera variable canónica de las y y a la combinación
lineal V¡ se le denomina primera variable canónica de las x.
20
2.3.1 Análisis discriminante.
El análisis discriminante es un procedimiento multivariante de clasificación que permite clasificar
a una serie de individuos entre distintos grupos, con la idea de que un individuo sólo puede
pertenecer a un grupo. Los grupos están definidos por una variable categórica.
Cuando solamente se consideran dos grupos, tal corno en el caso de la clasificación de
crédito, se tiene una única función discriminante. Aquellos individuos que superen un cierto valor
en la función serán considerados corno de un grupo y aquellos que no la superen pertenecerán al
otro grupo. Se tienen los siguientes supuestos:
1. La matriz de varianza - covarianza es igual entre los dos grupos
2. Los dos grupos tienen una distribución normal multivariante3
Algunas características del análisis discriminante son las siguientes:
• Las variables independientes deben ser dos o más y de carácter numérico
• La clasificación de la muestra en una serie de grupos se realiza ''a priori"
• Las variables discriminantes se reducen a variables canónicas
• Hay tantas funciones discriminantes como grupos menos 1
Una distrihución normal multivariante. conocida también como gaussiana multirnriante. es en esencia una generalización de la distribución normal unidimensional a dimensiones superiores.
21
• A partir de la puntuación discriminante es posible obtener una regla de clasificación de
los individuos
• Aunque puede usarse cuando las variables independientes no tienen una distribución
normal, no se garantiza que sea óptimo.
La función discriminante es una combinación lineal de variables independientes que nos
permite clasificar a los sujetos en los diferentes grupos establecidos ·'a priori". La puntuación
discriminante (descrita en la fórmula 17) y un valor de corte permiten realizar la clasificación.
La forma lineal en la que se presenta es la siguiente:
Z = a 1x 1 + a2x2 + a3x3 + ... + a,,x,,
a1 => a,, = Coejlcientes discriminantes
x1 => x,, = Variables discriminantes
Z = Puntuación discriminante
( 17)
El análisis discriminante fue usado como método para estimar modelos de calificación de
crédito por autores como Baesens [Baesens; 2003].
Un artículo adicional en el que se publica el uso del análisis discriminante se encuentra en
[Hui-Chung Yeh; 2007] .En este artículo se compara esta técnica con los árboles de decisión y las
redes neuronales. Se muestra que el análisis discriminante tiene la exactitud más baja de las
diferentes técnicas empleadas.
22
2.3.2 Técnicas de Regresión.
Las técnicas de regresión más utilizadas incluyen la regresión lineal, la logística y la regresión
"probit". La ecuación ( 18) ilustra el modelo de regresión lineal simple (LR). En este caso p
estima la probabilidad de no mora basado en las características de los solicitantes (X):
(18)
El defecto obvio de este modelo es que el lado derecho de la ecuación puede tornar
cualquier valor de - oo a + oo pero el lado izquierdo puede tornar sólo valores entre O y 1. El
sustituir el lado izquierdo con una función log(p / 1 - p) puede resolver ese defecto, lo que nos
lleva a otro modelo de regresión (LOG), el cual se describe así:
De ( 19), la probabilidad estimada de no mora es corno sigue:
w'x e p= w'x
l+e
(19)
(20)
[Wigington; 1980] fue uno de los primeros en reportar resultados de calificación de
crédito con el modelo de regresión logística.
23
Otro modelo de regresión común es el modelo "probit". Si
(21)
es la función de distribución normal acumulada, entonces el modelo de regresión "probit" (PR)
puede ser definido por:
(22)
Para los métodos anteriores, podernos decir que un solicitante es bueno si su probabilidad
va más allá de un nivel de umbral dado.
2.3.3 Métodos ele partición recursiva - Árboles ele clasificación
Los árboles de clasificación o algoritmos de partición recursiva (RPA) dividen al conjunto de
respuestas de la aplicación en diferentes conjuntos y entonces los clasifican como buenos o malos
dependiendo en cual es la mayoría en dicho conjunto. Su uso en la clasificación de crédito se
encuentra a partir de 1985; [Makowski; 1985], [Coffman; 1986].
El conjunto de datos de la aplicación es primero dividido en dos subconjuntos de manera
que al observar las muestras previas de solicitantes, esos dos nuevos subconjuntos de atributos de
la aplicación son más homogéneos en el riesgo de mora que los solicitantes en el conjunto
24
original. Cada uno de esos conjuntos es dividido nuevamente en dos para producir subconjuntos
más homogéneos y el proceso es repetido.
El proceso se detiene cuando los subconjuntos cumplen los requerimientos para ser nodos
terminales del árbol. Cada nodo terminal es entonces clasificado como un miembro de Ac; o Ali y
el procedimiento completo puede ser presentado gráficamente como un árbol.
Tres decisiones componen el procedimiento del árbol de clasificación:
• ¿Qué regla usar para dividir los conjuntos en dos partes? - la regla de división
• ¿Cómo decidir que un conjunto es un nodo terminal? - la regla de detención
• ¿Cómo asignar nodos terminales en categorías buenas y malas?
La decisión de asignación bueno-malo es sencilla. Normalmente asignamos el nodo como
bueno si la mayoría de los casos que se muestran en el nodo son buenos.
Las reglas de división más simples son aquellas que van un paso más allá viendo el
resultado de la división propuesta. Lo hacen encontrando la mejor división para cada
característica teniendo alguna medida de que tan buena es la división. Entonces se decide cual
característica es mejor bajo esta medida.
Para cualquier característica X,. se observa en las divisiones {x; < s}, {x; >= s} para todos
los valores de s y se encuentra el valor de s donde la medida es mejor. Si X; es una variable
categórica, entonces se observan todas las posibles divisiones de las categorías en dos y se miden
esas diferentes divisiones.
25
2.4 Métodos de investigación de operaciones para estimar la calificación de crédito.
2.4.1 Programación lineal.
En 1981, Freed y G lover se percataron que encontrar la función I ineal de las características que
mejor discrimine entre grupos puede ser modelado como un problema de programación lineal.
Este método mide la calidad de ajuste tomando la suma de los errores absolutos o el máximo
error involucrado. Si se quiere tomar el número de casos donde la discriminación es incorrecta
como una medida de calidad, entonces se tienen que introducir variables enteras en el programa
lineal, lo que nos lleva a los modelos de programación entera.
El problema de programación lineal enfocado a la calificación de crédito puede ser
formulado de la siguiente manera:
Tenemos una serie de variables de la forma de la aplicación X = (X 1, X2, .... Xp) y una
serie de n muestras de solicitantes. Asumamos que las primeras ne; instancias son buenas y las
siguientes nu son malas; queremos entonces elegir calificaciones o pesos (w 1, w2, .•. ,wc), tal que
la suma ponderada de las respuestas w 1X 1+w2X2 + ... + w 11 Xp está sobre un valor de corte para
los solicitantes buenos y debajo de dicho valor para los solicitantes malos.
Usualmente no esperamos obtener una división perfecta entre buenos y malos, así que
introducimos las variables a,, las cuales son positivas o cero, lo que permite posibles errores.
26
Se tiene entonces que resolver el siguiente problema:
Minimizar
Sujeto a
a1 + a1 + ... + a,,c;,,,B
W¡X¡¡+W1X;1 + ... + WpX;p< C + a;,
a;>=O
ne; + 1 <= i <= ne; + nB,
1 <= i <=ne;+ nB,
(23)
(24)
(25)
(26)
En la calificación de crédito, una ventaja de la programación lineal sobre los métodos
estadísticos es que para construir un scorecard con un sesgo particular, la programación lineal
puede fácilmente incluirlo como una restricción adicional en el problema a resolver.
La queja práctica sobre la programación lineal es que debido a que no tiene apoyo
estadístico, no se puede evaluar si los parámetros estimados son estadísticamente significativos.
Otra ventaja de métodos como la regresión sobre la programación lineal es que la primera puede
introducir variables una a la vez en el scorecard iniciando con la más poderosa.
Los métodos de programación matemática descritos han sido usados para el problema de
la calificación de crédito. por autores como [Hardy Jr y Adrian Jr; 1985] en el que se mostró
como la programación lineal puede ser usada para construir un modelo de calificación de crédito.
En el año 2002, Vladimir [Lyn C. Thomas; 2002] construyó un modelo de programación
cuadrática el cual incorpora los juicios de expertos para la evaluación del riesgo de crédito.
27
2.5 Métodos de Inteligencia Artificial para estimar la calificación de crédito.
2.5.1 Redes neuronales.
Las redes neuronales fueron originalmente desarrolladas para modelar las comunicaciones y el
procesamiento de información en el cerebro humano [Lyn C.Thomas; 2002]. En el cerebro, un
largo número de dendritas llevan sefiales eléctricas a una neurona, la cual convierte las sefiales a
un pulso de electricidad enviado por un axón a un número de sinapsis. las cuales relacionan la
información a las dendritas de otras neuronas. Análogo al cerebro, una Red Neuronal consiste de
un número de entradas (variables). cada una de las cuales es multiplicada por un peso. lo cual es
análogo a una dendrita. Los productos son sumados y transformados en una ··neurona .. y el
resultado se convierte en la entrada de otra neurona.
Una Red Neuronal de una capa simple puede ser representada como se muestra en la
Figura 1:
Bias
Saldo
Importe Línea
Función Activación
\. ___ ___ ) y
Neurona
Figura 1. Red Neuronal de una capa simple
28
Podemos representar una Red Neuronal de una sola capa de manera algebraica como:
I'
uk = wkOxo + wk1x1 + wk 2x2 + ... + wkpx,, = ¿ w.1:,,x" q=O
(27)
(28)
La ecuación tiene la misma forma que ya se mostró en otros métodos. Cada x, representa
una variable, tal como una característica de un solicitante de una tarjeta de crédito. En este caso
encontramos que, si los pesos son positivos, son conocidos como excitatorios mientras que si son
negativos son conocidos como inhibitorios. Los subíndices sobre cada peso son escritos en el
orden {k,p), donde k indica la neurona a la cual se aplica el peso y p indica la variable.
El valor uk es transformado usando una función de activación (o transferencia). Dos
ejemplos de funciones de transferencia son:
• Umbral:
F(u) = 1 si u>= O
= O si u< O
• Logística:
1 F(u) =
1 + e-ª"
(29)
(30)
29
Dados los valores de los pesos y la función de transferencia, podemos predecir si un
solicitante de crédito será aceptado o rechazado sustituyendo las características del solicitante en
(27), calculando el valor de Yk en (28) y comparando con un valor de corte.
Un modelo consistente en una sola neurona y una función de activación de umbral es
conocido como perceptrón. Rosenblat ( 1958, 1960) mostró que si los casos a ser clasificados eran
linealmente separables, esto es, si caían en cualquier lado de una línea recta si hay dos señales de
entrada (y de un híper plano cuando hay p señales), entonces un algoritmo desarrollado por él.
convergería para establecer pesos apropiados. Sin embargo, Minsky y Papert ( 1969) mostraron
que el perceptrón no podía separar casos que no eran linealmente separables.
Para resolver el problema anterior, se puede incluir en la Red Neuronal capas ocultas y
funciones de activación no lineales, con lo cual la red resultante puede clasificar correctamente
casos en clases que no son linealmente separables.
2.5.1.1 Aprendizaje por retro propagación.
Una Red Neuronal de retro propagación aprende por ejemplo. Se proporcionan al algoritmo
ejemplos de lo que se desea que la red haga y ésta cambia los pesos de la red tal que, cuando el
entrenamiento ha finalizado, ésta proporciona la salida requerida para una entrada proporcionada.
De manera simple podemos decir que se trata de un método sistemático para entrenar redes
neuronales con múltiples capas (tres o más).
La red es inicializada primero estableciendo todos sus pesos como números aleatorios
pequeños - entre -1 y + 1. Enseguida, el patrón de entrada es aplicado y la salida es calculada
(esto es llamado el pase hacia delante -forward). El cálculo da una salida que es diferente a lo
que se espera: Salida Objetivo -Salida Real (lo que se quiere - lo que se obtiene). Este error se
30
usa para cambiar matemáticamente los pesos de tal forma que el error se vuelve más pequeño. En
otras palabras, la salida de cada neurona se aproximará más a su objetivo (esta parte es el pase en
reversa). El proceso se repite hasta que el error es mínimo.
Un ejemplo, partiendo de una neurona en una capa de salida y una en la capa oculta
permitirá iniciar el análisis de este algoritmo.
Figura 2. Neurona en capa oculta conectada a dos neuronas en la capa de salida.
La conexión bajo análisis es la establecida entre la neurona A (una neurona de la capa
oculta) y la neurona B (una neurona de salida); esta conexión tiene el peso Ww. El diagrama
muestra también otra conexión, entre A y C. El algoritmo es como sigue:
l. Aplicar las entradas a la red y obtener la salida (esta salida inicial puede ser cualquier
número dado que los pesos iniciales fueron números aleatorios).
2. Obtener el error para la neurona B; este se puede definir como:
Lo que se espera - lo que se obtiene, en otras palabras:
(31)
31
3. Cambiar el peso. Hagamos W AH el nuevo peso (entrenado) y WAH el peso inicial.
W+ AB = W AB + (ErrorB x Salida¡\) (32)
Notar que este es el peso de la neurona que se conecta (neurona A) y no la neurona B.
Actualizamos todos los pesos en la capa de salida de esta forma.
4. Calcular los errores para las neuronas de las capas ocultas. A diferencia de la capa de
salida, aquí no podemos calcular el error directamente (no se dispone de un objetivo), así
que se propaga en retroceso desde la capa de salida. Esto se hace tomando los errores
desde las neuronas de salida y corriéndolos hacia atrás a través de los pesos para obtener
los errores de las capas ocultas. Por ejemplo si la neurona A esta conectada como se
muestra a By C. entonces tomamos los errores desde By C para generar un error para A.
Error¡\= Salida¡\ (1 - SalidaA) (Errorll WAs + Errorc WAc) (33)
5. Después de obtener el error para las capas ocultas se procede como en la etapa tres para
cambiar los pesos de las capas ocultas. Repitiendo este método entrenamos una red de
cualquier número de capas.
Ahora se proporcionará una explicación con mayores elementos matemáticos:
32
Sea
11
/ =x1 w1 + x 2 w2 + ... + x 11 w11 = ¿x;w, 1=1
Usando una función de activación no lineal, en este caso una función sigmoidal:
Tomando la derivada de la función anterior:
Si resolvemos la ecuación para e-a1, la sustituimos y simplificamos, obtenemos:
act>(/) = a 1 - et>(/) et> 2 (/) = { a[I - ct>(/)]ct>(/)} = a(] - et> )et> di et>(/)
Donde et>(/) ha sido simplificado a et> eliminando (1).
2.5.1.2 La regla delta Widrow-Hoff
(34)
(35)
(36)
(37)
La regla delta Widrow-Hoff puede ser derivada considerando el nodo de la Figura 3, donde Tes
el valor deseado u objetivo el se encuentra definido por la ecuación (34) como el producto punto
de los vectores de pesos y entrada y esta dado por:
JI
I=""wx L..., I I
1=1
X1
X¡
Xn
11
I=""wx ¿ ¡· I
1=1
T
+
E
Figura 3. Neurona sin función de activación pero con un valor objetivo Ty un error E
33
(38)
Para este análisis no se incluye una función de activación no lineal. pero el resultado es
igualmente válido.
De la Figura 3 vemos que la función de error E como una función de todos los pesos w,. y
observamos que el error t: 2 es
E =(T- I) (39)
E" =(T-J)" (40)
El gradiente del vector de error cuadrado es la derivada parcial con respecto a cada peso i:
34
ac 2 a1 = -2(T - !) = -2(T - J)x, chv¡ aw, (41)
Debido a que este gradiente involucra sólo el componente de peso i-ésimo, la suma de la
ecuación (38) desaparece.
Para propósitos de demostración consideremos una neurona con sólo dos entradas, x1 y x2.
El error cuadrado esta dado ahora por:
T 2 2 2 2 2 2T 2T 2T = + W 1 X 1 + W 2 X 2 - W 1X 1 - W 2X 2 + W 1X 1W 2 X 2
= w12 [x1
2] + w1 [-2x1 (T - w2x2 )] + [(T - w2x2 )2]
(42)
= w~[x~] + w2 [-2x2 (T - w1x1 )] + [(T - w,x1 )2]
El error cuadrado mínimo ocurre cuando la derivada parcial del error cuadrado con
respecto a los pesos w 1 y w2 son puestos a cero:
(43)
ac 2
=-2[T-w1x1 -w0 x,]x 0 =0 a - - -w, (44)
Dado que x1 y x2 no pueden ser cero, las cantidades en corchetes, las cuales son idénticas
para ambas ecuaciones, deben ser cero. Esto nos da:
35
(45)
De lo cual, la localización del mínimo en w, y w., es:
T-w,x, w = - -
1 (46)
(47)
La sustitución de cualquiera de esos valores en la ecuación (42) da el error cuadrado
mínimo como cero. Técnicamente esto es correcto pero en la práctica el error cuadrado mínimo
nunca es cero debido a no linealidades, ruido y datos imperfectos. La presencia de ruido en una
función sigmoidal dará un error cuadrado mínimo que no es cero y que designamos como c,;,,n.
, ................. .............. .
¡(T-w,x,)2.-1 ---..i.. i ••••••••••••.••••••. :: ••••• :: .•...•... :
T-w,x2 w - -I-X¡
Figura 4. Minimización del error cuadrado durante entrenamiento Widrow-Hoff.
36
El análisis de la ecuación (42) muestra que la gráfica de t: 2 ··versus·' w 1 ó w.? tendrá la
forma de una parábola. Esto es mostrado en la Figura 4 para los dos casos de error cuadrado
mínimo: cero y t: 2• En ambos casos el error cuadrado mínimo ocurre en un valor de w1 dado por
la ecuación (46). El mismo resultado ocurre del error cuadrado mínimo ··versus"' w.?, donde el
mínimo ocurre en un valor de w1 dado por la ecuación (47). De aquí que la superficie del error
cuadrado mínimo para el caso de pesos en dos dimensiones sea un paraboloide de revolución con
el eje E~ localizado en (w 1. w2).
Una interpretación geométrica de la regla delta se da como un algoritmo de descenso del
gradiente que minimiza el error cuadrado. Cuando este es visto en tres dimensiones ( t: 2 ,w ,. w1) la
superficie del error cuadrado es un paraboloide de revolución con el vector peso descendiendo
hacia el valor mínimo junto con un vector gradiente sobre la superficie del paraboloide. La
proyección de este vector gradiente sobre el plano w 1- w1.es el vector delta que se muestra en la
Figura 5. La regla delta mueve el vector de peso a lo largo del gradiente negativo de la superficie
curva hacia la posición del vector de peso ideal. Debido a que sigue al gradiente, es llamado un
descenso de gradiente. Debido a que el gradiente es el camino más eficiente al fondo de la
superficie curvada, la regla delta es la manera más eficiente de minimizar el error cuadrado.
La regla delta Widrow-Hoff establece que el cambio en cada componente del vector de
peso es proporcional al negativo de su gradiente:
VE~ L1w = -K = K.2(T - l)x = 2KEX
/ a1r 1 ,
1
(48)
37
Donde K es una constante de proporcionalidad. El signo negativo se debe al proceso de
minimización.
Es común normalizar el componente del vector de entrada X; dividiendo por X 2
• La
ecuación (48) se convierte ahora en:
Y podemos definir la constante de aprendizaje '7 como:
' 2 T7=2K X,
(Error)2
Peso
"ideal" de peso
Vector Peso Actual
Vector "delta"
Figura 5. Interpretación geométrica de la regla delta.
(49)
(50)
38
2.5.1.3 Entrenamiento por retro propagación para redes neuronales multicapas.
Consideremos la red de tres capas de la Figura 6, donde todas las funciones de activación son
funciones logísticas. El objetivo del proceso de entrenamiento es ajustar los pesos tal que la
aplicación de un conjunto de entradas produzca las salidas deseadas. El proceso de entrenamiento
es como sigue:
1. Inicializar los valores de los pesos a pequeños valores aleatorios positivos y negativos
2. Seleccionar un par de entrenamiento del conjunto de entrenamiento
3. Aplicar el vector de entrada a la entrada de la red
4. Calcular la salida de la red
5. Calcular el error, la diferencia entre la salida de la red y la salida deseada
6. Ajustar los pesos de la red de manera que se minimice el error.
7. Repetir los pasos 2-6 para cada par de vectores de entrada-salida en el conjunto de
entrenamiento hasta que el error en el sistema entero es aceptablemente bajo.
39
<Pu
Y1 E¡
<P,,
Y2 C' c.,'
q:, q.t
q.t Yq éq
Xm <P.,_; q:," <P, k
T,
Y, E,
Capai Capaj Capak Índiceh Índicep Índiceq 1->m 1-> n 1-> r mNodos nNodos rNodos
Figura 6. Red Neuronal de múltiples capas mostrando los símbolos e indices usados para derivar el algoritmo de entrenamiento por rclropropagación.
El entrenamiento de una Red Neuronal involucra dos pases. En el pase hacia delante las
señales de entrada se propagan desde la entrada de la red a la salida. En el paso en reversa, las
señales de error calculadas se propagan hacia atrás a través de la red, donde ellas se usan para
ajustar los pesos. El cálculo de la salida es llevada, capa por capa, en la dirección hacia delante.
La sal ida de una capa es la entrada a la capa siguiente. En el paso en reversa, la sal ida de las
neuronas en la capa de salida es ajustada primero debido a que el valor objetivo de cada neurona
de salida esta disponible para guiar los ajustes de los pesos asociados, usando la regla delta.
Enseguida ajustamos los pesos de las capas intermedias. El problema es que las capas intermedias
no tienen valores objetivos.
40
2.5.1.3.1 Calculo de pesos para las neuronas de la capa de salida.
La Figura 7 es una representación de un proceso de una cadena de neuronas que llevan a la capa
de salida, designada por el subíndice k con las neuronas p y q, las salidas <I>" 1 (I) y <I>" * (/), los
vectores de entrada w1,1,J y w1"1.k, y un valor objetivo Tq.
h p q
-O Wnp1 tpj ,~pj) Wpqk iqk ,~qJ ~q.l
~( Xn Tq
Yq j k Eq
Figura 7. Representación de una cadena de neuronas para calcular el cambio del peso para una neurona en la capa de salida por retro propagación.
La salida de la neurona en la capa k es restada de su valor objetivo y elevada al cuadrado
para producir la señal de error, la cual para una neurona en la capa k es:
(51)
t:"-t:2-[T -<I> ]" - q - q c¡k (52)
La regla delta indica que el cambio en un peso es proporcional a la tasa de cambio del
error cuadrado con respecto a ese peso, esto es,
(53)
41
Evaluarnos la derivada parcial:
de,~ de,~ d<ll ,¡k dl,, k
= (54)
La derivada parcial de (52) con respecto a <ll ,, k nos da:
(55)
De la ecuación (37) obtenernos:
d<ll dI ,¡k = a<t> ,, k [I - <ll ,, k l
</ k
(56)
De la Figura 6 vemos que 1,1k es la suma de las entradas ponderadas desde la capa media, esto es:
,,
I"k = L w1"1k<I) JJ.1 p=I
Tornando la derivada parcial con respecto a w1vk:
a1qk =<ll/1./
dWl"lk
(57)
(58)
42
Debido a que estamos tratando con un peso, sólo un término de la suma de la ecuación
(57) sobrevive. La sustitución de las ecuaciones (55), (56) y (58) en la ecuación (54) da:
OE~ '' - -2a[T - <I> ]<I> [1 - <I> ]<t> - -o <I> :-, - '/ ,¡k q k 'i k PI - ¡,¡k I' J
uw""*
Donde
d<l> q k
º"'' k = 2a[T" - <t> ,1 k ]<t> ,, k [1 - <t> ,, k] = 2t:,, JI qk
Sustituyendo la ecuación (59) en (53) da:
(59)
(60)
(61)
(62)
Donde N es el número de la iteración involucrada. Un proceso idéntico es ejecutado por
cada peso de la capa de salida para dar los valores ajustados de los pesos.
2.5.1.3.2 Calculo de los pesos en las capas ocultas.
La retropropagación entrena las capas ocultas propagando el error ajustado hacia atrás a través de
la red, capa por capa, ajustando el peso de cada capa conforme se pasa. Las ecuaciones para la
capa oculta son las mismas que las de la capa de salida con excepción del término de error '51,¡, 1
43
el cual debe ser generado sin un vector objetivo. Debemos calcular ó1,"' para cada neurona en la
capa intermedia que incluya contribuciones de los errores en cada neurona en la capa de salida a
la cual están conectados.
Consideremos una neurona simple en la capa oculta justo antes de la capa de salida.
designada por el subíndice p (ver la Figura 7). En el pase hacia delante, esta neurona propaga sus
valores de salida a las neuronas q en la capa de salida mediante los pesos de interconexión w,"rk·
Durante el entrenamiento, esos pesos operan en orden de reversa, pasando el valor de ó""' desde
la capa de salida de regreso a la capa oculta. Cada uno de esos pesos es multiplicado por el valor
de la neurona a través del que se conectan a la capa de salida. El valor de J,," 1
necesario para la
neurona de la capa de salida es producido por la suma de tales productos.
El arreglo en la Figura 8 muestra los errores que son propagados hacia atrás para producir
el cambio en W1,p¡· Debido a que todos los términos de error de la capa de salida están
involucrados, la derivada parcial involucra una suma sobre las salidas r. El procedimiento para
calcular J,," .1 es parecido al del cálculo de ó'"' • . Iniciemos con la derivada del error cuadrado con
respecto al peso para la capa intermedia que será ajustada. Entonces, de manera análoga a la
ecuación (53) la regla delta nos da:
OEC. L1w =-r¡ ,,
,,,,, J,p a w,,,,, r OE:'. ' ,, =-TJ,,,,L., ch
,¡=1 v,,,,, (63)
44
Capai Índiceh 1->m mNodos
Capaj Índicep 1-> n nNodos
Wp1.Jc
<Pu
qk <P;r):
.•J. <P,.k
Capak Índiceq 1-> r rNodos
q=1
E'¡
E'q
T,
E',
Figura 8. Representación de una cadena de neuronas para calcular el cambio en pesos para una neurona en capa oculta de una red de retro propagación.
Donde el error cuadrado medio total se define como:
r r
E2 = I< = ¿[7;, -<l>qk]2 (64) ,¡=I ,¡=I
Usamos la regla de la cadena de la derivada:
dE,~ = Í dE,~ d<l> ,1 * df" * cJ<l\, 1 d! P 1
dll'¡,l'I ,¡=I d<P,¡k dfqk d<P/1/ df/1/ dWhpJ (65)
Observamos en (55) y (56) que:
45
Tomando la derivada parcial de (57) con respecto a <I>,,, nos da:
di ,¡k =w a<1> . pc¡.k
/J./
(66)
La suma sobre p desaparece porque sólo una conexión esta involucrada. Cambiando los
subíndices de la ecuación (56) para corresponder a la capa media:
(67)
Cambiando los subíndices de la ecuación (57) y sustituyendo la entrada de la capa i, x1,,
por el valor de la entrada de la capaj <I> J>.J nos da:
m
1,,.1 = L w"v.1x" h=I
Tomando la derivada parcial de la ecuación (68):
(68)
(69)
Una vez mas, la suma sobre h en la ecuación (68) desaparece porque sólo una conexión
esta involucrada. La sustitución de las ecuaciones (56), (66) a (69) en la ecuación (65), el uso de
la ecuación (64) y la definición de ó1,.1
k en la ecuación (60) nos da:
46
dE2 r
:-. = ¿ (-2)a[I:, - <I> ''* ][<I> ,, * (1 - <I>" k ])w p,, ka[ <I> P/1 - <I> P 1 )]x" uwhp.J q=I
r act> p.)
=-¿óp,¡.kwfl'i.k :-. - X1, ,¡=1 uf PJ
Si definimos ó""i como:
cJ<I> /1 ' Ó¡,/1 .i = óp,¡ k w /1'1 k di ..
l'l
Entonces la ecuación (70) se convierte en:
dE2 r
e) =-¿01,¡,_¡X1, Wl,p¡ ,¡=I
(70)
(71)
(72)
Debido a que el cambio en los pesos como se da en la ecuación (63) es proporcional al
negativo de la tasa de cambio del error cuadrado con respecto a ese peso, entonces, la sustitución
de la ecuación (70) y (71) en (63) da:
r
= T]¡, "x"¿ '5"" 1 q=I
De aquí que,
r
w""' (N + 1) = w""' (N) + 1/1, "x"¿ ó""' ,¡=1
(73)
(74)
47
Si existe más de una capa intermedia de neuronas. este proceso se mueve a través de la
red. capa por capa a la entrada. ajustando los pesos conforme se desarrolla el proceso. Cuando se
finaliza. una nueva entrada de entrenamiento es aplicada y el proceso completo inicia una vez
más. Esto continúa hasta que un error aceptable es alcanzado. En este punto la red está entrenada.
Existen artículos en que se muestra que las redes neuronales se han aplicado de manera
exitosa en el problema de la calificación de crédito; como ejemplo se encuentra [Su-Ling Pang;
2002]. En este se analizan 106 casos de empresas chinas y se usa un perceptrón múltiple para
separar buenos y malos.
En el artículo se realiza un análisis de riesgo de crédito en que se emplea una estructura
MLP (Multi Layer Perceplron) que incluye una capa de entrada. una capa oculta simple y una
capa de salida. La capa de entrada consiste en los nodos que representan los índices financieros.
Esos índices son usualmente seleccionados por Análisis de Componentes Principales~ o por otros
métodos estadísticos. La capa de salida usa de manera típica la función logística o la función
sigmoidal. Los resultados obtenidos en este caso son buenos bajo una configuración con cuatro
capas ocultas.
Otro artículo que utiliza redes neuronales es el publicado por [Hui-Chung Yeh; 1997]. En
este se comparan el Análisis Discriminante, los Árboles de Decisión, las Redes Neuronales de
Retropropagación y un método híbrido. La muestra de datos consiste en información de tarjeta de
crédito. El estudio usó el Análisis Discriminante Lineal (LOA por sus siglas en inglés) para
seleccionar las variables del conjunto de datos y entonces usó un modelo de Red Neuronal de
Retropropagación para generar el modelo de calificación. Esta combinación es lo que
~ FI análisis de componentes principales es un método que puede ser usado para reducir la dimcnsionalidad de datos multivariados. Permite al investigador reexprcsar los datos (tomando combinaciones lineales de las variables originales) tal que las primeras nuevas pocas variables resultantes (llamadas componentes) lomen en cuema tanta de la información disponible como sea posible [James Laltin.y otros: Capítulo 1: 2003]
48
establecemos como un método híbrido. Adicionalmente los autores implementan los métodos
LOA, árboles de decisión y redes neuronales para comparar con el híbrido.
En este caso el tamai'io de la muestra fue 76,570 registros y se evaluaron 12 variables. La
medición efectuada consistió en tres aspectos: sensibilidad, especificidad y exactitud. Estas
métricas son definidas en un Capítulo posterior.
Los resultados obtenidos por este estudio muestran que la técnica de árboles de decisión
resultó mejor en cuanto a la medición efectuada.
Otros estudios que fueron realizados corresponden a Jensen [1-lerbert Jensen ; 1993], quien
aplicó una red de tipo BPNN - back propaga/ion neura/ ne/work para la calificación de crédito.
Desai [Desai; 1996] comparo la exactitud de clasificación de dos modelos de redes neuronales.
perceptrones multicapas (MLP) y redes neuronales modulares (MNN)' con algunas técnicas
tradicionales. tal como el análisis discriminante y la regresión logística.
2.5.2 Redes bayesianas.
2.5.2.1 Teorema de Bayes.
El teorema de Bayes es la regla básica en teoría de la probabilidad para realizar inferencias
[1-lcrnández José y otros; 2004; Capítulo IO] . Nos permite actualizar la creencia que tenemos en
un suceso o conjunto de sucesos a la luz de nuevas observaciones. Es decir, nos permite pasar de
la probabilidad .. a priori"' P(suceso) a la probabilidad .. a posteriori .. P(rnceso I ohservacio11es).
' · lJna Red Neuronal modular es caracterizada por una serie de redes m:umnalcs independientes moderadas por intermediarias. Cada red sirve a un módulo y opera sobre entradas separadas para llcnir a cabo una sublarca de la larca que la red espera ejecutar. Las intermediarias !ornan las salidas de cada módulo y las procesan para producir la salida de la red completa (http://cn .wikipedia.org/wiki/Modular _neural_ nctworks J.
49
La probabilidad "a priori" puede verse como la probabilidad inicial, la que se fija sin
saber nada más. La probabilidad "a posteriori" es la que obtenemos tras conocer cierta
información, por tanto puede verse como un refinamiento de nuestro conocimiento. La
presentación del teorema de Bayes ya fue realizada a inicios de este Capítulo, en la sección
Fundamento matemático del costo por solicitante de crédito, por ahora sólo tomemos la siguiente
fórmula que resume dicho teorema:
P(Oh)P(h) P(h I O)=
P(O) (75)
Donde, como podemos ver, lo que aparecen son la probabilidad '"a priori" de la hipótesis
(h) y de las observaciones (O) y las probabilidades condicionadas P(hlO) y P(Olh). A esta última
se le conoce como la verosimilitud de que la hipótesis h haya producido el conjunto de
observaciones O.
Si nos centramos en el problema de la clasificación, con una variable de clase C y un
conjunto de variables predictoras o atributos {A 1, ••• , A0 }, el teorema de Bayes tendría la
siguiente forma:
1
_ P(A 1 ••••• A 11
1 C)P(C) P(C A 1 ... An)-
P(A1 , ...• A,,) (76)
50
Evidentemente, si C tiene k posibles valores {c 1, ••• ,ck} lo que nos interesa es identificar el
más plausible y devolverlo como resultado de la clasificación. En el marco bayesiano, la
hipótesis más plausible es la que tiene máxima probabilidad ··a posteriori" dados los atributos, y
es conocida como la hipótesis máxima "a posteriori"' o hipótesis MAP. Así la clase o valor a
devolver será:
p(A1 , ... , A,, 1 c)p(c) c,1,_.11, = arg max p(c I A
1 , •• .,A,,)= arg max
"ªº' ,Ell,. p( Al, ... , A,,)
= arg max p(Al' ... A,, 1 c)p(c) l'EU<·
(77)
Donde Q< representa el conjunto de valores que puede tomar la variable C. Nótese que
en el último paso se ha eliminado la división debido a que el divisor sería el mismo para todas las
categorías.
Por tanto, el teorema de Bayes nos facilita un camino fácil y una semántica clara para
resolver esta tarea. Sin embargo, este método tiene un problema: su alta complejidad
computacional, debido a que necesitamos trabajar con distribuciones de probabilidad que
involucran muchas variables, haciéndolas en la mayoría de los casos inmanejables.
Una distribución de probabilidad conjunta es aquella que especifica las probabilidades de
todas las combinaciones de valores de un conjunto aleatorio.
El problema con esta definición es que cuando crece el número de variables, la estimación
de esta distribución de probabilidad conjunta se vuelve muy grande.
Un elemento que puede ayudar en este problema es la noción de independencia.
Supongamos por ejemplo que tenemos un dominio de problema con las variables: empleo (con
los valores Sí/No), hijos (con los valores Tiene/No tiene) y cumplimiento (con valores Paga/No
51
Paga). Adicionemos a este conjunto una cuarta variable llamada Tiempo (con valores
So leado/N ubl ado/LI uvi oso/Nevado).
Podríamos preguntar la relación entre P(Empleo, Hijos, Cumplimiento, Tiempo=Nublado)
y P(Empleo, Hijos, Cumplimiento). A fin de buscar una solución a la pregunta podríamos usar la
regla del producto:
P(A /\ B) = P(A I B)P(B) = P(B I A)P(A) (78)
Es decir,
P(Empleo, Hijos, Cumplimiento, Tiempo= Nublado)
= P(Tiempo= Nublado! Empleo, Hijos, Cumplimiento)P(Empleo, Hijos, Cumplimiento)
Consideremos el conocimiento empírico sobre el dominio del problema, el cumplimiento
de pago no tiene que ver con el estado del tiempo. De esta manera, podríamos simplificar la
respuesta a nuestra pregunta como sigue:
P(Tiempo= Nublado I Empleo, Hijos, Cumplimiento) = P(Tiempo= Nublado)
Bajo la consideración anterior, tenemos que:
P(Empleo, Hijos, Cumplimiento, Tiempo= Nublado)
= P(Tiempo= Nublado)P(Empleo, Hijos, Cumplimiento)
52
Para cada entrada de P(Empleo, Hijos, Cumplimiento, Tiempo) existe una ecuación
similar a la anterior. Tenemos entonces que podríamos generalizar lo anterior como:
P(Empleo, Hijos, Cumplimiento, Tiempo)
= ?(Empleo, Hijos, Cwnplimiento)P(Tiempo)
En términos prácticos si teníamos una Tabla de 32 elementos correspondientes a las
posibles combinaciones de las variables: 2x2x2x4, tenemos que esta Tabla de 32 elementos
puede ahora construirse con una Tabla de ocho elementos y una Tabla de 4 elementos.
La propiedad que hemos usado para simplificar el problema se conoce como
independencia (independencia marginal o independencia absoluta).
La independencia entre las propiedades a y h puede escribirse como:
P(alb) = P(a) o P(bla) = P(b) o P(a /\ b) = P(a)P(b) (79)
Las afirmaciones de independencia están basadas usualmente en el conocimiento del
dominio. Pueden reducir drásticamente la cantidad de información necesaria para especificar la
distribución conjunta completa. Así cuando están disponibles, las afirmaciones de independencia
nos pueden ayudar a reducir el tamaño de la representación del dominio y la complejidad del
problema de inferencia.
Otro concepto importante para reducir la complejidad del problema es la independencia
condicional. Si X. Y y Z son variables, la definición general de independencia condicional de dos
variables X e Y, dada una tercera variable Z es
53
(80)
La regla de Bayes puede ser un elemento de evidencia útil para contestar preguntas
probabilísticas condicionales. En particular, la información probabilística está muchas veces
disponible de la forma P(efectolcausa).
2.5.2.2 Definición de una Red Bayesiana.
Una Red Bayesiana B =< N, A. 0 > es un grafo acíclico dirigido 6<N,A> con una distribución
de probabilidad condicional para cada nodo, colectivamente representado por 0[Cheng Jie,
Greiner Russell; 1999]. Cada nodo n E N representa una variable del dominio, y cada arco
a E A entre nodos, representa una dependencia de probabilidad.
La especificación completa de una Red Bayesiana es como sigue [Russell Stuart y otros;
2003; Capítulo 14]:
1. Un conjunto de variables aleatorias forman los nodos de la red. Las variables pueden ser
discretas o continuas.
2. Un conjunto de enlaces dirigidos o flechas conectan pares de nodos. Si hay una flecha de
un nodo X a un nodo Y, se dice que X es un padre de Y.
3. Cada nodo X, tiene una distribución de probabilidad condicionada P(.X,IPadres(}{,)) que
cuantifica el efecto de los padres del nodo.
6 Un grafo acíclico dirigido es un grafo sin ciclos y dirigido: es decir. para cada nodo (también llamado ,érticc - v). no existe un camino directo que empiece y termine en v.
54
4. El grafo no tiene ciclos dirigidos (y así es un grafo acíclico dirigido, o GAD).
La topología de la red (el conjunto de nodos y enlaces) especifica las relaciones de
independencia condicional que se tienen en el dominio. El significado intuitivo de una flecha en
una red construida correctamente es, habitualmente, que X tiene una influencia directa sobre Y. Es
generalmente sencillo para un experto del dominio decidir qué influencias directas existen en el
área, mucho más sencillo, de hecho, que la especificación de las probabilidades. Una vez que la
topología de la red está diseñada, necesitamos especificar una distribución de probabilidad
condicional para cada variable dados sus padres.
A fin de explicar esto de manera gráfica, considérese la Figura 9. la cual es un ejemplo de
Red Bayesiana aplicada al proceso de calificación de crédito.
meses_ult_compra meses_ult_disp
SDO_VEN_om
/
~~ Figura 9. Red 13aycsiana para la calificación de crédito correspondiente a un período en que no se tiene infor111ación previa sobre el comportamiento de la 111orosidad.
55
Si concentramos la atención solamente en tres nodos: '"imp_lim_cred" (línea de Crédito),
"'imp_tot_cons'' (Consumos en el Período) e "imp_disp" (Disposiciones en el Período), podemos
aislar estos elementos como se muestra en la Figura I O:
imp_tot_cona imp_diap
Figura I O. Red 13ayesiamL relación de independencia condicional.
De la Figura I O podemos mencionar que existe independencia condicional entre los nodos
"'imp_tot_cons" e "imp_disp'' dada la variable ''imp_lim_cred'', lo cual se indica por la ausencia
de un enlace entre las primeras dos variables.
Una Red Bayesiana proporciona una descripción completa del dominio. Cada entrada de
la distribución de probabilidad conjunta puede calcularse a partir de la información de la red. Una
entrada genérica en la distribución conjunta es la probabilidad de una conjunción de asignaciones
concretas a cada variable tal como P(X1
= x /\ ... /\X,, = x,,). Para ésta usaremos la notación
abreviada P(x1, ... ,x,J. El valor de esta entrada está dado por la fórmula
11
P(x1 ••• x,,) = I] P(x, padres(X ,)) (81) 1=1
56
Donde padres(XJ denota los valores específicos de las variables de Padres(X,). Así, cada
entrada de la distribución conjunta está representada por el producto de los elementos apropiados
de las tablas de las probabilidades condicionales (TPC) de la Red Bayesiana. Las TPC
proporcionan así una representación descompuesta de la distribución conjunta.
En general, una Red Bayesiana puede ser usada para computar la probabilidad condicional
de un nodo dados los valores asignados a otros nodos; de aquí que una Red Bayesiana puede
emplearse como un clasificador que proporciona la distribución de probabilidad posterior del
nodo de clasificación dados los valores de otros atributos. Cuando se realiza un proceso de
aprendizaje de redes bayesianas desde conjuntos de datos. usamos los nodos para representar a
los atributos del conjunto de datos.
Una de las ventajas de la Red Bayesiana aplicada al proceso de clasificación (en este caso
de calificación de crédito), es que permite una selección natural de las características una vez que
ya se tiene identificada la estructura de la red; la explicación de esto se detalla a continuación.
La frontera de Markov de 11 es un subconjunto de nodos que protegen a 11 de ser afectado
por cualquier otro nodo fuera de esa frontera. Una de estas fronteras es el manto de Markov. el
cual es la unión de los padres de 11. los hijos den y. los padres de los hijos de 11.
La semántica topológica de una Red Bayesiana viene dada por cualquiera de los requisitos
siguientes. que son equivalentes:
1. Un nodo es independiente condicionalmente de sus no-descendientes, dados sus
padres.
2. Un nodo es independiente condicionalmente de todos los demás nodos de la red.
dados sus padres. hijos. y padres de sus hijos. esto es, dado su manto de Markov.
57
La tarea básica de cualquier sistema de inferencia probabilista es calcular la distribución
de probabilidad "a posteriori'' para un conjunto de variables pregunta, dado algún evento
observado ( esto es, alguna asignación de valores para un conjunto de variables evidencia).
Existen algoritmos que permiten realizar de manera más eficiente el cálculo de la
distribución de probabilidad "a posteriori", por ejemplo algoritmos de inferencia exacta, como la
eliminación de variables, la cual evalúa sumas de productos de probabilidades condicionadas tan
eficientemente como le es posible.
Al usar una Red Bayesiana como algoritmo de clasificación sobre los datos completos, el
manto de Markov del nodo de clasificación forma una selección de características natural debido
a que, todas las características fuera del manto de Markov pueden ser eliminadas de manera
segura de la Red Bayesiana.
2.5.2.3 Clasificadores de Red Bayesiana simples.
2.5.2.3.1 Naive-Bayes.
Una Red Bayesiana Naive Bayes es una estructura simple que tiene el nodo de clasificación como
nodo padre de todos los otros nodos. sin permitir otras posibles conexiones. Esto tiene las
ventajas siguientes: 1) es fácil de construir dado que la estructura esta dada "a priori" ( esto evita
el proceso de aprendizaje de la estructura de la red); 2) el proceso de clasificación es eficiente.
Ambas ventajas son debidas a la premisa de que todas las características son independientes entre
ellas. Esto pareciera una limitación del algoritmo, sin embargo en muchos conjuntos de datos en
que las variables no están fuertemente correlacionadas. el método es adecuado.
58
í'igura 11. Estructura Naivc ílaycs simple
2.5.2.3.2 Otros algoritmos que mejoran Naive Bayes.
A fin de mejorar el algoritmo Naive-Bayes, en [Cheng Jie, Greiner Russell; 1999] se menciona
que se han utilizado: 1) mecanismos de selección de características y, 2) medios para relajar las
premisas de independencia condicional. No se discutirá aquí la primera de las opciones dado que
de esto se hablará en la sección de selección de características; simplemente es de notar que
existen diferentes mecanismos para este proceso.
Referente a la segunda opción, se han propuesto algoritmos como el desarrollado por
Kononenko, el cual desarrolla una partición de los atributos en grupos disjuntos, asumiendo la
independencia sólo entre los atributos de diferentes grupos [Kononenko; 1991 ]. En este mismo
camino encontramos algoritmos como TAN (Tree Aumented Network), el cual permite
estructuras parecidas a árboles para representar las dependencias entre atributos.
2.5.3 Algoritmos genéticos.
De manera simple, un algoritmo genético (GA) es un procedimiento para buscar
sistemáticamente a través de una población de soluciones potenciales a un problema tal que las
soluciones candidatas que se acercan más a la solución de un problema tienen mayor oportunidad
de ser retenidas en la solución candidata que otras.
59
Supongamos que queremos calcular los parámetros a1, a2, ... ,a1,, b1, b2, ... ,bp, y e en la
siguiente ecuación de calificación de crédito para clasificar solicitantes para un préstamo:
(82)
Una vez que los parámetros son estimados, un solicitante se puede clasificar como bueno
o malo dependiendo de sif('C,) es mayor que o menor que O.
El procedimiento consiste en los siguientes pasos:
Primero, la población de a, b, y e es elegida. Por ejemplo. el número de posibles valores
a, puede ir de -1000 a +1000 y así respectiva111ente para cada a. el rango de h1 puede ir de O a 6,
etc. Para los propósitos del algorit1110, cada número en la solución es representado de for111a
binaria. Una solución para el problema es un conjunto completo de valores {0.1} para a1,
O], ... ,llp, h¡, h2, ... ,h1,. y C.
Una colección de O y I es conocido como una cadena o cro111osoma. Dentro de una cadena
se encuentran características particulares o genes, cada uno de los cuales toma valores
particulares o alelos. Una solución al problema de la calificación de crédito consiste de conjuntos
de genes arreglados en un registro, cada gene tiene un valor de O ó I y cada conjunto relacionado
a a1, x1, 11 1, a2, x2• n2. El registro completo es un cromosoma.
Segundo. un número de soluciones son seleccionadas para su inclusión en la población
intermedia. Esos podrían ser escogidos de manera aleatoria a menos que se tenga conocimiento
previo de valores más apropiados. Para seleccionar los 111iembros de la población intermedia, el
60
rendimiento de cada solución en la población inicial es calculado. El rendimiento es llamado
fitness. En el problema de la clasificación de crédito el fitness puede ser calculado como el
porcentaje de casos correctamente clasificados. En esta segunda etapa una población intermedia
que contiene miembros de la población original es creada. No se crean nuevas cadenas.
Tercero, se crean nuevas cadenas. Un número dado de soluciones de la población
intermedia es seleccionado y los operadores genéticos son aplicados. Un operador genético es un
procedimiento para cambiar los valores dentro de ciertos alelos en uno o un par de cadenas. Dos
operadores pueden ser usados: cruza y mutación. Cada cromosoma tiene la misma oportunidad de
selección para la cruza,A, lo cual es determinado por el analista.
El cromosoma seleccionado, incluyendo los hijos resultantes de la cruza y después de la
mutación, forman la nueva población. Las etapas dos y tres son repetidas un número determinado
de veces.
Los parámetros seleccionados por el analista son el número de soluciones candidatas en la
población, las probabilidades de cruza y de mutación y el número de generaciones. [Michalewicz;
1996] sugirió algunas reglas heurísticas y un tama110 de población de 50-100, con Pe
(probabilidad de cruza) entre 0.65 y 1.0 y p,11 (probabilidad de mutación) entre 0.001 y 0.01
2.5.4 Máquinas de soporte vectorial.
Esta técnica es relativamente reciente a comparación de otras como las redes neuronales. Fue
propuesta en [Vapnik; 1995]. La técnica trata de transformar vectores de entrada en un espacio de
características de dimensionalidad alta a través de una transformación no lineal. En este espacio,
un híper plano separador óptimo, que maximiza el margen de separación, es construido
resolviendo un problema de optimización cuadrática.
61
Recientemente algunos investigadores han introducido las Máquinas de Soporte Vectorial
(Supporl Vector Machines - SVM) en el problema de la evaluación del riesgo de crédito. [Van
Gestel; 2003] usó SVM de mínimos cuadrados (LS-SVM) para calificación de crédito de bancos
y reportó resultados experimentales comparados con cuadrados mínimos ordinarios (OLS).
regresión logística ordinaria (OLR) y perceptrón multicapa (MLP). Los resultados mostraron que
la exactitud del clasificador LS-SVM fue mejor que los otros tres métodos. [Schebesch y
Stecking; 2005] usaron una SVM estándar con un ''kernel" lineal y uno RBF para la calificación
de crédito de solicitantes y usaron un SVM basado en un ''kernel" lineal para dividir un conjunto
de solicitantes de crédito etiquetados para dividir en patrones ''típicos" y "críticos'', que pudieran
ser usados para rechazar aplicaciones. [Baesens; 2003] realizó un estudio de rendimiento de 17
técnicas de clasificación diferentes sobre ocho diferentes conjuntos de datos de crédito reales. Se
usaron SVM y LS-SVM con "kernel" lineal y RBF y se adoptó un mecanismo de búsqueda de
grid para ajustar los híper parámetros en su estudio. Los resultados experimentales mostraron que
seis diferentes métodos son mejores en términos de exactitud en la clasificación - regresión
lineal, regresión logística. programación lineal, árbol de clasificación, Red Neuronal y máquinas
de soporte vectorial.
En la referencia [Lean Yu; 2008] encontramos varios usos de las máquinas de soporte
vectorial aplicadas al problema de la calificación de crédito. Entre los tipos de propuestas
encontramos:
• Máquinas de soporte vectorial que usan mínimos cuadrados y búsqueda directa
para la selección de parámetros.
• Máquinas de soporte vectorial que usan algoritmos de punto más cercano.
62
Se habla también de que las SYM tienen el inconveniente de requerir un largo tiempo para
el proceso de entrenamiento en bases de datos que son grandes y que no tiene un mecanismo de
interpretación que sea sencillo al usuario (los resultados no son intuitivos). En este sentido se
proponen algoritmos que combinan las SYM con conjuntos rugosos 7 .
2.6 Calificación de comportamiento.
La calificación de comportamiento es un problema que puede ser visto como un problema de
clasificación o bien desde una perspectiva de repago y uso de la línea de crédito del cliente. El
problema es dificil si consideramos que contamos con bases de datos ele múltiples dimensiones
compuestas de registros de cuentas mensuales y registros transaccionales diarios [Nan-Chen
Hsieh; 2004].
Este autor señala que hasta el momento de la publicación de su artículo (2004), las
técnicas de minería de datos habían estado descubriendo reglas generales, prediciendo banca rota
personal y realizando calificación de crédito en bases de datos bancarias. Pocos estudios se tenían
en tal momento respecto a la calificación de comportamiento del cliente. El autor realizó un
estudio en que analizó datos de cuentas de clientes y sus transacciones de tarjeta de crédito.
La metodología empleada incluyó el preprocesamiento de datos, el modelado de la
calificación de compor1amiento, el análisis de sensibilidad de la importancia relativa de los
atributos contribuyendo al perfil del cliente y un modelo de calificación de comportamiento en
dos etapas.
7 Los conjuntos rugosos [Lean Yu: 2008] son una herramienta matemática que trata con la vaguedad o incertidumbre como una extensión de la teoría de conjuntos clásica. Los conjuntos rugosos pueden ser considerados como conjuntos con límites difusos - conjuntos que no pueden ser caracterizados precisamente usando el conjunto disponible de atributos.
63
La característica clave de su modelo de calificación de comportamiento en dos etapas es
una cascada que involucra un self organizing map (SOM) y un inductor de regla de asociación A
Priori. Un SOM es un algoritmo de aprendizaje no supervisado que relaciona datos
multidimensionales como vectores de entrada similares a la misma región de un mapa neuronal;
A Priori [Rakesh Agrawal et al; 1993] es usado principalmente para descubrir las relaciones
potenciales entre características que ocurren de modo síncrono en una base de datos. En la primer
etapa del método presentado, un modelo de calificación de comportamiento del cliente
conceptual es establecido para predecir grupos de clientes rentables basados en comportamiento
de repago previo y calificación de comportamiento RFM [Bult & Wansbeek; 1995]; un mayor
detalle se encuentra en la referencia indicada pero a manera de resumen mencionaré que el
modelo RFM (Recency, Frecuency and Monetary Value) consiste en una serie de medidas del
tipo Recency, por ejemplo el tiempo promedio entre los días que tarda en hacer un cargo y pagar
la factura; Frecuency, en que las medidas podrían incluir el número de compras hechas en un
período de tiempo; Monetary, donde las variables incluyen el monto de dinero gastado en un
período de tiempo.
La red SOM fue empleada para clasificar a los clientes en tres grupos de rentabilidad,
usuario revolvente (aquel que paga menos del total del crédito usado en el período de tiempo en
que se genera el gasto, por lo tanto genera intereses), usuario totalero (aquel que liquida el saldo
exigible correspondiente al período y por tanto no genera intereses) y usuario de conveniencia
(aquel que utiliza la tarjeta sólo en períodos específicos de tiempo, normalmente para la
adquisición de bienes y servicios que no se adquieren con frecuencia).
64
Una vez que la red SOM identificó los clientes, el algoritmo A Priori perfila cada grupo
de clientes basándose en características demográficas y geográficas para construir y mantener la
base de clientes más rentable.
Después del análisis de la base de datos, el estudio realizado por el autor mostró que los
modelos de calificación de comportamiento son un método efectivo para conocer a sus clientes
más rentables.
65
Capítulo 3. Selección de variables para los métodos de calificación y estimación de series de tiempo.
3.1 Selección de características.
Las decisiones de evaluación de riesgo de crédito involucran el procesamiento de grandes
voli'.11nenes de datos. Algunas técnicas que fueron desarrolladas bajo la rúbrica general de
aprendizaje de máquina han sido utilizadas exitosamente para las decisiones de evaluación de
riesgo financiero. No importando el método usado. una de las decisiones críticas en el proceso es
escoger un conjunto de características esenciales.
La selección de características es el problema de escoger un subconjunto pequei'ío de
características que idealmente es necesario y suficiente para describir el concepto objetivo.
El objetivo final de la selección de características es obtener un espacio de características
con:
1. Baja dimensionalidad
2. Retención de información suficiente
3. Mejora de la separación en el espacio de características para ejemplos en diferentes
categorías removiendo los efectos debidos a características de ruido
4. Posibilidad de comparación entre ejemplos en la misma categoría
66
El problema de selección de variables puede ser visto desde varias vistas:
1. ¿Cómo buscar por las mejores características?
2. ¿Qué criterio seguimos para definir que una característica es relevante?
3. ¿Cómo dar mantenimiento al conjunto de características? (de manera secuencial o en
paralelo); es decir, ¿cómo se insertan, borran, actualizan o seleccionan las características
de un conjunto?
4. Si se cuenta con aplicaciones, ¿Cómo determinan las características deseables?
Las características redundantes pueden tener un efecto negativo en los algoritmos de
clasificación:
1. Contar con más características requiere de más instancias debido a que se debe asegurar la
variabilidad estadística entre patrones de diferentes clases.
2. Las características irrelevantes pueden engañar a los algoritmos de aprendizaje o llevar a
que éstos hagan un ove,jit de los datos.
3. Las características adicionales pueden llevar a obtener un clasificador más complejo.
67
La selección de características nos permite:
1. Menos datos tal que el algoritmo de clasificación puede aprender más rápido.
2. Exactitud más alta tal que el clasificador puede generalizar mejor los datos.
3. Resultados más simples tal que es más fácil de entender.
4. Menores características tal que en la siguiente colección de datos se puede ahorrar
removiendo características irrelevantes.
No se discutirá de manera exhaustiva el tema de la selección de características (en
particular de métodos computacionales usados para tal propósito), una referencia buena que trata
este tema mediante algoritmos enumerativos, secuenciales y algoritmos genéticos se encuentra en
[11-Seok Oh; 2004]; sin embargo si se tratará posteriormente el uso de estadística para este tema.
Otra fuente que aborda el problema de la selección de características, pero esta vez con
algoritmos que evalúan conjuntos de características en vez de características aisladas, se
encuentra en [Y Liu, M. Schumann; 2005].
En [Selwyn Piramuthu; 1998] se aborda el problema de la selección de características
usando tanto las técnicas secuenciales como las que se refieren a conjuntos de datos; es una
referencia adecuada en caso que se desee profundizar en el lema, el artículo es interesante ya que
los datos de prueba corresponden al problema de aprobación de crédito.
68
El artículo [Hassan Sabzevari; 2007] presenta igualmente la aplicación de algoritmos
secuenciales como de conjuntos. La diferencia se encuentra en el propósito del artículo; en este
caso se trata de una comparación entre métodos estadísticos y minería de datos bajo un contexto
de disposición limitada de datos.
Algunas ideas sencillas pero que expresan los elementos mínimos a ser considerados en
un proceso de selección de características [Orallo Jose, Ramírez María, Ferri César; 2004] son los
siguientes:
• Eliminación de claves candidatas. Cualquier atributo que constituye una llave primaria de
una tabla o es parte de dicha llave (parcial o totalmente) debe ser eliminado.
• Eliminación de atributos nominales con alta cardinalidad. Esto significa eliminar atributos
que tienen tantos valores como ejemplos existen en la entidad correspondiente.
• Eliminación de atributos dependientes. Dentro del proceso de normalización en base de
datos cuando existen dependencias funcionales entre atributos, se trata de normalizar en
varias tablas. Un ejemplo de esto es el código postal, la ciudad y la región de un
individuo, con el código postal tenemos la ciudad y la región, con la región tenemos el
país, esto implica que tenemos una serie de dependencias funcionales que en términos de
bases de datos relacionales implican un proceso de normalización. Los datos, cuando se
trabaja en procesos de minería de datos, pueden provenir de una ··vista minable'', que ha
desnormalizado los datos, lo que implica que podríamos tener datos redundantes.
69
3.1.2 Criterios de selección.
Necesitamos definir el concepto de característica "buena". Esto puede verse de dos maneras: a) si
las características seleccionadas ayudan a mejorar la exactitud del clasificador y b) si las
características seleccionadas ayudan a simplificar los resultados aprendidos tal que sean más
entendibles. Algunas de las medidas empleadas para elegir las características son las siguientes:
• Medidas de información
• Medidas de distancia
• Medidas de dependencia
• Medidas de consistencia
• Medidas de exactitud
Una descripción de las diferentes medidas sale del alcance del documento. Para obtener
mayores referencias se puede consultar [Huan Liu; 1998]. Se presenta a continuación un ejemplo
de cómo se puede estimar la relevancia de una característica dentro de un conjunto de variables.
70
3.1.3 Medidas de información.
A fin de mostrar algunas ideas sobre la evaluación de una característica como buena o mala,
presentaré ahora la manera en que se evalúa por medidas de información. Este método no es
superior a los otros que he mencionado, simplemente es un algoritmo que por su sencillez puede
ser mencionado rápidamente.
Sea P(c,) la probabilidad anterior para todas las clases i, y P(xlc,) la probabilidad
condicional de x dada la clase e,. Por el teorema de Bayes, tenemos:
P(c; )P(x e;) P(c I x) =
' P(x)
P(x) = ¿ P(c, )P(xc;)
(83)
Ganancia de información. La entropía de Shanon se puede usar como medida de ganancia de
información. En la Figura 12, el dato Des dividido por la característica X en p particiones D1, D1,
... , D,, y existen d clases.
D
o Característica X
V1 V2 Vp
() ~, o
D1 02 Dp
Figura 12- Evaluación de características
71
d
l(D) = -¿ P,>(c; )log 2 P0 (c,) (84) i=I
" I(D/) = -¿ P
01 x(c;)log 2 Pn, x(c,) (85)
i=I
Y la ganancia de información debido a la característica X esta definido como
/! D. IG(X) = l(D)- ¿ 1
, I(D/) ¡=I D
(86)
Donde IDI es el número de instancias en D, y Pn(cJ son datos previos para D.
Un algoritmo de ordenamiento de características usando la ganancia de información es
mostrado ahora. Su complejidad en tiempo para obtener la lista clasificada L es O(N2), donde N
es el número de características.
lnformation-Gain
Input: D- el conjunto de datos de entrenamiento;
Ai - todas las características, i=l ,2, ... ,N
lnitialize: L = {}
For i=I to N
Begin
Calculate IG(Ai);
/*L- empty list */
insert Ai in L in descending order
End
Output: L /*The first Ai in Lis the best*/
72
3.2 Estadística usada en la selección de características.
3.2.1 Análisis de correlación.
Es frecuente decir que dos variables están relacionadas entre ellas [Hanke, 2006], aunque podría
ser incorrecto decir que el valor de una de las variables depende de, o esta influenciado por, los
cambios en los valores de la otra variable. En cualquier evento, una relación puede ser establecida
calculando la correlación entre dos variables. El coeficiente de correlación, r, es una medida de la
asociación lineal entre dos variables numéricas. Este puede variar entre O y 1 (un valor cero
indica la ausencia de correlación mientras que un valor de uno indica correlación perfecta).
Cuando el coeficiente de correlación es mayor que cero, los dos variables se dice que están
positivamente correlacionadas (cuando una es grande la otra es grande), y cuando es menor que
cero, se dicen que están correlacionadas negativamente (cuando una es grande la otra es
pequeña). Intuitivamente el signo de la correlación nos dice dos cosas:
1. El signo(+ ó -) indica la dirección de la relación entre las dos variables.
2. La magnitud del coeficiente de correlación es una medida de la fuerza de la asociación
La correlación es una medida de la asociación lineal entre dos variables. Si dos variables
están relacionadas de manera no lineal. el coeficiente de correlación no proporcionará la fuerza
de la relación. Cuando el tamaño de la muestra es pequeño, el valor de r de la muestra es
notoriamente inestable.
73
Un tercer punto sobre el coeficiente de correlación tiene que ver con la presencia de
valores extremos. El valor de r puede ser severamente afectado por la presencia de una sola
observación que cae fuera del grueso de los datos.
La correlación estadística [Orallo José, Ramírez María, Ferri César; 2004] es un método
que entrega una matriz de correlaciones entre variables. Esta información puede usarse para ver
qué atributos están más estrechamente relacionados y qué atributos parecen ser más
independientes. Esto es útil para apoyar un proceso de selección de características, aunque debe
ser utilizada cautelosamente; en realidad un análisis de correlación permite, además de ayudar en
la selección de las variables, comprender los datos y, por tanto realizar un proceso exploratorio de
los mismos. Por ejemplo, podríamos hablar de atributos que no se encuentren aparentemente
correlacionados pero que si tomamos ciertos rangos dentro de alguno de los atributos éste si
presenta correlación con el otro atributo, o bien la correlación podría tener una forma de
campana.
Otro método que podríamos utilizar es el análisis por modelo lineal [Orallo José, Ramírez
María, Ferri César; 2004]. Este método aplicado al proceso de calificación de crédito se podría
formular matemáticamente de la siguiente forma:
(87)
Donde las x, son los atributos originales, por ejemplo X¡ = saldo en el período, X:!= límite
de línea del crédito, x11 = consumos en el período, y = mora. Las a, son los coeficientes
estimados.
74
Por ejemplo, si tuviéramos los siguientes coeficientes:
Atributo Saldo Límite Consumo Mora 2.4 -0.3 3.4 Tabla 1. Atrihutos usados en un modelo lineal como ejemplo
Podríamos ver que el atributo más influyente es el consumo y el menos influyente es el límite.
De esta manera podríamos revisar que aunque dos variables estén correlacionadas, el
modelo lineal podría destacar que la influencia se puede obtener de otras variables. Estas ideas
son realmente sólo una parte de un conjunto de técnicas conocidas como análisis multivariante. Si
quisiéramos, por ejemplo, saber si podemos descartar algunas variables (que consideráramos que
no influyen en nuestro anterior ejemplo en la variable Mora), podríamos usar el Análisis de la
Varianza (conocido como ANOVA).
Otra forma de ver el problema, sobre todo si los atributos son nominales, es obtener un
análisis de frecuencias, es decir, ver para cada combinación de valores de atributos cuántos casos
hay.
Si el análisis de frecuencias anterior estuviera centrado sólo en dos variables, esta tabla de
frecuencias se denominaría matriz de incidencias o tabla de contingencia bidimensionales. Los
análisis que parten de este tipo de matriz se denominan análisis de correspondencias (que también
forman parte del análisis multivariante). El análisis de correspondencias se basa en realizar tests
ji-cuadrado ( x") para saber si el efecto de los valores de una variable es independiente de los
valores de la otra.
75
3.3 Estimación de series de tiempo.
3.3.1 Promedio móvil
Es un método simple para suavizar los datos de ''historia pasada" [Spiros, Makridakis; 1998].
Existen variantes tal como los promedios móviles simples, los promedios móviles dobles y los
promedios móviles pesados. En todos los casos el objetivo es suavizar los datos pasados para
estimar el componente de tendencia del ciclo. La media móvil simple tiene por idea fundamental
que las observaciones cercanas en tiempo son también probables a ser cercanas en su valor. De
esta manera, el tomar un promedio de los puntos cercanos a una observación dará un estimado
razonable de la tendencia del ciclo en esa observación. El promedio elimina algo de la
aleatoriedad en los datos, dejando un componente de ciclo de tendencia suave.
Un promedio simple se puede representar por la siguiente ecuación [Hanke, 2006]:
1 1
f,+, = I >~ I 1=1
(88)
Como se observa en la ecuación anterior la idea de un promedio móvil simple es
pronosticar el siguiente valor en el tiempo promediando los valores de la variable correspondiente
en el pasado.
Si deseamos dar peso a los valores más recientes y descartar los valores más antiguos
podemos usar un promedio móvil, el cual se representa como:
76
y = Y, + Y,_1 + ... + Y,_k+I
t+I k (89)
3.3.2 Suavizado exponencial
Si una serie de tiempo se genera por un proceso constante sujeto a error aleatorio (o ruido),
entonces la media es una estadística útil y puede ser usada como un pronóstico para los siguientes
períodos. Sin embargo, si las series de tiempo involucran una tendencia (en dirección hacia arriba
o abajo), o un efecto estacional, o tanto una tendencia y un efecto estacional, entonces el
promedio simple no puede capturar los patrones en los datos. Es así como surgen otros métodos
tal como el suavizado exponencial.
Este es un método que permite producir series de tiempo suavizadas [Hanke John E.,
Wichern Dean W.; Capítulo 4; 2009]. En comparación con el método de media móvil, en el que
las observaciones anteriores tienen el mismo peso, el suavizado exponencial asigna pesos que
decrecen exponencialmente mientras las observaciones se vuelven más antiguas.
En el caso del algoritmo de media móvil, los pesos asignados a los períodos son iguales
( 1 / N). En el suavizado exponencial, existen uno o más parámetros de suavizado a ser
determinados (o estimados) y esas elecciones determinan los pesos asignados a las observaciones.
Se describirá a continuación el algoritmo de suavizado exponencial simple:
Se inicia poniendo S2 al valor y 1, donde S, representa la observación suavizada o EWMA
mientras que y representa la observación original. Los subíndices se refieren a los períodos de
tiempo, 1,2, ... ,n. Para el tercer período, S3 = ay 2 + (1- a)S 2 ; y así sucesivamente. No hay valor
de S1, las series suavizadas inician con la versión suavizada desde la segunda observación.
77
Para cualquier período de tiempo t, el valor suavizado S, se encuentra calculando:
S, = cy1_ 1 + (1- a)S,_1 O< a::; 1 t ~ 3 (90)
La anterior es la ecuación básica del suavizado exponencial y el parámetro a es llamado
constante de suavizado.
El EWMA inicial tiene un rol importante en el cálculo de los EWMA siguientes. Poner S2 a
y 1 es un método de inicialización; otra manera es ponerlo al objetivo del proceso; un método
adicional es promediar las primeras cuatro o cinco observaciones.
Algo importante es mientras más pequeño a es, se hace más importante la selección del
primer EWMA.
El fundamento matemático se muestra ahora: expandamos la ecuación básica sustituyendo
primero por S,.1 en la ecuación básica para obtener:
S, = cy1_ 1 + (1 - a)[cy,_2 + (1- a)S,_ 2 ] (91)
= cy1_1 + a(l - a)y,_2 + (1- a)2 S,_2
Sustituyendo por S,_ 2, luego por S,.3, y así sucesivamente, hasta que llegamos a S2 (el cual
es y 1), se puede mostrar que la ecuación expandida puede ser escrita como:
78
1-2 i-1
S, =a¿(l-a) y1
_1 +(l-a)'-2 S2 , t?.2 (92)
1=1
Corno ejemplo tornemos la ecuación expandida para el valor suavizado S5:
Ss = al(I - a)º Ys-1 + (1- a)1 Ys-2 + (1- a) 2
Ys-J J+ (1- a)3 S2 (93)
Esto muestra el comportamiento exponencial. Los pesos a(I - a)' decrecen
geométricamente, y su suma es la unidad corno se muestra abajo usando una propiedad de las
series geométricas:
af (l-a)1 =a[l-(1-a)' 17 = 1-(1-a)' 1=0 1-(1-a) J
(94)
De la última fórmula vemos que el término de suma muestra que la contribución del valor
S, se hace menor en cada período siguiente.
3.3.3 ARIMA.
Este modelo significa Modelos Autoregresivos Integrados de Medias Móviles [Hanke John E.,
Wichern Dean W.; Capítulo 9; 2009]. Se define un modelo como autoregresivo si la variable
79
endógena de un período t es explicada por las observaciones de ella misma correspondientes a
períodos anteriores añadiéndose, como en los modelos estructurales, un término de error.
Los modelos autorregresivos se abrevian con la palabra AR tras la que se indica el orden
del modelo: AR( I ), AR(2), ... etc. El orden del modelo expresa el número de observaciones
retrasadas de las series temporales analizadas que intervienen en la ecuación. Así, por ejemplo,
un modelo AR( I) tendría la siguiente expresión:
(95)
El término de error de los modelos de este tipo se denomina generalmente ruido blanco
cuando cumple:
• Media nula
• Varianza constante
• Covarianza nula entre valores correspondientes a observaciones diferentes
La expresión genérica de un modelo autoregresivo, no ya de un AR(I) sino de un AR(p)
es la siguiente:
(96)
80
Pudiéndose escribir de forma abreviada como:
(97)
Donde </J,,(L) es lo que se conoce como operador polinomial de retardos:
(98)
y donde, a su vez, el ténnino L es lo que se conoce como operador retardo tal que,
aplicado al valor de una variable en t, dé como resultado el valor de esa misma variable en t-1:
(99)
y aplicando sucesivamente p veces retarda el valor en p períodos
(100)
Normalmente se suele trabajar con modelos autorregresivos de órdenes bajos: AR( 1) o
AR(2), o bien con órdenes coincidentes con la periodicidad de los datos de la serie analizada (si
es trimestral AR( 4 ), si es mensual AR( 12) ... ).
81
Los modelos ARIMA no estacionales son clasificados como ARIMA(p,d,q), donde:
• Pes el número de términos auto regresivos
• Des el número de diferencias no estacionales
• Q es el número de errores de pronóstico retrasados en la ecuación de predicción
El modelo ARIMA adecuado a la serie de tiempo se obtiene identificando el orden de
diferencias necesarias para hacer estacionarias las series y remover las características gruesas de
la estacionalidad. Si se predice que la diferencia en la serie es constante, se obtiene lo que se
conoce como caminata aleatoria o modelo de tendencia aleatoria. Se presentan ahora algunos
modelos ARIMA básicos:
ARIMA(0,1,0) - Caminata aleatoria. La ecuación de predicción para este modelo puede ser
escrita como:
f(t)-Y(t-1)=µ (101)
Donde el término constante es la diferencia promedio en Y
82
ARIMA(l,1,0) - Modelo auto regresivo de diferencia de primer orden. Si los errores de la
caminata aleatoria presentan auto correlación, es posible que el problema se pueda arreglar
adicionando un retraso de la variable dependiente a la ecuación de predicción:
f (t) = µ + Y ( t - 1) + r/J( Y ( t - 1) - Y ( t - 2)) ( 102)
Esto es una auto regresión de primer orden, o AR( 1 ), con un orden de diferencia no
estacional y un término constante.
ARIMA(0,1,1) sin constante - Suavizado exponencial simple. Esta es otra estrategia para
corregir los errores de autocorrelación en un modelo de caminata aleatoria. Recordemos que para
algunas series de tiempo no estacionarias, el modelo de caminata aleatoria no es tan bueno como
la media promedio de valores pasados. En otras palabras, más que tomar las más recientes
observaciones como el pronóstico de la siguiente observación, es mejor usar un promedio de las
últimas observaciones para filtrar el ruido y estimar de mejor manera la media local. Esto se
representa por:
f (t) = Y(t - 1)- lk(t - 1) ( 103)
Donde e(t-1) denota el error en el período t-1
83
ARIMA(0,1,1) con constante -Suavizado exponencial simple con crecimiento.
Este se representa por:
f(t) = µ + Y(t -1)- tk(t -1) (104)
ARIMA(0,2,1) o (0,2,2) sin constante - Suavizado exponencial lineal. Estos métodos son
modelos ARIMA en los cuales se usan dos diferencias no estacionales en conjunción con
términos de MA (Media Móvil). La segunda diferencia de una serie Y no es simplemente la
diferencia entre Y y el mismo retrasado por dos períodos, sino es la primer diferencia de la primer
diferencia, es decir el cambio en el cambio de Y en una función continua en período: esto mide la
"aceleración" o ··curvatura'' en la función en un punto en el tiempo.
El modelo ARIMA(0,2,2) sin constante predice que la segunda diferencia de las series es
una función lineal de los dos últimos errores del pronóstico:
f(t)- 2Y(t -1) + Y(t - 2) = -01e(t -1)- B~e(t - 2) ( 105)
Donde 01 y 02 son los coeficientes MA( 1) y MA(2) . donde MA( 1) corresponde a la
cantidad 2(1 - a). es decir:
f(t) = 2Y(t-1)-Y(t- 2)-2(1-a)e(t- l)+(l -a/e(l-2) ( 106)
84
3.4 Modelos híbridos.
Como pudo apreciarse en secciones anteriores, encontramos una amplia disponibilidad de
métodos para resolver el problema de la calificación de crédito y de comportamiento. Si bien los
métodos estadísticos siguen siendo marcados por los autores como herramientas clásicas, los
métodos por algoritmos inteligentes están tomando fuerza como alternativas para resolver el
problema.
Una gran ventaja de los métodos computacionales es que al buscar optimizar la
clasificación bajo estudio (crédito o comportamiento), podemos encontrar muchas alternativas
para resolver el problema. De aquí que nos podamos cuestionar, ¿Cuál es la opción que
proporciona mejores resultados? Aquí es donde entramos a analizar las ventajas y desventajas de
los diferentes métodos.
En [Defu Zhang; 2007] se presenta una descripción breve de las ventajas de algunos
métodos. Se menciona que la regresión logística es adecuada para muchas funciones de
distribución y que tiene capacidad de clasificación buena para datos lineales, sin embargo
funciona de manera inadecuada cuando los datos son no lineales. La programación genética
puede ser entendible y ha sido usada en regresiones simbólicas. Sin embargo toma mucho tiempo
y no encuentra reglas para clientes nuevos. Las redes neuronales son simulaciones simples del
cerebro humano pero tienen la desventaja de caer en mínimos locales y son dificiles de
interpretar. Tenemos también las SVM, las cuales pueden obtener soluciones óptimas globales,
sin embargo tenemos el problema de determinar qué conocimiento es redundante, qué
conocimiento es más útil y por tanto tiene un rol importante.
85
Ante este panorama de disponibilidad amplia de métodos pero ventajas y desventajas de
cada uno de ellos nos podríamos preguntar, ¿Cómo disponer de un modelo que utilice las
ventajas de ellos y por tanto pueda mejorar los resultados?
Algunos autores han considerado la mezcla de varios de estos métodos para tratar de
aprovechar sus ventajas o bien cubrir las limitaciones de los mismos con las ventajas encontradas
en otras técnicas.
A este respecto encontramos artículos como [Defu Zhang; 2007], en el cual se presenta
una comparación entre redes neuronales, programación genética y máquinas de soporte vectorial.
Adicionalmente se menciona que se creó un modelo combinado usando los tres métodos. Se
presentan los resultados mostrando que el modelo híbrido es una opción buena, sin embargo no
existe detalle respecto al modelo y los aspectos que influyen en el resultado. Los autores plantean
como trabajo futuro el tener un modelo que deba decidir sobre múltiples niveles, comparado a la
respuesta de dos niveles típica de la calificación de crédito.
En [Yanwen Dong; 2007] se hace referencia a que recientemente se han empezado a usar
métodos híbridos para mejorar la predicción de mora y los modelos de calificación de crédito. En
realidad no es un artículo que exponga métodos híbridos, sin embargo aborda como una
posibilidad el uso de dichos métodos.
En [Hui-Chung Yeh; 2007] se presenta una comparación entre varios métodos: análisis
discriminante, árboles de decisión, redes neuronales y un método híbrido. Este último consistió
en el uso de análisis discriminante para la selección de variables y una fase posterior de redes
neuronales como algoritmo de clasificación.
Un artículo adicional que presenta los modelos híbridos es [Hsieh; 2005]. En éste se usan
técnicas de redes neuronales y agrupamiento. Las últimas se usan para preprocesar las muestras
86
de entrada con el objetivo de identificar muestras no representativas en grupos inconsistentes y
aislados y las redes neuronales se usan para construir el modelo de calificación de crédito. La
etapa de agrupamiento usó un algoritmo SOM (Self Organizing Map). para determinar
automáticamente el número de grupos y los puntos de inicio de cada grupo. Se usó entonces un
algoritmo de agrupamiento ''K-rneans·• para generar los grupos de las muestras pertenecientes a
nuevas clases y eliminar las muestras no representativas de cada clase. En la etapa de la Red
Neuronal, las muestras con las etiquetas de clase nuevas fueron usadas en el diseño del modelo de
calificación de crédito.
3.5 Análisis crítico
Una vez que se ha presentado una discusión breve sobre los diferentes métodos usados. el
proceso de selección de características y los métodos híbridos presentaré un resumen de algunos
artículos de carácter científico que han sido publicados al respecto.
La estimación de la calificación de crédito es resuelta mediante programas disponibles en
el mercado de compañías como FIC08• Esto tiene la ventaja de una amplia experiencia en el
desarrollo de software enfocados al problema de crédito. Sin embargo. es software que requiere
de un monto de inversión.
Por otro lado tenemos software enfocado a la minería de datos y el análisis estadístico. tal
como SAS. Esta es una alternativa para el desarrollo de modelos propios y tiene el respaldo de
una empresa enfocada tradicionalmente en aspectos estadísticos. Al igual que en el caso anterior
la desventaja es el costo que representa.
8 FICO es una compañía pionera en la calificación de crédito. Fue rundada en 1956 con el nombre de Fair, Isaac and Company por el ingeniero Bill Fair y el matemático Earl Isaac. Aunque rue renombrada como Fair Isaac Corporation en el aiio 2003. la compafüa es popularmente conocida como FICO.
87
Algunos autores se han enfocado a la búsqueda de otros métodos que permitan resolver el
problema; actualmente la búsqueda en el ámbito de la investigación se centra en los métodos
computacionales apoyados en algoritmos de la Inteligencia Artificial.
Los modelos que se generan mediante la investigación permiten buscar otras alternativas
que aun siendo pequeí'ías en cuanto a la mejora de la exactitud de clasificación, tienen un alto
impacto en dinero para las instituciones que evalúan otras alternativas.
Adicionalmente al motivo anterior, lo cual considero como una justificación para mt
investigación, encuentro dos aspectos relevantes: el costo que implica el desarrollo de modelos de
estimación del comportamiento; no existe un método universal de clasificación que tenga un
100% de confiabilidad, sin embargo sí creo es posible sugerir métodos alternativos que puedan
ser analizados por empresas que no pueden afrontar el costo de software comercial disponible y
sin embargo requieren de ser más eficientes en la detección del comportamiento de sus clientes.
El segundo aspecto a considerar es la parte metodológica, en mi caso consiste en proporcionar
ideas de cómo con base en los datos disponibles se puede crear una serie de pasos para la
creación de modelos de comportamiento del cliente.
La Tabla 2 muestra la investigación realizada de algunos artículos referentes al proceso de
clasificación de crédito y de comportamiento (en la mayoría relativamente recientes). Los
artículos son relevantes para el problema, sin embargo no puedo decir que cubre el universo de
posibilidades que se realizan por métodos inteligentes. Se evalúan los siguientes aspectos:
\. Si se trata de información real. Los algoritmos presentados en algunos casos utilizan bases
de datos de prueba, las cuales se entienden son adecuadas al problema previamente. Este
88
es un aspecto relevante porque las bases de prueba normalmente incluyen un conjunto
reducido de atributos .
2. Si se utiliza un algoritmo de clasificación . El problema en sí mismo se enfoca en clasificar
instancias en dos grupos: bueno y malo. En el caso de comportamiento se encuentran
algunos algoritmos que aplican métodos de estimación del tiempo en que ocurrirá una
acción a los grupos definidos. Este aspecto evalúa si el artículo utilizó un algoritmo de
clasificación para establecer a que grupo pertenece la instancia analizada; en el caso de no
tratarse de un problema de clasificación se podría utilizar un algoritmo de
comportamiento para evaluar el tiempo a una acción determinada.
3. Los métodos que compara. En este caso se observa que existe una gran variedad de
posibilidades para enfrentar el problema.
4. Número de variables, información demográfica, transaccional y de Buró de Crédito. En
general los algoritmos usan información demográfica, cuando se trata de modelos de
comportamiento es frecuente la inclusión de variables transaccionales. En cuanto a los
datos del Buró de Crédito, se puede decir que es información no muy común dado su
costo y lo sensitivo de la información.
89
5. En cuanto a las herramientas no se dispone de información en la mayoría de los casos.
6. Es frecuente que se evalúe crédito y comportamiento si consideramos que ambos son
problemas que pueden enfocarse a la clasificación.
90
¿Información ¿Algoritmo de Métodos que # D -Demográfica Software Prueba Evalúa Fecha real? clasilicación? compara. Variables T-Transaccional
B- Buró de Crédito
A Modilicd Sí Sí l. MGP - Modilied 17 DT C++ k-fold Com- 2007 Genctic Genctic Programming cross porta-Programming for 2. ílPN - Back validation miento Bchavior Scoring Propagation NN Problcm 3. NGP - Normalizcd
Genctic Programming A Two Stagc s· 1 Sí 1. Regresión logística y 11 DT ND ROC Crédito. 2008 Dynamic Crcdit análisis de com-Scoring Model. supervi vencía porta-Bascd on miento Customcrs Prolile and Time Horizon Conditional No Sí I. Clasificador híbrido 15 DT NO ND Crédito 2008 Markov Nctwork CNN y Naive Baycs Hybrid Classi ticrs basados en una Using on Clicnt estructura de tres Crcdit Scoring índices. An Integrated Sí Sí I. SOM y A Priori. Usa > 10 DT NO Lift. Com- 2004 Data Mining and un clasilicador y support, porta-Behavioral posteriormente una l'ase contidenc miento Scoring Modcl lor de pcrfilamiento. e Analyzing Bank Customers Markov Chain Sí No 1. Markov NO T NO NO Com- 1983 Approaches to porta-Paymcnt Behavior miento ofCredit Customcrs
9 En el contexto de la calilicación de crédito. la curva ROC o diagrama de Lorenz grafica la probabilidad de que un bueno tenga la calificación s "'versus" la probabilidad de que un malo tenga la calificación s. Esta curva describe la propiedad de clasi licación del scorecard conforme varía la cali licación de corte.
91
¿Información ¿Algoritmo de Métodos que # D -Demográfica Software Prueba Evalúa Fecha real? clasificación? compara. Variables T-Transaccional
B - Buró de Crédito
Comhining S' 1 Sí 1. Regresión logística y 10 D ND Precisión Crédito 2007 Forecasts of NN RBF Personal Crcdit Scoring Bascd on RBF Ncural Network Supporl V cctor Sí Sí 1. SVM - Support 34 DB ND ROC Crédito 2007 Machines for Vector Machine Crcdit Scoring and 2. LR - Linear Discovcry or Rcgrcssion Signilicant 3. kNN - k Ncarcst Fcaturcs Ncighhors
Consumcr Crcdit No Sí l. AIS - Artiticial 15 D ND ROC Crédito 2007 Scoring Using an lmmune Systcm 20 Artilicial lmmunc 14 System Algorithm
Lcarning Baycsian Sí Sí 1. Naivc Bayes 23 D ND ROC Crédito 2002 Network 2. TAN -Tree 28 Classi liers for Augmented Naive 15 Crcdit Scoring Baycs Using Markov 3. MCMC - Markov Chain Monte Chain Monte Cario Cario Scarch 4. C45
92
¿Información ¿Algoritmo de Métodos que # D -Demográfica SofhVare Prueba Evalúa Fecha real? clasificación? compara. Variables T-Transaccional
B-Buróde Crédito
Using Gendic Si Sí l. GA 37 DB Visual ROC. Crédito ND Algorithms to C++ GINl 10
Develop Scoring Models for Alternative Measures or Performance Credit Scoring Sí Sí 1. Survival Analysis ND [) ND ND Com- 2007 With porta-Macroeconomic miento Variables Using Survival Analvsis An Expcrt System Sí No 1. Sistemas expertos ND DT Prolog ND Crédito 2003 for Crcdit Evaluation and Explanation A Comparison No Sí 1. GP - Programación ND D C++ Precisión Crédito 2007 Study of Crc:dit Genética Scoring Models 2. BP NN -
Backpropagation Ncural Net 3. SVM - Support Vector Machine 4. Método híbrido
An Application of Sí Sí l. SVM - Support ND T ND Precisión Crédito 2007 Support Vector Vector Machine Machines in Small-Business Credit Seoring
10 El coeficiente de Gini se define matemáticamente basándose en la curva de Lorcnz como la tasa del área que cae entre la línea de igualdad y la curva de Lorenz entre el total del úrea que cm:: bajo la línea de igualdad. La línea de igualdad corresponde a la línea trazada desde el origen hasta las coordenadas (Pn(s), PG(s))
93
¿Información ¿Algoritmo de Métodos que # D -Demográfica Software Prueba Evalúa Fecha real? clasificación? compara. Variables T-Transaccional
8- Buró de Crédito
An Empírica! Sí Sí 1. Linear Discriminanl 12 DT NO Precisión. Crédito 2007 Study of Credit Analysis especifi-Scoring Model lor 2. Decision lree cidad. Credit Card 3. Backpropagalion sensibi-
neural net lidad 4. Hybrid method
Credit Scoring Sí Sí 1. Neural Nctwork NO D NO Precisión Crédito 2002 Modcl Bascd on Neural Network Crcdit Scoring Sí Sí 1. LS SVM - Least NO Matlab Precisión Crédito 2007 Using Leas! Square Support Vector Squares Supporl Machine Vector Maehine Based on Dala of Thai Financia! lnstitutions Tabla 2. Análisis de artículos que han resucito la calificación de crédito y comportamiento
94
La revisión de la Tabla 2 nos muestra que no es frecuente la inclusión de información
de Buró de Crédito. Esto se debe a lo sensitivo de la información y su costo. En cuanto al tipo
de modelo la mayor parte de los estudios se centran en la calificación de crédito.
Un factor adicional, que no se escribe de manera explícita en la Tabla 2, es el proceso
de selección de características. Algunos de los artículos mostrados parten de un conjunto de
variables ya depuradas y que por tanto no representan el problema real. Otros incluyen una
fase de selección de variables que se enfocan en métodos estadísticos para tal propósito. A
este respecto algo diferente sería la selección de variables transaccionales y de
comportamiento bajo un problema real.
Otro aspecto a considerar es el tipo de algoritmo. Las redes neuronales parecen ser un
buen algoritmo para resolver el problema. Las máquinas de soporte vectorial y los algoritmos
inmunológicos son aspectos que no han sido considerados de manera extensiva
(particularmente para calificación de comportamiento). Existen también los modelos que
consideran incertidumbre, tal como la lógica difusa o las redes bayesianas. Ante este
panorama es difícil escoger que método seguir.
La fase de preparación de las variables es algo que también resulta poco entendible.
Un modelo de comportamiento basado en factores de relación entre variables (ejemplo
porcentaje de uso de línea de crédito) podría parecer más adecuado. Este tipo de requisitos no
se encuentran descritos. En [Lyn C. Thomas; 2002] se menciona como posibilidad el
desarrollo de diferentes estudios en base a una división natural de los datos (por ejemplo por
rango de línea de crédito).
Para el caso de algoritmos como las redes neuronales, las máquinas de soporte
vectorial o los algoritmos genéticos, en que existen parámetros que definen el
comportamiento del algoritmo, y por tanto impactan en el aprendizaje, los autores no definen
un método analítico para estimar estos parámetros (al menos no en la literatura de calificación
95
de crédito y comportamiento). Es un tema que ha sido tratado por otros autores pero no en la
calificación de comportamiento.
Dado el escenario anterior, es natural pensar en que el tema es relevante y existe una
gran variedad de métodos que pueden ser intentados. Adicionalmente es interesante pensar en
la dificultad que implica el tomar variables correspondientes a un problema real y como
transformar y utilizar éstas para la estimación de la calificación de crédito y/o de
comportamiento.
96
Capítulo 4. Modelo de calificación de comportamiento para clientes de crédito.
De manera resumida la metodología a utilizar contempla las siguientes etapas:
1. Colección de fuentes de datos
2. Selección de características.
3. Análisis estadístico
4. Generación de grupos de créditos.
5. Reducción de instancias
6. Algoritmo de aprendizaje
7. Definición de crédito bueno y crédito malo
8. Validación de resultados
Se presenta a continuación una explicación de los pasos requeridos.
4.1 Colección de datos.
La estimación de la calificación de crédito requiere la colección de datos relativos al
problema: en última instancia se trata de un problema de minería de datos y como tal, se
espera contar con una muestra suficiente de registros representativos. A este respecto es
posible la utilización de fuentes de carácter público y privado.
Dentro de la información pública varios investigadores han podido utilizar fuentes de
elatos con el propósito de medir el rendimiento de los algoritmos construidos relativos al
97
problema, lo cual tiene la ventaja de que facilita un conjunto de datos común que permite una
comparación mejor en cuanto a la medición de efectividad de los algoritmos.
Las siguientes son fuentes de datos públicas, las cuales se contemplan como elementos
a utilizar para el proceso de aprendizaje: http://archivc.ic~.uci.edu/rnl/, encontrándose dos
bases de datos, German Credit Datase!. Australian Credit Approval Datase/: [Lyn C. Tomas,
2002] proporciona también una base de prueba. Las características relevantes de esas fuentes
de datos son:
• German Credit Dataset es una fuente de datos que contiene 1,000 instancias
con 20 atributos; la información que contiene se encuentra ya discretizada y se
tiene una variable de clase que separa a "buenos" de '·malos".
• Australian Credit Approval Dataset presenta 690 instancias con 14 atributos.
La información es de carácter tanto discreto como continuo y contiene
información de solicitud de tarjeta de crédito.
• [Lyn C. Tomas, 2002) presenta una base de datos con 15 atributos y 1.225
instancias.
En referencia a los datos privados se presentan ahora algunas características
relevantes:
1. Entendemos por individuo una entidad que es sujeta o no de crédito: es decir
puede ser tanto una empresa (personas morales) como un ser humano (personas
físicas). Los primeros pueden ser evaluados en cuanto a la calidad crediticia. su
reputación en el mercado, la industria en la cual operan, su información financiera. etc.
98
Los segundos se evalúan en cuanto al historial crediticio en el Buró de Crédito, sus
ingresos, su edad, etc.
2. El presente trabajo estudia el comportamiento de crédito de personas físicas
particulares en relación con su crédito, el comportamiento de grupos de personas
físicas con crédito (por ejemplo inactivos, de alta actividad o baja actividad), con el
objeto de pronosticar Cumplimiento o Mora en función del comportamiento del
portafolio de crédito.
3. Los datos corresponden a tres fuentes principales: variables de tipo
transaccional en relación con el crédito (de frecuencia mensual), datos de
comportamiento de crédito externo y datos de tipo transaccional diario. No se
contempló el uso de datos del tipo sociodemográfico.
4. En cuanto al tipo de crédito que puede ser otorgado sabemos que existen los de
tipo hipotecario, préstamos personales, anticipos de nómina, taijeta de crédito, etc.
Para el propósito de este proyecto se restringirá la información hacia un modelo de
tarjeta de crédito; la razón para no seleccionar todos los tipos posibles es que cada tipo
de crédito tiene particularidades en cuanto a la estimación del riesgo de crédito, lo que
hace necesario acotar el crédito a ser usado.
5. Las tarjetas de crédito pueden destinarse a una persona física (cuyo pago se
carga a una persona física) o una persona física (cuyo pago se carga a una persona
99
moral). Los datos aquí utilizados corresponden al primer caso. El segundo caso
corresponde a las tarjetas de crédito empresariales.
4.2 Selección de características.
El proceso de selección de características pensado es utilizado solamente para la información
de carácter privado (las fuentes del tipo público ya se encuentran filtradas de manera que un
proceso de aprendizaje es directamente aplicable a ellas).
En el Capítulo 3 fueron presentadas varias técnicas para la selección de variables.
Dentro de los mecanismos que se plantearon se partió de dos grupos: un primer mecanismo
que ajusta la selección de las características en base a métricas independientes al proceso de
aprendizaje y, un segundo mecanismo que ajusta las variables seleccionadas tomando en
cuenta la exactitud en el proceso de aprendizaje.
El mecanismo elegido fue el segundo tipo, dado que se espera que esto ayude en el
proceso de ajuste del algoritmo de aprendizaje en cuanto a la mejora en la exactitud de la
predicción.
En cuanto al algoritmo a utilizar para la selección de variables se plantea el uso de un
algoritmo genético. El planteamiento de esto es simple:
• Codificar un cromosoma mediante una serie de elementos binarios que indican
la ausencia (colocando un O) o presencia (colocando un 1) de cada
característica disponible, es decir si contamos con n características requerimos
un cromosoma de longitud n conteniendo los símbolos O ó 1.
100
• La población inicial P se genera mediante un número aleatorio que siga una
distribución uniforme para cada gene (en este caso un gene representa la
presencia o ausencia de una característica, con el O ó I ya comentado). Esto se
ilustra mejor en forma algorítmica:
Población inicial:
Desde (i= 1 hasta I PI)
Para (Cada gene gen el cromosoma i)
Si (numero_ aleatorio:un(fórmeO < UMBRAL)
g= ];
e/se
g=O;
• La cruza se ejecuta eligiendo de manera aleatoria dos cromosomas de la
población P, esto puede ser realizado de manera aleatoria, el número de cruzas
puede ser total, es decir, reemplazando en cada iteración el total de la
población.
• La función de fitness .J(Xc). donde X es un subconjunto de características y C
es un cromosoma estaría en función de la exactitud en la clasificación tomando
el conjunto de atributos X para aplicarlos al algoritmo de aprendizaje. El
objetivo es realizar iteraciones buscando un subconjunto de características X
que maximicen el valor de J(Xc:) para el conjunto de datos [11-Seok Oh; 2004 ].
101
A diferencia del artículo citado, en que existe una penalización por el tamaño del
cromosoma, aquí se pretende una función que sólo considere la exactitud como medida para
escoger el mejor conjunto de características.
4.3 Análisis estadístico.
Un estudio estadístico univariado de las diferentes variables del conjunto de datos privado es
planeado, esto con el fin de entender el comportamiento de las diferentes características.
Existen tres análisis que son previstos como medio para el entendimiento del conjunto de
datos:
1. Gráfica del valor promedio de la variable por período de tiempo. Esto permitirá
revisar factores como el crecimiento de la característica en el tiempo ( con la idea de
estimar cómo esperamos que ocurra el valor en el tiempo); dentro de las variables
quizá la más relevante es la Mora dado que eso es lo que se desea predecir. Otro de los
factores que se pueden observar son la tendencia y la estacionariedad de las variables.
2. Valor medio. Esta métrica va asociada con el punto anterior, sin embargo en
este caso la medida es cuantitativa comparado con la anterior en que es un juicio de
carácter cualitativo.
3. Desviación estándar. Este tercer análisis se realiza por mes y permite ver que
tanto se alejan de la media los datos.
102
El análisis anterior podrá hacerse tomando al portafolio completo de créditos; sm
embargo derivado del conocimiento previo se sabe que existe un estado que define la
clasificación del crédito, algunos de los estados son los siguientes:
• Crédito activo con alta calificación
• Crédito activo
• Crédito activo con pagos vencidos recientes
• Crédito inactivo
• Crédito inactivo con pagos vencidos recientes
• Crédito cancelado
• Crédito marcado con referencias negativas
• Crédito incobrable
• Etc.
Las estadísticas también se planean utilizar bajo una perspectiva de estado del crédito
(lo cual forma diferentes grupos de crédito). Un ejemplo de esto sería ver como se mueve la
mora de un grupo activo en el tiempo, lo cual se espera sea diferente a un grupo inactivo en el
tiempo. De este análisis se podría derivar un mejor entendimiento de los grupos de interés en
cuanto al proceso de mora.
Un análisis adicional, lo cual tiene que ver con el comportamiento de los estados por
los que pasa un crédito, es verificar las tasas de migración entre estados. Este concepto se
acercaría inicialmente a un estudio de comportamiento de crédito, lo cual en sí mismo es un
primer intento por modelar la calificación de comportamiento.
103
4.4 Generación de grupos de crédito.
La generación de grupos de crédito permitirá verificar la posibilidad del algoritmo de
aprendizaje para no sólo estimar créditos puntuales sino verificar cual es la posibilidad de que
un grupo de crédito se comporte de manera adversa en el futuro. Esto amplia la utilidad del
estudio ya que permite identificar el comportamiento del portafolio en adición a los créditos
puntuales. La generación de grupos de crédito contempla los siguientes:
• Créditos activos altos, midiendo en función de períodos de tiempo; por ejemplo se
podría considerar alto en actividad un crédito que tiene facturación en los últimos tres
meses.
• Créditos activos bajos, midiendo en función de períodos de tiempo; por ejemplo se
podría considerar bajo en actividad un crédito que tiene la facturación más reciente en
un período de entre 4 y 6 meses.
• Créditos inactivos. Podríamos considerar inactivo a un crédito que no ha facturado
desde hace un año.
4.5 Reducción de instancias.
Este paso es indispensable si consideramos que el hecho de contar con el portafolio completo
(un total de registros disponibles superior a los dos millones) para los datos privados hace
inviable su manejo para algoritmos como un proceso de selección de características o de
aprendizaje supervisado (que finalmente se espera mediante una tarea de clasificación).
104
Al igual que en otras tareas auxiliares (como la selección de características), existen
algoritmos computacionales que pueden ayudar a este respecto; sin embargo, a fin de realizar
una tarea sencilla se pretende hacer uso de mecanismos de estadística y selección de registros
mediante una distribución aleatoria uniforme (de manera que la elección del registro sea con
igual probabilidad). En cuanto a las medidas estadísticas nuevamente cobran relevancia la
media y la desviación estándar como medios para poder cuantificar si las muestras
seleccionadas se acercan al portafolio original (de manera que no se altere de manera
significativa el comportamiento mediante la muestra).
4.6 Algoritmo de aprendizaje.
En el Capítulo dos se pudo observar que existe una amplia disponibilidad de métodos que
pueden ser utilizados para resolver el problema. La selección de un método tomó en cuenta
las siguientes consideraciones:
1. El método resultara sencillo en su implementación a fin de resolver el
problema sin adentrarse en complejidad innecesaria.
2. Debido a que se tienen datos reales, es requerido que la ejecución del algoritmo
sea posible de rastrearse, esto debido a que se espera una problemática mayor en
cuanto a las tareas de limpieza, la discretización, el manejo de valores demasiado
grandes, etc., lo que puede implicar conocer internamente como es que se está
ejecutando el proceso de aprendizaje.
Este tipo de problemática no se espera para las fuentes públicas ya que la
limpieza, discretización y otras tareas esenciales previas a un proceso de aprendizaje,
ya estaban realizadas (de hecho se aprecia que las bases disponibles incluso ya vienen
105
en versiones con sólo datos numéricos para poderse ejecutar con los algoritmos que así
lo requieran).
3. El método empleado se encuentre en el dominio de los métodos inteligentes, de
manera que un punto de vista computacional pueda verse reflejado en la solución.
4. El algoritmo tenga puntos de ajuste en su arquitectura y/o parámetros de
comportamiento, que faciliten los cambios en caso que los resultados previos no sean
satisfactorios.
El método seleccionado fue una Red Neuronal con un proceso de aprendizaje por
retropropagación.
La Figura 13 muestra de manera esquemática la Red Neuronal a desarrollar. Las
siguientes son las características:
Las variables de entrada corresponden a comportamiento transaccional y
comportamiento crediticio externo. La estructura de la red de la Figura 13 muestra en la
primera capa a las variables de entrada, dos capas ocultas y una neurona en la capa de salida.
Esto fue ilustrado así por simplicidad, sin embargo se planea iniciar con una red con una capa
oculta y una capa de salida. En función de la validación de los resultados de la red (lo cual se
discute posteriormente en este Capítulo), se podrá requerir afiadir capas ocultas adicionales (el
algoritmo a desarrollar deberá permitir cambiar la estructura de capas ocultas de la red
mediante un archivo de configuración de manera que sea sencillo ejecutar diferentes corridas
bajo diferentes arquitecturas).
En cuanto a los parámetros que conocemos como relevantes para una Red Neuronal
(de lo cual ya se habló en el planteamiento teórico sobre redes neuronales), se utilizará la tasa
de aprendizaje y el valor de la constante a de la función de activación (vea la fórmula 35)
106
como mecanismos para tratar de guiar el proceso de aprendizaje. La función de activación
corresponderá a una función sigmoidal.
En referencia a la definición de cliente moroso o cumplido (lo cual es la
representación de la neurona en la capa de salida), se discutirá más adelante cuando hablemos
de la definición de bueno y malo.
Para la segmentación de las bases de entrenamiento y prueba tenemos que para los
datos públicos esto se puede realizar simplemente generando un conjunto con el 80% de las
instancias escogidas de manera aleatoria para el entrenamiento y el 20% restante elegido para
prueba. Para los datos privados el enfoque cambia debido a que se tienen series de tiempo
representando el comp01tamiento histórico de los créditos. En este caso, en vez de escoger
aleatoriamente la base de entrenamiento y de prueba, se toma en cuenta el orden cronológico
de los datos: el 80% corresponde al conjunto de créditos en el 80% de los primeros períodos
de datos. Por tanto lo que se ocupa como prueba, y lo que la red deberá predecir, son el 20%
restante de los últimos períodos de datos.
Variables de comportamiento transaccional
Variables de comporl amiento crediticio externo
Linea de crédito
Saldo
Línea de crédito externa
IV/ oros ia'ad reciente hipoteca
Figura 13. Red Neuronal propuesta.
107
4. 7 Definición de bueno y malo
¿Cómo decidir si se clasifica una instancia como buena o mala? Este es un aspecto que se
debe considerar como parte del desarrollo del modelo. Sin embargo, existen otros dos casos a
considerar: aquellas instancias que se encuentran en la zona gris que no puede definirse ni
como buena ni como mala y, aquellas que podrían ser consideradas de "experiencia
insuficiente".
Las alternativas para la definición de bueno o malo son algo que depende de reglas de
negocio. Bajo algunos esquemas se podría ser demasiado estricto y definir como malo aquel
que se retrasa aún si se trata de un solo día; una concepción menos estricta es considerar que
se trata de malo si se retrasa en un período de dos semanas. Así como esto, podríamos seguir
argumentando relativo al concepto de bueno o malo; lo importante es que esto es más una
definición de acuerdo a los criterios o políticas que se deseen adoptar.
La definición de aquellas instancias consideradas como malas depende del autor, como
ejemplo encontramos en [Hui-Chung Yeh; 2007] una clasificación de crédito malo
establecido como aquellas instancias que tienen 15 días registrados sin pago después de la
fecha límite de éste.
Por parte del proceso que se desarrollará se explorarán tres alternativas:
1. Definir el concepto de bueno o malo en función del estado del crédito
disponible (que en sí mismo ya tiene algunos estados que reflejan esta condición en
diferentes grados, lo cual refleja la gravedad en el incumplimiento, por ejemplo un
crédito que tiene un período atrasado comparado con otro que ya se considera
incobrable).
108
2. Implementar un mecanismo de medición del cliente moroso en función del
número de días que pasan posterior a la fecha en que se está obligado a realizar el
pago y la fecha en que se presenta (validando que se paga un monto mayor al mínimo)
3. Medir el incumplimiento en función de si paga o no el monto mínimo exigido
en el tiempo requerido.
4.8 Medición del rendimiento del modelo de calificación de comportamiento.
En el desarrollo del modelo de compo1tamiento debemos contemplar la manera de medir la
exactitud. Esto depende de lo que puede entenderse por "bueno". Podríamos pensar en la
distinción de buenos y malos clientes; sin embargo sabemos que podemos cometer dos tipos
de errores, clientes que son buenos y los clasificamos como malos (pérdida de oportunidad) y
clientes que son malos y los clasificamos como buenos (pérdida por mora).
Si probamos el sistema sobre los mismos clientes que usamos para el entrenamiento
obtendremos resultados buenos, sin embargo, ¿Qué sucede si cambiamos la muestra por
clientes completamente ajenos a la etapa de entrenamiento?
La medición del rendimiento depende de la cantidad de los datos disponibles. En un
ambiente reducido se tiene que usar el mismo conjunto de entrenamiento mientras que en un
ambiente con una mayor cantidad de instancias de datos es posible usar un conjunto separado
(esto último es lo que se planea en nuestro caso).
Una forma de medir el rendimiento del modelo son las matrices de confusión.
Recordemos que existen dos tipos de errores que podemos cometer: clasificar a alguien como
bueno cuando en realidad es malo y, clasificar a alguien como malo cuando en realidad es
109
bueno. En el primer caso tenemos un costo D que representa cuanto perdemos por que el
cliente caiga en mora, en el segundo perdemos la oportunidad de dar el crédito a un buen
cliente - L.
La matriz de confusión puede representarse de la siguiente manera:
Clase verdadera G B
Clase G gG gil g estimada B be; bs b
lle; ll!J 11
Tabla 3. Matriz de confusión.
La pérdida esperada por cliente se puede estimar como:
Lb¡;+ DgH
n (] 07)
Dependiendo del punto de corte se mueven los valores de la matriz de confusión y en
base a la fórmula anterior se puede ajustar este valor.
No obstante puede parecer sencilla la validación (porcentaje de aciertos en la
predicción), la realidad es que dependiendo del tamafio de malos y buenos en las muestras es
como deberíamos determinar si el método fue bueno o no.
En [Hui-Chung Yeh; 2007) se definen tres medidas para validar la clasificación
efectuada. La manera en que se definen dichas medidas es como sigue:
sensibilidul =a,./ a 1 , (] 08)
e.\pec[!rcdad = /31, I B1 , (109)
110
( 11 O)
Donde:
a 1 = Número de tarjeta habientes malos en el conjunto de datos
ª" = Número de tarjeta habientes malos que son bien clasificados en la categoría de mal
crédito
Pr = Número de tarjeta habientes buenos en el conjunto de datos
p1, = Número de tarjeta habientes buenos que son bien clasificados en la categoría de buen
crédito
111
Capítulo 5. Caso de estudio y análisis de resultados.
5.1 Fuentes de Datos.
5.1.1 Características de los datos.
Los datos utilizados para la ejecución de los algoritmos correspondieron a los de carácter
privado. La razón para descartar los datos públicos fue que se planeaba una investigación que
cubriera todas las etapas de un proceso de calificación de crédito y los datos públicos ya se
encontraban prácticamente listos para su entrada directa al algoritmo de aprendizaje (no se
requería un proceso de selección de variables ya que éstas ya se encontraban disponibles en el
archivo, las características ya habían sido depuradas en sus valores nulos, los procesos de
discretización de variables ya habían sido efectuados, etc.).
Sin embargo, debe considerarse que como ajuste de la Red Neuronal se inicio
probando con bases públicas a fin de validar que el proceso de aprendizaje se estuviera
realizando (observando que el error por cada ciclo ejecutado fuera disminuyendo, de manera
que el proceso de minimizar el error trabajara adecuadamente).
Las variables consideradas consistieron en tres archivos de datos:
1. Archivo mensual que resume las transacciones del crédito. La fuente contiene 18
períodos de historia y la lista de sus campos se muestra en la Tabla 4.
2. Archivo diario con las transacciones realizadas por el cliente en relación con un
crédito. La fuente contiene 18 períodos de historia. La lista de sus campos se muestra
en la Tabla 7.
112
3. Archivo mensual con el comportamiento externo del cliente. Contiene datos como el
número de créditos de auto que tiene el cliente en otras instituciones, el número de
créditos de auto que tiene con la misma institución con la que se tiene la tarjeta de
crédito, etc. El valor de esta información es que proporciona idea del comportamiento
con otros productos de crédito que tiene en la misma institución e incluso en
instituciones externas, es decir, no sólo considera las variables propias del crédito en
estudio, sino que añade datos de comp01tamiento con otro tipo de créditos, incluso si
estos créditos fueron obtenidos con otra institución de crédito. La fuente contiene
cinco períodos de historia.
5.1.2 Datos transaccionales mensuales.
La Tabla 4 muestra los datos disponibles en el archivo
Número Descripción del dato
1 Identificador del Crédito
2 Identificador del Cliente; un cliente podría tener más de un crédito ..,
Límite de la Línea Disponible .)
4 Saldo a la Fecha de Corte del Crédito
5 Saldo al Último Día del Mes del Período Pasado
6 Importe del Pago Mínimo
7 Importe Pagado
8 Intereses Generados
9 Total de Compras del Período
10 Total de Disposiciones en Efectivo del Período
11 Fecha de la Última Compra
12 Fecha de la Última Disposición de Efectivo
13 Fecha de Apertura del Crédito
14 Estatus Principal del Crédito
113
Número Descripción del dato
15 Estatus Secundario del Crédito
16 Identificador del Período de los Datos
17 Número de Pagos Vencidos
18 Importe de Pagos Vencidos
19 Monto del Último Incremento de la Línea de Crédito
20 Fecha del Último Incremento de la Línea de Crédito
·1 ahla .t. Atributos considerados de tipo transaccional mensual.
Los campos correspondientes a fechas fueron transformados en métricas de número de
meses a la fecha del período correspondiente.
Variables secundarias.
Se crearon dos variables que son derivadas de las variables anteriores:
• Uso de Línea de Crédito, definida como el Saldo del Crédito a la Fecha de
Corte entre el Importe de la Línea de Crédito.
• Pagado Sobre Mínimo, indicando el porcentaje de pago del monto mínimo que
cubrió la persona.
5.1.3 Datos de comportamiento externo.
Los datos de comportamiento externo consisten en 399 variables que se pueden interpretar
principalmente en base a los siguientes elementos:
1. Nombre de la variable
114
2. Tipo de Negocio (Tarjeta de Crédito, Tarjeta de Servicio, Crédito Auto
Bancario, Crédito Auto No Bancario, Hipoteca Bancario, Hipoteca No
Bancario, etc.)
3. Tipo de Cuenta (Pagos Fijos, Revolvente, Hipotecario, etc.).
4. Morosidad (un mes, dos meses, tres meses, etc.).
5. Origen (Mismo Otorgante, Otro Otorgante, Cualquiera)
6. Meses (Tres, Seis, 12 Meses, Mes Actual)
No se pretende dar la lista completa de las variables, dado el gran número de variables
se realizó un proceso de preselección de acuerdo a los anteriores elementos, descartando
algunas variables que no afectan al proceso de calificación de crédito (por ejemplo existen 13
variables con el nombre número de cuentas cerradas, las cuales fueron descartadas, de éstas,
el tipo de negocio puede tomar los valores: tarjeta de crédito, auto bancario. personal
bancario. hipoteca bancario. departamental, tarjeta de servicio. auto no bancario. hipoteca
no bancario. préstamo no bancario, con el origen que puede ser: mismo otorgante. otro
otorgante. cualquiera, es decir se hace un producto cartesiano de los diferentes elementos, en
donde tiene sentido); esto hace que se incremente significativamente el número de variables
hasta llegar a 399.
Se presenta a continuación en la Tabla 5 las principales variables de comportamiento
externo consideradas después de esta preselección; se puede notar que ya se simplificó la
terminología de los elementos mencionados arriba a fin de ser más claros en la definición de
la variable, pudiendo plantearla en una simple tabla resumen.
115
Ta1:jcta Tai:jcta Crédito Crédito Crédito Préstamo Préstamo Préstamo Tarjeta Tarjeta Crédito Crédito Tarjeta Auto Auto Auto Personal Personal Personal l lipoteca Hipoteca I-lipoteca Departa- Servi-
Variable Interna Externa Crédito Interno Externo Otros Interno Externo Otros Interna Externa Otros mental cio !-Cuentas Abiertas 1 5 2 6 11 3 7 13 4 8 12 9 10 3-Mcscs Cuenta Abierta más antigua 27 31 28 32 37 29 33 39 30 34 38 35 36 4-Meses Cuenta Abierta Más Reciente 40 44 41 45 50 42 46 52 43 47 51 48 49 5-Meses Morosidad Más Reciente (3-99) 53 57 54 58 63 55 59 65 56 60 64 61 62 7-Límitc Crédito 79 80 81 8-Total de Crédito Máximo 82 86 83 87 92 84 88 94 85 89 93 90 91 9-Total Saldo Actual 95 99 96 100 105 97 101 107 98 102 106 103 104 1 O-Total Saldo Vencido 108 112 109 113 118 110 114 120 111 115 119 116 117 1 !-Promedio Saldo Actual 121 125 122 126 131 123 127 133 124 128 132 129 130 12-Porccntajc Límite Crédito Usado 134 135 136 13-Porccntaje Crédito Máximo Usado 137 141 146 138 142 147 139 143 149 140 144 148 145 14-Ntunero Cuentas con Pago Adecuado (02) 150 154 151 155 160 152 156 162 153 157 161 158 159
15-Peor 163 167 164 168 173 165 169 175 166 170 174 171 172
116
Ta~jeta Ta~jeta Crédito Crédito Crédito Préstamo Préstamo Préstamo Ta~jeta Ta~jeta Crédito Crédito Ta~jeta Auto Auto Auto Personal Personal Personal Hipoteca Hipoteca Hipoteca Departa- Servi-
Variable Interna Externa Crédito Interno Externo Otros Interno Externo Otros Interna Externa Otros mental cio Morosidad l listórico 6 Meses IS-Peor Morosidad Histórico 12 Meses 176 180 177 181 186 178 182 188 179 183 187 184 185 29-Total Pagos a Efectuar 217 221 218 222 227 219 223 229 220 224 228 225 226
Tabla 5. Variables de comportamiento interno-externo relativas a productos de crédito.
117
La Tabla 5 puede ser interpretada como sigue:
• En la primer columna se ubica el número identificador dado a la categoría de la
variable seguido de su nombre (por ejemplo 15-Peor Morosidad Histórico 6 Meses y
15-Peor Morosidad Histórico 12 Meses significando la categoría de Peor Morosidad
Histórica). La razón de esta categoría fue tratar de unificar a las variables por
propósito común, esto con el fin de simplificar el proceso de selección de variables.
• Los números en el interior de la Tabla identifican el número de variable.
• Como ya se comentó, no todas las variables son mostradas, debido a que algunas
fueron descartadas desde el inicio ya que no se esperaba que fueran significativas de
acuerdo a la experiencia.
Una vez que se tuvo la Tabla 5 se resumieron las variables de acuerdo con la Tabla 6:
1 h 2+h 6+h 11 Número de Cuentas - -
de Crédito Automotriz
2 h 3+h 7+h 13 Número de Cuentas - -
de Crédito Personal ,.,
h 4+h 8+h 12 Número de Cuentas _) - - -
de Crédito Hipotecário
4 H 9 Número de Cuentas de Tarjeta Departamental
5 h 10 Número de Cuentas -
de Tarjeta de Servicio
6 h 53 Morosidad Más Reciente en Tarjeta de Crédito Interna
7 H57 Morosidad Más
118
Reciente en Tarjeta de Crédito Externa
8 h 54 Morosidad Más Reciente en Crédito Automotriz Interno
9 Si h 58 < h 63 entonces h 58 sino h 63 Morosidad Más - - - -Reciente en Crédito Automotriz de Otros
10 h 55 Morosidad Más Reciente en Préstamo Personal Interno
11 SI H 59<H 65 entonces h 59 sino h 65 Morosidad Más - - - -
Reciente en Préstamo Personal Externo
12 H 56 Morosidad Más Reciente en Hipoteca Interna
13 SI H 60<H 64 entonces h 60 sino h 64 Morosidad Más - - - -Reciente en Hipoteca Externa
14 H 61 Morosidad Más Reciente en Tienda Departamental
15 H 62 Morosidad Más Reciente en Tarjeta de Servicio
16 H 80 Importe de Línea de Tarjeta de Crédito Externa
17 h 112 Saldo Vencido en -
Tarjeta de Crédito Externa
18 h 109 Saldo Vencido en -
Auto Interno 19 h 110 Saldo Vencido en
Préstamo Personal Interno
20 SI h l 14>h 120 entonces h 114 sino Saldo Vencido en - -h 120 Préstamo Personal -
Externo 21 SI h l 15>h 119 entonces h 115 SlllO Saldo Vencido - - -
h 119 Hipoteca Externa
22 h 116 Saldo Vencido -Tarjeta Departamental
23 h 117 Saldo Vencido -Tarjeta de Servicio
24 h 135 Porcentaje de Uso -de la Línea de
119
Crédito Externa 25 h 150 Cuentas con Pago de
Tarjeta Interna 26 h 154 Cuentas con Pago de
Tarjeta Externa 27 h 151 Cuentas con Pago de -
Auto Interno 28 h l 55+h 160 Cuentas con Pago de -
Auto Externo 29 h 152 Cuentas con Pago de
Préstamo Personal Interno
30 h l 56+h 162 Cuentas con Pago de -Préstamo Personal Externo
31 h 153 Cuentas con Pago de Hipoteca Interna
32 h 157+h 161 Cuentas con Pago de - -Hipoteca Externa
33 h 158 Cuentas con Pago de -
Tarjeta Departamental
34 h 159 Cuentas con Pago de -Tarjeta de Servicio
35 h 177 Peor Morosidad a 12 Meses en Auto Interno
36 SI h 181>h 186 entonces H 181 sino Peor Morosidad a 12 - - -H 186 Meses en Auto -
Externo 37 h 178 Peor Morosidad a 12 -
Meses en Préstamo Personal Interno
38 SI h 182>h 188 entonces H 182 Sll10 Peor Morosidad a 12 -H 188 Meses en Préstamo -
Personal Externo 39 h 179 Peor Morosidad a 12 -
Meses en Hipoteca Personal Interna
40 SI h 183>h 187 entonces 1-1 183 Sll10 Peor Morosidad a 12 - -
H 187 Meses en Hipoteca Personal Externa
41 h 184 Peor Morosidad a 12 Meses en Tarjeta Departamental
42 h 185 Peor Morosidad a 12 -
Meses en Tarjeta de Servicio
43 h 246 Porcentaje de Cuentas con Uso de la Línea
120
44 h 235 Cuentas en Morosidad del Tipo 99
45 H 238 Total de Pago de Productos
46 H 242 Meses a la Mora Más Reciente.
Tabla 6. Agrupado de variables mediante operadores.
La manera en que se trabajó con las variables correspondió a una agrupación de las
mismas por su naturaleza y posteriormente se generaron algunas métricas que resumen los
conjuntos comunes de variables (por ejemplo para cuentas abiertas se puede sumar a los
diferentes productos y así se saca un número que corresponde al valor de créditos que un
cliente tiene abiertos en un período de tiempo dado).
Como se puede observar, el conjunto de variables de este archivo se reduce
significativamente (en este momento se ha reducido el conjunto de las variables del Buró de
Crédito pasando de 399 variables a sólo 46 variables). El siguiente paso consistió en un
análisis de cada variable, identificando si al menos existía un cierto nivel de variabilidad en la
característica, lo que nos indicaba que la variable podría aportar beneficios; si por el contrario
se descubría que casi todo el universo de la característica en estudio se concentraba en un
valor, entonces estas variables fueron desca11adas del proceso posterior.
5.1.4 Datos de transacciones diarias.
La estructura del archivo transaccional diario es la mostrada en la Tabla 7:
Número Descripción 1 Código de la Transacción 2 Identificador del Crédito -, Fecha de la Transacción .)
4 Fecha en que se Aplicó la Transacción 5 Tipo de Transacción (Débito o Crédito)
121
Número Descripción 6 Importe de la Transacción 7 Fecha de Corte 8 Nombre del Comercio 9 Estado del Comercio 10 Identificador de Transacción en Plazos 11 Cuenta Facturadora 12 Fecha de Proceso Tabla 7. Estructura del archivo transaccional diario
La utilidad principal de este archivo consiste en que permite revisar por día las
transacciones realizadas: compras, disposiciones, pagos, etc. Sin embargo, el archivo mensual
ya presentado condensa estas métricas sumando mensualmente las métricas correspondientes.
Esto hace que sea más sencillo el uso del archivo mensual.
Una segunda utilidad que se planteaba para este archivo era los hábitos de consumo
representados por el nombre y estado geográfico del comercio. Sin embargo, cuando se
realizó un análisis de los datos correspondientes se detectó que la cardinalidad del nombre del
comercio es muy alta y que existe falta de estandarización en los nombres para saber de qué
tipo de comercio se trata. En cuanto al estado del comercio el grueso de los datos contienen
MX (México).
Debido a estas razones fue que se decidió descartar esta fuente de datos y centrarse
únicamente en los archivos mensuales ya descritos.
5.2 Selección de instancias que caen en mora y créditos cumplidos.
Se evaluaron tres alternativas para describir si un cliente cae o no en mora:
1. Utilizar el estado y subestado del crédito, los cuales ya se encuentran disponibles,
como datos del archivo mensual transaccional. Al ser dos campos identificadores del
122
estado del crédito encontramos que sólo tienen utilidad en conjunto; por ejemplo, para
un estado ·'Activo" existen subestados "VIP, créditos especiales", "Al corriente,
créditos con cumplimiento de pago", "A lo más dos pagos vencidos", "Boletinado,
crédito marcado como malo", "Incobrable", etc. Si habláramos de los créditos
inactivos encontraríamos también cie1ta complejidad en los estados. Estos estados ya
armados tenían una ventaja, ya se contaba con grupos que facilitaban el análisis; sin
embargo, también tenía una desventaja, las reglas de negocio que especificaban
cuando un crédito pasa de un estado y subestado a otro no se encuentran
documentadas, lo cual provoca que en fases posteriores nos encontremos con créditos
marcados como "buenos" pero que no pagaron en el período en que esta marca ocurre.
2. Medición de la mora en función del número de días transcurridos en que se debe pagar
y el día en que se paga. Esta acepción también fue considerada pero se declinó por una
definición más estricta, sin dar opo1tunidad a días de gracia para el pago.
3. Calcular la mora en base al archivo mensual que contiene el resumen transaccional del
crédito. Para esta opción se validó si el monto pagado es mayor al pago mínimo
exigido, en cuyo caso se dice que el crédito fue cumplido. Este fue el método utilizado
finalmente para definir la variable ele clase Mora; es un medio sencillo pero a la vez es
estricto en cuanto a la consideración para obtener un crédito ·'cumplido'·.
5.3 Selección de características.
Una vez que han sido descritos de manera general los datos utilizados, se hablará del proceso
mediante el cual se seleccionaron las variables a utilizar en el proceso de aprendizaje.
123
Se partió de dos fuentes de datos, una primera fuente con datos transaccionales
mensuales y una segunda con el comportamiento externo en otros créditos.
Ya fue descrito que como parte del proceso de conocimiento de las variables se
requirió analizar la función de las mismas mediante el conocimiento previo. A este respecto
fue muy útil agrupar algunas variables (mediante sumas, máximos o mínimos) a fin de reducir
la dimensionalidad excesiva en algunos casos (399 variables). Posterior a esto se validó el
contenido de las variables (en el caso del archivo de comportamiento externo) y se pudieron
descartar algunas características que presentaban prácticamente el mismo valor en todas las
instancias (lo cual no aportaría valor al estudio realizado). Se continuó con la idea de extraer
la variable de clase lo que llevó a estudiar grupos de créditos (morosos y cumplidos), los
cuales se observó, son parte de otras categorías como activos e inactivos. En esta idea previa
de grupo de crédito se observó que existen algunas relaciones importantes entre variables, lo
que llevó a plantear un análisis de correlación como el siguiente punto lógico en la
comprensión de los datos.
La sencillez del análisis, el conocimiento previo de los datos y el sustento teórico ya
planteado de este método relativo a la selección de variables, ayudaron a dar forma a un
proceso de selección de características más sencillo del planteado inicialmente en el marco
metodológico.
5.3.1 Análisis de correlación.
Como ya fue comentado, el proceso de selección de características se puede realizar con base
en una gran diversidad de algoritmos, los cuales incluyen el tipo computacional ( como los
algoritmos genéticos) y el tipo estadístico (como el análisis multivariante en algunas de sus
técnicas). Debido a la abundancia de las variables (sobre todo del tipo del comportamiento
externo en que se dispuso de 399 características), se decidió realizar un análisis de las
124
variables mediante el conocimiento previo de los procesos de crédito, de manera que el
proceso de selección de variables fuera manejable en términos del número de características a
evaluar.
Se realizó un análisis de correlación estadística a fin de detectar qué variables
presentaban relación entre ellas, de manera que se simplificara el proceso de elección.
No se implementó un algoritmo computacional para resolver este problema debido a
que el problema fundamental es determinar o analizar métodos que permitan identificar
anticipadamente el comportamiento de crédito; de este problema fundamental, la selección de
características es sólo una parte del proceso total.
Se podría pensar que el análisis estadístico de correlación, una vez que se ha
simplificado la lista de variables es sencillo; sin embargo, por la manera en que operan los
procesos de crédito, se presentó un problema cuando se trató de establecer el análisis de
correlación: en la misma base de datos coexistían créditos inactivos, activos, marcados como
incobrables, etc. Algunas reglas de negocio conocidas identificaban que los créditos
incobrables, por ejemplo, tienen un valor uno en el monto de la línea disponible; los clientes
inactivos presentan en su mayoría importes de saldos en cero, etc.
Lo anterior significaba que el mezclar todos los diferentes tipos de estado del crédito y
proceder a obtener las variables significativas podría no ser sencillo dada la diversidad de
estados y el hecho que por regla de negocio algunas características se movieran a un valor
predeterminado cuando caen en dicho estado (sin que eso significará que la variable había
presentado ese valor realmente).
A fin de corroborar lo anterior se tomaron "agrupados" de créditos considerando: los
créditos identificados como activos, los incobrables y el universo en general. La Tabla 8
resume la disparidad en las variables usando los grupos anteriores, las medidas estadísticas
tomadas fueron la media y la desviación estándar.
125
Límite Saldo Pago Pagado Intereses Consumos Pagos de Mínimo Vencidos Línea
Media 38.729 19.810 2.916 2.133 388 1.548 1.17 Universo Desviación 52.853 35.533 8.509 7.771 881 7.128 2.49 Estándar Universo Media 46.800 20.600 1.920 2,740 501 2.000 0.447 Activas Desviación 55.400 34.600 5.036 8.718 973 8.043 1.26 Est:índar Activas Media 930 27.200 10.200 82 3.340 0.0138 5.83 Incobrables Desviación 5.195 45.808 17.657 1.250.46 1.65 4.06 3.14 Estándar Incobrables Tabla 8. Comparación de medias y desviaciones cstúndar de algunas variables por grupo
De la Tabla 8 se puede observar que el grupo de créditos incobrables presenta, por
ejemplo, un Límite de Línea Promedio de 930 mientas que el universo presenta 38,729. Esto
se debe a que por regla de negocio una cuenta incobrable se coloca en uno en el Monto de la
Línea una vez que cae en dicho estado. En cuestión del Pago Mínimo el universo tiene un
promedio de 2,916 mientras que los créditos incobrables tienen una media de 10,200 (en este
caso podríamos hablar que es lógico pensar que el pago mínimo de alguien que está
considerado como mal crédito debe ser superior al del universo de créditos). Estos dos
ejemplos nos permiten ilustrar que, si bien existen algunas variables que obedecen un
comportamiento empírico, algunas otras son forzadas a mantener cierto valor para seguir
cierta regla de negocio.
Como consecuencia del análisis anterior se decidió que la selección de las variables a
utilizar siguiendo métodos estadísticos hacía necesario pensar en ubicar diferentes grupos de
cuentas y verificar qué características tenían las variables dentro de los diferentes grupos.
126
Otro aspecto relevante que se consideró previamente a este análisis de correlación es
que algunos grupos presentan un comportamiento uniforme. Por ejemplo, cuando hablamos
de créditos inactivos damos por hecho las siguientes relaciones:
• El Saldo de la cuenta tiende a ser bajo o bien es cero (significando que la cuenta nunca
ha estado activa).
• El Pago Mínimo es cero o muy bajo.
• El Importe Pagado es muy bajo dado que no se exige un pago mínimo.
• Los Intereses son muy bajos
• No existen Consumos ni Di.\posiciones de Efectivo.
• Los Meses a Última Di:,posición y Meses a Última Compra son ceros o bien aumentan
en uno en cada período subsecuente.
• Los Meses a Último Incremento se incrementan en uno en cada período subsecuente y
para un porcentaje determinado de cuentas podría ser cero (significando que se trata de
rescatar estos créditos).
• El comportamiento de Pagos Vencidos es normalmente cero
• Etc.
127
De lo anterior observamos que en general este grupo de cuentas se caracteriza por
tener ausencia de movimientos; no se pretende proporcionar un fundamento estadístico
exhaustivo de cómo se eligieron las variables, simplemente se tratará de ilustrar que el punto
de selección de variables partió de las cuentas activas (las cuales sí presentan una mayor
riqueza en las relaciones entre variables).
Se presentan en las Tablas 9, I O y 11 algunos ejemplos de matrices de correlación de
los universos de créditos, activos e incobrables.
128
Im porte Meses Meses Mes Meses # Pagos Pagos Pago
Pago Pa- Consu- Dispo- Factu- Meses Dispo- Apertu- lncre- Venci- Venci- Uso Sobre Línea Saldo Mí nimo gado Interés 111 0 sición ració n compra sición ra mento dos dos Línea Mínimo
Línea 1.00 0.44 0.07 0.3 1 0.46 0.26 0. 14 -0.07 -0. 12 -O .O 1 0.29 0.06 -0.24 -0.03 -0.14 0.00 Saldo 0.44 1.00 ~ '.13:i 0.16 ·"fü.67· 0.17 0.13 -0. 11 -0. 11 -0 .2 1 0.04 -0.09 0.21 --~611 0.46 0.00 Pago ~.;._,4:;
- .~~~ ~ ~' 1:1~ e, .. · ~;- ::;-i:.~ 1f''á'~~
Mínimo 0.07 ~ Q:'1·3 1.00 -0.02 o. 14 -O.O 1 0.00 -0.07 -0.05 -0.16 0.00 -0.12 ,;;_; 0.50' ~""" 0:8A'. 0.00 Pagado 0.31 O. 16 -0.02 1.00 0. 15 0.44 0.09 -0.05 -0.07 0.00 0.06 0.00 -0. 13 -0.07 -0.05 0.04
Interés 0.46 : ,,f)~~7' 0. 14 0. 15 1.00 0. 12 0. 14 -0.09 -0.1 0 -0. 16 0.06 -0.02 -0. 14 -O.O 1 -0 .09 0.00 Consu-111 0 0.26 0. 17 -O.O ! 0.44 0. 12 1.00 0.05 -0.04 -0.06 0.03 0.06 -O.O 1 -0. 10 -0 .05 -0.04 0.02
Dispo-sición 0.14 0.1 3 0.00 0.09 0. 14 O.OS 1.00 -0.03 -0.03 -0. 1 O 0.00 -0.07 -0.03 -0.03 0.02 Meses a lí.S Factu-ración -0.07 -0. 11 -0.07 -0.05 -0.09 -0.04 -0.03 1.00 0.28 -0 .1 3 -0.09 -0.07 -O.OS -0.04 0.00 Meses a
l;,(J Com-pras -0.12 -0. 11 -0.05 -0.07 -0. 1 O -0.06 -0.03 1.00 0.12 -0. 14 -0.08 O.O! -0 .03 -0. 02 0.00 Meses a Dispo-sición -O.O 1 -0.2 1 -0.1 6 0.00 -0. 16 0.03 -0. 1 O 0.28 0.12 1.00 -0.11 -O .O 1 -0. 16 -0.1 4 -0.11 0.00 Meses a Apertu-ra 0.29 0.04 0.00 0.06 0.06 0.06 0.00 -0. 13 -0. 14 -0.11 1.00 0.43 -0.09 -O.O! -O.O 1 0.00 Meses a lncre-mento 0.06 -0.09 -0.12 0.00 -0.02 -O.O 1 -0.02 -0.09 -0.08 -O.O 1 0.43 1.00 -0.25 -0.12 -0. 15 0.00 Pagos ~~~1' Venci-dos -0.24 0.2 1 0.50 -0.13 -0. 14 -0. 1 O -0.07 -0.07 O.O! -0. 16 -0.09 -0.25 1.00 . " ... ~p.5íí .• 0.49 0.00
129
Importe Meses
1 Meses 1 Mes I Meses 1 # Pagos I Pagos 1 Pago Pa- Consu- Dispo- Factu- Meses Dispo- Apertu- 1 ncre- Yenci- Yenci -
1 Uso Sobre Línea Saldo Mínimo acto Interés mo sición ración compra sición ra mento dos dos Línea Mínimo
- ------Importe Pagos Venci-dos -0.03 ~""óT6t: ~:f~ Ó.9T -0.07 -0.0 1 -0.05 -0.03 -0.05 -0.03 -0. 14 -0 .0 1 -0. 12 1 0.541 1.00 1:~~0:81 I 0.00
Uso tJJ_:~4- -0. 15 j [,:,,;:~j 1.00 1 Línea -0.14 0.46 -0.05 -0.09 -0.04 -0.03 -0.04 -0.02 -0. 11 -0.0 1 0.49 t;.;.Jo.s't 0.00
Pago Sobre Mínimo 1 0.001 0.001 0.00 1 0.04 1 0.001 0.02 I 0.02 I 0.001 0.00 1 0.00 1 0.00 1 0.001 0.00 1 0.001 0.00 I 1.00
Tabla 9. Matriz de correl ación de variables transacc ionales del uni verso
130
Im porte Meses Meses Meses Meses Meses Pagos Pagos Pago
Pago Pa- lnte- Consu- Dispo- Factu- Com- Dispo- Apertu- lncre- Yenci - Yenci- Uso Sobre Linea Saldo Mín imo gado rés mo sición ración pras sición ra mento dos dos Linea Mínimo
Línea 1.00 0.57 0.36 0.29 0.44 0.24 0.13 -0.03 -0.08 -0.04 0.3 1 0.04 -0.05 0. 19 0.0 1 0.00 Saldo 0.57 1.00 ·~ 0.73 O. 19 0.80 0. 19 0.1 5 -0.04 -0.05 -0.20 0.06 -0.02 0. 19 0.48 0.02 0.00 Pago Míni-1110 0.36 0.73 1.00 0.02 0.38 0.03 0.03 -0.03 -0.02 -0. 15 0.0 1 0.0 1 0.52 - 0.93, 0.01 0.00 Paga-do 0.29 0. 19 0.02 1.00 0.1 2 0.43 0.08 -0.02 -0.04 0.00 0.06 -O.O I -0. 1 O -O.OS 0.00 0.04 Interés 0.44 0.86± 0.38 0. 12 1.00 0.09 0. 13 -0.04 -0.04 -0.18 0.06 -0.04 -0 .02 0. 11 0.01 0.00 Consu-111 0 0.24 0. 19 0.03 0.43 0.09 1.00 0.04 -0.02 -0.04 0.04 0.06 -0 .02 -0.09 -O.OS 0.00 0.02 Dispo-sición 0. 13 0. 15 0.03 0.08 0. 13 0.04 1.00 -O.O I 0.00 -0.11 0.00 -0.04 -O.OS -0.03 0.00 0.02 Meses a Factu-ración -0.03 -0.04 -0.03 -0.02 -0.04 -0.02 -O.O I 1.00 0.43 0. 10 -0.0 1 0.03 0.0 1 -O.O I -0.02 0.00 Meses a Com-pras -0.08 -0.05 -0.02 -0.04 -0.04 -0.04 0.00 0.43 1.00 -O.OS -0.06 0.0 1 0.06 0.00 -O.O 1 0.00 Meses a Dispo-sición -0.04 -0.20 -0 .15 0.00 -0. 18 0.04 -0. 11 0.1 0 -O.OS 1.00 -0.09 -O.O 1 -0. 12 -0.1 O -O.O I 0.00 Meses a Aper-tu ra 0.3 1 0.06 0.0 1 0.06 0.06 0.06 0.00 -O.O 1 -0.06 -0.09 1.00 0.34 -0.08 -O.O 1 -0.02 0.00 Meses a lncre-mento 0.04 -0.02 0.0 1 -O. O 1 -0.04 -0.02 -0.04 0.03 0.0 1 -O.O 1 0.34 1.00 0.03 0.02 -0.03 0.00
13 1
Impo rte Meses Meses Meses Meses Meses Pagos Pagos Pago
Pa- lnte- Consu- Dispo- Factu- Com- Dispo- Apertu- lncre- Vencí- Vencí- Uso Sobre Línea Saldo Mínimo ado rés mo sición ración ras sición ra mento dos dos Línea Mínimo -~-.. - .. - --
Pagos Vencí -dos
1 -o.os ¡ O. 1 9 l~'k~ls~I -O . JO 1 -0.021 -0.091 -O.OS 1 o.o, ¡ 0.061 -0. 12 1 -o.os¡ 0.031 - l~O?_l~~~0_í:§9s1,J 0.0 1 1 0.00
lmpor-te Pagos Venc í-dos 1 o. 19 I ~,,~,"'s_;I 0.48 ,~h.i~J9:A -O.OS i 0.11 1 -o.os l -0.03 1 -O.O I i 0.00 1 -0.101 -0.0 1 1 0.02 1 l, ;';,Q:5-94 1.00 1 0.01 1 0.00 Uso Línea 1 0.0 1 1 0.02 I 0.0 11 0.00 1 0.01 1 0.001 0.00 1 -0.02 I -0.01 1 -0.0 1 1 -0.02 I -0.03 I 0.0 1 1 0.0 1 1 1.00 I 0.00 Pago Sobre Míni -1110
1 0.001 0.00 1 0.00 1 0.04 I 0.00 1 0.02 1 0.021 0.001 0.00 1 0.001 0.001 0.001 0.001 0.00 1 0.001 1.00 Tabla I O. Matriz de correlación de grupo de créd itos act ivos.
132
Pago Meses Meses Meses Meses Pagos Im porte Pago Sal - Mí- Pa- Inte- Con- Dispo- Factu- Com- Dispo- Meses lncre- Venci- Pagos Uso Sobre
Línea do nimo gado rés sumo sición rac ión pras sic ión Apertura mento dos Vencidos Línea Mínimo - .
Línea 1.00 0.11 -0. I O -0.0 1 0.00 0.00 0.00 0.04 0.00 0.03 0.42 0.54 -0.33 -0. I O -0. 1 I -0.04
Sa ldo -0. 11 1.00 0.99 0.00 0.00 0.00 0.00 -0.07 -0.1 O -0.1 9 -0.03 -0.18 0.30 ,0.99 ·,.. i=.oo 0.02 Pago ; ~~· ~,~j-Á Míni- J ~ii:,- .-,:¡¡
1110 -0.1 O 0.99 1.00 -0.02 0.00 0.00 0.00 -0.07 -0 . 1 O -0.18 -0.03 -0. 17 0.3 1 0.99 - lF0~29 0.02
Pa-gado -O.O I 0.00 -0.02 1.00 0.00 0.0 1 0.01 -O.O 1 -O.O 1 -0.0 1 0.00 -0.02 -0. I O -0.03 0.00 O.OS Inte-rés 0.00 0.00 0.00 0.00 1.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00
Consu- :,. ,J.: :;11 -
1110 0.00 0.00 0.00 0.0 1 0.00 1.00 ~,t·o.19 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00
Dispo- .; sición 0.00 0.00 0.00 0.0 1 0.00 --0:19~ 1.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 Meses a Factu- -ración 0.04 0.07 -0.07 -0.01 0.00 0.00 0.00 1.00 0.39 0.26 0.03 0.04 -0.06 -0.07 -0.07 -0.01
Meses a Com- -oras 0.00 O. JO -0. I O -O.O 1 0.00 0.00 0.00 0.39 1.00 -0.02 -0 .06 0.01 -0.04 -0 . I O -0 . I O 0.00
Meses a Di spo- -sición 0.03 0. 19 -0. 18 -O.O 1 0.00 0.00 0.00 0.26 -0 .02 1.00 -0 .02 0.0 1 -0.08 -0. 18 -0.19 0.00
Meses a -Apertura 0.42 0.03 -0.03 0.00 0.00 0.00 0.00 0.03 -0.06 -0.02 1. 00 ·- 0.76- -0.42 -0.03 -0.03 -0.04
-Meses a 1'1"l_
lncre- 3; -mento 0.54 0. 18 -0.17 -0.02 0.00 0.00 0.00 0.04 0.0 1 0.01 0.76 1.00 -0.56 -0. 17 -0. 18 -0.06
Pagos -
Venci- -dos -0.33 0.30 0.31 -0.1 O 0.00 0.00 0.00 -0.06 -0.04 -0 .08 -0.42
- )"! -o:s.6 - 1.00 0.3 I 0.30 0.06
Importe ,,
- -'~''' 1-
Pagos -0. 1 O _0.99 ' Ó.99 -0.03 0.00 0.00 0.00 -0.07 -0.1 O -0.18 -0.03 -0.17 0.3 1 1.00 ~,.~Q;99 0.02
133
Pago Meses Meses Meses Meses Pagos Importe Pago Sal-1 Mí- Pa- lnte- Con- Dispo- Factu- Com- Dispo- Meses lncre- Vencí - Pagos Uso Sobre
Línea 1 do nimo gado rés sumo sición ración pras sic ión Apertura mento dos Vencidos Línea Mínimo ., -- .. --· ... - .. , .. ,., __
Vencí-dos Uso Línea 1 -0. 1 1 lfltff~m.~'11 0.001 0.001 0.00 1 0.001 -0.071 -0. 101 -0.19 1 -0.03 1 -0.1 81 0.30 ~ -.-.,·· - • . "-r. 'l' -h 1.00 1 0.02 Pago Sobre Mínimo 1 -0.04 I 0.021 0.02 1 o.os l 0.00 1 0.00 1 0.001 -0.01 1 0.001 0.00 1 -0.04 I -0.06 I 0.06 I 0.02 1 0.021 1.00
Tabla 11. Matriz de correlación del grupo de créditos incobrables
134
De las tablas 9, 1 O y 11, se consideró un umbral de 0.5 para decidir si la relación entre
dos variables se consideraba ( esto se muestra en las tablas por un sombreado). La
interpretación de las tablas es como sigue:
Si consideramos el universo encontramos que el Saldo tiene correlación con el Pago
Mínimo, los Intereses y el Importe de Pagos Vencidos; el Pago Mínimo lo tiene con el
Número de Pagos Vencidos, el Importe de Pagos Vencidos y el Uso de Línea; el Número de
Pagos Vencidos lo tiene con el Importe de Pagos Vencidos; el Importe de Pagos Vencidos lo
tiene con el Uw de Línea.
Ahora remarquemos lo que ocurre con el grupo de activos: el Límite de Crédito tiene
correlación con el Saldo; este último dato lo tiene con el Pago Mínimo, los Intereses; el Pago
Mínimo lo tiene con el Número e Importe de Pagos Vencidos: el Número de Pagos Vencidos
con el Importe de Pagos Vencidos.
No se comentará el mismo análisis sujeto al grupo de incobrables, simplemente es útil
comentar que varias de las relaciones de correlación se mantienen entre el universo y las
activas. El hecho de tomar estas últimas hace que se propongan correlaciones que son
empíricamente esperadas (Línea de Crédito con el Saldo).
El mismo análisis fue realizado tomando en consideración no sólo el grupo de
variables transaccionales sino también las correspondientes al comportamiento externo. A este
respecto las correlaciones mayores a 0.5 detectadas fueron:
• Línea de crédito: Saldo, Pago Mínimo, Intereses, línea de Crédito Externa.
• Saldo: Pago Mínimo, Intereses.
• Pago Mínimo: Intereses
• Pagado: Consumo
• Meses a Di.\posición: Meses a Apertura
135
• Número de Pagos Vencidos : Importe de Pagos Vencidos
• Uso Línea: Porcentaje de Cuentas con Uso de Línea
• Cuentas de Hipotecario: Peor Morosidad a 12 Meses de Hipotecario
• Saldo Vencido Préstamo Personal Interno: Peor Morosidad 12 Meses Préstamo
Personal interno
Una vez que se encontró la correlación entre las variables, se analizó y se descartaron
algunas variables con base en dos criterios:
1. Las variables en las que se detectó que estaban correlacionadas se desechó
alguna ya que el contenido de información de la otra se pretendía que fuera suficiente
para el modelo.
2. Con base en el conocimiento del negocio se decidieron los casos en los que
hubieran dudas.
Como se mencionará más adelante, el proceso de selección de las variables no fue
terminado aquí . Cuando se inició con el proceso de aprendizaje se detectó que algunas
variables no ayudaban en la fase de entrenamiento del algoritmo de la Red Neuronal. Se
regresó entonces a la selección de características y estas variables fueron igualmente
descartadas.
Las variables seleccionadas después del análisis de correlación son las resumidas en la
Tabla 12:
Número Variable 1 Importe de la Línea Interna
136
Número Variable 2 Saldo ,.,
Importe Pagado .)
4 Pago Mínimo 5 Meses a Ultima Compra 6 Meses a Ultima Disposición 7 Consumo 8 Disposición 9 Morosidad Más Reciente en Tarjeta de Crédito Interna 10 Morosidad Más Reciente en Tarjeta de Crédito Externa 11 Morosidad Más Reciente en Crédito Automotriz 12 Morosidad Más Reciente en Préstamo Personal 13 Morosidad Más Reciente en Tarjeta Departamental 14 Morosidad Más Reciente en Tarjeta de Servicio 15 Importe de la Línea Externa 16 Saldo Vencido en Tarjeta de Crédito Externa. 17 Saldo Vencido en Auto Interno 18 Saldo Vencido de Préstamo Personal Interno 19 Saldo Vencido de Préstamo Personal Externo 20 Saldo Vencido de Hipotecario Externo 21 Saldo Vencido de Tarjeta Departamental 22 Saldo Vencido de Tarjeta de Servicio 23 Número de Créditos de Tipo Automotriz 24 Número de Créditos de Tipo Préstamo Personal 25 Número de Créditos de Tipo Hipotecario 26 Número de Tarjetas Departamentales 27 Número de Tarjetas de Servicio . . .. 1 abla 12. Variables elegidas por anúlts1s de correlación
A fin de reducir aún más la cantidad de variables, se observó adicionalmente que las
variables relativas a Saldo Vencido tienen una alta cantidad de instancias en valores por
defecto, indicando la ausencia de saldo (por no tener el cliente el producto o debido a que se
encuentra con buen comportamiento y por tanto no existe Saldo Vencido). Para estas variables
se decidió realizar un agrupado tomando la suma del Saldo Vencido, representando esto el
hecho de que el cliente tuviera Saldo Vencido en otro tipo de créditos.
Llegamos entonces a las siguientes variables que se ocuparon inicialmente para el
proceso de aprendizaje.
Número Variable 1 Importe de la Línea Interna 2 Saldo 3 Importe Pagado
137
Número Variable 4 Pago Mínimo 5 Meses a Ultima Compra 6 Meses a Ultima Disposición 7 Meses a Apertura 8 Meses a Incremento de la Línea 9 Consumo 10 Disposición 11 Morosidad Más Reciente en Tarjeta de Crédito Interna 12 Morosidad Más Reciente en Tarjeta de Crédito Externa 13 Morosidad Más Reciente en Crédito Automotriz Interno 14 Morosidad Más Reciente en Préstamo Personal Interno 15 Morosidad Más Reciente en Tarjeta Departamental 16 Morosidad Más Reciente en Tarjeta de Servicio 17 Importe de la Línea Externa 18 Saldo Vencido de Otros Créditos 19 Número de Créditos de Tipo Automotriz 20 Número de Créditos de Tipo Préstamos Personales 21 Número de Créditos de Tipo Hipotecario 22 Número de Tarjetas Departamentales 23 Número de Tarjetas de Servicio Tabla 13. Variables a utilizar en el proceso de aprendiziüe
El resumen final de cómo se fue reduciendo el número de variables en cada etapa del
proceso de selección de características es el siguiente:
1. Se inicia con tres fuentes de datos:
• Archivo mensual que resume las transacciones del crédito (Mensual), el
cual contiene 20 variables.
• Archivo diario con las transacciones realizadas por el cliente en relación
con un crédito (Diario), el cual contiene 12 variables.
• Archivo mensual con el comportamiento externo del cliente (Buró de
Crédito), el cual contiene 399 variables.
2. Se descarta el archivo Diario, quedando los archivos Mensual y Buró de Crédito.
138
3. Se descartan las variables innecesarias del Buró de Crédito (de acuerdo al
conocimiento del problema) y se agrupan las variables del Buró de Crédito. En este
punto el archivo de Buró de Crédito contiene 46 variables.
4. Del análisis de correlación se descartan las variables redundantes del archivo Mensual
y el de Buró de Crédito (quedando en total 27 variables de ambos archivos).
5. Se agrupa el Saldo Vencido de los diferentes productos en una sola variable Saldo
Vencido Otros. Esto da un total de 23 variables entre el archivo Mensual y el archivo
de Buró de Crédito.
6. Se descartan las variables de Cuentas Abiertas de los diferentes productos. Esto deja
un total de 18 variables. Este último paso se detalla aquí al ser parte del proceso de
selección de las variables; sin embargo, debe remarcarse que este último paso se
realizó una vez que se inició el proceso de aprendizaje ya que se detectó que la
variable no ayudaba al algoritmo de la red neuronal.
5.4 Reducción de instancias.
Hasta este momento se cuenta con una serie de variables que fueron seleccionadas para
participar en el proceso de aprendizaje. Aún quedan dos tareas por realizar con los datos:
reducir el conjunto de instancias a tin de hacer viable un proceso de aprendizaje (tamaño
adecuado de la muestra ya que originalmente se tienen más de dos millones de registros) y
realizar un pronóstico de variables. Esto último será discutido en una sección posterior, sin
embargo es importante señalarlo desde ahora porque la reducción de instancias permitirá
139
realizar el proceso de pronóstico con un número adecuado de instancias, de manera que el
tiempo de ejecución no represente un problema.
Para realizar la reducción de instancias, se generaron números aleatorios que siguen
una distribución uniforme mediante el paquete R 11, estos valores se asignaron a las instancias
de manera que se escogieron aleatoriamente las instancias. A fin de hacer una muestra
representativa se segmentó a la base en diferentes grupos tomándose un porcentaje de
registros de cada grupo.
Se consideraron los siguientes grupos:
l. Activas Regulares
2. Activas Irregulares
3. Activas Marcadas Malas
4. Inactivas
5. Inactivas Marcadas Malas
6. Pagos Vencidos
7. Incobrables
Partiendo del universo de las activas regulares se tomaron aproximadamente 10,000
cuentas en dicho estado.
El muestreo final de los diferentes grupos es como sigue:
11 R es un lenguaje y ambiente para computación estadística y grálicos. Es un proyecto GNU que provee una amplia variedad de estadística (modelado lineal y no lineal. pruebas estadísticas clásicas. análisis de series de tiempo. c/ustering. etc.) y técnicas gráficas. El lenguaje R se encuentra disponible de manera gratuita b,~o los términos de la Licencia Pública General de la Fundación de Solhrnre Libre (Free Soft1rnre Foundation).
140
Conteo Grupo Original % Original Conteo Muestra % Muestra
Activas Regulares 874,519 0.4 10,056.97 0.4
Activas Irregulares 263,777 0.12 3,033.44 0.12
Inactivas 701,075 0.32 8,062.36 0.32
Pagos Vencidos 76,795 0.04 883.14 0.04
Inactivas Malas 29,983 0.01 344.8 0.01
Activa Mala 119,234 0.05 1,371.19 0.05
Incobrables 111,724 0.05 1,284.83 0.05 Total 2,177,107 1 125.036. 73 1 rabia 14. Muestreo de datos
Para validar las muestras anteriores, se analizó mediante R, comparando el universo de
activas en dos grupos: Activas Regulares y Activas Irregulares. Para estos dos grupos se
comparó entre la población total del mes diciembre del 2007 y el muestreo realizado en R
(con la idea de verificar si los valores de medias y desviaciones estándar son parecidos en
ambas muestras); sólo se realizó para el grupo de Activas Regulares y Activas Irregulares
(con la idea de que son estos grupos los que presentan mayor cantidad de variables pobladas,
es decir diferentes a cero).
Los resultados obtenidos son los siguientes:
Media Media SD SD !Variación Variación ¡población muestra población muestra media SD
Línea 36,124 35,956 45,972 f45,564 168.04 408.11 Saldo 2,650 2,753 12,768 12,865 103.53 96.66 Pago Mínimo 155 160 750 675 -5.29 75.33 Pagado 2,141 2,081 10,164 8,588 60.02 1575.94 Interés 8 8 68 71 0.11 3.17 Consumo 1,125 1,170 6,597 6,240 -44.47 356.91 Disposición ~04 3"" ... J 2,209 5,396 -119.32 3187.86 Meses a Facturación ~ 4 13 13 -0.15 0.18 Meses a Compras f4 4 13 13 0.11 0.07 Meses a Disposición 9 10 31 33 0.93 2.05
141
Media Media SD SD Variación Variación población muestra población muestra media SD
Meses a Apertura 43 ~3 61 61 0.42 0.2 Meses a Incremento 22 22 31 32 0.51 1.06 Pagos Vencidos o o o o o 0.02 Importe Pagos Vencidos 28 18 585 287 10.66 298.22 Uso Línea o o 11 2 O.O! 9.22 Pago sobre mínimo 100 69 2,441 635 31.31 1,805.28 Número Cuentas Auto Kl o o o 0.01 0.04 Número Cuentas Préstamo Personal Kl o 1 1 O.O! O.O! Número Cuentas Hipotecario Kl o o o O.O! 0.02 Número Cuentas Tarjeta Departamental I 1 I I 0.02 O.O! Número Cuentas Tarjeta Servicio Kl o o o o 1-0.0l Morosidad Reciente Tarjeta Crédito Interna Kl o 4 3 0.08 0.75 Morosidad Reciente rrarjeta Crédito Externa I 2 10 11 0.3 i-0.68 Morosidad Reciente Auto Interna I 1
., 2 0.07 0.88 _,
Morosidad Reciente Auto Externa I I o o o 0.08 Morosidad Reciente Préstamo Personal Interna 1 I 3 3 0.06 0.64 Morosidad Reciente Préstamo Personal Externa I 1 o o o 0.31 Morosidad Reciente Hipotecario Interna 1 1 1 2 0.03 ~0.88 Morosidad Reciente Hipotecario Externa 1 I o o o 0.14 Morosidad Reciente Tarjeta Departamental o o 5 5 O.O! 0.09 Morosidad Reciente !Tarjeta Servicio 1 o 4 5 0.18 0.99 Línea Crédito Tarjeta Externa 65,018 64,590 143,646 141,126 427.25 2,519.54 Saldo Vencido Tarjeta Crédito Externa 575 580 7.468 6,232 5.18 1,235.82 Saldo Vencido Auto Interno 97 122 5,520 l3,855 24.21 1,664.19 Saldo Vencido Préstamo Personal Interno 181 152 10,647 l3,233 28.79 7,414.23 Saldo Vencido Préstamo Personal Externo 170 79 6,549 ~60 90.52 5,588.97 Saldo Vencido Hipoteca Externa 352 102 24,902 ~,707 250.01 22,194.98
142
Media Media SD SD !Variación Variación ooblación muestra población muestra media SD
Saldo Vencido Tarjeta Departamental 77 ~8 1,527 602 ~9.45 924.07 Saldo Vencido Tarjeta Servicio 49 108 2,509 3,621 58.98 1,111.96 Porcentaje Límite rrarjeta Crédito Externa 20 15 600 ~6 5.33 574.06 !Número De Cuentas C:on Pago Ta,jeta Interna o o o o o 0.01 Número De Cuentas C:on Pago Tarjeta Externa o o o o o 0.01 Número De Cuentas Con Pago Auto Interna o o o o o o !Número De Cuentas ton Pago Auto Externa o o o o o 0.01 Número De Cuentas Con Pago Préstamo Personal Interna o o o o o 0.02 Número De Cuentas Con Pago Préstamo Personal Externa o o o o o 0.02 Número De Cuentas Con Pago Hipoteca Interna o o o o o 0.01 !Número De Cuentas ton Pago Hipoteca Externa o o o o o K)
!Número De Cuentas ton Pago Tarjeta Departamental o o o o o o !Número De Cuentas ton Pago Tarjeta Servicio o o o o o 0.01 Peor Morosidad 12 Meses Auto Interna -1 -1 2 3 -0.04 0.74 Peor Morosidad 12 Meses Auto Externa -1 -1 3 3 .... 0.03 0.3 Peor Morosidad 12 Meses Préstamo Personal Interna o o 5 5 0.06 0.35 Peor Morosidad 12 Meses Préstamo Personal Externa o o 6 7 0.09 0.59 Peor Morosidad 12 Meses Hipoteca Interna -1 -1 1 o 0.01 0.42 Peor Morosidad 12 Meses Hipoteca Externa -1 -1 2
,., 0.07 1.59 .)
Peor Morosidad 12 o o 6 6 -0.14 0.96
143
Media Media SD 5D ~ariación Variación población muestra población muestra media SD
Meses Tarjeta Departamental Peor Morosidad 12 Meses Tarjeta Servicio 1 1 2 l1 0.03 0.26 Porcentaje Cuentas Uso Línea 3 3 14 13 K).08 0.49 Número Cuentas Con Mora Tipo 99 o o o K) K) 0.04 rrotal Pago Productos 10,234 5,264 2,035,145 18,444 ~970.5 2,016,700.87 Meses Mora Reciente 6 6 13 12 KJ.o 1 0.3 Calificación Crédito 614 617 217 ~12 3.51 4.3 Tabla 15. Comparación de Medias y desviaciones estándar entre la población y la muestra para el grupo Activas Irregulares
Media Media SD SD Variación Variación ¡población muestra población muestra media SD
Línea ~3,305 ~3,288 50,659 50,491 17.43 167.34 Saldo ~0,228 20,169 29,647 29.479 59.4 167.46 Pago Mínimo 1,097 1,085 1,630 1,680 12.85 49.56 Pagado ¡3,404 3,502 9,171 10,219 -97.96 1047.83 Interés ~54 ~50 714 693 3.74 21.31 Consumo ¡3,423 3,341 10,473 10,959 82.23 485.38 Disposición 919 933 4,429 4,441 14.08 12.04 Meses a Facturación I 1
,., 2 0.02 0.11 .)
Meses a Compras ~ 1 4 4 0.04 0.13 Meses a Disposición 5 5 19 18 0.28 1.59 Meses a Apertura l13 33 47 46 0.4 0.66 Meses a Incremento 14 13 13 12 0.14 1.09 Pagos Vencidos o o o o o 0.01 Importe Pagos Vencidos 5 3 135 72 l. 71 63.52 Uso Línea 1 1 o o o 0.01 Pago sobre mínimo 15 9 711 87 5.51 623.67 !Número Cuentas Auto K) o o o 0.01 0.02 !Número Cuentas Préstamo Personal 1 1 1 1 o o !Número Cuentas Hipotecario K) o o o o o !Número Cuentas Tarjeta Departamenta 1 1 1 I 1 o 0.02 Número Cuentas Tarjeta Servicio o o o o o -0.02 Morosidad Reciente Tarjeta Crédito Interna o o 4 5 0.06 0.31 Morosidad Reciente Taijeta Crédito Externa 2 2 11 11 0.02 0.04 Morosidad Reciente Auto Interna 1 ~I 3 3 o 0.01 Morosidad Reciente 1 ,_¡ o 1 -0.01 o-0.36
144
Media Media SD SD Variación !Variación población muestra ¡población muestra media SD
!Auto Externa Morosidad Reciente Préstamo Personal Interna o o 14 5 0.01 0.16 Morosidad Reciente Préstamo Personal Externa -1 -1 1 1 o 0.25 Morosidad Reciente Hipotecario Interna -1 -1 1 1 ... 0.01 0.27 Morosidad Reciente Hipotecario Externa -1 -1 o o o 0.09 Morosidad Reciente Tarjeta Departamental o o 6 6 0.05 0.12 Morosidad Reciente Tarjeta Servicio -1 -1 4 5 ... 0.02 0.25 Línea Crédito Tarjeta Externa 82,632 82,225 156,954 161,972 1407.03 5,018.34 Saldo Vencido Tarjeta K::rédito Externa 600 597 8,114 9,685 2.62 1,571.8 Saldo Vencido Auto Interno 53 51 2,182 1,903 2.52 278.7 Saldo Vencido Préstamo Personal Interno 180 166 3,900 2,441 13.96 1,458.74 Saldo Vencido Préstamo Personal Externo 481 365 202,071 10,764 115.91 191,306.77 Saldo Vencido Hipoteca Externa 492 286 36,381 17,447 206.26 18933.8 Saldo Vencido Tarjeta Depa11amental 106 93 1,571 941 13.01 629.59 Saldo Vencido Tarjeta Servicio 87 252 4,348 12,271 ... (64.52 ... 7922.84 Porcentaje Límite Tarjeta Crédito Externa 39 34 755 35 14.67 719.83 [Número De Cuentas Con Pago Tarjeta Interna o o o o o o IN úmero De Cuentas Con Pago Tarjeta Externa o o o o o 0.02 !Número De Cuentas Con Pago Auto Interna o o o o o o !Número De Cuentas Con Pago Auto Externa o o o o o o IN úmero De Cuentas Con Pago Préstamo Personal Interna o o o o o 0.02 !Número De Cuentas Con Pago Préstamo Personal Externa o o o o o 0.01 Número De Cuentas Con Pago Hipoteca Interna o o o o o o
145
Media Media SD SD iVariación Variación población muestra población muestra media SD
Número De Cuentas Con Pago Hipoteca Externa o o o o o 0.01 !Número De Cuentas Con Pago Tarjeta Departamental o o o o o o !Número De Cuentas Con Pago Tarjeta Servicio o o o o o o Peor Morosidad 12 Meses Auto Interna 1 -1 2 2 -0.01 >-0.2 Peor Morosidad 12 Meses Auto Externa 1 o " 4 -0.04 0.69 .)
Peor Morosidad 12 Meses Préstamo Personal Interna o o 5 5 o 0.09 Peor Morosidad 12 Meses Préstamo Personal Externa o o 7 7 -0.02 0.26 Peor Morosidad 12 Meses Hipoteca Interna 1 -1 1 o o 0.33 Peor Morosidad 12 Meses Hipoteca Externa 1 1 2 1 0.01 0.64 Peor Morosidad 12 Meses Tarjeta Departamental o o 5 5 0.04 0.44 Peor Morosidad 12 Meses Tarjeta Servicio 1 1 2 G -0.03 0.36 Porcentaje Cuentas Uso Línea 15 15 28 ~8 O. 19 0.19 Número Cuentas Con Mora Tipo 99 o o o 1 o 0.05 rrotal Pago Productos ~.121 9,147 61,138 37,995 25.76 23,143.66 Meses Mora Reciente 5 5 11 11 0.1 0.27 Calificación Crédito 672 672 104 106 0.69 -2.11 l ahla 16. Compnrac1ón de Medias y desv1ac1ones estándnr entre la población y la muestra para el grupo Activas Regulares
5.5 Generación de series de tiempo.
Uno de los problemas tradicionales cuando se trabaja con series de tiempo es la falta de
períodos suficientes para la ejecución del algoritmo requerido. En cuanto al proyecto aquí
planteado, los datos disponibles correspondieron a dos fuentes de datos, una de información
de carácter interno (la cual consistió en 18 períodos de tiempo) y la otra externa (con cinco
146
períodos de tiempo). Ambas muestras partían del mismo período inicial. Como se puede
observar, las fuentes de datos no comparten los mismos períodos.
Por tanto, se requirió disponer de al menos la misma cantidad de historia para ambas
series de tiempo ( 18 períodos). De esta manera el proceso de aprendizaje tomaría fuentes de
datos con la misma cantidad de períodos, de manera que se facilitaría el cruce de estos datos
para llevar a cabo el proceso.
Se requirió por tanto, generar 13 períodos adicionales para la fuente de datos externa.
Los algoritmos que se evaluaron para esta tarea fueron los siguientes:
• Suavizado exponencial
• Modelo ARIMA
• Media móvil
• Modelo en base a distribuciones de frecuencia.
Los primeros dos algoritmos se implementaron mediante el paquete estadístico R. Los
resultados generados no se adecuaron a las necesidades requeridas. El tercero y cuarto se
implementaron en Java utilizando una base de datos MySQL.
Dentro de las variables que se consideraron existen dos tipos diferentes (por la
naturaleza del dato); el primer tipo corresponde a variables de naturaleza continua, tal como
montos de saldos o importes de límites; el segundo tipo corresponde a variables de naturaleza
discreta, tal como meses a la morosidad más reciente de un tipo particular de crédito. Estos
últimos datos presentan una particularidad importante: en su mayoría se trata de valores con
un valor por defecto indicando la ausencia del dato. La mayor parte de los datos de la fuente
externa se refiere a variables discretas que miden los meses a un evento particular.
147
Se presenta en la Tabla 17 un ejemplo de variable de esta fuente externa del tipo
discreto, indicando la migración entre valores medidos en el promedio de los cinco períodos
de datos disponibles.
o 1 2 3 4 5 6 7 o 98.94% 1.02% 0.03% 0.01% 0% 0% 0% 0% 1 2.62% 95.04% 2.21% 0.11% 0% 0.01% 0% 0% 2 0.34% 4.32% 92.12% 3.05% 0.13% 0.05% 0% 0% 3 0.04% 0.55% 6.61% 88.86% 3.54% 0.32% 0.04% 0.04% 4 o 0.24% 1.31% 7.79% 85.84% 4.58% 0.24% 0% 5 o 0% 0.69% 1.40% 8.22% 87.27% 1.72% 0.69% 6 o 0% 0% 0% 4.75% 16.16% 74.41% 4.67% 7 o 0% 0% 0% 0% 0% 5.08% 94.92% Tabla 17. Migración histórica parcial <le variable <le comportamiento externo discreta para sus diferentes valores
En la Tabla 17 se muestra la estacionariedad de los datos para la variable de cuentas de
préstamos personales. Por ejemplo se observa que un 98.94% de los clientes sin cuentas de
este tipo en un período de tiempo t, seguirán sin cuentas del tipo en el período t+ l; mientras
tanto, 1.02% de los clientes sin cuentas de este tipo en el período t habrán adquirido una
cuenta del mismo tipo en el período t+ 1.
En la Tabla 18 se muestra información de migración para la misma variable de la
Tabla 17, pero esta vez referida a la distribución de los mismos porcentajes considerando una
medición con respecto a la tabla completa (y no con respecto al porcentaje de cuentas que
migran de un valor x en el tiempo ta los diferentes valores y 1, _v2 .... y,, en un tiempo t+ 1).
o I 2 3 4 5 6 7
o 64.29% 0.67% 0.02% 0.00% 0.00% 0.00% 0.00% 0.00%
I 0.59% 21.35% 0.50% 0.02% 0.00% 0.00% 0.00% 0.00%
2 0.03% 0.37% 7.89% 0.26% 0.01% 0.00% 0.00% 0.00%
3 0.00% 0.01% 0.18% 2.42% 0.10% 0.01% 0.00% 0.00%
4 0.00% 0.00% 0.01% 0.07% 0.77% 0.04% 0.00% 0.00%
5 0.00% 0.00% 0.00% 0.00% 0.03% 0.27% 0.01% 0.00%
6 0.00% 0.00% 0.00% 0.00% 0.00% 0.01% 0.03% 0.00% 7 0.00% 0.00% 0.00% 0.00% 0.00% 0.00% 0.00% 0.02%
Tabla 18. Migración histórica total de variable de comportamiento externo discreta para sus diferentes valores
148
Un ejemplo de interpretación de la Tabla 18 es el siguiente: un 64.29% del total de
cuentas bajo análisis no tiene cuentas de Préstamo Personal en el período I y continuará así
para el siguiente período t+ l.
Analizando las tablas 17 y 18 podemos apreciar:
1. Existe estacionariedad en los datos porque partiendo del tiempo I, el siguiente período
mantiene en un alto porcentaje el mismo valor de la variable.
2. Existen algunos valores en que se refleja mayor variación (por ejemplo el 74.41 %
mostrado en la Tabla 17, correspondiente a pasar de 6 cuentas del tipo en el período ta
6 cuentas en t+ 1, lo que nos lleva a que existe casi un 25% de cuentas que se mueven
en otros valores); sin embargo en la Tabla 18 bajo análisis se muestra también que
sólo un 0.03% del universo total presentan movimientos de un valor de 6, en el tiempo
t, a 6, en el tiempo t+ l.
No se muestran las demás variables utilizadas; sin embargo, es de remarcar que este
tipo de variables presenta una alta estacionariedad. Los resultados de procesos de estimación
de series de tiempo utilizando los algoritmos de Suavizado exponencial y ARIMA para este
tipo de variables resultaron en la generación del mismo valor para los períodos subsecuentes.
Si bien es de notarse que no debe existir un alto cambio en la migración, si fue notorio que los
algoritmos planteados no proporcionaban variación significativa en los datos.
Otra dificultad con los métodos de ARIMA y Suavizado exponencial es que para
variables no discretas (ejemplo el Saldo Vencido o el importe de la Línea de Crédito),
elevaban muchos los estimados de los datos. Las Tablas 19 y 20 muestran los resultados de
149
estas dos variables; los primeros cinco períodos corresponden a datos reales mientras que los
restantes corresponden a la salida estimada proporcionada por el algoritmo ARIMA.
[ Perí_od_o _____ lMedia _Desviad~ estándar
120?7 I ~ _ J5.~_5_E_+o_o4 __ -~-1._J2_294J_e+o?_
1200801 ¡5.739818e+04 1.273675e+05
~~~-:6i- l::i:;~::04 ··~-::~:i~i~::~:-200804 -----
[200!05 __ •-
• 200806
l6.I96783e+04 · l .348094e+05-
l 9.6393 l 6e+04 l .5788 l 2e+05 ---- ---------
9.659681 e+04 1.585749e+05
/_20-080_7_--_-_-=-- - 9-.697_--3_1_4_e_+-=-0-4_ -_ ---1=.59_4_2=-49~i-=-05~--=---- =-Tabla 19. Análisis de media~ y desviaciones estándar de la variable Importe de fa Línea Externa.
1Período ---- -- ¡ Media ! Desviación estándar
'. 200712 l[ 2.~2_~0~7e_:':03__ l l_l~l 398e+O~
1200801 .2.105752e+03 l 1.875447e+04
\ 200802 t2.680882e+03 l 2.219256e+04
[ 200803-- - - ¡ 2. 919620e+03 i 2~302056-;+04-I -- - ---- -, ----- - -, - - --- ---. 200804 j 3.09422 le+OJ ¡ 2.369562e+04
! 200805- f l .418274e+04 ---14.880-536~~04 -
1 200806
i200807
! l .493445e+04 j__s.1102 l 8e+04
1 l.578172e+04 l5_J79959e+04 --- - ------·------- - ---
Tabla 20. Amílisis de medias y desviaciones estándar de la variable Saldo 1 ·e11cido de Créditos Externos.
Lo anterior significaba que un proceso de predicción para las series de tiempo bajo
estos algoritmos no ayudaba (si bien es poca la variación en muchas de las variables, en las
tablas 17 y 18 se muestra que si debe existir un porcentaje de variación).
En las figuras 14 a la 18 se muestran de manera gráfica los resultados del proceso de
predicción para el modelo ARIMA (para algunas variables). Se marca en un color más claro
el período 18 en todas las gráficas, esto se hace para ilustrar el último período de datos reales
ya que a partir del período 19 los valores corresponden al pronóstico realizado.
150
)0000
25000
20000
Saldo
'::~ 1111 1
111111111111111111 II 1 3 5 7 9 11 13 15 17 19 21 23 25 27 29 31 33 35 37 39 41 43 45 47 49 51 53 55 57 59 61 63 65 67 69 71
Figura 14. l'ronústico para la \ariablc Soldo por el método ARIMA
0000
1500
JODO
7~00
2000
1500
,ooo
',00
o
lmpor1e pagado
111111111111111111111111111111111111111111111111111111 1 3 5 7 9 11 13 15 17 19 21 23 25 27 29 31 33 35 37 39 41 43 45 47 49 51 53 55 57 59 61 63 65 67 69 71
Figura 15. l'ronústico para la variable l111por1e l'ugodo por el método i\RIM;\
,ooo ]500
1000
1 mpor1e pago mimmo
1t111111111lllllll 111111111111111111 11111
1 3 5 7 9 11 13 15 17 19 21 23 25 27 29 31 33 35 37 39 41 43 45 47 49 51 53 55 57 59 61 63 65 67 69 71
Figura 16. l'ronústico para la variable l111porte del Pago .\li11i1110 por el método /\RIMA
~JOO
4000
3500
3000
:: 25CO
-: 2000
'500
,000
500
o
F acturacion
111111111111111111111111111111111111111111111111111111 1 3 5 7 9 11 13 15 17 19 21 23 25 27 29 31 33 35 37 39 41 43 45 47 49 51 53 55 57 59 61 63 65 67 69 71
Figura 17. Pronóstico para la \ariablc Foc111rnció11 por el método i\RIM;\
151
Meses Ultima Disposicion
" 10
•
JIIIIIIII 1111111111111111111111111111111111111111111111 1 3 5 7 9 11 13 15 17 19 21 23 25 27 29 31 33 35 37 39 41 43 45 47 49 51 53 55 57 59 61 63 65 67 69 71
Figura 18. Pronóstico para la variable .\!eses a Ú/1i111a Disposición por d método J\RIMJ\
Como se observa de las Figuras 14 a la 18, este método de pronóstico en algunos casos
crecía demasiado los valores y en otros prácticamente no generaba variación.
Se programó un algoritmo de media móvil tomando diferentes períodos para generar la
media, utilizando dos tipos diferentes de período para el cálculo de la media, tres y seis meses.
El algoritmo sirve para aplicarlo a variables del tipo continuo pero en el caso de las discretas,
al realizarse un promedio, ocurre la misma situación que en el caso de los algoritmos
anteriores.
5.5.1 Estimación de datos mediante algoritmo basado en frecuencias.
A fin de realizar el proceso de estimación de variables (generando los 13 períodos faltantes
para la información de comportamiento externo), y posteriormente generando las series de
tiempo hasta llegar a 40 períodos, se utilizó un algoritmo propio que se basó en la idea de
generar cuantiles estadísticos e ir midiendo la tasa de migración entre períodos para los
diferentes cuantiles. Con base en la distribución de frecuencia se generaba el siguiente
período y se ajustaban nuevamente las frecuencias. El proceso fue dividido en dos partes, una
primera enfocada a los datos del tipo transaccional y la otra enfocada a los datos de
compor1amiento externo.
152
Para los datos de carácter transaccional se tomaron los tres últimos meses con
información real (de marzo del 2009 a mayo del mismo año). Se observó un problema durante
la generación de los datos, como en algunas variables de la muestra existen valores
extraordinariamente altos (los cuales son atípicos del conjunto), el hecho de usar
distribuciones de frecuencia mediante cuantiles provocaba que el portafolio de créditos en su
generación de series de tiempo creciera demasiado, provocando medias superiores al
comportamiento real del portafolio. A fin de evitar este problema se escogió que el último
cuantil que debía llegar hasta un porcentaje máximo del total ordenado de los créditos. Esto
garantizaba que el portafolio no creciera de manera extraordinaria con cada generación del
período correspondiente. Adicionalmente se notó que ayudaba el hecho de generar los
prnneros períodos con este porcentaje y posteriormente mover el criterio al 100% de los
datos.
Se obtuvieron los cuantiles con las siguientes características:
Variable
Límite Crédito
Importe Pagado
Saldo Corte
Facturacion
Meses Ultima Compra -------- -----
Meses Ultima Disposición
Meses Apertura
Meses Incremento
Uso Línea
___ ~ % ~uperior del _'Íltin10 cuantil _
i0.95
10.95
-+~95 __ ¡0.95
i0.95 --~·---
:o.95
_ --=jo.95 ______________ _ ¡ 0.95
--- 10.95--- ·---
Importe Pago Mínimo ----- --~~
1
--1 ~I
Tabla 21. Máximo porcentaje para el último cuantil generado para variables transaccionales
Información del comportamiento.
Se tomaron las siguientes variables:
• Identificador del Crédito
• Período de Datos
• Morosidad Más Reciente en Tarjeta de Crédito Interna
• Morosidad Más Reciente en Tarjeta de Crédito Externa
• Morosidad Más Reciente en Crédito de Automóvil
• Morosidad Más Reciente en Préstamo Personal Interno
• Morosidad Más Reciente en Tarjeta Departamental
• Morosidad Más Reciente en Tarjeta de Servicio
• Importe de Línea de Crédito Externa
• Saldo Vencido de Otros Créditos
Se consideraron los tres últimos meses con información real (de 200802 a 200804).
1 Variable
, Morosidad Más Reciente en · Tarjeta de Crédito Interna ---- ------ ---
! Morosidad Más Reciente en Tarjeta de Crédito Externa
f- ----- ---- -- -----
i Morosidad Más Reciente en 1
1 Crédito de_ Automóvi 1 __
~ Morosidad Más Reciente en Préstamo Personal Interno
1 Morosidad Más Reciente en Tarjeta Departamental
1 - - --- -- - --
! Morosidad Más Reciente en ; Tarjeta de Servicio f-- --- - - --Importe de Línea de Crédito Externa
--- --
1 % Superior del último cuantil
0.95
¡ -- -¡· ------- -
Saldo Vencido de Otros Créditos 0.95 ------------
Tabla 22. Acotamiento superior del último cuantil para variables de comportamiento externo.
153
154
Con base en la distribución de frecuencias de los cuantiles se obtuvieron las
probabilidades de cambiar del penúltimo al último mes (200904 a 200905 para información
transaccional y, 200803 a 200804 para información de comportamiento).
Mes a mes se van generando los datos de manera aleatoria siguiendo los valores de
frecuencias obtenidos del conteo del mes en cuestión multiplicado por el valor de frecuencia
esperado.
Se muestran a continuación (Figuras 19 a la 25), los resultados obtenidos para algunas
de las variables en forma gráfica. Los primeros 18 períodos de datos corresponden a
información real, los períodos siguientes representan el pronóstico. Nótese que en las Figuras
19 a la 25 el período 18 se muestra en un color diferente, esto se hizo con el propósito de
ilustrar cuál fue el último período de datos reales, esto es, a partir del período 19 los valores
mostrados corresponden al pronóstico realizado.
Saldo
)0000
;~ 11111111111111111111111111111111111111111111111 9 11 13 15 17 19 21 23 25 27 29 31 33 35 37 39 41 43 45 47 49 51 53
figura 19. Pronóstico rara la \ariahlc Sale/o ror el método basado en frecuencias.
Facluracion
4500
4000
;~ 111 . 1111111111 11111111111111111111111111111111111
Figura 20. Pronóstico para la Yariablc Fac111raci<Í11 (Compras mas /)isposiciones) por el método basado en frecuencias.
4000
J500
lmpor1e pagado
~ 11 . 1 1 fü11111111111111111111 1 3 5 7 9 11 13 15 17 19 21 23 25 27 29 31 33 35 37 39 41 43 45 47 49 51 53
Figura 21. Pronóstico para la \ arinblc /111por1e l'ugado por el método basado en l'recuencias.
4500
4000
Importe pago mínimo
!11111111111111111 1111111111111111111111111111111 1 1 3 5 7 9 11 13 15 17 19 21 23 25 27 29 31 33 35 37 39 41 43 45 47 49 51 53
Figura 22. Pronóstico para la\ ariable !111por/e del l'ago .\lí11i1110 por el método basado en rn::cuencias.
Consumos
3500
~ 1 1 '11111 11 11111111111111111111111111111111111 1 3 5 7 9 11 13 15 17 19 21 23 25 27 29 31 33 35 37 39 41 43 -15 47 49 51 53
Figura 23. Pronóstico para la rnriable Co11.1·111110 por el método basado rn frecuencias.
155
156
IOOO
900
Disposiciones
11111111111111111, 1111111111111111111111111111111 1 3 5 7 9 11 13 15 17 19 21 23 25 27 29 31 33 35 37 39 41 43 45 47 49 51 53
Figura 24. l'ronóstico para la variahlc Disposición pur el 111.:todo basado en frecuencias.
70
GO
Meses Incremento
~1111111111111111111111111111111111111111111111111111 3 5 7 9 11 13 15 17 19 21 23 25 27 29 31 33 35 37 39 41 43 45 47 49 51 53
Figura 25. l'ronóstico para la variablé ,\lese.1· o lncre111en/o por el 111.:todo hasado en frecuencias.
5.6 Proceso de aprendizaje.
5.6.1 Selección de algoritmos para el aprendizaje.
Se trab,~jó con dos algoritmos para el proceso de aprendizaje: redes neuronales y redes
bayesianas. La selección del primer algoritmo ya fue planteada en el Capítulo sobre la
metodología: como fue mencionado se tomó en cuenta su sencillez y el hecho de que facilita
el proceso de ajuste del aprendizaje a través de parámetros de la red misma (tal como la tasa
de aprendizaje). Sin embargo, también se reconoce que el algoritmo funciona como una caja
negra en la que ingresan variables y arroja un resultado (lo que puede hacer difícil la
interpretación). Adicional a esto surgió la inquietud de considerar el proceso de incertidumbre
que es natural a todo proceso de calificación de crédito.
157
Dentro de las redes neuronales existen métodos para incorporar procesos de
incertidumbre; sin embargo, se decidió tomar a las redes bayesianas debido a la sencillez del
algoritmo para representar los procesos de negocio (en este caso la calificación de crédito), el
hecho de que se comporta como una caja blanca en que es fácil interpretar la estructura de la
red y que facilita la generación de valores "grises" en los que es posible someter al juicio del
analista el hecho de si acepta o no un crédito como cumplido, es decir, es posible asociar una
probabilidad de que el cliente sea cumplido.
5.6.2 Resultados de las pruebas efectuadas con la Red Bayesiana.
La interpretación de la sensibilidad, aplicada al problema de clasificación de crédito, se
explica como el porcentaje de clientes morosos que son bien clasificados como tales, es decir
los clientes morosos que son clasificados como morosos.
Por otro lado, la especificidad se entiende como el porcentaje de clientes cumplidos en
su pago bien clasificados, es decir el porcentaje de exactitud para que un cliente que cumplió
con el pago sea bien clasificado como cumplido.
Un cliente cumplido se definió como una persona que en un período de tiempo tuvo
pagos cuya suma es al menos igual al monto mínimo que se le exige, esto quiere decir que no
necesariamente se debe liquidar el monto total del adeudo en un período específico. El
importe de los pagos en el período puede ser cero, sin caer en condición de mora, si es que se
específica un monto del pago mínimo igual a cero.
En una Red Bayesiana se puede presentar como evidencia una serie de valores
correspondientes a las variables de la red y, con base en esta evidencia estimar alguna(s)
otra(s) variable(s), en el caso de la Red Bayesiana planteada se incluyen las variables de
Importe Pagado e Importe del Pago Mínimo. Sin embargo, tomar como evidencia ambas
158
variables no tiene un significado práctico para el problema de clasificación de crédito
planteado dado que es en función de esas dos variables que se definió la morosidad.
Se analizaron por tanto los siguientes tres casos, indicando la ausencia de una o las dos
variables que definen a la mora:
1. Se incluye en la evidencia el Importe Pagado en el período bajo análisis
2. Se incluye en la evidencia el Importe del Pago Mínimo requerido en el período bajo
análisis.
3. No se incluye en la evidencia el Importe Pagado 111 el Importe del Pago Mínimo
requerido.
La herramienta utilizada para la Red Bayesiana fue Elvira 12; se implementó una serie
de clases en Java que se conectan a una base de datos en MySQL para obtener la evidencia y
las distribuciones de frecuencia de las diferentes variables, mediante el uso de las API de
Elvira (Java) se invocaba el algoritmo de aprendizaje de la Red Bayesiana. El mecanismo
utilizado para reducir la dimensionalidad de las tablas de probabilidad conjunta correspondió
a la Eliminación de Variables (lo cual es un algoritmo implementado por Elvira). La Red
Bayesiana fue del tipo discreto, se generaron los rangos de cada variable mediante un
algoritmo de cuantiles (lo cual fue dinámico para cada nuevo período que se le presentaba a la
Red Bayesiana). La Red Bayesiana fue dinámica (una de las variables de evidencia fue la
Mora del Período Anterior - la cual es una variable que estima la Red Bayesiana).
le La púgina del sitio en que se puede encontrar mayor información sobre el proyecto El vira es: htt p://,vw,1. ia. u ned.cs/i n vest ig/proycctos/el vira/
159
La Red Bayesiana planteada inició en el primer período sin contar con información
sobre la morosidad anterior. Esto corresponde a la Figura 9. A partir del segundo período ya
se cuenta con información de la morosidad previa, por lo que la Red Bayesiana añade un nodo
a la estructura de la red; el nuevo nodo contiene la morosidad del período anterior, la cual
corresponde a la salida de la Red Bayesiana en la variable Morosidad en una corrida previa.
La Figura 26 muestra la estructura de la Red Bayesiana a paitir del segundo período:
meses_ult_compra meses_ult_disp
meses_incr
ORA_MES_REC_TDC_MO AYOR_MORA_OTROS
Figura 26. Red Bayesiana para el proceso de calificación de crédito cuando se incluye información de la morosidad anterior.
La estructura de la Red Bayesiana fue desarrollada de acuerdo a la experiencia en el
tema del proceso de crédito. Se aprecia que los Meses a la [}/tima Compra
("meses_ult_compra") tienen influencia en el Consumo ("imp_tot_cons"); los lvfeses a la
Última Disposición ("meses_ult_disp") afectan las Disposiciones ("imp_disp'"); los Meses al
Último Incremento de la línea ("meses_incr") influyen en el Consumo y la Disposicián. El
Importe de la línea ele Crédito, tanto interna ("imp_lim_cred"'), como externa
160
("IMP _LIM_CRED_ TDC_OO'') afectan al Consumo y la Di.\posición. Estas últimas dos
variables influyen en el Saldo ("sdo_corte"). El Saldo influye en el Monto del Pago Mínimo
requerido ("imp _pag_m in"). Esta ú !tima variable influye en la Morosidad Actual
("MORA_ACT'), lo mismo que lo hacen el Saldo Vencido Externo ("SDO_ VEN_OTR"), la
Morosidad del Período Anterior ("MORA_ANT") y el Importe Pagado ("imp_pagado").
Finalmente, la Morosidad Más Reciente en la Tarjeta de Crédito Interna
("MORA_MES_REC_TDC_MO'") y la Morosidad Más Reciente de Otros Créditos
("MAYOR_MORA_OTROS'') influyen en el Importe Pagado.
Las características utilizadas por la Red Bayesiana fueron las mismas que las
empleadas por la Red Neuronal (también planteada en este Capítulo). La única diferencia
estribo en que en este caso todas las variables son discretas y que la variable
·'MAYOR_MORA_OTROS'' conjuntó las diferentes variables de morosidad de productos
con la excepción de la Moro en Tarjeta ele Crédito interna (la cual siguió separada). La razón
para esta conjunción es que la Tabla de Probabilidad Condicional para el nodo Mora crecía
mucho usando todas las variables, lo que dificultó el proceso de aprendizaje.
5.6.2.1 Caso l. Exclusión de la variable Importe Pagado como evidencia.
Se incluyeron todas las variables de la Red Bayesiana como evidencia con la excepción del
comportamiento de pagos en el período actual (Importe Pagado) y la morosidad actual (la
cual corresponde a la variable que se desea estimar).
La Morosidad ele la Cuenta en el Período Anterior es una variable que se incluye
como evidencia a partir del segundo período de análisis (en el primer período no existe un
estimado de morosidad para un período previo). Los resultados generados para esta ejecución
son los mostrados en las Tablas 23 y 24.
161
Estimado
\ - -
1 Moroso (1) Cumplido (O)
real Cumplido (O) 21,368 1 1 ¡ 8,882
- - 1 Moroso (1) 7,116 -~,686 ! -
Tabla 23. Matriz de confusión de Red Baycsiana - exclusión de evidencia de importe pagado
Sensibilidad Especificidad Exactitud
68.72% 70.63% 69.84% Tabla 24. Resultados de Red Bayesiana - exclusión de evidencia de importe pagado
La Tabla 24 muestra que la Red Bayesiana es capaz de detectar adecuadamente un
68.72% de los clientes morosos y un 70.63% a los clientes cumplidos. En promedio la
exactitud de la red para predecir es de un 69.84%.
Un análisis por mes de los resultados es el siguiente:
r------- i --- --- - - ----- - - --~ 1
t----M_e_s ----+1 _S_en_s_ib_i_li_d_ad __ -t-_E_sp_e_c_ificida~ _ ____ 1 Exactitud J
11200712 i27.46% 82.57% 170.41% !
1 i l ¡200801 121.08% ___ __ 1_~2_._8 _10Jc_º __________ L~i-~~- __ _ 1 1200802 i 28.11 % 82.81 % 1 70.87% !- ----- ---j·--------- ------- -- -- -- ---- ---'···------------ J
l200803 1~ _ _7_2_!_% _ 83.07% _____ _______ i70.51%
! 200804 l 26.85% 84.90% : 70.88% I ______ - · - ·· '··---- ---- --·---·------ - · ·- ----- - - - - -- -
r 200805 7 30.67% 82.75% 1 69.82% ,------------ ·----- - - - --------- _¡ ____ _ _ 200806 133.25% 184.77% - --- ---- ~ 1.74%
! 200807 130.68% . 85. 17% 1 72.01 % --- - --1- --~
; 200808 \ 33.52% 84.66% ; 72.34% i ;-1 ------l---------- - - --------------¡ --- _ _ ! ' 200809 [ 32.50% 85.06% ¡ 71.14%
1
'-¡2_0_0_8_10 _ ____ -p.~2_2_o/c_o_ _ 86.08% :71.94% ----¡ ; 200811 45 .31 % -l so3oo/:- ----- - - - :68. 70% f - ---- - -!-------;200812 [34.54% :83.70% - ----=- -- :71.08% _ __ : ' - - - - ---- !-
86.38% ¡ 73.20% j ------· - - --- - j_ --- ----- -- - - ·
·200901 136.82% [ ___ :200902 ¡41.04% 87.30% 1 74.32% 1
200903 ~-:s 1 % ------+--
84.65% ,72.07% ---+
' 200904 159.51%
;200905 :s8.77%
70.70%
71.64%
J67.04% ------~ \66.25% L-.---
162
Mes
200906
200907
200908
200909
200910
200911
200912
201001
201002
201003
201004
201005
201006
201007
201008
Sensibilidad ---------
65.51% --- -------
81.10% ----- ----
83.59% ---- - ------ ---
85.83% --- - -
85.85% -------
86.33% ----
83.58% ---------- ----------
83.95%
81.36%
88.96%
86.13% ----- ---- ---
84.82%
84.24% --·-- ---
81.89% -- -- --- ---------
80.00%
---
Especificidad ----·--
54.75%
47.41 %
48.34% ----
51.25% -
55.27% ------------
53.53% -- --- --
50.78% ---- - .. -----
51.09%
50.09%
35.40%
41.48% - ------
44.75% --- -
47.69% --
45.19% ----------
45.98%
- -~~u_d -----, ¡61.09%
-------1
_6~._17%
70.95% -- . ---
73.06% -
174.72% -- -
74.32%
71.01%
71.01%
69.29%
67.84%
68.10% --------
¡68.17%
69.03%
66.25% --- --- --
65.45%
··~
---1
~~:~~~- ~iil~ >~ I~¾~:~--~- -~ :::!~ --Tabla 25. Desglose mensual de los resultados de Red Bayesiana - exclusión de evidencia de /111por1e Pagado
5.6.2.2 Caso 2. Exclusión de la variable Importe del Pago Mínimo como evidencia.
Se incluyeron todas las variables de la Red Bayesiana como evidencia con la excepción del
Pago Mínimo que se debe cubrir en el período actual y la Morosidad Actual (la cual
corresponde a la variable que se desea estimar).
Al igual que en el primer caso analizado, la Morosidad de la Cuenta en el Período
Anterior es una variable que se incluye como evidencia a partir del segundo período de
análisis.
Los resultados generados para esta ejecución son los mostrados en las Tablas 26 y 27.
163
1 Estimado 1 1
1 Cumplido Moroso
lRe~ lc~mplido 25,919 4,331
i Moroso j 5,952 16,850 ·1 abla 26. Matriz de conlus1ón de Red Bayesiana - exclusión de ev1denc1a de Pago Mínimo
Sensibilidad Especificidad Exactitud
73.89% 85.68% 80.61% Tabla 27. Resultados de Red Bayesiana - exclusión de evidencia de Pago Mínimo
La Tabla 27 muestra que la Red Bayesiana es capaz de detectar adecuadamente un
73.89% de los clientes morosos y un 85.68% a los clientes cumplidos. En promedio la
exactitud de la red para predecir es de 80.61 %.
Un análisis por mes de los resultados es el siguiente:
Mes j Sensibilidad Especificidad Exactitud -----~---------~---------<
i~~:ci~i0:- -. -+-i :-:-:º-7;-:-:--------+-:-:-:~-:-:-:-200802 l29.88%- -- -- 96.20% 81.72%
1 ------------ -- •-----·- -
200803 1 30.57% 96.56% 7-- -------------...-----
200804 :25.21% 98.60% -_l ---------
200805 130.40% 97.27%
200806 128.53% 94.60%
1200807 1
•26.03% 97.38%
1200808 ;24.73% 97.38%
j32.25% 97.39% 200809 1
!200810 !39.32% 95.00%
/200811 : 51.70% 1 90.89% 1 --- --- --, ----- -
i200812 39.43% 199.64% ¡---- - _J_
200901 60.20% ¡95.31% - -- ------ ···- ----~-
200902 64.62% _ _ __189. 79%
·--- --- -- ~~-??% ____ I
80.87% ~ 80.68% !
_____ _J
: 77.90% 1
180.15% 1
] 79.88%
!so.is% 1
¡79.81% --~
i77.90% 1
J 1
:84.18%
• 85.97%
. 82.73%
164
--- - ----- - ----- -- - - -- --- --- ----- 7
Especificidad Exactitud __ --~
89.23% 82.93% - -1
91.05% ------ 72-~3~~-----~ 71.87% 69.76% 1
Mes Sensibilidad
200903 -68.61%
200904 49.39% . - --- - --- -----200905 66.82%
200906 88.65% 63.29% . 78.23% 1 200907
- - - ---- -----, ·88.72% 65.17% 79.68% 1
------- --- - -- - - - - --+-- -- - - - - -- ---- - - --- ----! 200908 87.41% 71.22% 81.60% 1
-- - -- ------ ---- - 1 88.46% - - 164.87% -- - -- --- - --,79.75% ____ 7 200909 ·-- -----~ - --- - --- - - li ~ --- --- -- ---- - -----_, __ ___ - - -- -,
20091 o 86.37% 164.00% ¡ 78.23% 1
200911 85.28% 65.64% ¡ 78.09% . --------- -----/------7 200912 89.91% 64.25% 180.08% i
201001 92.03% l56.30% 77.96% 1
2-01002- - - -- -8i44o/:------·¡ 64~67%- - --- - - - - - - -- - 79.88%----~-¡ 201003--- -~37%_ __ ¡66.28% - -- - - - -- 81 .47%- - - ---- · - - - - - - ·-·-- ---;- -- - - ----- - - -· - -201004 84.46% 177.54% 81.67%
}}~~!;= -~-:!;~- - ~:~~~~-= ~~~==- ¼~_:J~_ --j 201007 86.97% 73.29% 81.14% i
201008
201009
87.17%
88.86%
75.08%
76.88%
82.00%
83 .79%
_7=_~-'~'-°-- _ ·-· 90.63% 73 .~5!~-- --__ -- _ _ -- _ _j ~~~9~ _ _J Tahla 28 . Desglose mensual de resultados de Red Bayesiana - exclusión de evidencia de Pago Mínimo
5.6.2.3 Caso 3. Exclusión de la variable Importe del Pago Mínimo e Importe Pagado como evidencia.
Se incluyeron todas las variables de la Red Bayesiana como evidencia con la excepción del
Pago Mínimo que se debe cubrir en el período actual, el Comportamiento de Pagos y la
Morosidad Actual (la cual corresponde a la variable que se desea estimar).
Al igual que en el caso 1, la Morosidad de la Cuenta en el Período Anterior es una
variable que se incluye como evidencia a partir del segundo período de análisis. Los
resultados generados para esta ejecución son los mostrados en las Tablas 29 y 30.
165
,-----1 Estimado
1 Cumplido \ Moroso F-~· ¡cumplido= 17,437 ]12,813
¡_ oroso 5,821 J 16,981 ·--
----~-------------------·~
Tabla 29. Matriz de confusión de Red Baycsiana - exclusión de evidencia de Pago Mínimo e Importe Pagado
Sensibilidad Especificidad Exactitud
74.47% 57.64% 64.87% Tabla 30. Resultados de Red Bayesiana - exclusión de ev1denc1a de Pago Mínimo e Importe Pagado
La Tabla 30 muestra que la Red Bayesiana es capaz de detectar adecuadamente un
74.47% de los clientes morosos y un 57.64% a los clientes cumplidos. En promedio la
exactitud de la red para predecir es de 64.87%.
Un análisis por mes de los resultados es el siguiente:
\Mes -
Sensibilidad ··-- - -·-
----·- ··-- -,---- ---·· -¡
__ E~pecifiddad i Exactitud !
1200712 21.39% : --------------
r??~ 22.62% f.--- -----f0802 24.85%
200803 26.29% ---·-- ----1 200804 12.05%
Goo8os-~--- -
21.33% i
1200806 31.41%
1200807 29.32%
\200808 30.22%
83.31 % 69.64% '
110.10% ----~----·
83.22%
--~)~% __ __;9.38% __ j; 82.06% ! 69.4 I %
--··-- --··------ ·-· -
94.85% . 74.85% 1
-- :: !:t :~ = I~~ :!t · -1 --~----·~
1
83.94% ¡ 70.75%
83.70% 1
'70.81%
----¡
---···
:200809 27.75% . -
1
1200810 30.10% ------------
1_200811 35.93% -----
200812 28.35% - ·--·
1 200901 30.35% '--
¡200902 30.90% ·---·
-
-
82.46%
83.86%
i68.56%
69.62%
82.70% 68 17% -··------·-j .
166
Mes -!Sen~ibHid;d - Especificidad i Exactitud------.
200903. 133.98%~ ~-, 80.74% __ ¡ 66.45% - .. '
200904 148. 79% ! 71.19% '63.86% 200905 · 54.50% ----- bo~o5% - : 63-~53_%
200906 !6820% · ·=._j4L38%]57.is% ~ ·
200907 , 78.84%
13
7.24_% ~- "[62.8~% ..
200908 ! 82.25% 32.10% • 64.26% ----------- --- ------ ---- -----
200909 • 93.39% 14.87% • 64.39% •- - ------- --------- ~-- ---- 1
200910 ·195.63% j 11.27% 164.92% 1'
2009_1 l_¡ 97.~~- __ l 5.97% -- ~: 6_4_.2_0_o/c_o ----,
200912 199.79% 10.86% 161.88% :
~~ 1001-+1-~._oo_o/c_o - - 10.1 7% - ,6_0_.6_9% -- --~J 201002 : 100.00% 0.17% ,61.48% !
--== +60-.8-2°-1/o
. 59.70%
201003 ¡ 99.89% i 0.84%
2010()4 [ 1ºººº% Iº 16%
201005 100.00% 0.00% - -- ----- --------------
201006 ~ 99.89~0 __ 10. I 6% --
201007 ¡ 100.0~% 10.4 7%
- ---·- ---
. 58.44%
158.37%
i
~ 1
57.58% ---------
201008 100.00% • 0.46% . 57 45% 1
201009 1·99.31 %-- 11.12% ---- ---- --
57.97% -- - --'- -- ----- -
201010 99.53% 0.75% 55.86% . - ___ ...______ --- -- ---- J
Tabla 31. Desglose mensual de resultados de Red Bayesiana - exclusión de evidencia de Pago .\línimo e lmporre Pagado
5.6.3 Resultados ele las pruebas efectuadas con la red neuronal.
La red desarrollada consistió en una arquitectura de retropropagación del gradiente. El
algoritmo completo fue desarrollado en lenguaje Java y la base de datos usada fue MySQL.
Con la implementación de este algoritmo surgió la necesidad de extender la historia
disponible ya que 18 períodos de datos resultaron insuficientes para el proceso de
entrenamiento. Como ya fue mencionado, se tomaron dos fuentes de datos, una conteniendo
18 períodos y la otra conteniendo cinco. Esta disparidad requirió realizar un pronóstico para
igualar ambas fuentes de datos. Cuando se inició el entrenamiento de la Red Neuronal con
167
estos 18 períodos se notó que no eran datos suficientes para entrenamiento (las tasas de
exactitud, sensibilidad y especificidad eran bajas); la red predecía muy bien un grupo
(morosos/ cumplidos) pero el otro era prácticamente mal detectado (es decir todo el universo
era prácticamente clasificado como bueno o todo era clasificado como malo).
Otro aspecto importante es que se requirió un ajuste en la dimensión de las diferentes
variables. Al usarse una función sigmoidal como función de activación de la red, el presentar
valores muy grandes (por ejemplo los saldos que se miden en miles de pesos) o muy pequeños
(como el porcentaje de línea usado el cual puede ser prácticamente cero), provocaba que la
red no fuera capaz de ajustar su salida al objetivo planteado (un número decimal entre O y 1 ).
Se requirió entonces ajustar los valores de este tipo de variables dividiendo entre una
constante aplicada a todas las instancias; se probó con números como 1 O, 100, 1,000 y 10,000,
encontrándose que un factor de 1,000 favorecía al proceso de entrenamiento al hacer que la
red tuviera un mejor ajuste de pesos (ya no resultaba que el valor era cero o uno, sino que se
lograba una mejor variabilidad en el ajuste de los pesos y por tanto de la salida de la red).
La Red Neuronal fue probada con diferentes escenarios, los cuales son:
1. El grupo de las cuentas con alta actividad, en este caso se filtró a las cuentas que se
caracterizaban por tener actividad en el mes bajo estudio o a lo más tres meses
anteriores. Para éstas se promediaron las diferentes variables por cada mes, de manera
que se obtuvo un comp011amiento del grupo de cuentas "con alta actividad'' a lo largo
del tiempo. Se generó un 80% de los meses para el proceso de entrenamiento y el
último 20% de los meses se destinó como datos de prueba.
2. El grupo de las cuentas con baja actividad, en este caso se filtró a las cuentas que se
caracterizaban por tener su actividad más reciente en un período entre 4 y 12 meses.
168
Al igual que en el caso anterior se promediaron las diferentes variables por cada mes,
de manera que se obtuvo un comportamiento del grupo de cuentas "con baja
actividad" a lo largo del tiempo. Se generó un 80% de los meses para el proceso de
entrenamiento y el último 20% de los meses se destino como datos de prueba.
3. El grupo de cuentas inactivas. Para este grupo se tomaron las cuentas sin actividad
registrada en un período de 12 meses o más. Los criterios de entrenamiento y prueba
fueron iguales a los casos anteriores.
4. Todas las cuentas, tomando el 80% de los meses como conjunto de entrenamiento y el
20% restante como conjunto de prueba.
5.6.3.1 Cuentas con alta actividad.
Un ejemplo de predicción de la variable Mora para las cuentas con alta actividad se muestra
ahora. La estructura de la Red Neuronal consistió en una red con dos capas ocultas cada una
con un número de neuronas igual al número de variables de entrada y una sola neurona de
salida (indicando si las cuentas con alta actividad tendrán una tendencia hacia la mora o no).
La figura 27 muestra la estructura de la red neuronal empleada para las cuentas con
alta actividad. Por simplicidad no se muestran todas las conexiones entre las neuronas (todas
las variables de entrada se conectan con todas las neuronas de la capa uno y todas las
neuronas de esta capa se conectan con todas las neuronas de la capa dos).
169
Linea de Crédito Interna 7
Saldo 7
Importe Pagado 7
Importe del Pago Mínimo 7
Meses a Última Compra 7
Meses a Última Disposición 7
Meses a Apertura 7
Meses a Último Incremento de Linea 7
Consumos 7
Disposiciones 7
Morosidad Más Reciente Tarjeta Interna 7
Morosidad Más Reciente Tarjeta Externa 7
Morosidad Más Reciente Auto Interno 7
Morosidad Más Reciente Préstamo Interno 7
Morosidad Más Reciente Departamental 7 Morosidad Más Reciente Tarjeta Servicio 7
Linea de Crédito Externa 7
Saldo Vencido Otros 7 Figura 27. Red N.::urnnal utilizada para los grupos ··Cuentas con Alta Actividad ... ·-cu.::ntas con Baja Actividad .. y ··cuentas Inactivas ...
170
Tasa de aprendizaje: 0.15
Ciclos: 2,500
# 25
0 -:::, 20 Q)
E 0 ... 15 c. 0 u o 10 Q)
-:::, ... 5 0 ... ... LU
o
Número de Ciclo
Figura 28. Gráfica de aprendizaje de Red Neuronal. cuentas con alta actividad. tasa de aprendizaje 0.15 y 2.500 ciclos.
Tabla 32. Matriz de confusión de Red Neuronal para alta actividad (entrenamiento). tasa de aprendizaje 0.15. ciclos 2.500
Tabla 33. Matriz de confusión de Red Neuronal para alta actividad (prueba). tasa de aprendizaje 0.15, ciclos 2.500
Variable Entrenamiento Prueba Sensibilidad 1 0.875 Especificidad 1 1
Exactitud 1 0.9375 Tabla 34. Resultados de Red Neuronal para alta actividad. tasa de aprendizaje 0.15. ciclos 2.500
Tasa de aprendizaje: 0.12
Ciclos: 2,500
# 25 o
-:::, 20 Ql
E o ....
Q. 15 o u o 10 Ql
-:::, .... s o .... ....
LU
o
1
Número de Ciclo
171
Figura 29. Gráfica de aprendizaje de Red Neuronal. cuentas con alta actividad. tasa de aprendizaje 0.12 y 2.500 ciclos.
Tabla 35. Matriz de confusión de Red Neuronal para alta actividad (entrenamiento). tasa de aprendizaje 0.12. ciclos 2.500
1 ~:; 1 ~.l 1 ~.S 1
Tabla 36. Matriz de confusión de Red Neuronal pj1ara alta actividad (prueba). tasa de aprendizaje 0.12. ciclos 2.500
Variable Entrenamiento Prueba Sensibilidad 1 1 Especificidad I 1
Exactitud 1 1 Tabla 37. Resultados de Red Neuronal para alta acti[ idad, tasa de aprendizaje 0.12. ciclos 2.500
172
Tasa de aprendizaje: 0.12
Ciclos: 1,000
"""' g-· -o -= 20 Q)
E o .... c.. 15 o u o 10 Q)
-= .... 5 o .... .... LU
o
Número de Ciclo
Figura 30. Gráfica de aprendizaje de Red Neuronal. cuentas con alta actividad. tasa de aprendizaje O. I 2 y 1.000 ciclos.
I ~~ I F 1 ~: I
Tabla 38. Matriz de confusión de Red Neuronal para alta adividad (entrenamiento). tasa de aprendizaje 0.12. ciclos 1.000 1
Tabla 39. Matriz de confusión de Red Neuronal para alta aa1
tividad (prueba). tasa de aprendizaje 0.12. ciclos 1.000
Variable Entrenamiento Prueba Sensibilidad 1 1 0.1 25 Espec ificidad 0.75 1 1 Exactitud 0.875 0.5625 Tabla 40. Resultados de Red Neuronal para alta actividad. tasa de aprendiz:~je 0.12. ciclos 1.000
Tasa de aprendizaje: 0.1
Ciclos: 2,500
# 25 o
"C Q,) 20 E o ...
Q. 15 o
-¡:j
o 10 Q,)
"C ... 5 o ... ... 1.1.J
o
173
Número de Ciclo
Figura 3 1. Gráfica de aprendizaje de Red Neuronal. cuentas con alta actividad. tasa de aprendiz,üe O. 1 y 2.500 ciclos.
Tahla 41. Matriz de confusión de Red Neuronal para alta actividad (entrenamiento). tasa de aprendizaje O. L ciclos 2.500
1 ~ 1
Tabla 42. Matriz de confusión de Red Neuronal para alta actividad (entrenamiento). tasa de aprendizaje O. l. ciclos 2.500
Variable Entrenamiento Prueba Sensibilidad 1 1 Especificidad 1 1 Exactitud 1 1
.. Tabla 43. Resultados de Red Neuronal para alta act1v1dad. tasa de aprendizaje O. 1. ciclos 2.500
174
Tasa de aprendizaje: 0.5
Ciclos: 2,500
"#-
o 20 -::s Q)
E 15 o ...
a. o ü o 10
Q) -::s
5 ... o ... ...
LLJ
o
Número de Ciclo
Figura 32. Gráfica de aprendizaje de Red Neuronal. cuentas con alta actividad. tasa de aprendizaje 0.5 y 2.500 ciclos.
Tabla 44. Matriz de confusión de Red Neuronal para alta actividad (entrenamiento). tasa de aprendizaje 0.5. ciclos 2.500
1; 1
Tabla 45. Matriz de confusión de Red Neuronal para alta actividad (prueba). tasa de aprendizaje 0.5. ciclos 2.500
Variable Entrenamiento Prueba Sensibilidad 1 0.375 Especificidad 0.96875 1 Exactitud 0.984375 0.6875 Tabla 46. Resultados de Red Neuronal para alta actividad. tasa de aprcndin~jc 0.5. ciclos 2.500
Los resultados de las cuentas con alta actividad mostraron dos aspectos importantes:
1. La Red Neuronal requiere analizar el número de ciclos necesarios para reducir lo
suficiente el error de ciclo mientras se garantizan tasas aceptables de sensibilidad,
especificidad y exactitud. Esto se ilustra en la tercer prueba realizada en esta sección,
correspondiente a una tasa de aprendizaje de 0.12 y 1,000 ciclos. Se observa que la
175
gráfica con el error de ciclo parece ser aceptable si consideramos que es una
representación típica de cómo debe disminuir el error de ciclo. Sin embargo,
apreciamos que las tasas de sensibilidad y exactitud se vuelven muy bajas para la fase
de prueba.
2. La tasa de aprendizaje mejoró las tasas de sensibilidad, especificidad y exactitud. En
este caso se inició con una tasa de 0.15, cuando se disminuyo a 0.12 y se manejo un
número adecuado de ciclos se incrementaron las tasas de sensibilidad y exactitud
logrando un 100% de clasificación. A fin de corroborar la importancia de la tasa de
aprendizaje se manejó un número elevado de ciclos (2,500) mientras se incrementó
significativamente la tasa de aprendizaje (0.5); en este caso se aprecian dos cosas:
primera, las tasas de sensibilidad y exactitud para la fase de prueba bajan
significativamente, segunda, al ser relativamente alta la tasa de aprendizaje, se
produce un error de ciclo que oscila demasiado.
5.6.3.2 Cuentas con baja actividad.
Un ejemplo de predicción de la variable Mora para las cuentas con baja actividad se muestra
ahora. La estructura de la Red Neuronal consistió en una red con dos capas ocultas cada una
con un número de neuronas igual al número de variables de entrada y una sola neurona de
salida (ver la Figura 27).
Los resultados planteados muestran la manera como la tasa de aprendizaje puede
afectar significativamente los resultados obtenidos.
176
Tasa de aprendizaje: 1.0
Ciclos: 5,000
~ 0 -e Q)
E 0 15 .... a. 0 u 10 o Q)
-e .... 5 0 .... ....
LU o
Níimero de Ciclo
Figura 33. Gráfica de aprendizaje de Red Neuronal. cuentas con baja actividad. tasa de aprendizaje 1.0 y 5.000 ciclos.
Tabla 47. Matriz de confusión de Red Neuronal para baja actividad (entrenamiento). tasa <le aprendizaje 1.0. ciclos 5.000
Tabla 48. Matriz de confusión de Red Neuronal para baja actividad (prueba). tasa de aprendizaje 1.0. ciclos 5.000
Variable Entrenamiento Prueba Sensibilidad 0.875 1 Especificidad 0.875 1 Exactitud 0.875 1 Tabla 49. Resultados de Red Neuronal para baja actividad (prueba). tasa de aprendiza,1e 1.0. ciclos 5.000
Tasa de aprendizaje: 0.8
Ciclos: 5,000
-#-
o "CI
20 Q)
E o 15 ... c.. o ü 10 o Q)
"CI ... 5 o ... ... LLJ
o
177
Número de Ciclo
Figura 34. Grálica de aprendizaje de Red Neuronal. cuentas con baja actividad, tasa de aprendiz,ue 0.8 y 5.000 ciclos.
Tabla 50. Matriz de confusión de Red Neuronal para baja actividad (entrenamiento). tasa de aprendizaje 0.8. ciclos 5.000
1 ! 1
Tabla 51. Matriz Je confusión de Red Neuronal para baja actividad (prueba). tasa de aprendizaje 0.8. ciclos 5.000
Variable Entrenamiento Prueba Sensibilidad 1 1 Especificidad 0.875 0.125 Exactitud 0.9375 0.5625 Tabla 52. Resultados de Red Neuronal para baja actividad. tasa de aprendiz.aje 0.8. ciclos 5.000
178
Tasa de aprendizaje: 0.6
Ciclos: 5,000
# -0 20 -:: Q)
E 0 ... c.. 0
~ 10 Q)
-:: ... 0 ... ...
u.,
5
o
Número de Ciclo
Figura 35. Gráfica de aprendizaje de Red Neuronal. cuentas con b¡~ja actividad. tasa de aprendizaje 0.6 y 5.000 ciclos.
IF Tabla 53. Matriz de confusión de Red Neuronal para baja actividad (entrenamiento). tasa de aprendizaje 0.6. ciclos 5.000
Tabla 54. Matriz de confusión de Red Neuronal para baja actividad (prueba). tasa de aprendizaje 0.6. ciclos 5.000
Variable Entrenamiento Prueba Sensibilidad 1 1 Especificidad 0.8125 1 Exactitud 0.90625 1 Tabla 55. Resultados de Red Neuronal para baja actividad. tasa de aprendizaje 0.6. ciclos 5.000
Tasa de aprendizaje: 0.4
Ciclos: 5,000
'iii o 20
-:::1 Q)
E o 15 ... c. o ü 10 o Q)
-:::1 ... 5 o .... ....
LU
o
179
Número de Ciclo
Figura 36. Gráfica de aprendizaje de Red Neuronal. cuentas con baja actividad. tasa de aprendizaje 0.4 y 5.000 ciclos.
Tabla 56. Matriz de confusión de Red Neuronal para baja actividad (entrenamiento). tasa de aprendizaje 0.4. ciclos 5.000
Tabla 57. Matriz de confusión de Red Neuronal para baja actividad (prueba). tasa de aprendizaje 0.4. ciclos 5.000
Variable Entrenamiento Prueba Sensibilidad 1 1 Especificidad 1 1 Exactitud 1 1 Tabla 58. Resultados de Red Neuronal para baja actividad. tasa de aprendizaje 0.4. ciclos 5.000
180
Tasa de aprendizaje: 0.2
Ciclos: 5,000
#. 25 -o -:::1 20 Q)
E o .... 15 Q.
o u o 10
Q) -:::1 .... 5 o .... ....
LU
o
Número de Ciclo
Figura 37. Grálica de aprendizaje de Red Neuronal. cuentas con bqja actividad. tasa de aprendizaje 0.2 y 5.000 ciclos.
Tabla 59. Matriz de conf"usión de Red Neuronal para b,~ja actividad (entrenamiento). t,L~a de aprendizaje 0.2. ciclos 5.000
Tabla 60. Matriz de confusión de Red Neuronal para bnja nctividad (prueba). tasa de aprendizaje 0.2. ciclos 5.000
Variable Entrenamiento Prueba Sensibilidad 1 1
Especificidad 0.8125 0.875 Exactitud 0.90625 0.9375 , . . . -1 abla 61. Resultados de Red Neuronal para ba_1a actividad. tasa de aprcnd1za_1c 0.2. ciclos ).000
Al igual que en otros resultados presentados observamos que la tasa de aprendizaje
puede afectar la oscilación del error de ciclo. Una tasa de aprendizaje de 1.0 parece generar
resultados buenos en tasas de sensibilidad, especificidad y exactitud; sin embargo, se observa
que existe una gran oscilación en el error de ciclo. Al ir disminuyendo la tasa de aprendizaje
desde 1.0 hasta 0.2 (con decrementos de 0.2), se va observando que mejora la continuidad en
181
la gráfica del error de ciclo y disminuyen las tasas de exactitud y especificidad (sin embargo
aún se mantienen en tasas aceptables).
5.6.3.3 Cuentas inactivas.
Un ejemplo de predicción de la variable Mora para las cuentas inactivas se muestra ahora. La
estructura de la Red Neuronal consistió en una red con dos capas ocultas cada una con un
número de neuronas igual al número de variables de entrada y una sola neurona de salida (ver
la Figura 27).
Tasa de aprendizaje: 0.9
Ciclos: 5,000
-#-
o 25
-= Q) 20 E
o ,_ Q. 15 o ü o 10
Q)
-= ,_ 5 o ,_ ,_
LU o
Número de Ciclo
Figura 38. Gráfica de aprendizaje de Red Neuronal. cuentas inactivas. tasa de aprendizaje 0.9 y 5.000 ciclos.
Tabla 62. Matriz de confusión de Red Neuronal para créditos inactivos (entrenamiento). tasa de aprcndiz¡üe 0.9. ciclos 5.000
182
Tabla 63. Matriz de confusión de Red Neuronal para créditos inactivos (prueba). tasa de aprendiz~je 0.9. ciclos 5.000
Variable Entrenamiento Prueba Sensibilidad 0.96875 0.75 Especificidad 0.90625 0.75 Exactitud 0.9375 0.75 Tabla 64. Resultados de Red Neuronal para créditos inactivos (prueba). lasa de aprendizaje 0.9. ciclos 5.000
Tasa de aprendizaje: 0.1
Ciclos: 5,000
# 40 o 35
"C Q) 30 E o
25 ... c.. o 20 13 o
Q) "C 10 ... o
5 ... ... LU
o
Número de Ciclo
Figura 39. Gráfica de aprendizaje de Red Neuronal. cuentas inactivas. tasa de aprendizaje 0.1 y 5.000 ciclos.
Tabla 65. Matriz de confusión de Red Neuronal para créditos inactivos (entrenamiento). tasa de aprendizaje O. l. ciclos 5.000
1 ~:! 1 ~·' 1 ~.s Tabla 66. Matriz de confusión de Red Neuronal para créditos inactivos (prueba). tasa de aprendizaje O. l. ciclos 5.000
183
Variable Entrenamiento Prueba Sensibilidad 0.90625 0.75 Especificidad 0.75 1 Exactitud 0.828125 0.875 " l ahla 67. Resultados de Red Neuronal para créditos 111acl1vos. Lasa de aprend1za.1e O. l. ciclos 5.000
Se puede apreciar que para el grupo de cuentas inactivas una tasa de aprendizaje de 0.9
(lo cual ya se encuentra muy cercano al máximo posible de 1.0), la gráfica de error de ciclo
inicia en aproximadamente en 0.25 y en su punto más bajo se acerca a 0.05.
Cuando se cambia la tasa de aprendizaje por una relativamente baja (0.1 ), el error de
ciclo parte de 0.4 y finaliza en aproximadamente 0.1 O. Se puede notar que la gráfica se
suaviza en algunos puntos.
El error de ciclo es mayor en la segunda corrida de estas cuentas inactivas; las tasas de
sensibilidad, especificidad y exactitud para el conjunto de entrenamiento disminuyen en esta
segunda corrida; sin embargo, es de notar que se incrementan las tasas ele especificidad y
exactitud para el conjunto de prueba.
5.6.3.4 Todas las cuentas.
Un ejemplo de predicción de la variable Mora para todas las cuentas se muestra ahora. La
estructura de la Red Neuronal consistió en una red con dos capas ocultas, la primera capa con
18 neuronas, la segunda capa con nueve neuronas y una sola neurona de salida. La Figura 40
muestra la Red Neuronal empleada para todas las cuentas (por simplicidad no se muestran
todas las conexiones que parten de las variables de entrada a la primera capa).
184
Línea de Crédito Interna -¿
Saldo -¿
Importe Pagado -¿
Importe del Pago Mínimo -¿
Meses a Última Compra -¿
Meses a Última Disposición -¿
Meses a Apertura -¿
Meses a Último Incremento de Línea -¿
Consumos -¿
Disposiciones -¿
Morosidad Más Reciente Tar1eta Interna -¿
Morosidad Más Reciente Tarjeta Externa -¿
Morosidad Más Reciente Auto Interno -¿
Morosidad Más Reciente Préstamo Interno -¿
Morosidad Más Reciente Departamental -¿
Morosidad Más Reciente Tarjeta SeNicio -¿
Línea de Crédito Externa -¿
Saldo Vencido Otros -¿
Figura -tO. Red Neuronal u1ili1.ada para todas las cuentas
Los resultados planteados muestran la manera como la tasa de aprendizaje puede
afectar significativamente los resultados obtenidos.
Tasa de aprendizaje: 1
Ciclos: 500
-# 8
o -= (1,)
7
E o 6 ... c.. 5 o ü 4 o
(1,) 3
-= 2 ... o ... 1 ...
UJ
o
Número de Ciclo
figura 41. Gráfica de aprendizaje de Red Neuronal. todos los créditos. tasa de aprendizaje 1.0 y 500 ciclos.
1 o 1 19,774 9,454
185
labia 68. Matriz de confusión de Red Neuronal para todos los créditos (entrenamiento). tasa de aprendizqje l. ciclos 500
1 o 1 6,608 833
Tabla 69. Matriz Je confusión de Reo Neuronal para todos los créditos (prueba). tasa de aprendizaje l. ciclos 500
Variable Entrenamiento Prueba Sensibilidad 0.668908033900679 0.794871794871795 Especificidad 0.971599842767296 0.972050603118564 Exactitud o. 794871794871795 0.916332706305717 Tabla 70. Resultados de Red Neuronal para todos los créditos. tasa de aprcndiz¡\je 1. ciclos 500
186
Tasa de aprendizaje: 0.6
Ciclos: 500
~ o 8
"CI CI)
7
E 6 o ... a. 5 o u 4 o CI)
"CI ... o ... 1 ...
w o
Número de Ciclo
Figura 42. Gráfica de aprendizaje de Red Neuronal. todos los créditos. tasa de aprendizaje 0.6 y 500 ciclos.
1 o 1 19,729 10,484
Tabla 71. Matriz de confusión de Red Neuronal para todos los créditos (entrenamiento). tasa de aprendizaje 0.6. ciclos 500
1 o 1 6,422 656
Tabla 72. Matriz de confusión de Red Neuronal para todos los créditos (prueba). tasa de aprendizaje 0.6. ciclos 500
Variable Entrenamiento Prueba Sensibilidad 0.63292601 7996569 0.879011434894873 Especificidad O. 969722290489064 0.943717854518736 Exactitud O. 773033983560299 O. 915024126932199 , . -1 abla 73. Resultados de Red Neuronal para todos los créchtos. tasa de aprend1za,1e 0.6. ciclos )00
Tasa de aprendizaje: 0.6
Ciclos: 1,000
#-8 o
"C 7 Q)
E o 6 ...
c.. s o ü o
Q) -:::,
2 ... o ... 1 ...
LU
o
Número de Ciclo
Figura 43. Gráfica de aprendizaje de Red Neuronal. todos los créditos. tasa de aprendizaje 0.6 y L000 ciclos.
1 o 1 20,347 15,566
lºJ i2,988
187
Tabla 74. Matriz de confusión de Red Neuronal para todos los créditos (entrenamiento). tasa de aprendizl\ie 0.6. ciclos 1.000
1 o 1 6,798 1,829
lºJ ~,600
Tabla 75. Malriz de confusión de Red Neuronal para todos los créditos (prueba). lasa de aprendizaje 0.6. ciclos 1.000
Variable Entrenamiento Prueba Sensibilidad 0.454857463052462 0.663105544299134 Especificidad 0.9997543238993 71 1 Exactitud 0.681613 707929497 0.850413020364766 Tabla 76. Resultados de Red Neuronal para todos los créditos. lasa de aprendizl\ie 0.6. ciclos 1.000
188
Tasa de aprendizaje: 1
Ciclos: 1,000
.Ji! 8 o
-= Q) 7
E o 6 ... c. s o ü 4 o
Q) 3
-= 2 ... o ... 1 ...
LU
o
Número de Ciclo
Figura 44. Gráfica de aprendizaje de Red Neuronal. todos los créditos. tasa de aprendizaje 1.0 y 1.000 ciclos.
1 o 1 19,591 7,246
Tabla 77. Matriz de confusión de Red Neuronal para todos los créditos (entrenamiento). tasa de aprendizaje l. ciclos 1.000
1 o 1 6,775 786
Tabla 78. Matriz de confusión de Red Neuronal para todos los créditos (prueba). tasa de aprendizaje l. ciclos 1.000
Variable Entrenamiento Prueba Sensibilidad 0.74626186224043 I 0.8551419093254 7 Es pee i ficidad 0.962750012285616 0.996177032789296 Exactitud 0.836339099496994 0.933589596793981 Tabla 79. Resultados de Red Neuronal para todos los créditos. tasa de aprendizaje 1. ciclos 1.000
Tasa de aprendizaje: 0.9
Ciclos: 1,000
# 8 o
-:::, Q)
7
E o 6 ,_ c. s o u 4 o Q)
3 -:::,
2 ,_ o ,_
1 ,_ LU
o
Número de Ciclo
Figura 45. Gráfica de aprendizaje de Red Neuronal. todos los créditos. lasa de aprendizaje 0.9 y 1.000 ciclos.
1 o 1 17,880 3,334
lºJ 2,469 25,223
189
Tabla 80. Matriz de confusión de Red Neuronal para todos los créditos (entrenamiento). tasa de aprendizaje 0.9. ciclos 1.000
1 o 1 6,609 297
Tabla 81. Matriz de confusión de Red Neuronal para todos los créditos (prueba). tasa de aprendizaje 0.9. ciclos 1.000
Variable Entrenamiento Prueba Sensibilidad 0.883251041776097 0.945263545890158 Especificidad 0.878667256376235 0.971768857520953 Exactitud 0.881343802396434 0.960006542896867 Tabla 82. Resultados de Red Neuronal para todos los créditos. tasa de aprendizaje 0.9. ciclos 1.000
190
Tasa de aprendizaje: 1.0
Ciclos: 1,000
~ 8
Q
-:::, Q)
7
E Q
6 ... c.. s Q
u 4 o Q)
3 -:::, 2 ... Q ... 1 ...
LU
o
Número de Ciclo
Figura 46. Gráfica de aprendiz,~je de Red Neuronal. todos los créditos. tasa de aprendizaje 1.0 y 1.000 ciclos.
1 o 1 20,052 14,787
Tabla 83. Matriz de confusión de Red Neuronal para todos los créditos (entrenamiento). tasa de aprendizaje l. ciclos 1.000
1 o 1 6,772 1,616
Tabla 84. Matriz de contusión de Red Neuronal para todos los créditos (prueba). tasa de aprendizaje l. ciclos 1.000
Variable Entrenamiento Prueba Sensibi I idad 0.482193507721399 0.702174714338371 Especificidad 0.985404688191066 0.99573592 I I 8806 Exactitud 0.691571586308428 0.865461683160219 Tabla 85 Resultados de Red Neuronal para todos los créditos. tasa de aprendizaje l. ciclos 1.000
Tasa de aprendizaje: 0.9
Ciclos: 2,000
;ji' 16
o "C 14 Q)
E o 12 '-
o.. 10 o
8 u o Q)
6 "C 4 '-o '- 2 '-
LU
o
Número de Ciclo
Figura 47. Gráfica de aprendizaje de Red Neuronal, todos los créditos. tasa de aprendizaje 0.9 y 2000 ciclos.
1 o 1 18,606 5,734
1º5 1,741 22,825
191
Tabla !!6. Matriz de confusión de Red Neuronal para todos los créditos (entrenamiento). tasa de aprendizaje 0.9. ciclos 2.000
1 o 1 6,401 240
Tabla !!7. Matriz de confusión de Red Neuronal para todos los créditos (prueba). tasa de aprendizaje 0.9. ciclos 2.000
Variable Entrenamiento Prueba Sensibilidad 0.799222661857908 0.955752212389381 Especificidad 0.91443456037745 I 0.940908422754667 Exactitud 0.8471557682084 0.94749325263 7605 ·1 abla 8!!. Rcsultados de Red Neuronal para todos los créditos. tasa de aprcnd1z<-\JC 0.9. ciclos 2.000
192
Tasa de aprendizaje: 0.9
Ciclos: 3,000
# 30
0
"O Q) 25 E 0
20 ... c.. 0 u 15 o
Q) 10 "O ... 0 5· ... ...
LU
o
Número de Ciclo
Figura 48. Gráfica de aprendizaje de Red Neuronal. todos los créditos. tasa de aprendizaje 0.9 y 3.000 ciclos.
1~5 lºs 18,685 10,385
1,665 18,171
Tabla 89. Matriz de confusión de Red Neuronal para todos los créditos (entrenamiento). t.L~a de aprendizaje 0.9. ciclos 3.000
1~5 lºs 6,327 1.183
Tabla 90. Matriz de confusión de Red Neuronal para todos los créditos (prueba). tasa de aprendizaje 0.9. ciclos 3.000
Variable Entrenamiento Prueba Sensibilidad 0.636328617453425 0.782015846692464 Especificidad 0.918181818181818 0.930441176470588 Exactitud O. 75360896413528 0.864562034840926 Tabla 91. Resultados de Red Neuronal para todos los créditos. tasa de aprendizaje 0.9. ciclos 3.000
La ejecución del proceso con todas las cuentas resultó en el proceso más complicado
de los realizados para la Red Neuronal. En este caso el proceso consistió en entrenar la red
para cada cuenta a través de los períodos de prueba (80% de los períodos de tiempo fueron
usados). Posteriormente se utilizó el 20% restante de los períodos de tiempo para cada cuenta.
Se observa en las gráficas del error de ciclo de las diferentes corridas que existen mayores
193
"saltos" en la red, no obstante, se aprecia que el proceso de aprendizaje trabaja
adecuadamente.
También es de resaltar que la Red Neuronal utilizada en este caso es diferente a la
construida para los casos anteriores. La estructura consiste en 18 variables de entrada, una
primera capa oculta con 18 neuronas, una segunda capa oculta con 9 neuronas y una capa de
salida con una neurona (indicando Mora o Cumplido); para mayor referencia ver la Figura 40.
En las pruebas que se realizaron se utilizaron diferentes números para representar a las
clases de Mora y Cumplido. Mientras más cercanas son las clases (por ejemplo 0.1 y 0.3
utilizados), se aprecia que los "saltos'' en el error de ciclo se hacen menores logrando una
gráfica más uniforme.
Se movió posteriormente el rango de las variables de clase, ubicándolas en 0.1 y 0.5.
Las tasas de sensibilidad, especificidad y exactitud bajan; sin embargo, aún pueden ser
consideradas buenas (por ejemplo 87% de exactitud con una tasa de aprendizaje en I y 1000
ciclos - para la fase de prueba; o 95% con 2,000 ciclos, 0.9 de tasa de aprendizaje).
Se ejecutó adicionalmente con clases de 0.5 y 1.0, 0.9 de tasa de aprendizaje y 3,000
ciclos. Los resultados muestran 75% de exactitud en modo de entrenamiento y 86% en modo
de prueba.
5.6.4 Red Bayesiana vs Red Neuronal.
La Red Bayesiana mostró una alta sensibilidad a las variables que definen la morosidad: el
impo1te pagado y el importe del pago mínimo. Fue notorio que descartar ambas variables del
proceso de la Red Bayesiana disminuía significativamente la exactitud de predicción del
algoritmo (una sensibilidad de 74.47% y una especificidad de tan sólo 57.64% para dar una
exactitud global de 64.87%).
194
También se pudo apreciar que la inclusión de la variable importe pagado como
evidencia proporciona mejor resultado que si se incluye el importe del pago mínimo (logrando
tasas de exactitud del 80.61%).
Por el lado de la Red Neuronal, no existe tan alta sensibilidad a las variables importe
pagado e importe del pago mínimo (si bien no se probó el caso extremo de descartar ambas
variables).
La Red Neuronal obtuvo mejores resultados en términos de exactitud, sensibilidad y
especificidad. Para la Red Bayesiana no se realizó una corrida por los diferentes grupos de
cuentas que se ejecutaron en la Red Neuronal; sin embargo, si se compara la ejecución de la
Red Bayesiana con la Red Neuronal para todas las cuentas, se observa que en general se
obtiene una mejor tasa de exactitud, sensibilidad y especificidad para la Red Neuronal.
Como interpretación de las diferencias anteriores podemos mencionar que mientras en
la Red Neuronal se ha trabajado con la variación de parámetros de corrida como la definición
de las variables de clase (ejemplo Mora= 0.5, Cumplimiento= 0.1), en el ajuste de parámetros
de corrida tal como el factor de aprendizaje, en el caso de la Red Bayesiana se ha dejado que
el algoritmo se encargue de estimar la probabilidad de mora (sin que haya mayores ajustes).
Un segundo factor es que la Red Neuronal tuvo una calibración en cuanto a los datos
de entrada para hacerlos adecuados a la red; además se debe considerar que en el caso de la
Red Neuronal ésta aceptó datos continuos (calibrados pero no discretos); en el caso de la Red
Bayesiana se trabajó en un algoritmo de generación de cuantiles de manera dinámica para
discretizar a las diferentes variables.
Finalmente recordaré que algunas variables de la Red Bayesiana eran inviables de
mantener debido a la alta combinación de las tablas de probabilidad conjunta con lo que se
hizo necesario agrupar algunas variables previamente (esto no fue necesario en la Red
Neuronal).
195
Capítulo 6. Conclusiones y trabajo futuro.
La estimación de la calificación de crédito es un proceso que ha sido resuelto por muy
diversos medios, incluyendo los estadísticos y los de Inteligencia Artificial. Si bien los
métodos estadísticos proporcionan una solución "adecuada", la exploración de los métodos
inteligentes, los cuales son más recientes, menos generalizados y quizá más difíciles de
entender y por tanto de aceptar, es un reto importante dentro de las aplicaciones de la
Inteligencia Artificial.
Cuando inicié con el planteamiento de esta tesis me propuse utilizar algún método
inteligente para resolver el problema. Después de revisar el tema me percaté que
independiente al método utilizado, no existe un algoritmo universal que para cualquier
conjunto de datos nos diga con certeza si un cliente se comportará como moroso o cumplido
en un cierto tiempo. Además, los métodos usados no siempre son los mejores para cualquier
conjunto de datos, lo cual nos lleva a la existencia de tal diversidad de métodos: de hecho, una
revisión de la bibliografía existente indica que los autores divergen en los resultados,
encontrando por ejemplo que para algunos la Red Neuronal fue el mejor método mientras que
en otros casos se habla de una Máquina de Soporte Vectorial como mejor algoritmo.
En mi búsqueda de métodos aplicables a la calificación de crédito observé que era
importante verificar el tipo de variables disponibles, su carácter discreto o continuo, el
significado del contenido de la variable (por ejemplo un valor específico indicando Mora),
las reglas de negocio aplicables a una variable, etc. Como me pude percatar, no todos los
algoritmos son útiles para todos los tipos de variables: se debe entonces analizar el problema
en cuestión y los datos relativos al mismo. Por tanto, si considero que el problema de la
calificación de crédito hace uso de variables de diferentes tipos y que la naturaleza de los
datos, las reglas de negocio y el significado de los mismos varían en las diferentes
196
instituciones que requieren resolver el problema, puedo entonces reforzar la idea
anteriormente expuesta de que no existe un método "superior" para resolver el problema de la
calificación de crédito; un método puede funcionar bien para una institución pero no ser lo
suficientemente efectivo para otra.
Además consideremos las ideas expuestas en el Capítulo 2 referentes a las pérdidas de
oportunidad por rechazar a alguien "bueno" cuando se considera que puede ser ''malo" y el
costo por aceptar a alguien "malo" cuando se considera que es "bueno"; estos factores
naturales implican un riesgo que las instituciones deben estar dispuestas a correr hasta cierto
límite. Lo importante es remarcar que dependiendo de la institución y sus políticas de riesgo,
un cierto nivel de pérdida podría ser aceptable para una institución pero para otra no. Esta idea
me permite entonces plantear la conclusión que el método que se acepte para una institución
debe cumplir con las políticas internas de riesgo pero que el mismo método podría no ser
aceptable para otras instituciones.
A consecuencia de lo anterior, me propuse implementar un método (o métodos) para
resolver el problema haciendo énfasis en una metodología integral. No fue mi propósito
reforzar la idea de que un método particular es superior (aún restringiendo el problema al
mismo conjunto de datos). Sin embargo, el utilizar más de un algoritmo para resolver el
problema me llevó a formular una comparación natural de los métodos y un señalamiento de
sus ventajas y desventajas.
Una metodología que cubriera los diferentes aspectos del problema fue entonces un
planteamiento requerido. Si bien es cierto que el aspecto metodológico es fundamental en
cualquier investigación, en el caso aquí presentado, la idea fue que esta metodología
justificara la necesidad de investigar el tema al hacer accesible una serie de pasos que pueden
ayudar a entender cómo realizar un proceso de calificación de crédito que es aplicable a
distintas instituciones otorgantes de crédito. Por tanto, no se trató sólo de abarcar el aspecto
del algoritmo de aprendizaje que decide si dadas ciertas variables un cliente se comportará
197
como moroso o cumplido, sino que además se consideró el problema más amplio de cualquier
institución otorgante de crédito: dados ciertos datos reales como pasar a clasificar en un buen
o mal cliente.
El requerimiento anterior en cuanto a los datos reales parece simple, finalmente el
aspecto básico de la investigación es decidir si se debe tener precaución con alguien por la
manera en que se comportará en un futuro. Este sencillo planteamiento parece resolverse si
tomamos un conjunto de datos y simplemente ejecutamos algoritmos de clasificación para
decidir a qué variable de clase un cliente pertenecerá en un tiempo dado. De hecho algunos de
los conjuntos de datos disponibles públicamente ya se encuentran listos para probar métodos
sobre ellos (las variables ya se encuentran depuradas, han sufrido un proceso de discretización
si esto es requerido, etc.). El problema con esto es que el objetivo fue: partir de un conjunto
de datos crudos (sin limpieza o algún proceso especial de transformación) y llegar a estimar la
calificación de crédito.
Lo anterior es un planteamiento que nos permite servir de guía para que otros
interesados en resolver el problema puedan identificar como transformar los datos crudos en
una solución al problema. Si bien se incluyó una comparación de los métodos utilizados aquí
(redes neuronales y bayesianas), lo importante del trabajo fue mostrar una metodología para
resolver el problema.
Los datos públicos, por tanto, no fueron del todo útiles para el objetivo metodológico
seguido (ya se encontraban prácticamente listos para el algoritmo de clasificación): esto
hubiera resultado muy sencillo si consideramos que existe una gran variedad de algoritmos
que se pueden usar y que incluso muchos de ellos ya se encuentran implementados en
sortware. En el caso planteado los datos públicos permitieron verificar que el proceso de
aprendizaje implementado funcionará a fin de hacer más sencillo la ejecución bajo datos
reales (esto aplicado a la Red Neuronal desarrollada).
198
En cuanto a la metodología, los siguientes puntos fueron relevantes en el proceso de
transformación de los datos hasta el resultado final indicando si el cliente es moroso o
cumplido:
1. La selección de las variables se volvió de mayor complejidad que la esperada
debido al exceso de características disponibles: fue bueno tener variedad de
variables pero al ser excesiva la cantidad de las mismas (en una fuente de datos el
total de variables fue 399), se dificultó la elección de un método para filtrarlas
debido a la complejidad computacional que pudiera resultar para tratar con un
exceso de características.
2. Existe una gran cantidad de algoritmos de selección de características, algunos
con una alta complejidad, pero se detectó que existen medios simples que pueden
ayudar en este proceso (no haciendo necesario complicar un proceso que no lo
requiere). En el caso aquí planteado el uso de estadística mediante el análisis de
correlación facilitó este proceso.
3. La experiencia previa en el dominio del problema puede ayudar a simplificar el
proceso de selección de características, desechando de manera natural variables
inadecuadas al problema en cuestión.
4. La falta de instancias de datos es un problema recurrente de muchos problemas
planteados en forma de series de tiempo. Esto no fue la excepción en este caso:
fuentes de datos que median diferentes períodos de tiempo, en uno de los casos
una breve historia en el tiempo (inútil para un proceso de aprendizaje en el que se
requiere haber visto suficientes datos históricos). Se hizo necesario la creación de
199
un proceso de generación de datos. Si bien esto no fue el tema fundamental de la
tesis, si es un aspecto que remarcó la importancia del planteamiento del problema
y los consecuentes objetivos planteados: mostrar un método que pueda ser
utilizado por diferentes instituciones otorgantes de crédito para estimar la
calificación de crédito; aquí simplemente se ilustró que los requerimientos
iniciales pueden verse afectados por la dificultad intrínseca de los datos y la
representación de estos (en mi caso como series de tiempo) y por tanto, es
necesario aportar ideas metodológicas de cómo resolver el problema.
5. Existen métodos estadísticos diseñados para realizar procesos de pronóstico
que tienen una gran variedad de opciones para ajustarse a los datos disponibles.
Sin embargo, un conocimiento de los datos y las reglas de negocio pueden guiar de
buena manera los procesos de pronóstico. En mi caso resultó que una concepción
simple diseñada a través de un algoritmo basado en frecuencias (que disefié
personalmente), proporcionó resultados en un corto tiempo. Con esto no quiero
mostrar que los métodos estadísticos son inútiles en algunos casos. sino que el
conocimiento de algunas relaciones entre los datos y un breve análisis de su
estadística básica puede ayudar a simplificar el proceso de pronóstico.
6. Existen algoritmos, tal corno las redes neuronales, que son muy sensibles a los
órdenes de magnitud de las variables. La discretización de las variables y/o
disminución del orden de magnitud de las variables ayuda por tanto en el proceso
de aprendizaje. Aquí es importante remarcar que si bien existe mucho software
libre que implementa algoritmos inteligentes destinados a la clasificación, cuando
se trabaja con datos reales es importante implementar el código del proceso de
aprendizaje ya que facilita las tareas de depuración y ajuste.
200
La metodología utilizada en esta tesis es aplicable si se tiene una muestra de datos con
suficientes instancias y con una historia adecuada para cada instancia. Ya fue comentado que
en el caso aquí planteado existió una población grande, pero la historia disponible no fue
adecuada (para una fuente de datos se tuvieron 18 períodos mientras que para la otra sólo se
tuvieron cinco). Un proceso de aprendizaje adecuado requiere que las fuentes de datos
contengan los mismos períodos de datos. Adicionalmente pude observar que mecanismos
como las redes neuronales requieren "suficientes" períodos de datos para entregar resultados
satisfactorios (de acuerdo a la literatura y al problema resuelto aprecié que la cantidad de
historia "suficiente" no es un dato preciso, en mi caso 36 períodos de datos resultaron
adecuados). Una manera de identificar cuando se tiene la historia adecuada es comparar los
resultados en cuanto a exactitud, sensibilidad y especificidad de cada entrenamiento, cuando
se tiene poca historia se observa que no importando los cambios a parámetros de la red
neuronal como el número de capas, la disposición de las mismas y la tasa de aprendizaje, no
existe una mejora significativa cuando se realizan varias ejecuciones.
Otra premisa utilizada en esta investigación es el conocimiento de las variables
involucradas. Cuando hablé del proceso de selección de variables en capítulos anteriores,
mencioné que una de las fuentes de datos contenía 399 variables. Un proceso de selección de
variables basado en un número grande de variables hace necesario discriminar inicialmente
las mismas a fin de hacer manejable un algoritmo de selección; si bien en el caso planteado no
se usó un algoritmo computacional (sino uno estadístico), es un hecho que contar con un
número reducido de variables facilitó el proceso de identificación de las características
relevantes al proceso.
El conocimiento de las variables utilizadas ayudó también en los procesos de
pronóstico requeridos para generar historia "suficiente". Recordaré en este punto que el
mecanismo de pronóstico basado en estimación de cuantiles y generación de valores
201
aleatorios de acuerdo a estos cuantiles requirió conocer estadísticos como la media y la
desviación estándar, así como ubicar los valores significativamente grandes que pueden llegar
a afectar el pronóstico bajo un mecanismo basado en cuantiles. Esto último es un proceso
manual que debe ser realizado en función de los datos disponibles. El algoritmo disei'íado
funciona bien en el caso en que se realiza un análisis previo de los datos ubicando los casos
extremos que pueden llegar a generar inconsistencias si no son restringidos.
Referente al proceso de aprendizaje (y la comparación natural que surge cuando se
trabaja con más de un método), encontré que las redes neuronales tuvieron un mejor
comportamiento que las redes bayesianas. Como lo mencioné anteriormente, esto no es algo
que pueda ser tomado como regla universal, simplemente fue algo que resultó cuando aplique
el conjunto de datos disponible.
La Red Neuronal tuvo la ventaja de disponer de mecanismos de ajuste como la tasa de
aprendizaje y el número de ciclos para guiar el proceso y buscar un incremento en la
exactitud, la especificidad y la sensibilidad. La Red Bayesiana no incluyó este tipo de
mecanismos, sin embargo tuvo la ventaja de permitir un enfoque de "caja blanca" en el que el
modelo planteado pudiera ser descrito de manera intuitiva por el analista.
Una de las limitaciones de la Red Bayesiana fue que se trató de una del tipo discreto,
lo cual implicó establecer rangos dentro de las variables (en vez de las variables de naturaleza
continua de la Red Neuronal). Adicionalmente, debido a la complejidad computacional de la
Red Bayesiana, cuando crecieron las tablas de probabilidad condicional de los nodos, se hizo
necesario agrupar algunas variables para disminuir el número de combinaciones de la Tabla
de Probabilidad Condicional.
Algo interesante realizado en esta investigación es el compo11amiento de grupos de
crédito. El interés personal se enfocó en entender cómo se comporta la morosidad de grupos
con alta y baja actividad así como grupos inactivos. Sin embargo, este tema pudo enfocarse en
entender otro tipo de temas como el porcentaje pagado y su relación con la morosidad; esto
202
me llevó a plantearme que los objetivos del negocio pueden ser diferentes a los que a mí me
motivaron; por lo tanto, la investigación se puede adaptar a una gran cantidad de temas
relativos al proceso de crédito.
La red neuronal por retro propagación utilizada en esta investigación puede ser
utilizada para resolver el problema de la clasificación de crédito. En el caso planteado se
aplicó exitosamente para analizar el comportamiento de grupos de crédito con actividad alta,
actividad baja e inactividad. Adicionalmente se utilizó para clasificar a cada crédito
puntualmente. Lo referente a los grupos de crédito nos permite identificar como la cartera de
crédito ( en función del grado de actividad) se comportará en un futuro. Lo referente al
comportamiento puntual de cada crédito permite evaluar los patrones de desempeño de cada
crédito y tomar las medidas adecuadas para evitar un deterioro de la cartera. La red neuronal
desarrollada se puede aplicar en situaciones en que el conjunto de datos ha sido ajustado a
órdenes de magnitud equivalentes en las diferentes variables. Como ejemplo de lo anterior
tenemos que los saldos se encuentran típicamente en miles mientras que el número de créditos
típicamente es una cifra de un dígito; esto requiere que los saldos se adecuen dividiendo las
cifras para hacerlas comparables en ordenes de magnitud con las variables enteras.
En cuanto a la Red Bayesiana sólo la utilice para clasificar créditos individuales. De
igual manera se apreció que es un mecanismo que puede ser aplicado adecuadamente al
proceso de la calificación de crédito. Este algoritmo puede ser utilizado si los datos se
encuentran discretizados; existen otras redes que permiten datos continuos pero que no fueron
utilizadas aquí. El algoritmo es útil si la Red Bayesiana diseñada mantiene tablas de
probabilidad condicional que se mantienen relativamente reducidas (en el caso aquí planteado
se trata de un máximo de cuatro padres por nodo con un máximo de cinco diferentes valores
que puede tomar cada nodo, aunque siempre restringiendo para manejar alrededor de 600
combinaciones posibles en la Tabla de Probabilidad Condicional). Esta restricción no es un
factor que limite la red, simplemente es algo que en lo particular me hizo inviable un manejo
203
computacional adecuado en un equipo de cómputo personal con las restricciones que esto
implica (4 GB de RAM y 2.33 GHz de velocidad en el procesador).
La aplicación de la Red Bayesiana a otras instituciones es intuitiva desde el punto de
vista de la facilidad con que se integra Elvira dado que se encuentra programado en Java. Aún
cuando los algoritmos de discretización ya se encuentran programados debo reconocer que el
modelo requiere un fuerte trabajo de otras instituciones para crear una estructura de Red
Bayesiana adecuada a su negocio.
Dentro del trabajo futuro de esta investigación encontramos:
l. Incorporar el "momento" al modelo de la Red Neuronal (si bien los mecanismos
usados para el ajuste de la red fueron adecuados, se notó que en algunos casos el
aprendizaje requería un incremento en ciclos, lo que repercutió en tiempo de
procesamiento (especialmente cuando se ejecutó el algoritmo con todas las cuentas).
2. Incorporar un meca111smo difuso en la etapa de salida de la Red Neuronal. Esto
ayudará a definir la llamada zona gris del problema de clasificación de crédito y
permitiría una mejor comparación contra un modelo bayesiano.
3. Utilizar una Red Bayesiana del tipo continuo que facilite el uso de variables del
mismo tipo.
204
4. Extender los métodos de pronósticos para justificar diferentes métodos estadísticos
que por ahora se cubrieron mediante un sencillo algoritmo basado en distribuciones de
frecuencia.
5. Incorporar un algoritmo que ayude en el proceso de construcción de la Red Bayesiana,
de manera que toda la fase de aprendizaje se encuentre automatizada.
205
Bibliografía.
[l] 8 Baesens, T. Van Gestel, S. Viaene, M. Stepanova, J. Suykens, J. Vanthienen: Benchmarking state-of-the-art classification algorithms for credit scoring; Journal of the Operational Research Society; 2003.
[2] Bult & Wansbeek; Optima! selection for direct mail; Marketing Science; 14( 4 ); 1995. [3] Cheng Jie, Greiner Russell; Comparing Bayesian Network Classifiers; Department of
Computer Science, University of Albe11a; 1999 [4] Defu Zhang, Hongyi Huang, Qingshan Chen, Yi Jiang; A Comparison Study of Credit
Scoring Methods; IEEE Third lnternational Conference 011 Natural Computation; 2007 [5] Desai, V. S., Crook, J. N., & Overstreet, G. A., Jr.: A comparison of neural networks and
linear scoring models in the credit un ion environment; 1996. [6] Durand D., Risk Elements in Consumer lnstallment Financing, National Bureau of
Economic Research, New York. [7] Fisher R. A.; The use of multiple measurements in taxonomic problems; Ann. Eugenics;
Vol. 7 [8] Hair, Anderson, Tatham, Black; Análisis Multivariante 5" edicion; Ed Pearson Prentice
Hall; 2005 [9] Hanke John, Wichern Dean; Pronósticos en los negocios; 9ª edición; 2009 [10] Hassan Sabzevari, Mehdi Soleymani, Eaman Noorbakhsh; A comparison between
statistical and Data Mining methods for credit scoring in case of limited available data; Department of Risk Management, Karafarin Bank, Tehran, lran; 2007.
[ 11] Herbert L. Jensen; Using Neural Networks for Credit Scoring, Managerial Finance, Vol. 18 lss: 6, pp.15 - 26; 1993
[ 12] Hsieh, N.-C; Hybrid mining approach in the design of credit scoring models, Expert Systems with Applications. Vol.28, No.4, pp.655, 2005
[ 13] Huan Liu, Hiroshi Motoda; Feature selection for knowledge discovery and data mining; Boston : Kluwer Academic Publishers, 1998
[14] Hui-Chung Yeh, Min-Li Yang, Li-Chuen Lee; An empirical study of credit scoring model for credit card; IEEE; 2007
[ 15] 11-Seok Oh; Hybrid Genetic Algorithms for Fcature Selection; IEEE Transactions on Pattern Analysis and Machine lntelligence, vol. 26, no. 1 1, November 2004
[ 16] lscanoglu Aysegul; Credit Scoring Methods and Accuracy Ratio; 2005; Thesis submitted to the lnstitute of Applied Mathematics of the Middle East Technical University
[ 17] James Lattin, J. Douglas Carro!, Paul E. Green: Analyzing Multivariate Data; Ed. Thomson; 2003
[18] Kononenko, I; Semi-na"ive Bayesian classifier. In Y. Kodratoff (ed.); Proceedings of sixth European working session 011 learning (pp. 206-219); Springer-Verlag
[ 19] Lean Yu, Shouyang Wang, Kin Keung Lai, Ligang Zhou; Bio-lnspired Credit Risk Analysis; Computational lntelligence with Support Vector Machines; Springer; 2008
[20] Lyn C. Thomas, David B. Edelman; Jonathan N. Crook; Credit Scoring and lts Applications; SIAM; Monographs on Mathematical Modelling and Computation; 2002
[21] Nan-Chen Hsieh; An integrated data mining and behavioral scoring model for analyzing bank customers; Expert Systems with Applications 27 (2004); Elsevier.
[22] Orallo José, Ramírez María José, Ferri César; Introducción a Minería de Datos: Pearson; 2004
[23] Rakesh Agrawal, Tomasz lmielinsky, Arun Swani: Mining Association Rules between Sets of ltems in Large Databases: IBM Almaden Research Center; 1993
206
[24] Selwyn Piramuthu; Evaluating Feature Selection Methods for Learning in Data Mining; IEEE; 1998.
[25] Spyros Makridakis, Steven C. Whe, Rob J. Hyndman; Forecasting, Methods and Applications; Third Edition; 1998
[26] Su-Ling Pang, Yan-Ming Wang, Yuan-Huai Bai; Credit Scoring Model Based on Neural Network; Proceedings of the First lnternational Conference on Machine Learning and Cybernetics; 2002
[27] United States Code; Equal Credit Opportunity Act; Title 15, Section 1691 et seg.; 1975
[28] Wiginton; 1980; A Note on the Comparison of Logit and Discriminant Models of Consumer Credit Behavior, Journal of Financia! and Quantitative Analysis, Vol. 15, No. 3, pp. 757-770.
[29] Yanwen Dong: An Application of Support Vector Machines in Small-Business Credit Scoring; IEEE; 2007
[30] Y Liu and M. Schumann; Data mining feature selection for credit scoring models; Journal ofthe Operational Research Society; 2005;Page 1099
207
Anexo l. Basilea 13•
Basilea 1
En 1988, el Comité de Basilea, compuesto por los gobernadores de los bancos centrales de
Alemania, Bélgica, Canadá, España, EE. UU., Francia, Italia, Japón, Luxemburgo, Holanda,
el Reino Unido, Suecia y Suiza publicó el primero de los Acuerdos de Basilea, un conjunto de
recomendaciones alrededor de una idea principal: Se trataba de un conjunto de
recomendaciones para establecer un capital mínimo que debía tener una entidad bancaria en
función de los riesgos que afrontaba.
El acuerdo establecía una definición de "capital regulatorio" compuesto por elementos
que se agrupan en 2 categorías si cumplen ciertos requisitos de permanencia, de capacidad de
absorción de pérdidas y de protección ante quiebra. Este capital debe ser suficiente para hacer
frente a los riesgos de crédito, mercado y tipo de cambio. Cada uno de estos riesgos se medía
con unos criterios aproximados y sencillos.
Este acuerdo era una recomendación: cada uno de los países signatarios, así como
cualquier otro país, quedaba libre de incorporarlo en su ordenamiento regulatorio con las
modificaciones que considerase oportunas.
Entró en vigor en más de cien países.
Basilea 11
La principal limitación del acuerdo de Basilea I es que es insensible a las variaciones de
nesgo y que ignora una dimensión esencial: la de la calidad crediticia y, por lo tanto, la
11 Tomado de la página wch http://cs.wikipcdia.org/wiki/Basilca_II
208
diversa probabilidad de incumplimiento de los distintos prestatarios. Es decir, consideraba
que todos los créditos tenían la misma probabilidad de incumplir.
Para superarla, el Comité de Basilea propuso en 2004 un nuevo conjunto de
recomendaciones. Éstas se apoyan en los siguientes tres pilares.
Pilar I: el cálculo de los requisitos mínimos de capital
Constituye el núcleo del acuerdo e incluye una serie de novedades con respecto al anterior:
tiene en cuenta la calidad crediticia de los prestatarios (utilizando ratings externos o internos)
y añade requisitos de capital por el riesgo operacional.
La norma de Basilea I, que exige
fondos propios> 8% de activos de riesgo, considerando: (riesgo de crédito+ riesgo de
negociación+ riesgo de tipo de cambio)
mientras que ahora considera: (riesgo de crédito + riesgo de negociación+ riesgo de tipo de
cambio + riesgo operacional)
El riesgo de crédito se calcula a través de tres componentes fundamentales:
• PD, o probabilidad de incumplimiento
• LGD, o pérdida en el momento de incumplimiento (también se conoce
como "severidad")
• EAD, o exposición en el momento del incumplimiento
Habida cuenta de la existencia de bancos con distintos niveles de sofisticación, el
acuerdo propone distintos métodos para el cálculo del riesgo crediticio. En el método
estándar, la PO y la LGD se calculan implícitamente a través de las calificaciones de riesgo
209
crediticio publicadas por empresas especializadas (agencias de rating). En cambio, los bancos
más sofisticados pueden, bajo cierto número de condiciones, optar por el método de ratings
internos avanzado (AIRB), que les permite utilizar sus propios mecanismos de evaluación del
riesgo y realizar sus propias estimaciones. Existe un método alternativo e intermedio
(foundation IRB) en el que los bancos pueden estimar la PD, el parámetro de riesgo más
básico, y utilizar en cambio valores precalculados por el regulador para la LGD.
Hasta la fecha, muchas entidades bancarias gestionaban su riesgo crediticio en función
de la pérdida esperada, EL= PDxLGDxEAD, que determinaba su nivel de provisiones frente a
incumplimientos. La nueva normativa establece una nueva medida, el R WA, que se fija no en
la media sino en un cuantil elevado de la distribución de pérdida estimada a través de una
aproximación basada en la distribución normal.
El nesgo de crédito se cuantifica entonces como la suma de los R W A
correspondientes a cada una de las exposiciones que conforman el activo de la entidad.
Dentro del riesgo de crédito se otorga un tratamiento especial a las titulizaciones, para
las cuales se debe analizar si existe una transferencia efectiva y significativa del riesgo, y si
son operaciones originadas por la entidad o generados por otras.
El riesgo de negociación y el riesgo de tipo de cambio se siguen calculando conforme
a Basilea l.
El riesgo operacional se calcula multiplicando los ingresos por un porcentaje que
puede ir desde el 12% hasta el 18%. Existen 3 métodos alternativos para calcularlo
dependiendo del grado de sofisticación de la entidad bancaria.
Por último, la definición de capital regulatorio disponible permanece casi igual a la de
Basilea l.
210
Hay que advertir una objeción en este cálculo del riesgo: que se ignora los efectos
agravantes/mitigantes de la concentración/diversificación de riesgos ( estructura de correlación
probabilística entre las diversas exposiciones). Esta es una de las principales diferencias entre
capital regulatorio y Capital Económico.
Pilar 11: el proceso de supervisión de la gestión de los fondos propios
Los organismos supervisores nacionales están capacitados para incrementar el nivel de
prudencia exigido a los bancos bajo su jurisdicción. Además, deben validar tanto los métodos
estadísticos empleados para calcular los parámetros exigidos en el primer pilar como la
suficiencia de los niveles de fondos propios para hacer frente a una cns1s económica,
pudiendo obligar a las entidades a incrementarlos en función de los resultados.
Para poder validar los métodos estadísticos, los bancos estarán obligados a almacenar
datos de información crediticia durante periodos largos, de 5 a 7 años, a garantizar su
adecuada auditoría y a superar pruebas de "stress testing".
Además se exige que la alta dirección del banco se involucre activamente en el control
de riesgos y en la planificación futura de las necesidades de capital. Esta autoevaluación de
las necesidades de capital debe ser discutida entre la alta dirección y el supervisor bancario.
Como el banco es libre para elegir la metodología para su autoevaluación, se pueden
considerar otros riesgos que no se contemplan en el cálculo regulatorio, tales como el riesgo
de concentración y/o diversificación, el riesgo de liquidez, el riesgo de reputación, el riesgo de
pensiones, etc.
Para grupos financieros multinacionales se establecen Colegios Supervisores que, bajo
la coordinación del supervisor de la entidad matriz, se encargan de la coordinación
internacional de la supervisión del grupo financiero.
211
Pilar 111: La disciplina de mercado
El acuerdo establece normas de transparencia y define la publicación periódica de
información acerca de su exposición a los diferentes riesgos y la suficiencia de sus fondos
propios. El objetivo es:
1) La generalización de las buenas prácticas bancarias y su homogeneización internacional.
2) La reconciliación de los puntos de vista financiero, contable y de la gestión del riesgo sobre
la base de la información acumulada por las entidades.
3) La transparencia financiera a través de la homogeneización de los informes de nesgo
publicados por los bancos.
Inicialmente la información incluirá:
• Descripción de la gestión de nesgos: objetivos, políticas, estructura.
organización, alcance, políticas de cobertura y mitigación de riesgos.
• Aspectos técnicos del cálculo del capital: diferencias en la consolidación
financiera y regulatoria.
• Descripción de la gestión de capital.
• Composición detallada de los elementos del capital regulatorio disponible.
• Requerimientos de capital por cada tipo de riesgo, indicando el método de
cálculo utilizado.
El requisito inicial es que se publique al menos anualmente, aunque es previsible que
la frecuencia será mayor (al menos resumida) y a sus contenidos mínimos se irá afiadiendo la
información que el mercado exija en cada momento.