Canlpi.m Ciudad r TECNOLOGICO DE MONTERREY®

Biblioteca Canlpi.m Ciudad de Mé*-o

TECNOLOGICO DE MONTERREY®

Campus Ciudad de México

Escuela de Graduados en Ingeniería y Arquitectura

Maestría en Ciencias de la Computación

Aplicación de redes neuronales y redes bayesianas para la calificación de comportamiento de clientes de crédito

Autor: Rodrigo Campos Sandoval

Director de la tesis: Dr. Álvaro de Albornoz Bueno

Agosto 2011

Tabla de Contenido

Capítulo l. Introducción ............................................................. 1 1.1 Antecedentes .......................................................................................................................... 1

1.1.1 Calificación de crédito y de comportamiento ................................................................. 1 1.1.2 Historia de la calificación de crédito .............................................................................. 2 1.1.3 Calificación de crédito y minería de datos ...... ........ ...... ................. ........ .............. .......... 5

1.2 Problema ................................................................................................ ... ......... ..... ..... .......... 5 1.3 Objetivo ............................................................................................................................... 11 1.4 Restricciones del modelo ..................................................................................................... 11 1.5 Estructura ............................................................................................................................. 12

Capítulo 2. Métodos para determinar la calificación de crédito y de comportamiento .......................................................................... 13

2.1 Descripción general de los métodos de calificación de crédito y comportamiento ............. 13 2.2 Fundamento matemático del costo por solicitante de crédito .............................................. 14 2.3 Métodos estadísticos para estimar la calificación de crédito ............................................... 18

2.3.1 Análisis discriminante .................................................................................................. 20 2.3.2 Técnicas de Regresión .................................................................................................. 22 2.3.3 Métodos de partición recursiva - Árboles de clasificación ........................................... 23

2.4 Métodos de investigación de operaciones para estimar la calificación de crédito .............. 25 2.4.1 Programación lineal ...................................................................................................... 25

2.5 Métodos de Inteligencia A11ificial para estimar la calificación de crédito .......................... 27 2.5.1 Redes neuronales .......................................................................................................... 27 2.5.2 Redes bayesianas .......................................................................................................... 48 2.5.3 Algoritmos genéticos .......................................................................... .................. ........ 58 2.5.4 Máquinas de soporte vectorial. ....................................... ......... .... ....... .......................... 60

2.6 Calificación de comportamiento ..................................................................................... 62

Capítulo 3. Selección de variables para los métodos de calificación y estimación de series de tiempo .................................................. 65

3.1 Selección de características ................................................................................................. 65 3.1.2 Criterios de selección ............................................................ ............................ ............ 69 3.1.3 Medidas de información ............................................................................................... 70

3.2 Estadística usada en la selección de características ............................................................. 72 3.2.1 Análisis de correlación ................................................................................................. 72

3.3 Estimación de series de tiempo ........................................................................................... 75 3.3.1 Promedio móvil ........................................................................ ............ ............. .. ......... 75 3.3.2 Suavizado exponencial ....... ............... ........ ............ ............................................ ........... 76 3.3.3 ARIMA ......................................................................................................................... 78

3.4 Modelos híbridos ................................................................................................................. 84 3.5 Análisis crítico ..................................................................................................................... 86

Capítulo 4. Modelo de calificación de comportamiento para clientes de crédito ..................................................................................... 96

4.1 Colección de datos ............................................................................................................... 96 4.2 Selección de características .................................................................................. .......... ..... 99 4.3 Análisis estadístico ............................................................................................... .... .. ....... 101

4.4 Generación de grupos de crédito ........................................................................................ 103 4.5 Reducción de instancias ..................................................................................................... 103 4.6 Algoritmo de aprendizaje ................................................................................................... 104 4. 7 Definición de bueno y malo ............................................................................................... 107 4.8 Medición del rendimiento del modelo de calificación de comportamiento ....................... 108

Capítulo 5. Caso de estudio y análisis de resultados ............. 111 5.1 Fuentes de Datos ................................................................................................................ 111

5.1.1 Características de los datos ......................................................................................... 111 5 .1.2 Datos transaccionales mensuales ................................................................................ 1 12 5.1.3 Datos de comportamiento externo .............................................................................. 113 5.1.4 Datos de transacciones diarias .................................................................................... 120

5.2 Selección de instancias que caen en mora y créditos cumplidos .................................. 121 5.3 Selección de características ................................................................................................ 122

5.3.1 Análisis de correlación ................................................. ..... ................... .... .......... .. ....... 123 5.4 Reducción de instancias ..................................................................................................... 138 5.5 Generación de series de tiempo ......................................................................................... 145

5.5.1 Estimación de datos mediante algoritmo basado en frecuencias ................................ 151 5.6 Proceso de aprendizaje ....................................................................................................... 156

5.6.1 Selección de algoritmos para el aprendizaje ............................................................... 156 5.6.2 Resultados de las pruebas efectuadas con la Red Bayesiana ...................................... 157 5.6.3 Resultados de las pruebas efectuadas con la red neuronal. ................. ........................ 166 5.6.4 Red Bayesiana vs Red Neuronal. ................................................................................ 193

Capítulo 6. Conclusiones y trabajo futuro ............................. 195 Bibliografía ................................................................................ 205 Anexo 1. Basilea . ....................................................................... 207

Basilea 1 .................................................................................................................................... 207 Basilea 11 .................................................................................................................................. 207

Pilar 1: el cálculo de los requisitos mínimos de capital. ....................................................... 208 Pilar 11: el proceso de supervisión de la gestión de los fondos propios ............................... 21 O Pilar 111: La disciplina de mercado ....................................................................................... 211

Capítulo l. Introducción.

1.1 Antecedentes

1.1.1 Calificación de crédito y de comportamiento.

En la vida económica y financiera se entiende al crédito como la confianza en la capacidad y

voluntad de cumplimiento de un individuo, es decir, la esperanza del cumplimiento de una

obligación contraída.

El riesgo de crédito es medido como la incertidumbre de pérdidas de crédito futuras sobre

sus niveles esperados. Las alertas tempranas de riesgo crediticio son un problema complicado que

descubre y distingue: las fuentes del riesgo. su alcance, su nivel y su tendencia. Este proceso

puede proveer información de sopor1e para la toma de decisiones, lo cual reduce el riesgo de

pérdida en el tiempo.

La calificación de crédito es el conjunto de modelos y técnicas que ayudan a los

prestamistas en la decisión del otorgamiento del crédito al consumo. Esas técnicas deciden quién

obtendrá crédito, cuánto crédito deben obtener y qué estrategias operativas mejorarán la

rentabi I idad.

Podríamos considerar que la calificación de crédito establece la capacidad acreedora del

cliente, pero esto es incorrecto. La capacidad acreedora no es un atributo de los individuos tal

como el número de dependientes o el ingreso. Ésta refleja las circunstancias del prestatario y el

prestamista y. la perspectiva de los escenarios económicos futuros. De esta manera un prestamista

podría establecer a una persona como sujeto de crédito pero otro podría no hacerlo.

Un prestamista debe tomar dos tipos de decisiones: primero, si otorgar crédito a un nuevo

aspirante, segundo, cómo tratar con aplicaciones existentes, incluyendo si se incrementan sus

límites de crédito. Las técnicas que ayudan en la primera decisión son llamadas calificación de

crédito, mientras que las que ayudan en el segundo tipo de decisión son llamadas calificación de

comportamiento.

En ambos casos, no importando las técnicas usadas, el punto vital es que existe una larga

muestra de clientes previos con sus detalles de aplicaciones e historia de crédito subsecuente

disponible. Todas las técnicas usan la muestra para identificar las conexiones entre las

características de los el ientes y que tan "bueno"' o "malo" es su historia subsecuente.

1.1.2 Historia ele la calificación ele crédito.

La calificación de crédito es de manera resumida una forma de identificar grupos en una

población cuando no se pueden ver las características que definen a estos grupos con excepción

de aquellas que se encuentran relacionadas. La primera forma de resolver esto fue introducida en

la estadística por Fisher [Fisher; 1936]. Para 1941, Durand fue el primero que reconoció que se

podían usar las mismas ideas para discriminar entre créditos buenos y malos [Durand; 1941 ].

Durante los años 1930, algunas empresas de órdenes por correo habían introducido

sistemas de calificación para solventar las inconsistencias entre sus analistas de crédito. Con la

segunda guerra mundial las compañías financieras y de órdenes por correo se vieron en

dificultades debido a la cantidad de analistas que fueron llamados al servicio militar. Con esto se

empezaron a documentar las reglas usadas para decidir quién debe recibir crédito. Algunas de

dichas reglas fueron usadas por gente no experta en el tema para tomar decisiones de crédito -

uno de los primeros ejemplos de sistemas expertos.

Poco después del fin de la segunda guerra mundial se empezaron a unir las técnicas de

automatización del otorgamiento de crédito y las técnicas estadísticas de clasificación. La primer

consultoría en este ramo se fundó en los años 50 en San Francisco por Bill Fair y Earl Isaac.

El arribo de las tarjetas de crédito en la última parte de los años 60 hizo que los bancos y

otros emisores de tarjeta de crédito observarán el beneficio de la calificación de crédito. La gran

cantidad de solicitudes de tarjeta hacían imposible un proceso manual para decidir el

otorgamiento del crédito. Se encontró que la calificación de crédito y el poder creciente de

cómputo hacían posible una reducción de la tasa de mora en un 50%. El evento que aseguró la

aceptación definitiva de la calificación de crédito fue el Acto de Oportunidades de Crédito Igual y

sus enmiendas en los Estados Unidos en 1975 y 1976 [United States Code; 1975]. Estos vetaban

la discriminación en el otorgamiento del crédito a menos que la discriminación fuera --generada

empíricamente y estadísticamente válida"'.

En los años 80, el éxito de la calificación de crédito en tarjetas de crédito ayudó a que los

bancos empezaran a usar la técnica en otros productos como créditos personales. Posteriormente

a esto se empezó a usar en préstamos hipotecarios.

De manera resumida encontramos los siguientes cuatro períodos [Iscanoglu Aysegul;

2005] por los que ha atravesado la calificación de crédito:

• Edad primitiva: 1930-1966. Se construyen las primeras aplicaciones básicas enfocadas al

análisis de relaciones y la comparación de las empresas en mora y sin mora, esto con el

propósito de desarrollar la idea e rendimiento.

• Análisis discriminante: 1966-1970. En este período se gana poder predictivo, s111

embargo, el método del análisis discriminante requiere suposiciones fuertes sobre las

variables y por tanto el nivel de predicción no es alto, además no incluye la idea del

rendimiento relativo de las variables. El análisis discriminante fue un método que

representó un cambio significativo ya que abrió la puerta a los métodos computacionales.

• Edad de la regresión: 1970-1990. La regresión lineal fue aplicada inicialmente s111

resultados buenos debido a que la probabilidad de mora toma valores entre O y pero la

regresión lineal toma valores entre - oo y + oo. Se usó entonces la regresión "probif' pero

ésta tenía supuestos de normalidad. En los años 80 el estudio de la regresión logística

incrementó el interés en la regresión debido a que no tiene requisitos de normalidad sobre

las variables, permite predicciones e interpretación de coeficientes y proporciona una

salida en el intervalo [0,1 ]. Después de 1980 muchos otros métodos estadísticos han sido

aplicados como K-nearest neighbors, árboles de regresión y clasificación, análisis de

supervivencia, etc.

• Edad de máquina: 1990 en adelante. Este es otro punto clave en la calificación de crédito.

Los métodos estadísticos ceden el paso a los métodos de aprendizaje de máquina, en

particular las redes neuronales toman una fuerte participación en el problema.

1.1.3 Calificación de crédito y minería de datos.

Una vez que se ha definido el contexto histórico en que se ha desarrollado la calificación de

crédito debemos remarcar que nos encontramos en una era en que el desarrollo de modelos de

calificación de crédito hace uso de la minería de datos, entendida ésta como la exploración y

análisis de datos para descubrir patrones significativos y relaciones.

Algo que detonó este cambio es que a partir de los años 90 los bancos reconocieron la

importancia de la información que tienen sobre sus clientes. sobre todo después de la factibilidad

de usar sistemas de cómputo para analizar patrones transaccionales del cliente y por tanto del

comportamiento del mismo.

La calificación de crédito es una de las primeras herramientas de administración de riesgo

financiero desarrolladas; puede ser considerada como el abuelo de la minería de datos debido a

que fue uno de los usos más tempranos de datos sobre el comportamiento del cliente. De hecho.

las técnicas más comunes usadas en la minería de datos -segmentación, modelos de propensión y

agrupamiento - son también técnicas que han sido usadas con éxito en la calificación de crédito.

1.2 Problema.

Las pérdidas por incumplimiento de obligaciones de los acreditados, medidas a través de la

cartera vencida, dificultan la sustentabilidad y el crecimiento de las instituciones financieras y de

aquellas empresas que operan con base en el otorgamiento de crédito; pudiendo llegar a

representar un severo daño al sistema financiero ya que éste es un fundamento para la operación

de la economía.

A fin de ayudar a vigilar y regular la operación del sistema financiero, fue generado el

acuerdo de Basilea 11 1• En este acuerdo se sugieren las provisiones que deben realizar las

instituciones financieras para asegurar que cuenten con recursos monetarios suficientes para

respaldar el riesgo derivado de su operación. Este sustento económico asegura que la empresa

contará con recursos para afrontar sus responsabilidades en caso de incumplimiento de sus

acreditados.

Las instituciones financieras definen modelos de crédito y de comportamiento que les

ayudan a soportar las decisiones de otorgamiento y administración del crédito buscando una

reducción en los índices de ca11era vencida. por tanto menores provisiones y un consecuente

aumento en la utilidad, lo que facilita su crecimiento. En cuanto a las pequeñas y medianas

empresas que operan con base en el otorgamiento de crédito, la definición de estos modelos no se

encuentra comúnmente en la literatura, sin embargo existe la necesidad de controlar las pérdidas

derivadas del incumplimiento de los acreditados.

Los modelos de calificación de crédito permiten decidir si el solicitante debe obtener

crédito con base en la probabilidad de que incumpla con sus obligaciones. Esto requiere de un

proceso de predicción (basado en datos históricos). Los modelos de comportamiento permiten

predecir cómo se comportará un cliente que ha obtenido un crédito. En ambos casos buscamos

una reducción en los índices de cartera vencida.

La calificación de crédito es uno de los elementos usados como parte del proceso de

estimación del riesgo de crédito, el cual ha atraído la atención de las instituciones financieras

debido a las recientes crisis económicas.

1 Vea la sección correspondiente en los anexos.

En el presente, la calificación de crédito es una técnica ampliamente usada que ayuda a

los prestamistas a tomar decisiones de otorgamiento de crédito. Comparado con un JU1c10

subjetivo, la administración de nesgo de crédito usando modelos de calificación tiene las

siguientes ventajas:

• Mejora la eficiencia y ahorro de tiempo en el proceso de aprobación de crédito

• Reduce la subjetividad en el proceso de aprobación

• Toman en cuenta más factores de los que el ser humano puede detectar

Dado que México participa de un entorno económico en el que el volumen de

instituciones financieras ha aumentado (y por tanto la competencia por el mercado de crédito),

una estrategia de riesgo de crédito con base en modelos analíticos permite un mejor control de la

tasa de incumplimiento y permite un menor volumen de reservas necesarias para cubrir los

créditos malos.

La literatura sobre el tema de la calificación de crédito es escasa y es bien conocido que

las técnicas estadísticas son uno de los métodos más usados. Sin embargo, es importante recalcar

que algunos textos científicos han explorado el tema usando técnicas inteligentes. Si bien no

existe un acuerdo en cuanto a que método es mejor, e incluso a si la estadística, las técnicas de

inteligencia artificial, la programación lineal, etc. son más exactos en cuanto a la predicción, es

prioritario buscar nuevos medios de mejora de la precisión obtenida dado que hasta un pequeño

movimiento en la precisión puede redituar en una mejora en la rentabilidad.

El problema que planteo en esta investigación es la determinación del incumplimiento de

pago de clientes que han recibido crédito. es decir. con base en el comportamiento de éstos con

respecto al uso de su línea de crédito, predecir quiénes caerán en mora desde el punto de vista de

cada individuo y del comportamiento de grupos de crédito (comportamiento del portafolio de

crédito). buscando incidir en la reducción de la cartera vencida. lo cual repercutirá en un modelo

que proporcione ahorros. Si bien el modelo se apoya en un conjunto de variables financieras, la

metodología puede ser aplicable a otro tipo de instituciones.

El trabajo a desarrollar en la presente investigación debe contribuir para que tanto

instituciones financieras. como pequeñas y medianas empresas que hacen uso del crédito a

clientes para sus ventas. dispongan de métodos no disponibles en la literatura normalmente,

sirviendo esto de base para el desarrollo de modelos propios y reduciendo costos por pérdidas

debidas a incumplimiento.

En términos computacionales se busca resolver un problema de clasificación de

comportamiento de clientes de crédito mediante técnicas de Inteligencia Artificial. Este problema

es dificil de resolver ya que la idea es predecir cómo se comportará un cliente sólo basados en

datos históricos de comportamiento de otras personas.

Una vez que he definido el problema de la investigación desarrollaré algunas ideas que

considero relevantes en los procesos de calificación de crédito y de comportamiento. las cuales

establecen los requerimientos de trabajo para esta investigación.

Con relación a la calificación de crédito, ésta presenta las siguientes características que lo

describen en términos matemáticos, en términos de datos y de la universalidad del método:

• Espacio de soluciones que en su versión más simple es discreto, el cliente es moroso o no

lo es. Esta condición puede modificarse si consideramos que existen modelos estadísticos

que podrían reflejar la probabilidad de incumplimiento.

• Atemporal, es decir que no precisa en que momento el cliente caerá en condición de

morosidad.

• El modelo utiliza información de dos fuentes principales: la forma de la aplicación (la

cual contiene datos sociodemográficos como el número de hijos, los ingresos, etc.) y los

datos del Buró de Crédito. La primera es información que se recolecta cuando el cliente

realiza su solicitud de crédito, la segunda corresponde a información del comportamiento

del cliente, normalmente implica un gran costo para las instituciones financieras y es

información muy sensible con respecto al cliente.

• No existe una definición del mejor método que resuelve este problema, con la

consiguiente dificultad y variedad de métodos que se pueden intentar para resolverlo.

Desde el punto de vista matemático una definición de la calificación de crédito es la

información de la forma de una aplicación del cliente y las referencias del Buró de Crédito. El

valor actual de las variables de un solicitante particular k se denota por Xk = (x 1k, X1k,- .. , x111k)T

Todas las muestras se denotan por S={(Xk, Yk)}, k = 1,2, ... , N, donde N es el número de

muestras, Xk es el vector atributo del k-ésimo cliente, y Yk es su resultado observado

correspondiente de un repago en tiempo. Si el el iente es bueno, Yk = 1, de lo contrario, Yk = -1. El

problema de la evaluación del riesgo de crédito es hacer una clasificación de bueno o malo para

un cliente usando sus características. Esto es, usando un vector de atributos Xk, se puede

determinar el estado de crédito de un cliente específico.

En cuanto a los modelos de comportamiento encontramos las siguientes características

generales:

• Es común tener más de dos posibles valores de clasificación.

• Es común la estimación de períodos de tiempo en que ocurrirá la descomposición de la

cartera.

• Adicionalmente a las variables de la forma de la aplicación y el Buró de Crédito, se

incluye información de comportamiento transaccional del cliente.

• Los estudios de comportamiento pueden tener una gran variedad de propósitos: verificar

la descomposición de la cartera, estimar en qué tiempo un crédito caerá en mora, realizar

una clasificación del crédito de acuerdo al comportamiento del mismo, etc.

1.3 Objetivo.

Crear un modelo de calificación de comportamiento de clientes de crédito que permita predecir el

buen o mal comportamiento de un cliente con base en datos históricos, con el fin de apoyar en las

tareas de reducción del índice de cartera vencida en las instituciones otorgantes de crédito, así

como las previsiones financieras que respaldan su operación. Desarrollar un modelo de

predicción del comportamiento de diferentes grupos de créditos. Se buscará que los modelos:

• Estén soportados por un proceso que inicie desde la fase de selección de las variables y el

conjunto de datos, el desarrollo del modelo y la estimación de los resultados.

• La metodología para el desarrollo cubra no sólo las etapas de aprendizaje (características

de los modelos desarrollados a partir de datos preparados), de manera que sea fácil de

entender y utilizar por otras instituciones de otorgamiento de crédito.

1.4 Restricciones del modelo

Los siguientes aspectos son considerados como alcances del modelo:

• Los resultados permitirán comparar los métodos empleados pero no podrán ser tomados

como un método universal ya que sabemos que no existe un método que aplicado a

cualquier conjunto de datos sea superior.

• El modelo a construir utilizará un solo producto de crédito debido a que el

comportamiento de los productos es completamente diferente (no es lo mismo una tarjeta

de crédito que no tiene garantía de pago que una hipoteca en que existe la garantía del

bien inmueble).

• Debido a las restricciones de períodos de tiempo, un pronóstico sobre las variables es

requerido. Esto implica el uso de algunos conceptos estadísticos para la generación de

dicho pronóstico; si bien es cierto que esto ya no corresponde necesariamente a la

realidad, también es de notar que la generación de escenarios diferentes permiten validar

que el modelo puede reaccionar ante diferentes esquemas planteados.

1.5 Estructura.

El contenido del documento es el siguiente. En el Capítulo 2 se muestran algunos de los métodos

disponibles para realizar calificación de crédito (estadísticos, investigación de operaciones e

Inteligencia Artificial), así como para estimar la calilicación de comportamiento. En el Capítulo 3

se habla del proceso de selección de las variables, los métodos de pronóstico de series de tiempo,

los métodos que conjuntan diferentes técnicas (híbridos) y se termina con un análisis crítico. En

el Capítulo 4 se presenta la metodología para el modelo de calificación de comportamiento para

clientes de crédito que se construye. El Capítulo 5 presenta el caso de estudio realizado para la

construcción del modelo y el análisis de los resultados obtenidos. Las conclus iones y trabajo

futuro se presentan en el Capítulo 6.

Capítulo 2. Métodos para determinar la calificación de crédito y de comportamiento.

2.1 Descripción general de los métodos de calificación de crédito y comportamiento.

Existe un gran número de métodos que han sido utilizados para estimar la calificación de crédito

y de comportamiento. No se pretende ser exhaustivo en la descripción de los mismos ni presentar

el conjunto completo de métodos que pueden utilizarse. Se mostrarán sólo algunos métodos que

me parecieron relevantes. Dentro de éstos se observará que existen dos en los que se presenta un

mayor nivel de detalle: las redes neuronales y las redes bayesianas. La razón es que de entre

tocios los algoritmos presentados. fueron esos dos los elegidos para determinar la calificación ele

crédito.

De manera simple mencionaré que existen tres metodologías para la construcción de

modelos de calificación de crédito: los modelos estadísticos. los modelos basados en

investigación de operaciones y los métodos inteligentes.

La calificación de comportamiento puede reducirse a un problema ele clasificación (cuya

solución se resuelve por analogía a los modelos ele calificación de crédito). Sin embargo también

puede enfocarse a determinar el tiempo en el que un acreditado caerá en mora.

2.2 Fundamento matemático del costo por solicitante de crédito.

Se presenta a continuación una breve explicación sobre el costo asociado a procesos de

calificación de crédito. La sección es importante porque permite establecer un planteamiento

común sobre el que se basan los métodos de calificación de crédito. Como se observará más

adelante, los diferentes métodos tratan de resolver un problema de estimación de coeficientes de

un polinomio y ordenes de magnitud de los exponentes correspondientes.

Hagamos X = (X 1, X1, .... Xp) el conjunto de p variables aleatorias que describen

información disponible del problema de clasificación de crédito. Usamos la palabra variable o

característica para describir una X, típica. El valor actual de las variables para un solicitante

particular es X= (x 1.x1 ..... xp), Llamamos a los diferentes valores o respuestas x, de la variable X,

los atributos de la característica.

Supongamos que A es el conjunto de todos los posibles valores que las variables X = (X 1•

X1 •.. . ,Xp) pueden tomar. El objetivo es encontrar una regla que divide a A en dos subconjuntos

Ar; y Af/. Se clasifican las respuestas en A(; como "buenas" y las de A 11 como "malas''. Existen dos

tipos de costos correspondientes a los dos diferentes tipos de errores: 1) se puede clasificar a

alguien que es bueno como malo y por tanto rechazar la solicitud de la persona. en este caso la

ganancia potencial L se pierde; 2) se clasifica a alguien que es malo como bueno. en este caso la

deuda ocurrirá cuando el cliente caiga en mora. Llamamos a este valor D.

Sea PG el porcentaje de solicitantes buenos y Pri el de solicitantes malos. Asumamos que A

es finito, con sólo un número finito de atributos diferentes x.

Sea p(xlG) la probabilidad de que un solicitante X bueno tenga los atributos x.

p(x I G) = pr~ba~ilid ad(solicitante es bueno y tiene los atributos x)

probabilid ad(solicitante es bueno)

p(xlB) la probabilidad de que un solicitante X malo tenga los atributos x.

q(Glx) es la probabilidad de que alguien con los atributos x sea bueno

(G I x) = probabilid_ad(solicitante tiene los atributos x y es bueno)

q probabilidad(solicitante tiene los atributos x)

p(x) = Probabilidad(Solicitante tiene los atributos x)

De (1) y (2)

q(Gx)p(x) = p(xG)pu

Llegamos al teorema de Bayes:

q(G x) = p(xG)P<; p(x)

De manera similar,

q(Bx)= p(xB)pH p(x)

Dividiendo (4) entre (5)

q(Gx) p(xG)pr; =

q(Bx) p(xB)p8

El costo estimado por solicitante si aceptamos aquellos con atributos en ÁG y rechazamos

aquellos con atributos en As es:

L ¿p(xG)Pc; +D ¿p(x'B)p8 =L ¿q(Gx)p(x)+D ¿q(Bx)p(x) (7) Xe1~; XeA11 XeA,;

La regla que minimiza el costo es directa. Si la instancia se clasifica en Ac;, incurrimos en

costo si es malo, en cuyo caso el costo es Dp(xlB)PH· Si se clasifica en AH, se incurre en un costo

si es bueno; el costo esperado es Lp(xl G)pc;

De esta manera se clasifica a X en Au si:

Dp(x B)p8 :::; Lp(xG)pr; (8)

La regla que minimiza los costos esperados está dada por:

D p(xG)pc D q(G x) Ac; = {xDp(x B)p8 :::; Lp(xG)pc;} = {x :::; '} = {x :::; }

L p(x B)p8 L q(B x) (9)

La anterior solución plantea que conocemos el valor de D y L, lo cual no siempre es fácil

de estimar. Una alternativa es encontrar la probabilidad de cometer un error de un tipo mientras

controlamos hasta un cierto nivel la probabilidad de cometer un error del otro tipo.

Supongamos que deseamos una tasa de aceptación a. Entonces Ac; debe satisfacer:

¿p(xG)pu + ¿p(xB)p¡¡ =a (1 O) .YE,{; XeA,;

Mientras al mismo tiempo se minimiza la tasa de mora

Si definimos b(x)=p(xlB) para cada x e A, entonces queremos encontrar el conjunto Ac;

tal que podemos

Minimizar ¿b(x) = ¿ ( b(x) )p(x) .\'eA, ; .\'EA,; p(X)

sujeto a ¿ p(x) = a XEA,;

Usando multiplicadores de Lagrange, se puede ver que el conjunto de atributos x, donde

p(x) ::; e, (13)

e se escoge tal que la suma p(x) que satisfacen esta restricción es igual a a.

Por tanto

b(x) 1-c p(xG)p<; A<;={x ~c}={xq(Bx)~c}={x ~ }

p(x) e p(x B)pR ( 14)

2.3 Métodos estadísticos para estimar la calificación de crédito.

La calificación de crédito desarrollada a partir de los años 50 y 60 se basó en la discriminación

estadística y los métodos de clasificación. A inicios del 2000 los métodos estadísticos fueron la

técnica más usada para la construcción de scorecards ~de crédito. Esto se debió a que permiten

usar conocimiento de las propiedades de los estimadores muestrales y las herramientas de

intervalos de confianza y pruebas de hipótesis, lo que permite verificar el poder de discriminación

del scorecard y la impo11ancia relativa ele las diferentes características.

Dentro de las técnicas estadísticas usadas para la calificación de crédito encontramos el

análisis discriminante, la regresión logística. la regresión ··probif'. etc. Describiremos a

continuación de manera breve en que consisten y como se aplican en particular al problema que

se busca resolver.

Antes de presentar el tema del análisis discriminante se hablará del análisis de correlación

canónico (un método multivariante usado en estadística), con la idea de introducir la terminología

matemática requerida para el análisis discriminante.

El análisis de correlación canónica [Hair y otros; 2005: Capítulo 1] puede verse como una

extensión lógica de un análisis de regresión múltiple. El análisis de regresión múltiple implica

2 Un scorecard en el contexto de la calilicación de crédito es un método para asignar una calilicación a individuos sujetos de crédito. la cual rellcja que tan ··bueno·· se espera sea un individuo en relación con el cumplimiento de sus obligaciones. Normalmente se ..:valllan una serie d..: Yariables y se asigna una calilicación a ella5 sumando al final el valor obtenido por cada variable con la idea de obtener una calilicación final.

una única variable dependiente métrica y varias variables métricas independientes. Con el análisis

canónico el objetivo es correlacionar simultáneamente varias variables dependientes métricas y

varias variables métricas independientes. Mientras que la regresión múltiple implica una única

variable dependiente, la correlación canónica implica varias variables dependientes. El principio

subyacente es desarrollar una combinación lineal de cada conjunto de variables (tanto

independientes como dependientes) para maximizar la correlación entre los dos conjuntos. Dicho

de otra forma, el procedimiento implica obtener un conjunto de ponderaciones para las variables

dependientes e independientes que proporcione la correlación única máxima entre el conjunto de

variables dependientes y el conjunto de variables independientes.

Sean x 1, ... ,X¡, un conjunto de variables x y y 1, ···Ye¡ un conjunto de variables y. Busquemos

una combinación lineal de y como:

y una combinación lineal de x como

Seleccionemos los valores de los coeficientes a y b de manera que se max11rnce la

correlación entre U1 y V1• Como consecuencia de esta particular elección de los coeficientes, a la

combinación lineal U1 se le denomina primera variable canónica de las y y a la combinación

lineal V¡ se le denomina primera variable canónica de las x.

2.3.1 Análisis discriminante.

El análisis discriminante es un procedimiento multivariante de clasificación que permite clasificar

a una serie de individuos entre distintos grupos, con la idea de que un individuo sólo puede

pertenecer a un grupo. Los grupos están definidos por una variable categórica.

Cuando solamente se consideran dos grupos, tal corno en el caso de la clasificación de

crédito, se tiene una única función discriminante. Aquellos individuos que superen un cierto valor

en la función serán considerados corno de un grupo y aquellos que no la superen pertenecerán al

otro grupo. Se tienen los siguientes supuestos:

1. La matriz de varianza - covarianza es igual entre los dos grupos

2. Los dos grupos tienen una distribución normal multivariante3

Algunas características del análisis discriminante son las siguientes:

• Las variables independientes deben ser dos o más y de carácter numérico

• La clasificación de la muestra en una serie de grupos se realiza ''a priori"

• Las variables discriminantes se reducen a variables canónicas

• Hay tantas funciones discriminantes como grupos menos 1

Una distrihución normal multivariante. conocida también como gaussiana multirnriante. es en esencia una generalización de la distribución normal unidimensional a dimensiones superiores.

• A partir de la puntuación discriminante es posible obtener una regla de clasificación de

los individuos

• Aunque puede usarse cuando las variables independientes no tienen una distribución

normal, no se garantiza que sea óptimo.

La función discriminante es una combinación lineal de variables independientes que nos

permite clasificar a los sujetos en los diferentes grupos establecidos ·'a priori". La puntuación

discriminante (descrita en la fórmula 17) y un valor de corte permiten realizar la clasificación.

La forma lineal en la que se presenta es la siguiente:

Z = a 1x 1 + a2x2 + a3x3 + ... + a,,x,,

a1 => a,, = Coejlcientes discriminantes

x1 => x,, = Variables discriminantes

Z = Puntuación discriminante

El análisis discriminante fue usado como método para estimar modelos de calificación de

crédito por autores como Baesens [Baesens; 2003].

Un artículo adicional en el que se publica el uso del análisis discriminante se encuentra en

[Hui-Chung Yeh; 2007] .En este artículo se compara esta técnica con los árboles de decisión y las

redes neuronales. Se muestra que el análisis discriminante tiene la exactitud más baja de las

diferentes técnicas empleadas.

2.3.2 Técnicas de Regresión.

Las técnicas de regresión más utilizadas incluyen la regresión lineal, la logística y la regresión

"probit". La ecuación ( 18) ilustra el modelo de regresión lineal simple (LR). En este caso p

estima la probabilidad de no mora basado en las características de los solicitantes (X):

El defecto obvio de este modelo es que el lado derecho de la ecuación puede tornar

cualquier valor de - oo a + oo pero el lado izquierdo puede tornar sólo valores entre O y 1. El

sustituir el lado izquierdo con una función log(p / 1 - p) puede resolver ese defecto, lo que nos

lleva a otro modelo de regresión (LOG), el cual se describe así:

De ( 19), la probabilidad estimada de no mora es corno sigue:

w'x e p= w'x

[Wigington; 1980] fue uno de los primeros en reportar resultados de calificación de

crédito con el modelo de regresión logística.

Otro modelo de regresión común es el modelo "probit". Si

es la función de distribución normal acumulada, entonces el modelo de regresión "probit" (PR)

puede ser definido por:

Para los métodos anteriores, podernos decir que un solicitante es bueno si su probabilidad

va más allá de un nivel de umbral dado.

2.3.3 Métodos ele partición recursiva - Árboles ele clasificación

Los árboles de clasificación o algoritmos de partición recursiva (RPA) dividen al conjunto de

respuestas de la aplicación en diferentes conjuntos y entonces los clasifican como buenos o malos

dependiendo en cual es la mayoría en dicho conjunto. Su uso en la clasificación de crédito se

encuentra a partir de 1985; [Makowski; 1985], [Coffman; 1986].

El conjunto de datos de la aplicación es primero dividido en dos subconjuntos de manera

que al observar las muestras previas de solicitantes, esos dos nuevos subconjuntos de atributos de

la aplicación son más homogéneos en el riesgo de mora que los solicitantes en el conjunto

original. Cada uno de esos conjuntos es dividido nuevamente en dos para producir subconjuntos

más homogéneos y el proceso es repetido.

El proceso se detiene cuando los subconjuntos cumplen los requerimientos para ser nodos

terminales del árbol. Cada nodo terminal es entonces clasificado como un miembro de Ac; o Ali y

el procedimiento completo puede ser presentado gráficamente como un árbol.

Tres decisiones componen el procedimiento del árbol de clasificación:

• ¿Qué regla usar para dividir los conjuntos en dos partes? - la regla de división

• ¿Cómo decidir que un conjunto es un nodo terminal? - la regla de detención

• ¿Cómo asignar nodos terminales en categorías buenas y malas?

La decisión de asignación bueno-malo es sencilla. Normalmente asignamos el nodo como

bueno si la mayoría de los casos que se muestran en el nodo son buenos.

Las reglas de división más simples son aquellas que van un paso más allá viendo el

resultado de la división propuesta. Lo hacen encontrando la mejor división para cada

característica teniendo alguna medida de que tan buena es la división. Entonces se decide cual

característica es mejor bajo esta medida.

Para cualquier característica X,. se observa en las divisiones {x; < s}, {x; >= s} para todos

los valores de s y se encuentra el valor de s donde la medida es mejor. Si X; es una variable

categórica, entonces se observan todas las posibles divisiones de las categorías en dos y se miden

esas diferentes divisiones.

2.4 Métodos de investigación de operaciones para estimar la calificación de crédito.

2.4.1 Programación lineal.

En 1981, Freed y G lover se percataron que encontrar la función I ineal de las características que

mejor discrimine entre grupos puede ser modelado como un problema de programación lineal.

Este método mide la calidad de ajuste tomando la suma de los errores absolutos o el máximo

error involucrado. Si se quiere tomar el número de casos donde la discriminación es incorrecta

como una medida de calidad, entonces se tienen que introducir variables enteras en el programa

lineal, lo que nos lleva a los modelos de programación entera.

El problema de programación lineal enfocado a la calificación de crédito puede ser

formulado de la siguiente manera:

Tenemos una serie de variables de la forma de la aplicación X = (X 1, X2, .... Xp) y una

serie de n muestras de solicitantes. Asumamos que las primeras ne; instancias son buenas y las

siguientes nu son malas; queremos entonces elegir calificaciones o pesos (w 1, w2, .•. ,wc), tal que

la suma ponderada de las respuestas w 1X 1+w2X2 + ... + w 11 Xp está sobre un valor de corte para

los solicitantes buenos y debajo de dicho valor para los solicitantes malos.

Usualmente no esperamos obtener una división perfecta entre buenos y malos, así que

introducimos las variables a,, las cuales son positivas o cero, lo que permite posibles errores.

Se tiene entonces que resolver el siguiente problema:

Minimizar

Sujeto a

a1 + a1 + ... + a,,c;,,,B

W¡X¡¡+W1X;1 + ... + WpX;p< C + a;,

ne; + 1 <= i <= ne; + nB,

1 <= i <=ne;+ nB,

En la calificación de crédito, una ventaja de la programación lineal sobre los métodos

estadísticos es que para construir un scorecard con un sesgo particular, la programación lineal

puede fácilmente incluirlo como una restricción adicional en el problema a resolver.

La queja práctica sobre la programación lineal es que debido a que no tiene apoyo

estadístico, no se puede evaluar si los parámetros estimados son estadísticamente significativos.

Otra ventaja de métodos como la regresión sobre la programación lineal es que la primera puede

introducir variables una a la vez en el scorecard iniciando con la más poderosa.

Los métodos de programación matemática descritos han sido usados para el problema de

la calificación de crédito. por autores como [Hardy Jr y Adrian Jr; 1985] en el que se mostró

como la programación lineal puede ser usada para construir un modelo de calificación de crédito.

En el año 2002, Vladimir [Lyn C. Thomas; 2002] construyó un modelo de programación

cuadrática el cual incorpora los juicios de expertos para la evaluación del riesgo de crédito.

2.5 Métodos de Inteligencia Artificial para estimar la calificación de crédito.

2.5.1 Redes neuronales.

Las redes neuronales fueron originalmente desarrolladas para modelar las comunicaciones y el

procesamiento de información en el cerebro humano [Lyn C.Thomas; 2002]. En el cerebro, un

largo número de dendritas llevan sefiales eléctricas a una neurona, la cual convierte las sefiales a

un pulso de electricidad enviado por un axón a un número de sinapsis. las cuales relacionan la

información a las dendritas de otras neuronas. Análogo al cerebro, una Red Neuronal consiste de

un número de entradas (variables). cada una de las cuales es multiplicada por un peso. lo cual es

análogo a una dendrita. Los productos son sumados y transformados en una ··neurona .. y el

resultado se convierte en la entrada de otra neurona.

Una Red Neuronal de una capa simple puede ser representada como se muestra en la

Figura 1:

Importe Línea

Función Activación

\. ___ ___ ) y

Neurona

Figura 1. Red Neuronal de una capa simple

Podemos representar una Red Neuronal de una sola capa de manera algebraica como:

uk = wkOxo + wk1x1 + wk 2x2 + ... + wkpx,, = ¿ w.1:,,x" q=O

La ecuación tiene la misma forma que ya se mostró en otros métodos. Cada x, representa

una variable, tal como una característica de un solicitante de una tarjeta de crédito. En este caso

encontramos que, si los pesos son positivos, son conocidos como excitatorios mientras que si son

negativos son conocidos como inhibitorios. Los subíndices sobre cada peso son escritos en el

orden {k,p), donde k indica la neurona a la cual se aplica el peso y p indica la variable.

El valor uk es transformado usando una función de activación (o transferencia). Dos

ejemplos de funciones de transferencia son:

• Umbral:

F(u) = 1 si u>= O

= O si u< O

• Logística:

1 F(u) =

1 + e-ª"

Dados los valores de los pesos y la función de transferencia, podemos predecir si un

solicitante de crédito será aceptado o rechazado sustituyendo las características del solicitante en

(27), calculando el valor de Yk en (28) y comparando con un valor de corte.

Un modelo consistente en una sola neurona y una función de activación de umbral es

conocido como perceptrón. Rosenblat ( 1958, 1960) mostró que si los casos a ser clasificados eran

linealmente separables, esto es, si caían en cualquier lado de una línea recta si hay dos señales de

entrada (y de un híper plano cuando hay p señales), entonces un algoritmo desarrollado por él.

convergería para establecer pesos apropiados. Sin embargo, Minsky y Papert ( 1969) mostraron

que el perceptrón no podía separar casos que no eran linealmente separables.

Para resolver el problema anterior, se puede incluir en la Red Neuronal capas ocultas y

funciones de activación no lineales, con lo cual la red resultante puede clasificar correctamente

casos en clases que no son linealmente separables.

2.5.1.1 Aprendizaje por retro propagación.

Una Red Neuronal de retro propagación aprende por ejemplo. Se proporcionan al algoritmo

ejemplos de lo que se desea que la red haga y ésta cambia los pesos de la red tal que, cuando el

entrenamiento ha finalizado, ésta proporciona la salida requerida para una entrada proporcionada.

De manera simple podemos decir que se trata de un método sistemático para entrenar redes

neuronales con múltiples capas (tres o más).

La red es inicializada primero estableciendo todos sus pesos como números aleatorios

pequeños - entre -1 y + 1. Enseguida, el patrón de entrada es aplicado y la salida es calculada

(esto es llamado el pase hacia delante -forward). El cálculo da una salida que es diferente a lo

que se espera: Salida Objetivo -Salida Real (lo que se quiere - lo que se obtiene). Este error se

usa para cambiar matemáticamente los pesos de tal forma que el error se vuelve más pequeño. En

otras palabras, la salida de cada neurona se aproximará más a su objetivo (esta parte es el pase en

reversa). El proceso se repite hasta que el error es mínimo.

Un ejemplo, partiendo de una neurona en una capa de salida y una en la capa oculta

permitirá iniciar el análisis de este algoritmo.

Figura 2. Neurona en capa oculta conectada a dos neuronas en la capa de salida.

La conexión bajo análisis es la establecida entre la neurona A (una neurona de la capa

oculta) y la neurona B (una neurona de salida); esta conexión tiene el peso Ww. El diagrama

muestra también otra conexión, entre A y C. El algoritmo es como sigue:

l. Aplicar las entradas a la red y obtener la salida (esta salida inicial puede ser cualquier

número dado que los pesos iniciales fueron números aleatorios).

2. Obtener el error para la neurona B; este se puede definir como:

Lo que se espera - lo que se obtiene, en otras palabras:

3. Cambiar el peso. Hagamos W AH el nuevo peso (entrenado) y WAH el peso inicial.

W+ AB = W AB + (ErrorB x Salida¡\) (32)

Notar que este es el peso de la neurona que se conecta (neurona A) y no la neurona B.

Actualizamos todos los pesos en la capa de salida de esta forma.

4. Calcular los errores para las neuronas de las capas ocultas. A diferencia de la capa de

salida, aquí no podemos calcular el error directamente (no se dispone de un objetivo), así

que se propaga en retroceso desde la capa de salida. Esto se hace tomando los errores

desde las neuronas de salida y corriéndolos hacia atrás a través de los pesos para obtener

los errores de las capas ocultas. Por ejemplo si la neurona A esta conectada como se

muestra a By C. entonces tomamos los errores desde By C para generar un error para A.

Error¡\= Salida¡\ (1 - SalidaA) (Errorll WAs + Errorc WAc) (33)

5. Después de obtener el error para las capas ocultas se procede como en la etapa tres para

cambiar los pesos de las capas ocultas. Repitiendo este método entrenamos una red de

cualquier número de capas.

Ahora se proporcionará una explicación con mayores elementos matemáticos:

/ =x1 w1 + x 2 w2 + ... + x 11 w11 = ¿x;w, 1=1

Usando una función de activación no lineal, en este caso una función sigmoidal:

Tomando la derivada de la función anterior:

Si resolvemos la ecuación para e-a1, la sustituimos y simplificamos, obtenemos:

act>(/) = a 1 - et>(/) et> 2 (/) = { a[I - ct>(/)]ct>(/)} = a(] - et> )et> di et>(/)

Donde et>(/) ha sido simplificado a et> eliminando (1).

2.5.1.2 La regla delta Widrow-Hoff

La regla delta Widrow-Hoff puede ser derivada considerando el nodo de la Figura 3, donde Tes

el valor deseado u objetivo el se encuentra definido por la ecuación (34) como el producto punto

de los vectores de pesos y entrada y esta dado por:

I=""wx L..., I I

I=""wx ¿ ¡· I

Figura 3. Neurona sin función de activación pero con un valor objetivo Ty un error E

Para este análisis no se incluye una función de activación no lineal. pero el resultado es

igualmente válido.

De la Figura 3 vemos que la función de error E como una función de todos los pesos w,. y

observamos que el error t: 2 es

E =(T- I) (39)

E" =(T-J)" (40)

El gradiente del vector de error cuadrado es la derivada parcial con respecto a cada peso i:

ac 2 a1 = -2(T - !) = -2(T - J)x, chv¡ aw, (41)

Debido a que este gradiente involucra sólo el componente de peso i-ésimo, la suma de la

ecuación (38) desaparece.

Para propósitos de demostración consideremos una neurona con sólo dos entradas, x1 y x2.

El error cuadrado esta dado ahora por:

T 2 2 2 2 2 2T 2T 2T = + W 1 X 1 + W 2 X 2 - W 1X 1 - W 2X 2 + W 1X 1W 2 X 2

= w12 [x1

2] + w1 [-2x1 (T - w2x2 )] + [(T - w2x2 )2]

= w~[x~] + w2 [-2x2 (T - w1x1 )] + [(T - w,x1 )2]

El error cuadrado mínimo ocurre cuando la derivada parcial del error cuadrado con

respecto a los pesos w 1 y w2 son puestos a cero:

=-2[T-w1x1 -w0 x,]x 0 =0 a - - -w, (44)

Dado que x1 y x2 no pueden ser cero, las cantidades en corchetes, las cuales son idénticas

para ambas ecuaciones, deben ser cero. Esto nos da:

De lo cual, la localización del mínimo en w, y w., es:

T-w,x, w = - -

1 (46)

La sustitución de cualquiera de esos valores en la ecuación (42) da el error cuadrado

mínimo como cero. Técnicamente esto es correcto pero en la práctica el error cuadrado mínimo

nunca es cero debido a no linealidades, ruido y datos imperfectos. La presencia de ruido en una

función sigmoidal dará un error cuadrado mínimo que no es cero y que designamos como c,;,,n.

, ................. .............. .

¡(T-w,x,)2.-1 ---..i.. i ••••••••••••.••••••. :: ••••• :: .•...•... :

T-w,x2 w - -I-X¡

Figura 4. Minimización del error cuadrado durante entrenamiento Widrow-Hoff.

El análisis de la ecuación (42) muestra que la gráfica de t: 2 ··versus·' w 1 ó w.? tendrá la

forma de una parábola. Esto es mostrado en la Figura 4 para los dos casos de error cuadrado

mínimo: cero y t: 2• En ambos casos el error cuadrado mínimo ocurre en un valor de w1 dado por

la ecuación (46). El mismo resultado ocurre del error cuadrado mínimo ··versus"' w.?, donde el

mínimo ocurre en un valor de w1 dado por la ecuación (47). De aquí que la superficie del error

cuadrado mínimo para el caso de pesos en dos dimensiones sea un paraboloide de revolución con

el eje E~ localizado en (w 1. w2).

Una interpretación geométrica de la regla delta se da como un algoritmo de descenso del

gradiente que minimiza el error cuadrado. Cuando este es visto en tres dimensiones ( t: 2 ,w ,. w1) la

superficie del error cuadrado es un paraboloide de revolución con el vector peso descendiendo

hacia el valor mínimo junto con un vector gradiente sobre la superficie del paraboloide. La

proyección de este vector gradiente sobre el plano w 1- w1.es el vector delta que se muestra en la

Figura 5. La regla delta mueve el vector de peso a lo largo del gradiente negativo de la superficie

curva hacia la posición del vector de peso ideal. Debido a que sigue al gradiente, es llamado un

descenso de gradiente. Debido a que el gradiente es el camino más eficiente al fondo de la

superficie curvada, la regla delta es la manera más eficiente de minimizar el error cuadrado.

La regla delta Widrow-Hoff establece que el cambio en cada componente del vector de

peso es proporcional al negativo de su gradiente:

VE~ L1w = -K = K.2(T - l)x = 2KEX

/ a1r 1 ,

Donde K es una constante de proporcionalidad. El signo negativo se debe al proceso de

minimización.

Es común normalizar el componente del vector de entrada X; dividiendo por X 2

• La

ecuación (48) se convierte ahora en:

Y podemos definir la constante de aprendizaje '7 como:

' 2 T7=2K X,

(Error)2

"ideal" de peso

Vector Peso Actual

Vector "delta"

Figura 5. Interpretación geométrica de la regla delta.

2.5.1.3 Entrenamiento por retro propagación para redes neuronales multicapas.

Consideremos la red de tres capas de la Figura 6, donde todas las funciones de activación son

funciones logísticas. El objetivo del proceso de entrenamiento es ajustar los pesos tal que la

aplicación de un conjunto de entradas produzca las salidas deseadas. El proceso de entrenamiento

es como sigue:

1. Inicializar los valores de los pesos a pequeños valores aleatorios positivos y negativos

2. Seleccionar un par de entrenamiento del conjunto de entrenamiento

3. Aplicar el vector de entrada a la entrada de la red

4. Calcular la salida de la red

5. Calcular el error, la diferencia entre la salida de la red y la salida deseada

6. Ajustar los pesos de la red de manera que se minimice el error.

7. Repetir los pasos 2-6 para cada par de vectores de entrada-salida en el conjunto de

entrenamiento hasta que el error en el sistema entero es aceptablemente bajo.

Y1 E¡

Y2 C' c.,'

q:, q.t

q.t Yq éq

Xm <P.,_; q:," <P, k

Capai Capaj Capak Índiceh Índicep Índiceq 1->m 1-> n 1-> r mNodos nNodos rNodos

Figura 6. Red Neuronal de múltiples capas mostrando los símbolos e indices usados para derivar el algoritmo de entrenamiento por rclropropagación.

El entrenamiento de una Red Neuronal involucra dos pases. En el pase hacia delante las

señales de entrada se propagan desde la entrada de la red a la salida. En el paso en reversa, las

señales de error calculadas se propagan hacia atrás a través de la red, donde ellas se usan para

ajustar los pesos. El cálculo de la salida es llevada, capa por capa, en la dirección hacia delante.

La sal ida de una capa es la entrada a la capa siguiente. En el paso en reversa, la sal ida de las

neuronas en la capa de salida es ajustada primero debido a que el valor objetivo de cada neurona

de salida esta disponible para guiar los ajustes de los pesos asociados, usando la regla delta.

Enseguida ajustamos los pesos de las capas intermedias. El problema es que las capas intermedias

no tienen valores objetivos.

2.5.1.3.1 Calculo de pesos para las neuronas de la capa de salida.

La Figura 7 es una representación de un proceso de una cadena de neuronas que llevan a la capa

de salida, designada por el subíndice k con las neuronas p y q, las salidas " 1 (I) y " * (/), los

vectores de entrada w1,1,J y w1"1.k, y un valor objetivo Tq.

-O Wnp1 tpj ,~pj) Wpqk iqk ,~qJ ~q.l

~( Xn Tq

Yq j k Eq

Figura 7. Representación de una cadena de neuronas para calcular el cambio del peso para una neurona en la capa de salida por retro propagación.

La salida de la neurona en la capa k es restada de su valor objetivo y elevada al cuadrado

para producir la señal de error, la cual para una neurona en la capa k es:

t:"-t:2-[T - ]" - q - q c¡k (52)

La regla delta indica que el cambio en un peso es proporcional a la tasa de cambio del

error cuadrado con respecto a ese peso, esto es,

Evaluarnos la derivada parcial:

de,~ de,~ d<ll ,¡k dl,, k

= (54)

La derivada parcial de (52) con respecto a <ll ,, k nos da:

De la ecuación (37) obtenernos:

d<ll dI ,¡k = a<t> ,, k [I - <ll ,, k l

De la Figura 6 vemos que 1,1k es la suma de las entradas ponderadas desde la capa media, esto es:

I"k = L w1"1k<I) JJ.1 p=I

Tornando la derivada parcial con respecto a w1vk:

a1qk =<ll/1./

dWl"lk

Debido a que estamos tratando con un peso, sólo un término de la suma de la ecuación

(57) sobrevive. La sustitución de las ecuaciones (55), (56) y (58) en la ecuación (54) da:

OE~ '' - -2a[T - ] [1 - ]<t> - -o :-, - '/ ,¡k q k 'i k PI - ¡,¡k I' J

d<l> q k

º"'' k = 2a[T" - <t> ,1 k ]<t> ,, k [1 - <t> ,, k] = 2t:,, JI qk

Sustituyendo la ecuación (59) en (53) da:

Donde N es el número de la iteración involucrada. Un proceso idéntico es ejecutado por

cada peso de la capa de salida para dar los valores ajustados de los pesos.

2.5.1.3.2 Calculo de los pesos en las capas ocultas.

La retropropagación entrena las capas ocultas propagando el error ajustado hacia atrás a través de

la red, capa por capa, ajustando el peso de cada capa conforme se pasa. Las ecuaciones para la

capa oculta son las mismas que las de la capa de salida con excepción del término de error '51,¡, 1

el cual debe ser generado sin un vector objetivo. Debemos calcular ó1,"' para cada neurona en la

capa intermedia que incluya contribuciones de los errores en cada neurona en la capa de salida a

la cual están conectados.

Consideremos una neurona simple en la capa oculta justo antes de la capa de salida.

designada por el subíndice p (ver la Figura 7). En el pase hacia delante, esta neurona propaga sus

valores de salida a las neuronas q en la capa de salida mediante los pesos de interconexión w,"rk·

Durante el entrenamiento, esos pesos operan en orden de reversa, pasando el valor de ó""' desde

la capa de salida de regreso a la capa oculta. Cada uno de esos pesos es multiplicado por el valor

de la neurona a través del que se conectan a la capa de salida. El valor de J,," 1

necesario para la

neurona de la capa de salida es producido por la suma de tales productos.

El arreglo en la Figura 8 muestra los errores que son propagados hacia atrás para producir

el cambio en W1,p¡· Debido a que todos los términos de error de la capa de salida están

involucrados, la derivada parcial involucra una suma sobre las salidas r. El procedimiento para

calcular J,," .1 es parecido al del cálculo de ó'"' • . Iniciemos con la derivada del error cuadrado con

respecto al peso para la capa intermedia que será ajustada. Entonces, de manera análoga a la

ecuación (53) la regla delta nos da:

OEC. L1w =-r¡ ,,

,,,,, J,p a w,,,,, r OE:'. ' ,, =-TJ,,,,L., ch

,¡=1 v,,,,, (63)

Capai Índiceh 1->m mNodos

Capaj Índicep 1-> n nNodos

Wp1.Jc

qk <P;r):

.•J. <P,.k

Capak Índiceq 1-> r rNodos

Figura 8. Representación de una cadena de neuronas para calcular el cambio en pesos para una neurona en capa oculta de una red de retro propagación.

Donde el error cuadrado medio total se define como:

E2 = I< = ¿[7;, -<l>qk]2 (64) ,¡=I ,¡=I

Usamos la regla de la cadena de la derivada:

dE,~ = Í dE,~ d<l> ,1 * df" * cJ<l\, 1 d! P 1

dll'¡,l'I ,¡=I d<P,¡k dfqk d<P/1/ df/1/ dWhpJ (65)

Observamos en (55) y (56) que:

Tomando la derivada parcial de (57) con respecto a ,,, nos da:

di ,¡k =w a<1> . pc¡.k

La suma sobre p desaparece porque sólo una conexión esta involucrada. Cambiando los

subíndices de la ecuación (56) para corresponder a la capa media:

Cambiando los subíndices de la ecuación (57) y sustituyendo la entrada de la capa i, x1,,

por el valor de la entrada de la capaj J>.J nos da:

1,,.1 = L w"v.1x" h=I

Tomando la derivada parcial de la ecuación (68):

Una vez mas, la suma sobre h en la ecuación (68) desaparece porque sólo una conexión

esta involucrada. La sustitución de las ecuaciones (56), (66) a (69) en la ecuación (65), el uso de

la ecuación (64) y la definición de ó1,.1

k en la ecuación (60) nos da:

:-. = ¿ (-2)a[I:, - ''* ][ ,, * (1 - " k ])w p,, ka[ P/1 - P 1 )]x" uwhp.J q=I

r act> p.)

=-¿óp,¡.kwfl'i.k :-. - X1, ,¡=1 uf PJ

Si definimos ó""i como:

cJ /1 ' Ó¡,/1 .i = óp,¡ k w /1'1 k di ..

Entonces la ecuación (70) se convierte en:

e) =-¿01,¡,_¡X1, Wl,p¡ ,¡=I

Debido a que el cambio en los pesos como se da en la ecuación (63) es proporcional al

negativo de la tasa de cambio del error cuadrado con respecto a ese peso, entonces, la sustitución

de la ecuación (70) y (71) en (63) da:

= T]¡, "x"¿ '5"" 1 q=I

De aquí que,

w""' (N + 1) = w""' (N) + 1/1, "x"¿ ó""' ,¡=1

Si existe más de una capa intermedia de neuronas. este proceso se mueve a través de la

red. capa por capa a la entrada. ajustando los pesos conforme se desarrolla el proceso. Cuando se

finaliza. una nueva entrada de entrenamiento es aplicada y el proceso completo inicia una vez

más. Esto continúa hasta que un error aceptable es alcanzado. En este punto la red está entrenada.

Existen artículos en que se muestra que las redes neuronales se han aplicado de manera

exitosa en el problema de la calificación de crédito; como ejemplo se encuentra [Su-Ling Pang;

2002]. En este se analizan 106 casos de empresas chinas y se usa un perceptrón múltiple para

separar buenos y malos.

En el artículo se realiza un análisis de riesgo de crédito en que se emplea una estructura

MLP (Multi Layer Perceplron) que incluye una capa de entrada. una capa oculta simple y una

capa de salida. La capa de entrada consiste en los nodos que representan los índices financieros.

Esos índices son usualmente seleccionados por Análisis de Componentes Principales~ o por otros

métodos estadísticos. La capa de salida usa de manera típica la función logística o la función

sigmoidal. Los resultados obtenidos en este caso son buenos bajo una configuración con cuatro

capas ocultas.

Otro artículo que utiliza redes neuronales es el publicado por [Hui-Chung Yeh; 1997]. En

este se comparan el Análisis Discriminante, los Árboles de Decisión, las Redes Neuronales de

Retropropagación y un método híbrido. La muestra de datos consiste en información de tarjeta de

crédito. El estudio usó el Análisis Discriminante Lineal (LOA por sus siglas en inglés) para

seleccionar las variables del conjunto de datos y entonces usó un modelo de Red Neuronal de

Retropropagación para generar el modelo de calificación. Esta combinación es lo que

~ FI análisis de componentes principales es un método que puede ser usado para reducir la dimcnsionalidad de datos multivariados. Permite al investigador reexprcsar los datos (tomando combinaciones lineales de las variables originales) tal que las primeras nuevas pocas variables resultantes (llamadas componentes) lomen en cuema tanta de la información disponible como sea posible [James Laltin.y otros: Capítulo 1: 2003]

establecemos como un método híbrido. Adicionalmente los autores implementan los métodos

LOA, árboles de decisión y redes neuronales para comparar con el híbrido.

En este caso el tamai'io de la muestra fue 76,570 registros y se evaluaron 12 variables. La

medición efectuada consistió en tres aspectos: sensibilidad, especificidad y exactitud. Estas

métricas son definidas en un Capítulo posterior.

Los resultados obtenidos por este estudio muestran que la técnica de árboles de decisión

resultó mejor en cuanto a la medición efectuada.

Otros estudios que fueron realizados corresponden a Jensen [1-lerbert Jensen ; 1993], quien

aplicó una red de tipo BPNN - back propaga/ion neura/ ne/work para la calificación de crédito.

Desai [Desai; 1996] comparo la exactitud de clasificación de dos modelos de redes neuronales.

perceptrones multicapas (MLP) y redes neuronales modulares (MNN)' con algunas técnicas

tradicionales. tal como el análisis discriminante y la regresión logística.

2.5.2 Redes bayesianas.

2.5.2.1 Teorema de Bayes.

El teorema de Bayes es la regla básica en teoría de la probabilidad para realizar inferencias

[1-lcrnández José y otros; 2004; Capítulo IO] . Nos permite actualizar la creencia que tenemos en

un suceso o conjunto de sucesos a la luz de nuevas observaciones. Es decir, nos permite pasar de

la probabilidad .. a priori"' P(suceso) a la probabilidad .. a posteriori .. P(rnceso I ohservacio11es).

' · lJna Red Neuronal modular es caracterizada por una serie de redes m:umnalcs independientes moderadas por intermediarias. Cada red sirve a un módulo y opera sobre entradas separadas para llcnir a cabo una sublarca de la larca que la red espera ejecutar. Las intermediarias !ornan las salidas de cada módulo y las procesan para producir la salida de la red completa (http://cn .wikipedia.org/wiki/Modular _neural_ nctworks J.

La probabilidad "a priori" puede verse como la probabilidad inicial, la que se fija sin

saber nada más. La probabilidad "a posteriori" es la que obtenemos tras conocer cierta

información, por tanto puede verse como un refinamiento de nuestro conocimiento. La

presentación del teorema de Bayes ya fue realizada a inicios de este Capítulo, en la sección

Fundamento matemático del costo por solicitante de crédito, por ahora sólo tomemos la siguiente

fórmula que resume dicho teorema:

P(Oh)P(h) P(h I O)=

P(O) (75)

Donde, como podemos ver, lo que aparecen son la probabilidad '"a priori" de la hipótesis

(h) y de las observaciones (O) y las probabilidades condicionadas P(hlO) y P(Olh). A esta última

se le conoce como la verosimilitud de que la hipótesis h haya producido el conjunto de

observaciones O.

Si nos centramos en el problema de la clasificación, con una variable de clase C y un

conjunto de variables predictoras o atributos {A 1, ••• , A0 }, el teorema de Bayes tendría la

siguiente forma:

_ P(A 1 ••••• A 11

1 C)P(C) P(C A 1 ... An)-

P(A1 , ...• A,,) (76)

Evidentemente, si C tiene k posibles valores {c 1, ••• ,ck} lo que nos interesa es identificar el

más plausible y devolverlo como resultado de la clasificación. En el marco bayesiano, la

hipótesis más plausible es la que tiene máxima probabilidad ··a posteriori" dados los atributos, y

es conocida como la hipótesis máxima "a posteriori"' o hipótesis MAP. Así la clase o valor a

devolver será:

p(A1 , ... , A,, 1 c)p(c) c,1,_.11, = arg max p(c I A

1 , •• .,A,,)= arg max

"ªº' ,Ell,. p( Al, ... , A,,)

= arg max p(Al' ... A,, 1 c)p(c) l'EU<·

Donde Q< representa el conjunto de valores que puede tomar la variable C. Nótese que

en el último paso se ha eliminado la división debido a que el divisor sería el mismo para todas las

categorías.

Por tanto, el teorema de Bayes nos facilita un camino fácil y una semántica clara para

resolver esta tarea. Sin embargo, este método tiene un problema: su alta complejidad

computacional, debido a que necesitamos trabajar con distribuciones de probabilidad que

involucran muchas variables, haciéndolas en la mayoría de los casos inmanejables.

Una distribución de probabilidad conjunta es aquella que especifica las probabilidades de

todas las combinaciones de valores de un conjunto aleatorio.

El problema con esta definición es que cuando crece el número de variables, la estimación

de esta distribución de probabilidad conjunta se vuelve muy grande.

Un elemento que puede ayudar en este problema es la noción de independencia.

Supongamos por ejemplo que tenemos un dominio de problema con las variables: empleo (con

los valores Sí/No), hijos (con los valores Tiene/No tiene) y cumplimiento (con valores Paga/No

Paga). Adicionemos a este conjunto una cuarta variable llamada Tiempo (con valores

So leado/N ubl ado/LI uvi oso/Nevado).

Podríamos preguntar la relación entre P(Empleo, Hijos, Cumplimiento, Tiempo=Nublado)

y P(Empleo, Hijos, Cumplimiento). A fin de buscar una solución a la pregunta podríamos usar la

regla del producto:

P(A /\ B) = P(A I B)P(B) = P(B I A)P(A) (78)

Es decir,

P(Empleo, Hijos, Cumplimiento, Tiempo= Nublado)

= P(Tiempo= Nublado! Empleo, Hijos, Cumplimiento)P(Empleo, Hijos, Cumplimiento)

Consideremos el conocimiento empírico sobre el dominio del problema, el cumplimiento

de pago no tiene que ver con el estado del tiempo. De esta manera, podríamos simplificar la

respuesta a nuestra pregunta como sigue:

P(Tiempo= Nublado I Empleo, Hijos, Cumplimiento) = P(Tiempo= Nublado)

Bajo la consideración anterior, tenemos que:

P(Empleo, Hijos, Cumplimiento, Tiempo= Nublado)

= P(Tiempo= Nublado)P(Empleo, Hijos, Cumplimiento)

Para cada entrada de P(Empleo, Hijos, Cumplimiento, Tiempo) existe una ecuación

similar a la anterior. Tenemos entonces que podríamos generalizar lo anterior como:

P(Empleo, Hijos, Cumplimiento, Tiempo)

= ?(Empleo, Hijos, Cwnplimiento)P(Tiempo)

En términos prácticos si teníamos una Tabla de 32 elementos correspondientes a las

posibles combinaciones de las variables: 2x2x2x4, tenemos que esta Tabla de 32 elementos

puede ahora construirse con una Tabla de ocho elementos y una Tabla de 4 elementos.

La propiedad que hemos usado para simplificar el problema se conoce como

independencia (independencia marginal o independencia absoluta).

La independencia entre las propiedades a y h puede escribirse como:

P(alb) = P(a) o P(bla) = P(b) o P(a /\ b) = P(a)P(b) (79)

Las afirmaciones de independencia están basadas usualmente en el conocimiento del

dominio. Pueden reducir drásticamente la cantidad de información necesaria para especificar la

distribución conjunta completa. Así cuando están disponibles, las afirmaciones de independencia

nos pueden ayudar a reducir el tamaño de la representación del dominio y la complejidad del

problema de inferencia.

Otro concepto importante para reducir la complejidad del problema es la independencia

condicional. Si X. Y y Z son variables, la definición general de independencia condicional de dos

variables X e Y, dada una tercera variable Z es

La regla de Bayes puede ser un elemento de evidencia útil para contestar preguntas

probabilísticas condicionales. En particular, la información probabilística está muchas veces

disponible de la forma P(efectolcausa).

2.5.2.2 Definición de una Red Bayesiana.

Una Red Bayesiana B =< N, A. 0 > es un grafo acíclico dirigido 6<N,A> con una distribución

de probabilidad condicional para cada nodo, colectivamente representado por 0[Cheng Jie,

Greiner Russell; 1999]. Cada nodo n E N representa una variable del dominio, y cada arco

a E A entre nodos, representa una dependencia de probabilidad.

La especificación completa de una Red Bayesiana es como sigue [Russell Stuart y otros;

2003; Capítulo 14]:

1. Un conjunto de variables aleatorias forman los nodos de la red. Las variables pueden ser

discretas o continuas.

2. Un conjunto de enlaces dirigidos o flechas conectan pares de nodos. Si hay una flecha de

un nodo X a un nodo Y, se dice que X es un padre de Y.

3. Cada nodo X, tiene una distribución de probabilidad condicionada P(.X,IPadres(}{,)) que

cuantifica el efecto de los padres del nodo.

6 Un grafo acíclico dirigido es un grafo sin ciclos y dirigido: es decir. para cada nodo (también llamado ,érticc - v). no existe un camino directo que empiece y termine en v.

4. El grafo no tiene ciclos dirigidos (y así es un grafo acíclico dirigido, o GAD).

La topología de la red (el conjunto de nodos y enlaces) especifica las relaciones de

independencia condicional que se tienen en el dominio. El significado intuitivo de una flecha en

una red construida correctamente es, habitualmente, que X tiene una influencia directa sobre Y. Es

generalmente sencillo para un experto del dominio decidir qué influencias directas existen en el

área, mucho más sencillo, de hecho, que la especificación de las probabilidades. Una vez que la

topología de la red está diseñada, necesitamos especificar una distribución de probabilidad

condicional para cada variable dados sus padres.

A fin de explicar esto de manera gráfica, considérese la Figura 9. la cual es un ejemplo de

Red Bayesiana aplicada al proceso de calificación de crédito.

meses_ult_compra meses_ult_disp

SDO_VEN_om

~~ Figura 9. Red 13aycsiana para la calificación de crédito correspondiente a un período en que no se tiene infor111ación previa sobre el comportamiento de la 111orosidad.

Si concentramos la atención solamente en tres nodos: '"imp_lim_cred" (línea de Crédito),

"'imp_tot_cons'' (Consumos en el Período) e "imp_disp" (Disposiciones en el Período), podemos

aislar estos elementos como se muestra en la Figura I O:

imp_tot_cona imp_diap

Figura I O. Red 13ayesiamL relación de independencia condicional.

De la Figura I O podemos mencionar que existe independencia condicional entre los nodos

"'imp_tot_cons" e "imp_disp'' dada la variable ''imp_lim_cred'', lo cual se indica por la ausencia

de un enlace entre las primeras dos variables.

Una Red Bayesiana proporciona una descripción completa del dominio. Cada entrada de

la distribución de probabilidad conjunta puede calcularse a partir de la información de la red. Una

entrada genérica en la distribución conjunta es la probabilidad de una conjunción de asignaciones

concretas a cada variable tal como P(X1

= x /\ ... /\X,, = x,,). Para ésta usaremos la notación

abreviada P(x1, ... ,x,J. El valor de esta entrada está dado por la fórmula

P(x1 ••• x,,) = I] P(x, padres(X ,)) (81) 1=1

Donde padres(XJ denota los valores específicos de las variables de Padres(X,). Así, cada

entrada de la distribución conjunta está representada por el producto de los elementos apropiados

de las tablas de las probabilidades condicionales (TPC) de la Red Bayesiana. Las TPC

proporcionan así una representación descompuesta de la distribución conjunta.

En general, una Red Bayesiana puede ser usada para computar la probabilidad condicional

de un nodo dados los valores asignados a otros nodos; de aquí que una Red Bayesiana puede

emplearse como un clasificador que proporciona la distribución de probabilidad posterior del

nodo de clasificación dados los valores de otros atributos. Cuando se realiza un proceso de

aprendizaje de redes bayesianas desde conjuntos de datos. usamos los nodos para representar a

los atributos del conjunto de datos.

Una de las ventajas de la Red Bayesiana aplicada al proceso de clasificación (en este caso

de calificación de crédito), es que permite una selección natural de las características una vez que

ya se tiene identificada la estructura de la red; la explicación de esto se detalla a continuación.

La frontera de Markov de 11 es un subconjunto de nodos que protegen a 11 de ser afectado

por cualquier otro nodo fuera de esa frontera. Una de estas fronteras es el manto de Markov. el

cual es la unión de los padres de 11. los hijos den y. los padres de los hijos de 11.

La semántica topológica de una Red Bayesiana viene dada por cualquiera de los requisitos

siguientes. que son equivalentes:

1. Un nodo es independiente condicionalmente de sus no-descendientes, dados sus

padres.

2. Un nodo es independiente condicionalmente de todos los demás nodos de la red.

dados sus padres. hijos. y padres de sus hijos. esto es, dado su manto de Markov.

La tarea básica de cualquier sistema de inferencia probabilista es calcular la distribución

de probabilidad "a posteriori'' para un conjunto de variables pregunta, dado algún evento

observado ( esto es, alguna asignación de valores para un conjunto de variables evidencia).

Existen algoritmos que permiten realizar de manera más eficiente el cálculo de la

distribución de probabilidad "a posteriori", por ejemplo algoritmos de inferencia exacta, como la

eliminación de variables, la cual evalúa sumas de productos de probabilidades condicionadas tan

eficientemente como le es posible.

Al usar una Red Bayesiana como algoritmo de clasificación sobre los datos completos, el

manto de Markov del nodo de clasificación forma una selección de características natural debido

a que, todas las características fuera del manto de Markov pueden ser eliminadas de manera

segura de la Red Bayesiana.

2.5.2.3 Clasificadores de Red Bayesiana simples.

2.5.2.3.1 Naive-Bayes.

Una Red Bayesiana Naive Bayes es una estructura simple que tiene el nodo de clasificación como

nodo padre de todos los otros nodos. sin permitir otras posibles conexiones. Esto tiene las

ventajas siguientes: 1) es fácil de construir dado que la estructura esta dada "a priori" ( esto evita

el proceso de aprendizaje de la estructura de la red); 2) el proceso de clasificación es eficiente.

Ambas ventajas son debidas a la premisa de que todas las características son independientes entre

ellas. Esto pareciera una limitación del algoritmo, sin embargo en muchos conjuntos de datos en

que las variables no están fuertemente correlacionadas. el método es adecuado.

í'igura 11. Estructura Naivc ílaycs simple

2.5.2.3.2 Otros algoritmos que mejoran Naive Bayes.

A fin de mejorar el algoritmo Naive-Bayes, en [Cheng Jie, Greiner Russell; 1999] se menciona

que se han utilizado: 1) mecanismos de selección de características y, 2) medios para relajar las

premisas de independencia condicional. No se discutirá aquí la primera de las opciones dado que

de esto se hablará en la sección de selección de características; simplemente es de notar que

existen diferentes mecanismos para este proceso.

Referente a la segunda opción, se han propuesto algoritmos como el desarrollado por

Kononenko, el cual desarrolla una partición de los atributos en grupos disjuntos, asumiendo la

independencia sólo entre los atributos de diferentes grupos [Kononenko; 1991 ]. En este mismo

camino encontramos algoritmos como TAN (Tree Aumented Network), el cual permite

estructuras parecidas a árboles para representar las dependencias entre atributos.

2.5.3 Algoritmos genéticos.

De manera simple, un algoritmo genético (GA) es un procedimiento para buscar

sistemáticamente a través de una población de soluciones potenciales a un problema tal que las

soluciones candidatas que se acercan más a la solución de un problema tienen mayor oportunidad

de ser retenidas en la solución candidata que otras.

Supongamos que queremos calcular los parámetros a1, a2, ... ,a1,, b1, b2, ... ,bp, y e en la

siguiente ecuación de calificación de crédito para clasificar solicitantes para un préstamo:

Una vez que los parámetros son estimados, un solicitante se puede clasificar como bueno

o malo dependiendo de sif('C,) es mayor que o menor que O.

El procedimiento consiste en los siguientes pasos:

Primero, la población de a, b, y e es elegida. Por ejemplo. el número de posibles valores

a, puede ir de -1000 a +1000 y así respectiva111ente para cada a. el rango de h1 puede ir de O a 6,

etc. Para los propósitos del algorit1110, cada número en la solución es representado de for111a

binaria. Una solución para el problema es un conjunto completo de valores {0.1} para a1,

O], ... ,llp, h¡, h2, ... ,h1,. y C.

Una colección de O y I es conocido como una cadena o cro111osoma. Dentro de una cadena

se encuentran características particulares o genes, cada uno de los cuales toma valores

particulares o alelos. Una solución al problema de la calificación de crédito consiste de conjuntos

de genes arreglados en un registro, cada gene tiene un valor de O ó I y cada conjunto relacionado

a a1, x1, 11 1, a2, x2• n2. El registro completo es un cromosoma.

Segundo. un número de soluciones son seleccionadas para su inclusión en la población

intermedia. Esos podrían ser escogidos de manera aleatoria a menos que se tenga conocimiento

previo de valores más apropiados. Para seleccionar los 111iembros de la población intermedia, el

rendimiento de cada solución en la población inicial es calculado. El rendimiento es llamado

fitness. En el problema de la clasificación de crédito el fitness puede ser calculado como el

porcentaje de casos correctamente clasificados. En esta segunda etapa una población intermedia

que contiene miembros de la población original es creada. No se crean nuevas cadenas.

Tercero, se crean nuevas cadenas. Un número dado de soluciones de la población

intermedia es seleccionado y los operadores genéticos son aplicados. Un operador genético es un

procedimiento para cambiar los valores dentro de ciertos alelos en uno o un par de cadenas. Dos

operadores pueden ser usados: cruza y mutación. Cada cromosoma tiene la misma oportunidad de

selección para la cruza,A, lo cual es determinado por el analista.

El cromosoma seleccionado, incluyendo los hijos resultantes de la cruza y después de la

mutación, forman la nueva población. Las etapas dos y tres son repetidas un número determinado

de veces.

Los parámetros seleccionados por el analista son el número de soluciones candidatas en la

población, las probabilidades de cruza y de mutación y el número de generaciones. [Michalewicz;

1996] sugirió algunas reglas heurísticas y un tama110 de población de 50-100, con Pe

(probabilidad de cruza) entre 0.65 y 1.0 y p,11 (probabilidad de mutación) entre 0.001 y 0.01

2.5.4 Máquinas de soporte vectorial.

Esta técnica es relativamente reciente a comparación de otras como las redes neuronales. Fue

propuesta en [Vapnik; 1995]. La técnica trata de transformar vectores de entrada en un espacio de

características de dimensionalidad alta a través de una transformación no lineal. En este espacio,

un híper plano separador óptimo, que maximiza el margen de separación, es construido

resolviendo un problema de optimización cuadrática.

Recientemente algunos investigadores han introducido las Máquinas de Soporte Vectorial

(Supporl Vector Machines - SVM) en el problema de la evaluación del riesgo de crédito. [Van

Gestel; 2003] usó SVM de mínimos cuadrados (LS-SVM) para calificación de crédito de bancos

y reportó resultados experimentales comparados con cuadrados mínimos ordinarios (OLS).

regresión logística ordinaria (OLR) y perceptrón multicapa (MLP). Los resultados mostraron que

la exactitud del clasificador LS-SVM fue mejor que los otros tres métodos. [Schebesch y

Stecking; 2005] usaron una SVM estándar con un ''kernel" lineal y uno RBF para la calificación

de crédito de solicitantes y usaron un SVM basado en un ''kernel" lineal para dividir un conjunto

de solicitantes de crédito etiquetados para dividir en patrones ''típicos" y "críticos'', que pudieran

ser usados para rechazar aplicaciones. [Baesens; 2003] realizó un estudio de rendimiento de 17

técnicas de clasificación diferentes sobre ocho diferentes conjuntos de datos de crédito reales. Se

usaron SVM y LS-SVM con "kernel" lineal y RBF y se adoptó un mecanismo de búsqueda de

grid para ajustar los híper parámetros en su estudio. Los resultados experimentales mostraron que

seis diferentes métodos son mejores en términos de exactitud en la clasificación - regresión

lineal, regresión logística. programación lineal, árbol de clasificación, Red Neuronal y máquinas

de soporte vectorial.

En la referencia [Lean Yu; 2008] encontramos varios usos de las máquinas de soporte

vectorial aplicadas al problema de la calificación de crédito. Entre los tipos de propuestas

encontramos:

• Máquinas de soporte vectorial que usan mínimos cuadrados y búsqueda directa

para la selección de parámetros.

• Máquinas de soporte vectorial que usan algoritmos de punto más cercano.

Se habla también de que las SYM tienen el inconveniente de requerir un largo tiempo para

el proceso de entrenamiento en bases de datos que son grandes y que no tiene un mecanismo de

interpretación que sea sencillo al usuario (los resultados no son intuitivos). En este sentido se

proponen algoritmos que combinan las SYM con conjuntos rugosos 7 .

2.6 Calificación de comportamiento.

La calificación de comportamiento es un problema que puede ser visto como un problema de

clasificación o bien desde una perspectiva de repago y uso de la línea de crédito del cliente. El

problema es dificil si consideramos que contamos con bases de datos ele múltiples dimensiones

compuestas de registros de cuentas mensuales y registros transaccionales diarios [Nan-Chen

Hsieh; 2004].

Este autor señala que hasta el momento de la publicación de su artículo (2004), las

técnicas de minería de datos habían estado descubriendo reglas generales, prediciendo banca rota

personal y realizando calificación de crédito en bases de datos bancarias. Pocos estudios se tenían

en tal momento respecto a la calificación de comportamiento del cliente. El autor realizó un

estudio en que analizó datos de cuentas de clientes y sus transacciones de tarjeta de crédito.

La metodología empleada incluyó el preprocesamiento de datos, el modelado de la

calificación de compor1amiento, el análisis de sensibilidad de la importancia relativa de los

atributos contribuyendo al perfil del cliente y un modelo de calificación de comportamiento en

dos etapas.

7 Los conjuntos rugosos [Lean Yu: 2008] son una herramienta matemática que trata con la vaguedad o incertidumbre como una extensión de la teoría de conjuntos clásica. Los conjuntos rugosos pueden ser considerados como conjuntos con límites difusos - conjuntos que no pueden ser caracterizados precisamente usando el conjunto disponible de atributos.

La característica clave de su modelo de calificación de comportamiento en dos etapas es

una cascada que involucra un self organizing map (SOM) y un inductor de regla de asociación A

Priori. Un SOM es un algoritmo de aprendizaje no supervisado que relaciona datos

multidimensionales como vectores de entrada similares a la misma región de un mapa neuronal;

A Priori [Rakesh Agrawal et al; 1993] es usado principalmente para descubrir las relaciones

potenciales entre características que ocurren de modo síncrono en una base de datos. En la primer

etapa del método presentado, un modelo de calificación de comportamiento del cliente

conceptual es establecido para predecir grupos de clientes rentables basados en comportamiento

de repago previo y calificación de comportamiento RFM [Bult & Wansbeek; 1995]; un mayor

detalle se encuentra en la referencia indicada pero a manera de resumen mencionaré que el

modelo RFM (Recency, Frecuency and Monetary Value) consiste en una serie de medidas del

tipo Recency, por ejemplo el tiempo promedio entre los días que tarda en hacer un cargo y pagar

la factura; Frecuency, en que las medidas podrían incluir el número de compras hechas en un

período de tiempo; Monetary, donde las variables incluyen el monto de dinero gastado en un

período de tiempo.

La red SOM fue empleada para clasificar a los clientes en tres grupos de rentabilidad,

usuario revolvente (aquel que paga menos del total del crédito usado en el período de tiempo en

que se genera el gasto, por lo tanto genera intereses), usuario totalero (aquel que liquida el saldo

exigible correspondiente al período y por tanto no genera intereses) y usuario de conveniencia

(aquel que utiliza la tarjeta sólo en períodos específicos de tiempo, normalmente para la

adquisición de bienes y servicios que no se adquieren con frecuencia).

Una vez que la red SOM identificó los clientes, el algoritmo A Priori perfila cada grupo

de clientes basándose en características demográficas y geográficas para construir y mantener la

base de clientes más rentable.

Después del análisis de la base de datos, el estudio realizado por el autor mostró que los

modelos de calificación de comportamiento son un método efectivo para conocer a sus clientes

más rentables.

Capítulo 3. Selección de variables para los métodos de calificación y estimación de series de tiempo.

3.1 Selección de características.

Las decisiones de evaluación de riesgo de crédito involucran el procesamiento de grandes

voli'.11nenes de datos. Algunas técnicas que fueron desarrolladas bajo la rúbrica general de

aprendizaje de máquina han sido utilizadas exitosamente para las decisiones de evaluación de

riesgo financiero. No importando el método usado. una de las decisiones críticas en el proceso es

escoger un conjunto de características esenciales.

La selección de características es el problema de escoger un subconjunto pequei'ío de

características que idealmente es necesario y suficiente para describir el concepto objetivo.

El objetivo final de la selección de características es obtener un espacio de características

1. Baja dimensionalidad

2. Retención de información suficiente

3. Mejora de la separación en el espacio de características para ejemplos en diferentes

categorías removiendo los efectos debidos a características de ruido

4. Posibilidad de comparación entre ejemplos en la misma categoría

El problema de selección de variables puede ser visto desde varias vistas:

1. ¿Cómo buscar por las mejores características?

2. ¿Qué criterio seguimos para definir que una característica es relevante?

3. ¿Cómo dar mantenimiento al conjunto de características? (de manera secuencial o en

paralelo); es decir, ¿cómo se insertan, borran, actualizan o seleccionan las características

de un conjunto?

4. Si se cuenta con aplicaciones, ¿Cómo determinan las características deseables?

Las características redundantes pueden tener un efecto negativo en los algoritmos de

clasificación:

1. Contar con más características requiere de más instancias debido a que se debe asegurar la

variabilidad estadística entre patrones de diferentes clases.

2. Las características irrelevantes pueden engañar a los algoritmos de aprendizaje o llevar a

que éstos hagan un ove,jit de los datos.

3. Las características adicionales pueden llevar a obtener un clasificador más complejo.

La selección de características nos permite:

1. Menos datos tal que el algoritmo de clasificación puede aprender más rápido.

2. Exactitud más alta tal que el clasificador puede generalizar mejor los datos.

3. Resultados más simples tal que es más fácil de entender.

4. Menores características tal que en la siguiente colección de datos se puede ahorrar

removiendo características irrelevantes.

No se discutirá de manera exhaustiva el tema de la selección de características (en

particular de métodos computacionales usados para tal propósito), una referencia buena que trata

este tema mediante algoritmos enumerativos, secuenciales y algoritmos genéticos se encuentra en

[11-Seok Oh; 2004]; sin embargo si se tratará posteriormente el uso de estadística para este tema.

Otra fuente que aborda el problema de la selección de características, pero esta vez con

algoritmos que evalúan conjuntos de características en vez de características aisladas, se

encuentra en [Y Liu, M. Schumann; 2005].

En [Selwyn Piramuthu; 1998] se aborda el problema de la selección de características

usando tanto las técnicas secuenciales como las que se refieren a conjuntos de datos; es una

referencia adecuada en caso que se desee profundizar en el lema, el artículo es interesante ya que

los datos de prueba corresponden al problema de aprobación de crédito.

El artículo [Hassan Sabzevari; 2007] presenta igualmente la aplicación de algoritmos

secuenciales como de conjuntos. La diferencia se encuentra en el propósito del artículo; en este

caso se trata de una comparación entre métodos estadísticos y minería de datos bajo un contexto

de disposición limitada de datos.

Algunas ideas sencillas pero que expresan los elementos mínimos a ser considerados en

un proceso de selección de características [Orallo Jose, Ramírez María, Ferri César; 2004] son los

siguientes:

• Eliminación de claves candidatas. Cualquier atributo que constituye una llave primaria de

una tabla o es parte de dicha llave (parcial o totalmente) debe ser eliminado.

• Eliminación de atributos nominales con alta cardinalidad. Esto significa eliminar atributos

que tienen tantos valores como ejemplos existen en la entidad correspondiente.

• Eliminación de atributos dependientes. Dentro del proceso de normalización en base de

datos cuando existen dependencias funcionales entre atributos, se trata de normalizar en

varias tablas. Un ejemplo de esto es el código postal, la ciudad y la región de un

individuo, con el código postal tenemos la ciudad y la región, con la región tenemos el

país, esto implica que tenemos una serie de dependencias funcionales que en términos de

bases de datos relacionales implican un proceso de normalización. Los datos, cuando se

trabaja en procesos de minería de datos, pueden provenir de una ··vista minable'', que ha

desnormalizado los datos, lo que implica que podríamos tener datos redundantes.

3.1.2 Criterios de selección.

Necesitamos definir el concepto de característica "buena". Esto puede verse de dos maneras: a) si

las características seleccionadas ayudan a mejorar la exactitud del clasificador y b) si las

características seleccionadas ayudan a simplificar los resultados aprendidos tal que sean más

entendibles. Algunas de las medidas empleadas para elegir las características son las siguientes:

• Medidas de información

• Medidas de distancia

• Medidas de dependencia

• Medidas de consistencia

• Medidas de exactitud

Una descripción de las diferentes medidas sale del alcance del documento. Para obtener

mayores referencias se puede consultar [Huan Liu; 1998]. Se presenta a continuación un ejemplo

de cómo se puede estimar la relevancia de una característica dentro de un conjunto de variables.

3.1.3 Medidas de información.

A fin de mostrar algunas ideas sobre la evaluación de una característica como buena o mala,

presentaré ahora la manera en que se evalúa por medidas de información. Este método no es

superior a los otros que he mencionado, simplemente es un algoritmo que por su sencillez puede

ser mencionado rápidamente.

Sea P(c,) la probabilidad anterior para todas las clases i, y P(xlc,) la probabilidad

condicional de x dada la clase e,. Por el teorema de Bayes, tenemos:

P(c; )P(x e;) P(c I x) =

' P(x)

P(x) = ¿ P(c, )P(xc;)

Ganancia de información. La entropía de Shanon se puede usar como medida de ganancia de

información. En la Figura 12, el dato Des dividido por la característica X en p particiones D1, D1,

... , D,, y existen d clases.

o Característica X

V1 V2 Vp

() ~, o

D1 02 Dp

Figura 12- Evaluación de características

l(D) = -¿ P,>(c; )log 2 P0 (c,) (84) i=I

" I(D/) = -¿ P

01 x(c;)log 2 Pn, x(c,) (85)

Y la ganancia de información debido a la característica X esta definido como

/! D. IG(X) = l(D)- ¿ 1

, I(D/) ¡=I D

Donde IDI es el número de instancias en D, y Pn(cJ son datos previos para D.

Un algoritmo de ordenamiento de características usando la ganancia de información es

mostrado ahora. Su complejidad en tiempo para obtener la lista clasificada L es O(N2), donde N

es el número de características.

lnformation-Gain

Input: D- el conjunto de datos de entrenamiento;

Ai - todas las características, i=l ,2, ... ,N

lnitialize: L = {}

For i=I to N

Calculate IG(Ai);

/*L- empty list */

insert Ai in L in descending order

Output: L /*The first Ai in Lis the best*/

3.2 Estadística usada en la selección de características.

3.2.1 Análisis de correlación.

Es frecuente decir que dos variables están relacionadas entre ellas [Hanke, 2006], aunque podría

ser incorrecto decir que el valor de una de las variables depende de, o esta influenciado por, los

cambios en los valores de la otra variable. En cualquier evento, una relación puede ser establecida

calculando la correlación entre dos variables. El coeficiente de correlación, r, es una medida de la

asociación lineal entre dos variables numéricas. Este puede variar entre O y 1 (un valor cero

indica la ausencia de correlación mientras que un valor de uno indica correlación perfecta).

Cuando el coeficiente de correlación es mayor que cero, los dos variables se dice que están

positivamente correlacionadas (cuando una es grande la otra es grande), y cuando es menor que

cero, se dicen que están correlacionadas negativamente (cuando una es grande la otra es

pequeña). Intuitivamente el signo de la correlación nos dice dos cosas:

1. El signo(+ ó -) indica la dirección de la relación entre las dos variables.

2. La magnitud del coeficiente de correlación es una medida de la fuerza de la asociación

La correlación es una medida de la asociación lineal entre dos variables. Si dos variables

están relacionadas de manera no lineal. el coeficiente de correlación no proporcionará la fuerza

de la relación. Cuando el tamaño de la muestra es pequeño, el valor de r de la muestra es

notoriamente inestable.

Un tercer punto sobre el coeficiente de correlación tiene que ver con la presencia de

valores extremos. El valor de r puede ser severamente afectado por la presencia de una sola

observación que cae fuera del grueso de los datos.

La correlación estadística [Orallo José, Ramírez María, Ferri César; 2004] es un método

que entrega una matriz de correlaciones entre variables. Esta información puede usarse para ver

qué atributos están más estrechamente relacionados y qué atributos parecen ser más

independientes. Esto es útil para apoyar un proceso de selección de características, aunque debe

ser utilizada cautelosamente; en realidad un análisis de correlación permite, además de ayudar en

la selección de las variables, comprender los datos y, por tanto realizar un proceso exploratorio de

los mismos. Por ejemplo, podríamos hablar de atributos que no se encuentren aparentemente

correlacionados pero que si tomamos ciertos rangos dentro de alguno de los atributos éste si

presenta correlación con el otro atributo, o bien la correlación podría tener una forma de

campana.

Otro método que podríamos utilizar es el análisis por modelo lineal [Orallo José, Ramírez

María, Ferri César; 2004]. Este método aplicado al proceso de calificación de crédito se podría

formular matemáticamente de la siguiente forma:

Donde las x, son los atributos originales, por ejemplo X¡ = saldo en el período, X:!= límite

de línea del crédito, x11 = consumos en el período, y = mora. Las a, son los coeficientes

estimados.

Por ejemplo, si tuviéramos los siguientes coeficientes:

Atributo Saldo Límite Consumo Mora 2.4 -0.3 3.4 Tabla 1. Atrihutos usados en un modelo lineal como ejemplo

Podríamos ver que el atributo más influyente es el consumo y el menos influyente es el límite.

De esta manera podríamos revisar que aunque dos variables estén correlacionadas, el

modelo lineal podría destacar que la influencia se puede obtener de otras variables. Estas ideas

son realmente sólo una parte de un conjunto de técnicas conocidas como análisis multivariante. Si

quisiéramos, por ejemplo, saber si podemos descartar algunas variables (que consideráramos que

no influyen en nuestro anterior ejemplo en la variable Mora), podríamos usar el Análisis de la

Varianza (conocido como ANOVA).

Otra forma de ver el problema, sobre todo si los atributos son nominales, es obtener un

análisis de frecuencias, es decir, ver para cada combinación de valores de atributos cuántos casos

Si el análisis de frecuencias anterior estuviera centrado sólo en dos variables, esta tabla de

frecuencias se denominaría matriz de incidencias o tabla de contingencia bidimensionales. Los

análisis que parten de este tipo de matriz se denominan análisis de correspondencias (que también

forman parte del análisis multivariante). El análisis de correspondencias se basa en realizar tests

ji-cuadrado ( x") para saber si el efecto de los valores de una variable es independiente de los

valores de la otra.

3.3 Estimación de series de tiempo.

3.3.1 Promedio móvil

Es un método simple para suavizar los datos de ''historia pasada" [Spiros, Makridakis; 1998].

Existen variantes tal como los promedios móviles simples, los promedios móviles dobles y los

promedios móviles pesados. En todos los casos el objetivo es suavizar los datos pasados para

estimar el componente de tendencia del ciclo. La media móvil simple tiene por idea fundamental

que las observaciones cercanas en tiempo son también probables a ser cercanas en su valor. De

esta manera, el tomar un promedio de los puntos cercanos a una observación dará un estimado

razonable de la tendencia del ciclo en esa observación. El promedio elimina algo de la

aleatoriedad en los datos, dejando un componente de ciclo de tendencia suave.

Un promedio simple se puede representar por la siguiente ecuación [Hanke, 2006]:

f,+, = I >~ I 1=1

Como se observa en la ecuación anterior la idea de un promedio móvil simple es

pronosticar el siguiente valor en el tiempo promediando los valores de la variable correspondiente

en el pasado.

Si deseamos dar peso a los valores más recientes y descartar los valores más antiguos

podemos usar un promedio móvil, el cual se representa como:

y = Y, + Y,_1 + ... + Y,_k+I

t+I k (89)

3.3.2 Suavizado exponencial

Si una serie de tiempo se genera por un proceso constante sujeto a error aleatorio (o ruido),

entonces la media es una estadística útil y puede ser usada como un pronóstico para los siguientes

períodos. Sin embargo, si las series de tiempo involucran una tendencia (en dirección hacia arriba

o abajo), o un efecto estacional, o tanto una tendencia y un efecto estacional, entonces el

promedio simple no puede capturar los patrones en los datos. Es así como surgen otros métodos

tal como el suavizado exponencial.

Este es un método que permite producir series de tiempo suavizadas [Hanke John E.,

Wichern Dean W.; Capítulo 4; 2009]. En comparación con el método de media móvil, en el que

las observaciones anteriores tienen el mismo peso, el suavizado exponencial asigna pesos que

decrecen exponencialmente mientras las observaciones se vuelven más antiguas.

En el caso del algoritmo de media móvil, los pesos asignados a los períodos son iguales

( 1 / N). En el suavizado exponencial, existen uno o más parámetros de suavizado a ser

determinados (o estimados) y esas elecciones determinan los pesos asignados a las observaciones.

Se describirá a continuación el algoritmo de suavizado exponencial simple:

Se inicia poniendo S2 al valor y 1, donde S, representa la observación suavizada o EWMA

mientras que y representa la observación original. Los subíndices se refieren a los períodos de

tiempo, 1,2, ... ,n. Para el tercer período, S3 = ay 2 + (1- a)S 2 ; y así sucesivamente. No hay valor

de S1, las series suavizadas inician con la versión suavizada desde la segunda observación.

Para cualquier período de tiempo t, el valor suavizado S, se encuentra calculando:

S, = cy1_ 1 + (1- a)S,_1 O< a::; 1 t ~ 3 (90)

La anterior es la ecuación básica del suavizado exponencial y el parámetro a es llamado

constante de suavizado.

El EWMA inicial tiene un rol importante en el cálculo de los EWMA siguientes. Poner S2 a

y 1 es un método de inicialización; otra manera es ponerlo al objetivo del proceso; un método

adicional es promediar las primeras cuatro o cinco observaciones.

Algo importante es mientras más pequeño a es, se hace más importante la selección del

primer EWMA.

El fundamento matemático se muestra ahora: expandamos la ecuación básica sustituyendo

primero por S,.1 en la ecuación básica para obtener:

S, = cy1_ 1 + (1 - a)[cy,_2 + (1- a)S,_ 2 ] (91)

= cy1_1 + a(l - a)y,_2 + (1- a)2 S,_2

Sustituyendo por S,_ 2, luego por S,.3, y así sucesivamente, hasta que llegamos a S2 (el cual

es y 1), se puede mostrar que la ecuación expandida puede ser escrita como:

1-2 i-1

S, =a¿(l-a) y1

_1 +(l-a)'-2 S2 , t?.2 (92)

Corno ejemplo tornemos la ecuación expandida para el valor suavizado S5:

Ss = al(I - a)º Ys-1 + (1- a)1 Ys-2 + (1- a) 2

Ys-J J+ (1- a)3 S2 (93)

Esto muestra el comportamiento exponencial. Los pesos a(I - a)' decrecen

geométricamente, y su suma es la unidad corno se muestra abajo usando una propiedad de las

series geométricas:

af (l-a)1 =a[l-(1-a)' 17 = 1-(1-a)' 1=0 1-(1-a) J

De la última fórmula vemos que el término de suma muestra que la contribución del valor

S, se hace menor en cada período siguiente.

3.3.3 ARIMA.

Este modelo significa Modelos Autoregresivos Integrados de Medias Móviles [Hanke John E.,

Wichern Dean W.; Capítulo 9; 2009]. Se define un modelo como autoregresivo si la variable

endógena de un período t es explicada por las observaciones de ella misma correspondientes a

períodos anteriores añadiéndose, como en los modelos estructurales, un término de error.

Los modelos autorregresivos se abrevian con la palabra AR tras la que se indica el orden

del modelo: AR( I ), AR(2), ... etc. El orden del modelo expresa el número de observaciones

retrasadas de las series temporales analizadas que intervienen en la ecuación. Así, por ejemplo,

un modelo AR( I) tendría la siguiente expresión:

El término de error de los modelos de este tipo se denomina generalmente ruido blanco

cuando cumple:

• Media nula

• Varianza constante

• Covarianza nula entre valores correspondientes a observaciones diferentes

La expresión genérica de un modelo autoregresivo, no ya de un AR(I) sino de un AR(p)

es la siguiente:

Pudiéndose escribir de forma abreviada como:

Donde </J,,(L) es lo que se conoce como operador polinomial de retardos:

y donde, a su vez, el ténnino L es lo que se conoce como operador retardo tal que,

aplicado al valor de una variable en t, dé como resultado el valor de esa misma variable en t-1:

y aplicando sucesivamente p veces retarda el valor en p períodos

Normalmente se suele trabajar con modelos autorregresivos de órdenes bajos: AR( 1) o

AR(2), o bien con órdenes coincidentes con la periodicidad de los datos de la serie analizada (si

es trimestral AR( 4 ), si es mensual AR( 12) ... ).

Los modelos ARIMA no estacionales son clasificados como ARIMA(p,d,q), donde:

• Pes el número de términos auto regresivos

• Des el número de diferencias no estacionales

• Q es el número de errores de pronóstico retrasados en la ecuación de predicción

El modelo ARIMA adecuado a la serie de tiempo se obtiene identificando el orden de

diferencias necesarias para hacer estacionarias las series y remover las características gruesas de

la estacionalidad. Si se predice que la diferencia en la serie es constante, se obtiene lo que se

conoce como caminata aleatoria o modelo de tendencia aleatoria. Se presentan ahora algunos

modelos ARIMA básicos:

ARIMA(0,1,0) - Caminata aleatoria. La ecuación de predicción para este modelo puede ser

escrita como:

f(t)-Y(t-1)=µ (101)

Donde el término constante es la diferencia promedio en Y

ARIMA(l,1,0) - Modelo auto regresivo de diferencia de primer orden. Si los errores de la

caminata aleatoria presentan auto correlación, es posible que el problema se pueda arreglar

adicionando un retraso de la variable dependiente a la ecuación de predicción:

f (t) = µ + Y ( t - 1) + r/J( Y ( t - 1) - Y ( t - 2)) ( 102)

Esto es una auto regresión de primer orden, o AR( 1 ), con un orden de diferencia no

estacional y un término constante.

ARIMA(0,1,1) sin constante - Suavizado exponencial simple. Esta es otra estrategia para

corregir los errores de autocorrelación en un modelo de caminata aleatoria. Recordemos que para

algunas series de tiempo no estacionarias, el modelo de caminata aleatoria no es tan bueno como

la media promedio de valores pasados. En otras palabras, más que tomar las más recientes

observaciones como el pronóstico de la siguiente observación, es mejor usar un promedio de las

últimas observaciones para filtrar el ruido y estimar de mejor manera la media local. Esto se

representa por:

f (t) = Y(t - 1)- lk(t - 1) ( 103)

Donde e(t-1) denota el error en el período t-1

ARIMA(0,1,1) con constante -Suavizado exponencial simple con crecimiento.

Este se representa por:

f(t) = µ + Y(t -1)- tk(t -1) (104)

ARIMA(0,2,1) o (0,2,2) sin constante - Suavizado exponencial lineal. Estos métodos son

modelos ARIMA en los cuales se usan dos diferencias no estacionales en conjunción con

términos de MA (Media Móvil). La segunda diferencia de una serie Y no es simplemente la

diferencia entre Y y el mismo retrasado por dos períodos, sino es la primer diferencia de la primer

diferencia, es decir el cambio en el cambio de Y en una función continua en período: esto mide la

"aceleración" o ··curvatura'' en la función en un punto en el tiempo.

El modelo ARIMA(0,2,2) sin constante predice que la segunda diferencia de las series es

una función lineal de los dos últimos errores del pronóstico:

f(t)- 2Y(t -1) + Y(t - 2) = -01e(t -1)- B~e(t - 2) ( 105)

Donde 01 y 02 son los coeficientes MA( 1) y MA(2) . donde MA( 1) corresponde a la

cantidad 2(1 - a). es decir:

f(t) = 2Y(t-1)-Y(t- 2)-2(1-a)e(t- l)+(l -a/e(l-2) ( 106)

3.4 Modelos híbridos.

Como pudo apreciarse en secciones anteriores, encontramos una amplia disponibilidad de

métodos para resolver el problema de la calificación de crédito y de comportamiento. Si bien los

métodos estadísticos siguen siendo marcados por los autores como herramientas clásicas, los

métodos por algoritmos inteligentes están tomando fuerza como alternativas para resolver el

problema.

Una gran ventaja de los métodos computacionales es que al buscar optimizar la

clasificación bajo estudio (crédito o comportamiento), podemos encontrar muchas alternativas

para resolver el problema. De aquí que nos podamos cuestionar, ¿Cuál es la opción que

proporciona mejores resultados? Aquí es donde entramos a analizar las ventajas y desventajas de

los diferentes métodos.

En [Defu Zhang; 2007] se presenta una descripción breve de las ventajas de algunos

métodos. Se menciona que la regresión logística es adecuada para muchas funciones de

distribución y que tiene capacidad de clasificación buena para datos lineales, sin embargo

funciona de manera inadecuada cuando los datos son no lineales. La programación genética

puede ser entendible y ha sido usada en regresiones simbólicas. Sin embargo toma mucho tiempo

y no encuentra reglas para clientes nuevos. Las redes neuronales son simulaciones simples del

cerebro humano pero tienen la desventaja de caer en mínimos locales y son dificiles de

interpretar. Tenemos también las SVM, las cuales pueden obtener soluciones óptimas globales,

sin embargo tenemos el problema de determinar qué conocimiento es redundante, qué

conocimiento es más útil y por tanto tiene un rol importante.

Ante este panorama de disponibilidad amplia de métodos pero ventajas y desventajas de

cada uno de ellos nos podríamos preguntar, ¿Cómo disponer de un modelo que utilice las

ventajas de ellos y por tanto pueda mejorar los resultados?

Algunos autores han considerado la mezcla de varios de estos métodos para tratar de

aprovechar sus ventajas o bien cubrir las limitaciones de los mismos con las ventajas encontradas

en otras técnicas.

A este respecto encontramos artículos como [Defu Zhang; 2007], en el cual se presenta

una comparación entre redes neuronales, programación genética y máquinas de soporte vectorial.

Adicionalmente se menciona que se creó un modelo combinado usando los tres métodos. Se

presentan los resultados mostrando que el modelo híbrido es una opción buena, sin embargo no

existe detalle respecto al modelo y los aspectos que influyen en el resultado. Los autores plantean

como trabajo futuro el tener un modelo que deba decidir sobre múltiples niveles, comparado a la

respuesta de dos niveles típica de la calificación de crédito.

En [Yanwen Dong; 2007] se hace referencia a que recientemente se han empezado a usar

métodos híbridos para mejorar la predicción de mora y los modelos de calificación de crédito. En

realidad no es un artículo que exponga métodos híbridos, sin embargo aborda como una

posibilidad el uso de dichos métodos.

En [Hui-Chung Yeh; 2007] se presenta una comparación entre varios métodos: análisis

discriminante, árboles de decisión, redes neuronales y un método híbrido. Este último consistió

en el uso de análisis discriminante para la selección de variables y una fase posterior de redes

neuronales como algoritmo de clasificación.

Un artículo adicional que presenta los modelos híbridos es [Hsieh; 2005]. En éste se usan

técnicas de redes neuronales y agrupamiento. Las últimas se usan para preprocesar las muestras

de entrada con el objetivo de identificar muestras no representativas en grupos inconsistentes y

aislados y las redes neuronales se usan para construir el modelo de calificación de crédito. La

etapa de agrupamiento usó un algoritmo SOM (Self Organizing Map). para determinar

automáticamente el número de grupos y los puntos de inicio de cada grupo. Se usó entonces un

algoritmo de agrupamiento ''K-rneans·• para generar los grupos de las muestras pertenecientes a

nuevas clases y eliminar las muestras no representativas de cada clase. En la etapa de la Red

Neuronal, las muestras con las etiquetas de clase nuevas fueron usadas en el diseño del modelo de

calificación de crédito.

3.5 Análisis crítico

Una vez que se ha presentado una discusión breve sobre los diferentes métodos usados. el

proceso de selección de características y los métodos híbridos presentaré un resumen de algunos

artículos de carácter científico que han sido publicados al respecto.

La estimación de la calificación de crédito es resuelta mediante programas disponibles en

el mercado de compañías como FIC08• Esto tiene la ventaja de una amplia experiencia en el

desarrollo de software enfocados al problema de crédito. Sin embargo. es software que requiere

de un monto de inversión.

Por otro lado tenemos software enfocado a la minería de datos y el análisis estadístico. tal

como SAS. Esta es una alternativa para el desarrollo de modelos propios y tiene el respaldo de

una empresa enfocada tradicionalmente en aspectos estadísticos. Al igual que en el caso anterior

la desventaja es el costo que representa.

8 FICO es una compañía pionera en la calificación de crédito. Fue rundada en 1956 con el nombre de Fair, Isaac and Company por el ingeniero Bill Fair y el matemático Earl Isaac. Aunque rue renombrada como Fair Isaac Corporation en el aiio 2003. la compafüa es popularmente conocida como FICO.

Algunos autores se han enfocado a la búsqueda de otros métodos que permitan resolver el

problema; actualmente la búsqueda en el ámbito de la investigación se centra en los métodos

computacionales apoyados en algoritmos de la Inteligencia Artificial.

Los modelos que se generan mediante la investigación permiten buscar otras alternativas

que aun siendo pequeí'ías en cuanto a la mejora de la exactitud de clasificación, tienen un alto

impacto en dinero para las instituciones que evalúan otras alternativas.

Adicionalmente al motivo anterior, lo cual considero como una justificación para mt

investigación, encuentro dos aspectos relevantes: el costo que implica el desarrollo de modelos de

estimación del comportamiento; no existe un método universal de clasificación que tenga un

100% de confiabilidad, sin embargo sí creo es posible sugerir métodos alternativos que puedan

ser analizados por empresas que no pueden afrontar el costo de software comercial disponible y

sin embargo requieren de ser más eficientes en la detección del comportamiento de sus clientes.

El segundo aspecto a considerar es la parte metodológica, en mi caso consiste en proporcionar

ideas de cómo con base en los datos disponibles se puede crear una serie de pasos para la

creación de modelos de comportamiento del cliente.

La Tabla 2 muestra la investigación realizada de algunos artículos referentes al proceso de

clasificación de crédito y de comportamiento (en la mayoría relativamente recientes). Los

artículos son relevantes para el problema, sin embargo no puedo decir que cubre el universo de

posibilidades que se realizan por métodos inteligentes. Se evalúan los siguientes aspectos:

\. Si se trata de información real. Los algoritmos presentados en algunos casos utilizan bases

de datos de prueba, las cuales se entienden son adecuadas al problema previamente. Este

es un aspecto relevante porque las bases de prueba normalmente incluyen un conjunto

reducido de atributos .

2. Si se utiliza un algoritmo de clasificación . El problema en sí mismo se enfoca en clasificar

instancias en dos grupos: bueno y malo. En el caso de comportamiento se encuentran

algunos algoritmos que aplican métodos de estimación del tiempo en que ocurrirá una

acción a los grupos definidos. Este aspecto evalúa si el artículo utilizó un algoritmo de

clasificación para establecer a que grupo pertenece la instancia analizada; en el caso de no

tratarse de un problema de clasificación se podría utilizar un algoritmo de

comportamiento para evaluar el tiempo a una acción determinada.

3. Los métodos que compara. En este caso se observa que existe una gran variedad de

posibilidades para enfrentar el problema.

4. Número de variables, información demográfica, transaccional y de Buró de Crédito. En

general los algoritmos usan información demográfica, cuando se trata de modelos de

comportamiento es frecuente la inclusión de variables transaccionales. En cuanto a los

datos del Buró de Crédito, se puede decir que es información no muy común dado su

costo y lo sensitivo de la información.

5. En cuanto a las herramientas no se dispone de información en la mayoría de los casos.

6. Es frecuente que se evalúe crédito y comportamiento si consideramos que ambos son

problemas que pueden enfocarse a la clasificación.

¿Información ¿Algoritmo de Métodos que # D -Demográfica Software Prueba Evalúa Fecha real? clasilicación? compara. Variables T-Transaccional

B- Buró de Crédito

A Modilicd Sí Sí l. MGP - Modilied 17 DT C++ k-fold Com- 2007 Genctic Genctic Programming cross porta-Programming for 2. ílPN - Back validation miento Bchavior Scoring Propagation NN Problcm 3. NGP - Normalizcd

Genctic Programming A Two Stagc s· 1 Sí 1. Regresión logística y 11 DT ND ROC Crédito. 2008 Dynamic Crcdit análisis de com-Scoring Model. supervi vencía porta-Bascd on miento Customcrs Prolile and Time Horizon Conditional No Sí I. Clasificador híbrido 15 DT NO ND Crédito 2008 Markov Nctwork CNN y Naive Baycs Hybrid Classi ticrs basados en una Using on Clicnt estructura de tres Crcdit Scoring índices. An Integrated Sí Sí I. SOM y A Priori. Usa > 10 DT NO Lift. Com- 2004 Data Mining and un clasilicador y support, porta-Behavioral posteriormente una l'ase contidenc miento Scoring Modcl lor de pcrfilamiento. e Analyzing Bank Customers Markov Chain Sí No 1. Markov NO T NO NO Com- 1983 Approaches to porta-Paymcnt Behavior miento ofCredit Customcrs

9 En el contexto de la calilicación de crédito. la curva ROC o diagrama de Lorenz grafica la probabilidad de que un bueno tenga la calificación s "'versus" la probabilidad de que un malo tenga la calificación s. Esta curva describe la propiedad de clasi licación del scorecard conforme varía la cali licación de corte.

¿Información ¿Algoritmo de Métodos que # D -Demográfica Software Prueba Evalúa Fecha real? clasificación? compara. Variables T-Transaccional

B - Buró de Crédito

Comhining S' 1 Sí 1. Regresión logística y 10 D ND Precisión Crédito 2007 Forecasts of NN RBF Personal Crcdit Scoring Bascd on RBF Ncural Network Supporl V cctor Sí Sí 1. SVM - Support 34 DB ND ROC Crédito 2007 Machines for Vector Machine Crcdit Scoring and 2. LR - Linear Discovcry or Rcgrcssion Signilicant 3. kNN - k Ncarcst Fcaturcs Ncighhors

Consumcr Crcdit No Sí l. AIS - Artiticial 15 D ND ROC Crédito 2007 Scoring Using an lmmune Systcm 20 Artilicial lmmunc 14 System Algorithm

Lcarning Baycsian Sí Sí 1. Naivc Bayes 23 D ND ROC Crédito 2002 Network 2. TAN -Tree 28 Classi liers for Augmented Naive 15 Crcdit Scoring Baycs Using Markov 3. MCMC - Markov Chain Monte Chain Monte Cario Cario Scarch 4. C45

¿Información ¿Algoritmo de Métodos que # D -Demográfica SofhVare Prueba Evalúa Fecha real? clasificación? compara. Variables T-Transaccional

B-Buróde Crédito

Using Gendic Si Sí l. GA 37 DB Visual ROC. Crédito ND Algorithms to C++ GINl 10

Develop Scoring Models for Alternative Measures or Performance Credit Scoring Sí Sí 1. Survival Analysis ND [) ND ND Com- 2007 With porta-Macroeconomic miento Variables Using Survival Analvsis An Expcrt System Sí No 1. Sistemas expertos ND DT Prolog ND Crédito 2003 for Crcdit Evaluation and Explanation A Comparison No Sí 1. GP - Programación ND D C++ Precisión Crédito 2007 Study of Crc:dit Genética Scoring Models 2. BP NN -

Backpropagation Ncural Net 3. SVM - Support Vector Machine 4. Método híbrido

An Application of Sí Sí l. SVM - Support ND T ND Precisión Crédito 2007 Support Vector Vector Machine Machines in Small-Business Credit Seoring

10 El coeficiente de Gini se define matemáticamente basándose en la curva de Lorcnz como la tasa del área que cae entre la línea de igualdad y la curva de Lorenz entre el total del úrea que cm:: bajo la línea de igualdad. La línea de igualdad corresponde a la línea trazada desde el origen hasta las coordenadas (Pn(s), PG(s))

¿Información ¿Algoritmo de Métodos que # D -Demográfica Software Prueba Evalúa Fecha real? clasificación? compara. Variables T-Transaccional

8- Buró de Crédito

An Empírica! Sí Sí 1. Linear Discriminanl 12 DT NO Precisión. Crédito 2007 Study of Credit Analysis especifi-Scoring Model lor 2. Decision lree cidad. Credit Card 3. Backpropagalion sensibi-

neural net lidad 4. Hybrid method

Credit Scoring Sí Sí 1. Neural Nctwork NO D NO Precisión Crédito 2002 Modcl Bascd on Neural Network Crcdit Scoring Sí Sí 1. LS SVM - Least NO Matlab Precisión Crédito 2007 Using Leas! Square Support Vector Squares Supporl Machine Vector Maehine Based on Dala of Thai Financia! lnstitutions Tabla 2. Análisis de artículos que han resucito la calificación de crédito y comportamiento

La revisión de la Tabla 2 nos muestra que no es frecuente la inclusión de información

de Buró de Crédito. Esto se debe a lo sensitivo de la información y su costo. En cuanto al tipo

de modelo la mayor parte de los estudios se centran en la calificación de crédito.

Un factor adicional, que no se escribe de manera explícita en la Tabla 2, es el proceso

de selección de características. Algunos de los artículos mostrados parten de un conjunto de

variables ya depuradas y que por tanto no representan el problema real. Otros incluyen una

fase de selección de variables que se enfocan en métodos estadísticos para tal propósito. A

este respecto algo diferente sería la selección de variables transaccionales y de

comportamiento bajo un problema real.

Otro aspecto a considerar es el tipo de algoritmo. Las redes neuronales parecen ser un

buen algoritmo para resolver el problema. Las máquinas de soporte vectorial y los algoritmos

inmunológicos son aspectos que no han sido considerados de manera extensiva

(particularmente para calificación de comportamiento). Existen también los modelos que

consideran incertidumbre, tal como la lógica difusa o las redes bayesianas. Ante este

panorama es difícil escoger que método seguir.

La fase de preparación de las variables es algo que también resulta poco entendible.

Un modelo de comportamiento basado en factores de relación entre variables (ejemplo

porcentaje de uso de línea de crédito) podría parecer más adecuado. Este tipo de requisitos no

se encuentran descritos. En [Lyn C. Thomas; 2002] se menciona como posibilidad el

desarrollo de diferentes estudios en base a una división natural de los datos (por ejemplo por

rango de línea de crédito).

Para el caso de algoritmos como las redes neuronales, las máquinas de soporte

vectorial o los algoritmos genéticos, en que existen parámetros que definen el

comportamiento del algoritmo, y por tanto impactan en el aprendizaje, los autores no definen

un método analítico para estimar estos parámetros (al menos no en la literatura de calificación

de crédito y comportamiento). Es un tema que ha sido tratado por otros autores pero no en la

calificación de comportamiento.

Dado el escenario anterior, es natural pensar en que el tema es relevante y existe una

gran variedad de métodos que pueden ser intentados. Adicionalmente es interesante pensar en

la dificultad que implica el tomar variables correspondientes a un problema real y como

transformar y utilizar éstas para la estimación de la calificación de crédito y/o de

comportamiento.

Capítulo 4. Modelo de calificación de comportamiento para clientes de crédito.

De manera resumida la metodología a utilizar contempla las siguientes etapas:

1. Colección de fuentes de datos

2. Selección de características.

3. Análisis estadístico

4. Generación de grupos de créditos.

5. Reducción de instancias

6. Algoritmo de aprendizaje

7. Definición de crédito bueno y crédito malo

8. Validación de resultados

Se presenta a continuación una explicación de los pasos requeridos.

4.1 Colección de datos.

La estimación de la calificación de crédito requiere la colección de datos relativos al

problema: en última instancia se trata de un problema de minería de datos y como tal, se

espera contar con una muestra suficiente de registros representativos. A este respecto es

posible la utilización de fuentes de carácter público y privado.

Dentro de la información pública varios investigadores han podido utilizar fuentes de

elatos con el propósito de medir el rendimiento de los algoritmos construidos relativos al

problema, lo cual tiene la ventaja de que facilita un conjunto de datos común que permite una

comparación mejor en cuanto a la medición de efectividad de los algoritmos.

Las siguientes son fuentes de datos públicas, las cuales se contemplan como elementos

a utilizar para el proceso de aprendizaje: http://archivc.ic~.uci.edu/rnl/, encontrándose dos

bases de datos, German Credit Datase!. Australian Credit Approval Datase/: [Lyn C. Tomas,

2002] proporciona también una base de prueba. Las características relevantes de esas fuentes

de datos son:

• German Credit Dataset es una fuente de datos que contiene 1,000 instancias

con 20 atributos; la información que contiene se encuentra ya discretizada y se

tiene una variable de clase que separa a "buenos" de '·malos".

• Australian Credit Approval Dataset presenta 690 instancias con 14 atributos.

La información es de carácter tanto discreto como continuo y contiene

información de solicitud de tarjeta de crédito.

• [Lyn C. Tomas, 2002) presenta una base de datos con 15 atributos y 1.225

instancias.

En referencia a los datos privados se presentan ahora algunas características

relevantes:

1. Entendemos por individuo una entidad que es sujeta o no de crédito: es decir

puede ser tanto una empresa (personas morales) como un ser humano (personas

físicas). Los primeros pueden ser evaluados en cuanto a la calidad crediticia. su

reputación en el mercado, la industria en la cual operan, su información financiera. etc.

Los segundos se evalúan en cuanto al historial crediticio en el Buró de Crédito, sus

ingresos, su edad, etc.

2. El presente trabajo estudia el comportamiento de crédito de personas físicas

particulares en relación con su crédito, el comportamiento de grupos de personas

físicas con crédito (por ejemplo inactivos, de alta actividad o baja actividad), con el

objeto de pronosticar Cumplimiento o Mora en función del comportamiento del

portafolio de crédito.

3. Los datos corresponden a tres fuentes principales: variables de tipo

transaccional en relación con el crédito (de frecuencia mensual), datos de

comportamiento de crédito externo y datos de tipo transaccional diario. No se

contempló el uso de datos del tipo sociodemográfico.

4. En cuanto al tipo de crédito que puede ser otorgado sabemos que existen los de

tipo hipotecario, préstamos personales, anticipos de nómina, taijeta de crédito, etc.

Para el propósito de este proyecto se restringirá la información hacia un modelo de

tarjeta de crédito; la razón para no seleccionar todos los tipos posibles es que cada tipo

de crédito tiene particularidades en cuanto a la estimación del riesgo de crédito, lo que

hace necesario acotar el crédito a ser usado.

5. Las tarjetas de crédito pueden destinarse a una persona física (cuyo pago se

carga a una persona física) o una persona física (cuyo pago se carga a una persona

moral). Los datos aquí utilizados corresponden al primer caso. El segundo caso

corresponde a las tarjetas de crédito empresariales.

El proceso de selección de características pensado es utilizado solamente para la información

de carácter privado (las fuentes del tipo público ya se encuentran filtradas de manera que un

proceso de aprendizaje es directamente aplicable a ellas).

En el Capítulo 3 fueron presentadas varias técnicas para la selección de variables.

Dentro de los mecanismos que se plantearon se partió de dos grupos: un primer mecanismo

que ajusta la selección de las características en base a métricas independientes al proceso de

aprendizaje y, un segundo mecanismo que ajusta las variables seleccionadas tomando en

cuenta la exactitud en el proceso de aprendizaje.

El mecanismo elegido fue el segundo tipo, dado que se espera que esto ayude en el

proceso de ajuste del algoritmo de aprendizaje en cuanto a la mejora en la exactitud de la

predicción.

En cuanto al algoritmo a utilizar para la selección de variables se plantea el uso de un

algoritmo genético. El planteamiento de esto es simple:

• Codificar un cromosoma mediante una serie de elementos binarios que indican

la ausencia (colocando un O) o presencia (colocando un 1) de cada

característica disponible, es decir si contamos con n características requerimos

un cromosoma de longitud n conteniendo los símbolos O ó 1.

• La población inicial P se genera mediante un número aleatorio que siga una

distribución uniforme para cada gene (en este caso un gene representa la

presencia o ausencia de una característica, con el O ó I ya comentado). Esto se

ilustra mejor en forma algorítmica:

Población inicial:

Desde (i= 1 hasta I PI)

Para (Cada gene gen el cromosoma i)

Si (numero_ aleatorio:un(fórmeO < UMBRAL)

• La cruza se ejecuta eligiendo de manera aleatoria dos cromosomas de la

población P, esto puede ser realizado de manera aleatoria, el número de cruzas

puede ser total, es decir, reemplazando en cada iteración el total de la

población.

• La función de fitness .J(Xc). donde X es un subconjunto de características y C

es un cromosoma estaría en función de la exactitud en la clasificación tomando

el conjunto de atributos X para aplicarlos al algoritmo de aprendizaje. El

objetivo es realizar iteraciones buscando un subconjunto de características X

que maximicen el valor de J(Xc:) para el conjunto de datos [11-Seok Oh; 2004 ].

A diferencia del artículo citado, en que existe una penalización por el tamaño del

cromosoma, aquí se pretende una función que sólo considere la exactitud como medida para

escoger el mejor conjunto de características.

4.3 Análisis estadístico.

Un estudio estadístico univariado de las diferentes variables del conjunto de datos privado es

planeado, esto con el fin de entender el comportamiento de las diferentes características.

Existen tres análisis que son previstos como medio para el entendimiento del conjunto de

datos:

1. Gráfica del valor promedio de la variable por período de tiempo. Esto permitirá

revisar factores como el crecimiento de la característica en el tiempo ( con la idea de

estimar cómo esperamos que ocurra el valor en el tiempo); dentro de las variables

quizá la más relevante es la Mora dado que eso es lo que se desea predecir. Otro de los

factores que se pueden observar son la tendencia y la estacionariedad de las variables.

2. Valor medio. Esta métrica va asociada con el punto anterior, sin embargo en

este caso la medida es cuantitativa comparado con la anterior en que es un juicio de

carácter cualitativo.

3. Desviación estándar. Este tercer análisis se realiza por mes y permite ver que

tanto se alejan de la media los datos.

El análisis anterior podrá hacerse tomando al portafolio completo de créditos; sm

embargo derivado del conocimiento previo se sabe que existe un estado que define la

clasificación del crédito, algunos de los estados son los siguientes:

• Crédito activo con alta calificación

• Crédito activo

• Crédito activo con pagos vencidos recientes

• Crédito inactivo

• Crédito inactivo con pagos vencidos recientes

• Crédito cancelado

• Crédito marcado con referencias negativas

• Crédito incobrable

• Etc.

Las estadísticas también se planean utilizar bajo una perspectiva de estado del crédito

(lo cual forma diferentes grupos de crédito). Un ejemplo de esto sería ver como se mueve la

mora de un grupo activo en el tiempo, lo cual se espera sea diferente a un grupo inactivo en el

tiempo. De este análisis se podría derivar un mejor entendimiento de los grupos de interés en

cuanto al proceso de mora.

Un análisis adicional, lo cual tiene que ver con el comportamiento de los estados por

los que pasa un crédito, es verificar las tasas de migración entre estados. Este concepto se

acercaría inicialmente a un estudio de comportamiento de crédito, lo cual en sí mismo es un

primer intento por modelar la calificación de comportamiento.

4.4 Generación de grupos de crédito.

La generación de grupos de crédito permitirá verificar la posibilidad del algoritmo de

aprendizaje para no sólo estimar créditos puntuales sino verificar cual es la posibilidad de que

un grupo de crédito se comporte de manera adversa en el futuro. Esto amplia la utilidad del

estudio ya que permite identificar el comportamiento del portafolio en adición a los créditos

puntuales. La generación de grupos de crédito contempla los siguientes:

• Créditos activos altos, midiendo en función de períodos de tiempo; por ejemplo se

podría considerar alto en actividad un crédito que tiene facturación en los últimos tres

meses.

• Créditos activos bajos, midiendo en función de períodos de tiempo; por ejemplo se

podría considerar bajo en actividad un crédito que tiene la facturación más reciente en

un período de entre 4 y 6 meses.

• Créditos inactivos. Podríamos considerar inactivo a un crédito que no ha facturado

desde hace un año.

4.5 Reducción de instancias.

Este paso es indispensable si consideramos que el hecho de contar con el portafolio completo

(un total de registros disponibles superior a los dos millones) para los datos privados hace

inviable su manejo para algoritmos como un proceso de selección de características o de

aprendizaje supervisado (que finalmente se espera mediante una tarea de clasificación).

Al igual que en otras tareas auxiliares (como la selección de características), existen

algoritmos computacionales que pueden ayudar a este respecto; sin embargo, a fin de realizar

una tarea sencilla se pretende hacer uso de mecanismos de estadística y selección de registros

mediante una distribución aleatoria uniforme (de manera que la elección del registro sea con

igual probabilidad). En cuanto a las medidas estadísticas nuevamente cobran relevancia la

media y la desviación estándar como medios para poder cuantificar si las muestras

seleccionadas se acercan al portafolio original (de manera que no se altere de manera

significativa el comportamiento mediante la muestra).

4.6 Algoritmo de aprendizaje.

En el Capítulo dos se pudo observar que existe una amplia disponibilidad de métodos que

pueden ser utilizados para resolver el problema. La selección de un método tomó en cuenta

las siguientes consideraciones:

1. El método resultara sencillo en su implementación a fin de resolver el

problema sin adentrarse en complejidad innecesaria.

2. Debido a que se tienen datos reales, es requerido que la ejecución del algoritmo

sea posible de rastrearse, esto debido a que se espera una problemática mayor en

cuanto a las tareas de limpieza, la discretización, el manejo de valores demasiado

grandes, etc., lo que puede implicar conocer internamente como es que se está

ejecutando el proceso de aprendizaje.

Este tipo de problemática no se espera para las fuentes públicas ya que la

limpieza, discretización y otras tareas esenciales previas a un proceso de aprendizaje,

ya estaban realizadas (de hecho se aprecia que las bases disponibles incluso ya vienen

en versiones con sólo datos numéricos para poderse ejecutar con los algoritmos que así

lo requieran).

3. El método empleado se encuentre en el dominio de los métodos inteligentes, de

manera que un punto de vista computacional pueda verse reflejado en la solución.

4. El algoritmo tenga puntos de ajuste en su arquitectura y/o parámetros de

comportamiento, que faciliten los cambios en caso que los resultados previos no sean

satisfactorios.

El método seleccionado fue una Red Neuronal con un proceso de aprendizaje por

retropropagación.

La Figura 13 muestra de manera esquemática la Red Neuronal a desarrollar. Las

siguientes son las características:

Las variables de entrada corresponden a comportamiento transaccional y

comportamiento crediticio externo. La estructura de la red de la Figura 13 muestra en la

primera capa a las variables de entrada, dos capas ocultas y una neurona en la capa de salida.

Esto fue ilustrado así por simplicidad, sin embargo se planea iniciar con una red con una capa

oculta y una capa de salida. En función de la validación de los resultados de la red (lo cual se

discute posteriormente en este Capítulo), se podrá requerir afiadir capas ocultas adicionales (el

algoritmo a desarrollar deberá permitir cambiar la estructura de capas ocultas de la red

mediante un archivo de configuración de manera que sea sencillo ejecutar diferentes corridas

bajo diferentes arquitecturas).

En cuanto a los parámetros que conocemos como relevantes para una Red Neuronal

(de lo cual ya se habló en el planteamiento teórico sobre redes neuronales), se utilizará la tasa

de aprendizaje y el valor de la constante a de la función de activación (vea la fórmula 35)

como mecanismos para tratar de guiar el proceso de aprendizaje. La función de activación

corresponderá a una función sigmoidal.

En referencia a la definición de cliente moroso o cumplido (lo cual es la

representación de la neurona en la capa de salida), se discutirá más adelante cuando hablemos

de la definición de bueno y malo.

Para la segmentación de las bases de entrenamiento y prueba tenemos que para los

datos públicos esto se puede realizar simplemente generando un conjunto con el 80% de las

instancias escogidas de manera aleatoria para el entrenamiento y el 20% restante elegido para

prueba. Para los datos privados el enfoque cambia debido a que se tienen series de tiempo

representando el comp01tamiento histórico de los créditos. En este caso, en vez de escoger

aleatoriamente la base de entrenamiento y de prueba, se toma en cuenta el orden cronológico

de los datos: el 80% corresponde al conjunto de créditos en el 80% de los primeros períodos

de datos. Por tanto lo que se ocupa como prueba, y lo que la red deberá predecir, son el 20%

restante de los últimos períodos de datos.

Variables de comportamiento transaccional

Variables de comporl amiento crediticio externo

Linea de crédito

Línea de crédito externa

IV/ oros ia'ad reciente hipoteca

Figura 13. Red Neuronal propuesta.

4. 7 Definición de bueno y malo

¿Cómo decidir si se clasifica una instancia como buena o mala? Este es un aspecto que se

debe considerar como parte del desarrollo del modelo. Sin embargo, existen otros dos casos a

considerar: aquellas instancias que se encuentran en la zona gris que no puede definirse ni

como buena ni como mala y, aquellas que podrían ser consideradas de "experiencia

insuficiente".

Las alternativas para la definición de bueno o malo son algo que depende de reglas de

negocio. Bajo algunos esquemas se podría ser demasiado estricto y definir como malo aquel

que se retrasa aún si se trata de un solo día; una concepción menos estricta es considerar que

se trata de malo si se retrasa en un período de dos semanas. Así como esto, podríamos seguir

argumentando relativo al concepto de bueno o malo; lo importante es que esto es más una

definición de acuerdo a los criterios o políticas que se deseen adoptar.

La definición de aquellas instancias consideradas como malas depende del autor, como

ejemplo encontramos en [Hui-Chung Yeh; 2007] una clasificación de crédito malo

establecido como aquellas instancias que tienen 15 días registrados sin pago después de la

fecha límite de éste.

Por parte del proceso que se desarrollará se explorarán tres alternativas:

1. Definir el concepto de bueno o malo en función del estado del crédito

disponible (que en sí mismo ya tiene algunos estados que reflejan esta condición en

diferentes grados, lo cual refleja la gravedad en el incumplimiento, por ejemplo un

crédito que tiene un período atrasado comparado con otro que ya se considera

incobrable).

2. Implementar un mecanismo de medición del cliente moroso en función del

número de días que pasan posterior a la fecha en que se está obligado a realizar el

pago y la fecha en que se presenta (validando que se paga un monto mayor al mínimo)

3. Medir el incumplimiento en función de si paga o no el monto mínimo exigido

en el tiempo requerido.

4.8 Medición del rendimiento del modelo de calificación de comportamiento.

En el desarrollo del modelo de compo1tamiento debemos contemplar la manera de medir la

exactitud. Esto depende de lo que puede entenderse por "bueno". Podríamos pensar en la

distinción de buenos y malos clientes; sin embargo sabemos que podemos cometer dos tipos

de errores, clientes que son buenos y los clasificamos como malos (pérdida de oportunidad) y

clientes que son malos y los clasificamos como buenos (pérdida por mora).

Si probamos el sistema sobre los mismos clientes que usamos para el entrenamiento

obtendremos resultados buenos, sin embargo, ¿Qué sucede si cambiamos la muestra por

clientes completamente ajenos a la etapa de entrenamiento?

La medición del rendimiento depende de la cantidad de los datos disponibles. En un

ambiente reducido se tiene que usar el mismo conjunto de entrenamiento mientras que en un

ambiente con una mayor cantidad de instancias de datos es posible usar un conjunto separado

(esto último es lo que se planea en nuestro caso).

Una forma de medir el rendimiento del modelo son las matrices de confusión.

Recordemos que existen dos tipos de errores que podemos cometer: clasificar a alguien como

bueno cuando en realidad es malo y, clasificar a alguien como malo cuando en realidad es

bueno. En el primer caso tenemos un costo D que representa cuanto perdemos por que el

cliente caiga en mora, en el segundo perdemos la oportunidad de dar el crédito a un buen

cliente - L.

La matriz de confusión puede representarse de la siguiente manera:

Clase verdadera G B

Clase G gG gil g estimada B be; bs b

lle; ll!J 11

Tabla 3. Matriz de confusión.

La pérdida esperada por cliente se puede estimar como:

Lb¡;+ DgH

n (] 07)

Dependiendo del punto de corte se mueven los valores de la matriz de confusión y en

base a la fórmula anterior se puede ajustar este valor.

No obstante puede parecer sencilla la validación (porcentaje de aciertos en la

predicción), la realidad es que dependiendo del tamafio de malos y buenos en las muestras es

como deberíamos determinar si el método fue bueno o no.

En [Hui-Chung Yeh; 2007) se definen tres medidas para validar la clasificación

efectuada. La manera en que se definen dichas medidas es como sigue:

sensibilidul =a,./ a 1 , (] 08)

e.\pec[!rcdad = /31, I B1 , (109)

( 11 O)

Donde:

a 1 = Número de tarjeta habientes malos en el conjunto de datos

ª" = Número de tarjeta habientes malos que son bien clasificados en la categoría de mal

crédito

Pr = Número de tarjeta habientes buenos en el conjunto de datos

p1, = Número de tarjeta habientes buenos que son bien clasificados en la categoría de buen

crédito

Capítulo 5. Caso de estudio y análisis de resultados.

5.1 Fuentes de Datos.

5.1.1 Características de los datos.

Los datos utilizados para la ejecución de los algoritmos correspondieron a los de carácter

privado. La razón para descartar los datos públicos fue que se planeaba una investigación que

cubriera todas las etapas de un proceso de calificación de crédito y los datos públicos ya se

encontraban prácticamente listos para su entrada directa al algoritmo de aprendizaje (no se

requería un proceso de selección de variables ya que éstas ya se encontraban disponibles en el

archivo, las características ya habían sido depuradas en sus valores nulos, los procesos de

discretización de variables ya habían sido efectuados, etc.).

Sin embargo, debe considerarse que como ajuste de la Red Neuronal se inicio

probando con bases públicas a fin de validar que el proceso de aprendizaje se estuviera

realizando (observando que el error por cada ciclo ejecutado fuera disminuyendo, de manera

que el proceso de minimizar el error trabajara adecuadamente).

Las variables consideradas consistieron en tres archivos de datos:

1. Archivo mensual que resume las transacciones del crédito. La fuente contiene 18

períodos de historia y la lista de sus campos se muestra en la Tabla 4.

2. Archivo diario con las transacciones realizadas por el cliente en relación con un

crédito. La fuente contiene 18 períodos de historia. La lista de sus campos se muestra

en la Tabla 7.

3. Archivo mensual con el comportamiento externo del cliente. Contiene datos como el

número de créditos de auto que tiene el cliente en otras instituciones, el número de

créditos de auto que tiene con la misma institución con la que se tiene la tarjeta de

crédito, etc. El valor de esta información es que proporciona idea del comportamiento

con otros productos de crédito que tiene en la misma institución e incluso en

instituciones externas, es decir, no sólo considera las variables propias del crédito en

estudio, sino que añade datos de comp01tamiento con otro tipo de créditos, incluso si

estos créditos fueron obtenidos con otra institución de crédito. La fuente contiene

cinco períodos de historia.

5.1.2 Datos transaccionales mensuales.

La Tabla 4 muestra los datos disponibles en el archivo

Número Descripción del dato

1 Identificador del Crédito

2 Identificador del Cliente; un cliente podría tener más de un crédito ..,

Límite de la Línea Disponible .)

4 Saldo a la Fecha de Corte del Crédito

5 Saldo al Último Día del Mes del Período Pasado

6 Importe del Pago Mínimo

7 Importe Pagado

8 Intereses Generados

9 Total de Compras del Período

10 Total de Disposiciones en Efectivo del Período

11 Fecha de la Última Compra

12 Fecha de la Última Disposición de Efectivo

13 Fecha de Apertura del Crédito

14 Estatus Principal del Crédito

Número Descripción del dato

15 Estatus Secundario del Crédito

16 Identificador del Período de los Datos

17 Número de Pagos Vencidos

18 Importe de Pagos Vencidos

19 Monto del Último Incremento de la Línea de Crédito

20 Fecha del Último Incremento de la Línea de Crédito

·1 ahla .t. Atributos considerados de tipo transaccional mensual.

Los campos correspondientes a fechas fueron transformados en métricas de número de

meses a la fecha del período correspondiente.

Variables secundarias.

Se crearon dos variables que son derivadas de las variables anteriores:

• Uso de Línea de Crédito, definida como el Saldo del Crédito a la Fecha de

Corte entre el Importe de la Línea de Crédito.

• Pagado Sobre Mínimo, indicando el porcentaje de pago del monto mínimo que

cubrió la persona.

5.1.3 Datos de comportamiento externo.

Los datos de comportamiento externo consisten en 399 variables que se pueden interpretar

principalmente en base a los siguientes elementos:

1. Nombre de la variable

2. Tipo de Negocio (Tarjeta de Crédito, Tarjeta de Servicio, Crédito Auto

Bancario, Crédito Auto No Bancario, Hipoteca Bancario, Hipoteca No

Bancario, etc.)

3. Tipo de Cuenta (Pagos Fijos, Revolvente, Hipotecario, etc.).

4. Morosidad (un mes, dos meses, tres meses, etc.).

5. Origen (Mismo Otorgante, Otro Otorgante, Cualquiera)

6. Meses (Tres, Seis, 12 Meses, Mes Actual)

No se pretende dar la lista completa de las variables, dado el gran número de variables

se realizó un proceso de preselección de acuerdo a los anteriores elementos, descartando

algunas variables que no afectan al proceso de calificación de crédito (por ejemplo existen 13

variables con el nombre número de cuentas cerradas, las cuales fueron descartadas, de éstas,

el tipo de negocio puede tomar los valores: tarjeta de crédito, auto bancario. personal

bancario. hipoteca bancario. departamental, tarjeta de servicio. auto no bancario. hipoteca

no bancario. préstamo no bancario, con el origen que puede ser: mismo otorgante. otro

otorgante. cualquiera, es decir se hace un producto cartesiano de los diferentes elementos, en

donde tiene sentido); esto hace que se incremente significativamente el número de variables

hasta llegar a 399.

Se presenta a continuación en la Tabla 5 las principales variables de comportamiento

externo consideradas después de esta preselección; se puede notar que ya se simplificó la

terminología de los elementos mencionados arriba a fin de ser más claros en la definición de

la variable, pudiendo plantearla en una simple tabla resumen.

Ta1:jcta Tai:jcta Crédito Crédito Crédito Préstamo Préstamo Préstamo Tarjeta Tarjeta Crédito Crédito Tarjeta Auto Auto Auto Personal Personal Personal l lipoteca Hipoteca I-lipoteca Departa- Servi-

Variable Interna Externa Crédito Interno Externo Otros Interno Externo Otros Interna Externa Otros mental cio !-Cuentas Abiertas 1 5 2 6 11 3 7 13 4 8 12 9 10 3-Mcscs Cuenta Abierta más antigua 27 31 28 32 37 29 33 39 30 34 38 35 36 4-Meses Cuenta Abierta Más Reciente 40 44 41 45 50 42 46 52 43 47 51 48 49 5-Meses Morosidad Más Reciente (3-99) 53 57 54 58 63 55 59 65 56 60 64 61 62 7-Límitc Crédito 79 80 81 8-Total de Crédito Máximo 82 86 83 87 92 84 88 94 85 89 93 90 91 9-Total Saldo Actual 95 99 96 100 105 97 101 107 98 102 106 103 104 1 O-Total Saldo Vencido 108 112 109 113 118 110 114 120 111 115 119 116 117 1 !-Promedio Saldo Actual 121 125 122 126 131 123 127 133 124 128 132 129 130 12-Porccntajc Límite Crédito Usado 134 135 136 13-Porccntaje Crédito Máximo Usado 137 141 146 138 142 147 139 143 149 140 144 148 145 14-Ntunero Cuentas con Pago Adecuado (02) 150 154 151 155 160 152 156 162 153 157 161 158 159

15-Peor 163 167 164 168 173 165 169 175 166 170 174 171 172

Ta~jeta Ta~jeta Crédito Crédito Crédito Préstamo Préstamo Préstamo Ta~jeta Ta~jeta Crédito Crédito Ta~jeta Auto Auto Auto Personal Personal Personal Hipoteca Hipoteca Hipoteca Departa- Servi-

Variable Interna Externa Crédito Interno Externo Otros Interno Externo Otros Interna Externa Otros mental cio Morosidad l listórico 6 Meses IS-Peor Morosidad Histórico 12 Meses 176 180 177 181 186 178 182 188 179 183 187 184 185 29-Total Pagos a Efectuar 217 221 218 222 227 219 223 229 220 224 228 225 226

Tabla 5. Variables de comportamiento interno-externo relativas a productos de crédito.

La Tabla 5 puede ser interpretada como sigue:

• En la primer columna se ubica el número identificador dado a la categoría de la

variable seguido de su nombre (por ejemplo 15-Peor Morosidad Histórico 6 Meses y

15-Peor Morosidad Histórico 12 Meses significando la categoría de Peor Morosidad

Histórica). La razón de esta categoría fue tratar de unificar a las variables por

propósito común, esto con el fin de simplificar el proceso de selección de variables.

• Los números en el interior de la Tabla identifican el número de variable.

• Como ya se comentó, no todas las variables son mostradas, debido a que algunas

fueron descartadas desde el inicio ya que no se esperaba que fueran significativas de

acuerdo a la experiencia.

Una vez que se tuvo la Tabla 5 se resumieron las variables de acuerdo con la Tabla 6:

1 h 2+h 6+h 11 Número de Cuentas - -

de Crédito Automotriz

2 h 3+h 7+h 13 Número de Cuentas - -

de Crédito Personal ,.,

h 4+h 8+h 12 Número de Cuentas _) - - -

de Crédito Hipotecário

4 H 9 Número de Cuentas de Tarjeta Departamental

5 h 10 Número de Cuentas -

de Tarjeta de Servicio

6 h 53 Morosidad Más Reciente en Tarjeta de Crédito Interna

7 H57 Morosidad Más

Reciente en Tarjeta de Crédito Externa

8 h 54 Morosidad Más Reciente en Crédito Automotriz Interno

9 Si h 58 < h 63 entonces h 58 sino h 63 Morosidad Más - - - -Reciente en Crédito Automotriz de Otros

10 h 55 Morosidad Más Reciente en Préstamo Personal Interno

11 SI H 59<H 65 entonces h 59 sino h 65 Morosidad Más - - - -

Reciente en Préstamo Personal Externo

12 H 56 Morosidad Más Reciente en Hipoteca Interna

13 SI H 60<H 64 entonces h 60 sino h 64 Morosidad Más - - - -Reciente en Hipoteca Externa

14 H 61 Morosidad Más Reciente en Tienda Departamental

15 H 62 Morosidad Más Reciente en Tarjeta de Servicio

16 H 80 Importe de Línea de Tarjeta de Crédito Externa

17 h 112 Saldo Vencido en -

Tarjeta de Crédito Externa

18 h 109 Saldo Vencido en -

Auto Interno 19 h 110 Saldo Vencido en

Préstamo Personal Interno

20 SI h l 14>h 120 entonces h 114 sino Saldo Vencido en - -h 120 Préstamo Personal -

Externo 21 SI h l 15>h 119 entonces h 115 SlllO Saldo Vencido - - -

h 119 Hipoteca Externa

22 h 116 Saldo Vencido -Tarjeta Departamental

23 h 117 Saldo Vencido -Tarjeta de Servicio

24 h 135 Porcentaje de Uso -de la Línea de

Crédito Externa 25 h 150 Cuentas con Pago de

Tarjeta Interna 26 h 154 Cuentas con Pago de

Tarjeta Externa 27 h 151 Cuentas con Pago de -

Auto Interno 28 h l 55+h 160 Cuentas con Pago de -

Auto Externo 29 h 152 Cuentas con Pago de

Préstamo Personal Interno

30 h l 56+h 162 Cuentas con Pago de -Préstamo Personal Externo

31 h 153 Cuentas con Pago de Hipoteca Interna

32 h 157+h 161 Cuentas con Pago de - -Hipoteca Externa

33 h 158 Cuentas con Pago de -

Tarjeta Departamental

34 h 159 Cuentas con Pago de -Tarjeta de Servicio

35 h 177 Peor Morosidad a 12 Meses en Auto Interno

36 SI h 181>h 186 entonces H 181 sino Peor Morosidad a 12 - - -H 186 Meses en Auto -

Externo 37 h 178 Peor Morosidad a 12 -

Meses en Préstamo Personal Interno

38 SI h 182>h 188 entonces H 182 Sll10 Peor Morosidad a 12 -H 188 Meses en Préstamo -

Personal Externo 39 h 179 Peor Morosidad a 12 -

Meses en Hipoteca Personal Interna

40 SI h 183>h 187 entonces 1-1 183 Sll10 Peor Morosidad a 12 - -

H 187 Meses en Hipoteca Personal Externa

41 h 184 Peor Morosidad a 12 Meses en Tarjeta Departamental

42 h 185 Peor Morosidad a 12 -

Meses en Tarjeta de Servicio

43 h 246 Porcentaje de Cuentas con Uso de la Línea

44 h 235 Cuentas en Morosidad del Tipo 99

45 H 238 Total de Pago de Productos

46 H 242 Meses a la Mora Más Reciente.

Tabla 6. Agrupado de variables mediante operadores.

La manera en que se trabajó con las variables correspondió a una agrupación de las

mismas por su naturaleza y posteriormente se generaron algunas métricas que resumen los

conjuntos comunes de variables (por ejemplo para cuentas abiertas se puede sumar a los

diferentes productos y así se saca un número que corresponde al valor de créditos que un

cliente tiene abiertos en un período de tiempo dado).

Como se puede observar, el conjunto de variables de este archivo se reduce

significativamente (en este momento se ha reducido el conjunto de las variables del Buró de

Crédito pasando de 399 variables a sólo 46 variables). El siguiente paso consistió en un

análisis de cada variable, identificando si al menos existía un cierto nivel de variabilidad en la

característica, lo que nos indicaba que la variable podría aportar beneficios; si por el contrario

se descubría que casi todo el universo de la característica en estudio se concentraba en un

valor, entonces estas variables fueron desca11adas del proceso posterior.

5.1.4 Datos de transacciones diarias.

La estructura del archivo transaccional diario es la mostrada en la Tabla 7:

Número Descripción 1 Código de la Transacción 2 Identificador del Crédito -, Fecha de la Transacción .)

4 Fecha en que se Aplicó la Transacción 5 Tipo de Transacción (Débito o Crédito)

Número Descripción 6 Importe de la Transacción 7 Fecha de Corte 8 Nombre del Comercio 9 Estado del Comercio 10 Identificador de Transacción en Plazos 11 Cuenta Facturadora 12 Fecha de Proceso Tabla 7. Estructura del archivo transaccional diario

La utilidad principal de este archivo consiste en que permite revisar por día las

transacciones realizadas: compras, disposiciones, pagos, etc. Sin embargo, el archivo mensual

ya presentado condensa estas métricas sumando mensualmente las métricas correspondientes.

Esto hace que sea más sencillo el uso del archivo mensual.

Una segunda utilidad que se planteaba para este archivo era los hábitos de consumo

representados por el nombre y estado geográfico del comercio. Sin embargo, cuando se

realizó un análisis de los datos correspondientes se detectó que la cardinalidad del nombre del

comercio es muy alta y que existe falta de estandarización en los nombres para saber de qué

tipo de comercio se trata. En cuanto al estado del comercio el grueso de los datos contienen

MX (México).

Debido a estas razones fue que se decidió descartar esta fuente de datos y centrarse

únicamente en los archivos mensuales ya descritos.

5.2 Selección de instancias que caen en mora y créditos cumplidos.

Se evaluaron tres alternativas para describir si un cliente cae o no en mora:

1. Utilizar el estado y subestado del crédito, los cuales ya se encuentran disponibles,

como datos del archivo mensual transaccional. Al ser dos campos identificadores del

estado del crédito encontramos que sólo tienen utilidad en conjunto; por ejemplo, para

un estado ·'Activo" existen subestados "VIP, créditos especiales", "Al corriente,

créditos con cumplimiento de pago", "A lo más dos pagos vencidos", "Boletinado,

crédito marcado como malo", "Incobrable", etc. Si habláramos de los créditos

inactivos encontraríamos también cie1ta complejidad en los estados. Estos estados ya

armados tenían una ventaja, ya se contaba con grupos que facilitaban el análisis; sin

embargo, también tenía una desventaja, las reglas de negocio que especificaban

cuando un crédito pasa de un estado y subestado a otro no se encuentran

documentadas, lo cual provoca que en fases posteriores nos encontremos con créditos

marcados como "buenos" pero que no pagaron en el período en que esta marca ocurre.

2. Medición de la mora en función del número de días transcurridos en que se debe pagar

y el día en que se paga. Esta acepción también fue considerada pero se declinó por una

definición más estricta, sin dar opo1tunidad a días de gracia para el pago.

3. Calcular la mora en base al archivo mensual que contiene el resumen transaccional del

crédito. Para esta opción se validó si el monto pagado es mayor al pago mínimo

exigido, en cuyo caso se dice que el crédito fue cumplido. Este fue el método utilizado

finalmente para definir la variable ele clase Mora; es un medio sencillo pero a la vez es

estricto en cuanto a la consideración para obtener un crédito ·'cumplido'·.

Una vez que han sido descritos de manera general los datos utilizados, se hablará del proceso

mediante el cual se seleccionaron las variables a utilizar en el proceso de aprendizaje.

Se partió de dos fuentes de datos, una primera fuente con datos transaccionales

mensuales y una segunda con el comportamiento externo en otros créditos.

Ya fue descrito que como parte del proceso de conocimiento de las variables se

requirió analizar la función de las mismas mediante el conocimiento previo. A este respecto

fue muy útil agrupar algunas variables (mediante sumas, máximos o mínimos) a fin de reducir

la dimensionalidad excesiva en algunos casos (399 variables). Posterior a esto se validó el

contenido de las variables (en el caso del archivo de comportamiento externo) y se pudieron

descartar algunas características que presentaban prácticamente el mismo valor en todas las

instancias (lo cual no aportaría valor al estudio realizado). Se continuó con la idea de extraer

la variable de clase lo que llevó a estudiar grupos de créditos (morosos y cumplidos), los

cuales se observó, son parte de otras categorías como activos e inactivos. En esta idea previa

de grupo de crédito se observó que existen algunas relaciones importantes entre variables, lo

que llevó a plantear un análisis de correlación como el siguiente punto lógico en la

comprensión de los datos.

La sencillez del análisis, el conocimiento previo de los datos y el sustento teórico ya

planteado de este método relativo a la selección de variables, ayudaron a dar forma a un

proceso de selección de características más sencillo del planteado inicialmente en el marco

metodológico.

5.3.1 Análisis de correlación.

Como ya fue comentado, el proceso de selección de características se puede realizar con base

en una gran diversidad de algoritmos, los cuales incluyen el tipo computacional ( como los

algoritmos genéticos) y el tipo estadístico (como el análisis multivariante en algunas de sus

técnicas). Debido a la abundancia de las variables (sobre todo del tipo del comportamiento

externo en que se dispuso de 399 características), se decidió realizar un análisis de las

variables mediante el conocimiento previo de los procesos de crédito, de manera que el

proceso de selección de variables fuera manejable en términos del número de características a

evaluar.

Se realizó un análisis de correlación estadística a fin de detectar qué variables

presentaban relación entre ellas, de manera que se simplificara el proceso de elección.

No se implementó un algoritmo computacional para resolver este problema debido a

que el problema fundamental es determinar o analizar métodos que permitan identificar

anticipadamente el comportamiento de crédito; de este problema fundamental, la selección de

características es sólo una parte del proceso total.

Se podría pensar que el análisis estadístico de correlación, una vez que se ha

simplificado la lista de variables es sencillo; sin embargo, por la manera en que operan los

procesos de crédito, se presentó un problema cuando se trató de establecer el análisis de

correlación: en la misma base de datos coexistían créditos inactivos, activos, marcados como

incobrables, etc. Algunas reglas de negocio conocidas identificaban que los créditos

incobrables, por ejemplo, tienen un valor uno en el monto de la línea disponible; los clientes

inactivos presentan en su mayoría importes de saldos en cero, etc.

Lo anterior significaba que el mezclar todos los diferentes tipos de estado del crédito y

proceder a obtener las variables significativas podría no ser sencillo dada la diversidad de

estados y el hecho que por regla de negocio algunas características se movieran a un valor

predeterminado cuando caen en dicho estado (sin que eso significará que la variable había

presentado ese valor realmente).

A fin de corroborar lo anterior se tomaron "agrupados" de créditos considerando: los

créditos identificados como activos, los incobrables y el universo en general. La Tabla 8

resume la disparidad en las variables usando los grupos anteriores, las medidas estadísticas

tomadas fueron la media y la desviación estándar.

Límite Saldo Pago Pagado Intereses Consumos Pagos de Mínimo Vencidos Línea

Media 38.729 19.810 2.916 2.133 388 1.548 1.17 Universo Desviación 52.853 35.533 8.509 7.771 881 7.128 2.49 Estándar Universo Media 46.800 20.600 1.920 2,740 501 2.000 0.447 Activas Desviación 55.400 34.600 5.036 8.718 973 8.043 1.26 Est:índar Activas Media 930 27.200 10.200 82 3.340 0.0138 5.83 Incobrables Desviación 5.195 45.808 17.657 1.250.46 1.65 4.06 3.14 Estándar Incobrables Tabla 8. Comparación de medias y desviaciones cstúndar de algunas variables por grupo

De la Tabla 8 se puede observar que el grupo de créditos incobrables presenta, por

ejemplo, un Límite de Línea Promedio de 930 mientas que el universo presenta 38,729. Esto

se debe a que por regla de negocio una cuenta incobrable se coloca en uno en el Monto de la

Línea una vez que cae en dicho estado. En cuestión del Pago Mínimo el universo tiene un

promedio de 2,916 mientras que los créditos incobrables tienen una media de 10,200 (en este

caso podríamos hablar que es lógico pensar que el pago mínimo de alguien que está

considerado como mal crédito debe ser superior al del universo de créditos). Estos dos

ejemplos nos permiten ilustrar que, si bien existen algunas variables que obedecen un

comportamiento empírico, algunas otras son forzadas a mantener cierto valor para seguir

cierta regla de negocio.

Como consecuencia del análisis anterior se decidió que la selección de las variables a

utilizar siguiendo métodos estadísticos hacía necesario pensar en ubicar diferentes grupos de

cuentas y verificar qué características tenían las variables dentro de los diferentes grupos.

Otro aspecto relevante que se consideró previamente a este análisis de correlación es

que algunos grupos presentan un comportamiento uniforme. Por ejemplo, cuando hablamos

de créditos inactivos damos por hecho las siguientes relaciones:

• El Saldo de la cuenta tiende a ser bajo o bien es cero (significando que la cuenta nunca

ha estado activa).

• El Pago Mínimo es cero o muy bajo.

• El Importe Pagado es muy bajo dado que no se exige un pago mínimo.

• Los Intereses son muy bajos

• No existen Consumos ni Di.\posiciones de Efectivo.

• Los Meses a Última Di:,posición y Meses a Última Compra son ceros o bien aumentan

en uno en cada período subsecuente.

• Los Meses a Último Incremento se incrementan en uno en cada período subsecuente y

para un porcentaje determinado de cuentas podría ser cero (significando que se trata de

rescatar estos créditos).

• El comportamiento de Pagos Vencidos es normalmente cero

• Etc.

De lo anterior observamos que en general este grupo de cuentas se caracteriza por

tener ausencia de movimientos; no se pretende proporcionar un fundamento estadístico

exhaustivo de cómo se eligieron las variables, simplemente se tratará de ilustrar que el punto

de selección de variables partió de las cuentas activas (las cuales sí presentan una mayor

riqueza en las relaciones entre variables).

Se presentan en las Tablas 9, I O y 11 algunos ejemplos de matrices de correlación de

los universos de créditos, activos e incobrables.

Im porte Meses Meses Mes Meses # Pagos Pagos Pago

Pago Pa- Consu- Dispo- Factu- Meses Dispo- Apertu- lncre- Venci- Venci- Uso Sobre Línea Saldo Mí nimo gado Interés 111 0 sición ració n compra sición ra mento dos dos Línea Mínimo

Línea 1.00 0.44 0.07 0.3 1 0.46 0.26 0. 14 -0.07 -0. 12 -O .O 1 0.29 0.06 -0.24 -0.03 -0.14 0.00 Saldo 0.44 1.00 ~ '.13:i 0.16 ·"fü.67· 0.17 0.13 -0. 11 -0. 11 -0 .2 1 0.04 -0.09 0.21 --~611 0.46 0.00 Pago ~.;._,4:;

- .~~~ ~ ~' 1:1~ e, .. · ~;- ::;-i:.~ 1f''á'~~

Mínimo 0.07 ~ Q:'1·3 1.00 -0.02 o. 14 -O.O 1 0.00 -0.07 -0.05 -0.16 0.00 -0.12 ,;;_; 0.50' ~""" 0:8A'. 0.00 Pagado 0.31 O. 16 -0.02 1.00 0. 15 0.44 0.09 -0.05 -0.07 0.00 0.06 0.00 -0. 13 -0.07 -0.05 0.04

Interés 0.46 : ,,f)~~7' 0. 14 0. 15 1.00 0. 12 0. 14 -0.09 -0.1 0 -0. 16 0.06 -0.02 -0. 14 -O.O 1 -0 .09 0.00 Consu-111 0 0.26 0. 17 -O.O ! 0.44 0. 12 1.00 0.05 -0.04 -0.06 0.03 0.06 -O.O 1 -0. 10 -0 .05 -0.04 0.02

Dispo-sición 0.14 0.1 3 0.00 0.09 0. 14 O.OS 1.00 -0.03 -0.03 -0. 1 O 0.00 -0.07 -0.03 -0.03 0.02 Meses a lí.S Factu-ración -0.07 -0. 11 -0.07 -0.05 -0.09 -0.04 -0.03 1.00 0.28 -0 .1 3 -0.09 -0.07 -O.OS -0.04 0.00 Meses a

l;,(J Com-pras -0.12 -0. 11 -0.05 -0.07 -0. 1 O -0.06 -0.03 1.00 0.12 -0. 14 -0.08 O.O! -0 .03 -0. 02 0.00 Meses a Dispo-sición -O.O 1 -0.2 1 -0.1 6 0.00 -0. 16 0.03 -0. 1 O 0.28 0.12 1.00 -0.11 -O .O 1 -0. 16 -0.1 4 -0.11 0.00 Meses a Apertu-ra 0.29 0.04 0.00 0.06 0.06 0.06 0.00 -0. 13 -0. 14 -0.11 1.00 0.43 -0.09 -O.O! -O.O 1 0.00 Meses a lncre-mento 0.06 -0.09 -0.12 0.00 -0.02 -O.O 1 -0.02 -0.09 -0.08 -O.O 1 0.43 1.00 -0.25 -0.12 -0. 15 0.00 Pagos ~~~1' Venci-dos -0.24 0.2 1 0.50 -0.13 -0. 14 -0. 1 O -0.07 -0.07 O.O! -0. 16 -0.09 -0.25 1.00 . " ... ~p.5íí .• 0.49 0.00

Importe Meses

1 Meses 1 Mes I Meses 1 # Pagos I Pagos 1 Pago Pa- Consu- Dispo- Factu- Meses Dispo- Apertu- 1 ncre- Yenci- Yenci -

1 Uso Sobre Línea Saldo Mínimo acto Interés mo sición ración compra sición ra mento dos dos Línea Mínimo

- ------Importe Pagos Venci-dos -0.03 ~""óT6t: ~:f~ Ó.9T -0.07 -0.0 1 -0.05 -0.03 -0.05 -0.03 -0. 14 -0 .0 1 -0. 12 1 0.541 1.00 1:~~0:81 I 0.00

Uso tJJ_:~4- -0. 15 j [,:,,;:~j 1.00 1 Línea -0.14 0.46 -0.05 -0.09 -0.04 -0.03 -0.04 -0.02 -0. 11 -0.0 1 0.49 t;.;.Jo.s't 0.00

Pago Sobre Mínimo 1 0.001 0.001 0.00 1 0.04 1 0.001 0.02 I 0.02 I 0.001 0.00 1 0.00 1 0.00 1 0.001 0.00 1 0.001 0.00 I 1.00

Tabla 9. Matriz de correl ación de variables transacc ionales del uni verso

Im porte Meses Meses Meses Meses Meses Pagos Pagos Pago

Pago Pa- lnte- Consu- Dispo- Factu- Com- Dispo- Apertu- lncre- Yenci - Yenci- Uso Sobre Linea Saldo Mín imo gado rés mo sición ración pras sición ra mento dos dos Linea Mínimo

Línea 1.00 0.57 0.36 0.29 0.44 0.24 0.13 -0.03 -0.08 -0.04 0.3 1 0.04 -0.05 0. 19 0.0 1 0.00 Saldo 0.57 1.00 ·~ 0.73 O. 19 0.80 0. 19 0.1 5 -0.04 -0.05 -0.20 0.06 -0.02 0. 19 0.48 0.02 0.00 Pago Míni-1110 0.36 0.73 1.00 0.02 0.38 0.03 0.03 -0.03 -0.02 -0. 15 0.0 1 0.0 1 0.52 - 0.93, 0.01 0.00 Paga-do 0.29 0. 19 0.02 1.00 0.1 2 0.43 0.08 -0.02 -0.04 0.00 0.06 -O.O I -0. 1 O -O.OS 0.00 0.04 Interés 0.44 0.86± 0.38 0. 12 1.00 0.09 0. 13 -0.04 -0.04 -0.18 0.06 -0.04 -0 .02 0. 11 0.01 0.00 Consu-111 0 0.24 0. 19 0.03 0.43 0.09 1.00 0.04 -0.02 -0.04 0.04 0.06 -0 .02 -0.09 -O.OS 0.00 0.02 Dispo-sición 0. 13 0. 15 0.03 0.08 0. 13 0.04 1.00 -O.O I 0.00 -0.11 0.00 -0.04 -O.OS -0.03 0.00 0.02 Meses a Factu-ración -0.03 -0.04 -0.03 -0.02 -0.04 -0.02 -O.O I 1.00 0.43 0. 10 -0.0 1 0.03 0.0 1 -O.O I -0.02 0.00 Meses a Com-pras -0.08 -0.05 -0.02 -0.04 -0.04 -0.04 0.00 0.43 1.00 -O.OS -0.06 0.0 1 0.06 0.00 -O.O 1 0.00 Meses a Dispo-sición -0.04 -0.20 -0 .15 0.00 -0. 18 0.04 -0. 11 0.1 0 -O.OS 1.00 -0.09 -O.O 1 -0. 12 -0.1 O -O.O I 0.00 Meses a Aper-tu ra 0.3 1 0.06 0.0 1 0.06 0.06 0.06 0.00 -O.O 1 -0.06 -0.09 1.00 0.34 -0.08 -O.O 1 -0.02 0.00 Meses a lncre-mento 0.04 -0.02 0.0 1 -O. O 1 -0.04 -0.02 -0.04 0.03 0.0 1 -O.O 1 0.34 1.00 0.03 0.02 -0.03 0.00

Impo rte Meses Meses Meses Meses Meses Pagos Pagos Pago

Pa- lnte- Consu- Dispo- Factu- Com- Dispo- Apertu- lncre- Vencí- Vencí- Uso Sobre Línea Saldo Mínimo ado rés mo sición ración ras sición ra mento dos dos Línea Mínimo -~-.. - .. - --

Pagos Vencí -dos

1 -o.os ¡ O. 1 9 l~'k~ls~I -O . JO 1 -0.021 -0.091 -O.OS 1 o.o, ¡ 0.061 -0. 12 1 -o.os¡ 0.031 - l~O?_l~~~0_í:§9s1,J 0.0 1 1 0.00

lmpor-te Pagos Venc í-dos 1 o. 19 I ~,,~,"'s_;I 0.48 ,~h.i~J9:A -O.OS i 0.11 1 -o.os l -0.03 1 -O.O I i 0.00 1 -0.101 -0.0 1 1 0.02 1 l, ;';,Q:5-94 1.00 1 0.01 1 0.00 Uso Línea 1 0.0 1 1 0.02 I 0.0 11 0.00 1 0.01 1 0.001 0.00 1 -0.02 I -0.01 1 -0.0 1 1 -0.02 I -0.03 I 0.0 1 1 0.0 1 1 1.00 I 0.00 Pago Sobre Míni -1110

1 0.001 0.00 1 0.00 1 0.04 I 0.00 1 0.02 1 0.021 0.001 0.00 1 0.001 0.001 0.001 0.001 0.00 1 0.001 1.00 Tabla I O. Matriz de correlación de grupo de créd itos act ivos.

Pago Meses Meses Meses Meses Pagos Im porte Pago Sal - Mí- Pa- Inte- Con- Dispo- Factu- Com- Dispo- Meses lncre- Venci- Pagos Uso Sobre

Línea do nimo gado rés sumo sición rac ión pras sic ión Apertura mento dos Vencidos Línea Mínimo - .

Línea 1.00 0.11 -0. I O -0.0 1 0.00 0.00 0.00 0.04 0.00 0.03 0.42 0.54 -0.33 -0. I O -0. 1 I -0.04

Sa ldo -0. 11 1.00 0.99 0.00 0.00 0.00 0.00 -0.07 -0.1 O -0.1 9 -0.03 -0.18 0.30 ,0.99 ·,.. i=.oo 0.02 Pago ; ~~· ~,~j-Á Míni- J ~ii:,- .-,:¡¡

1110 -0.1 O 0.99 1.00 -0.02 0.00 0.00 0.00 -0.07 -0 . 1 O -0.18 -0.03 -0. 17 0.3 1 0.99 - lF0~29 0.02

Pa-gado -O.O I 0.00 -0.02 1.00 0.00 0.0 1 0.01 -O.O 1 -O.O 1 -0.0 1 0.00 -0.02 -0. I O -0.03 0.00 O.OS Inte-rés 0.00 0.00 0.00 0.00 1.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00

Consu- :,. ,J.: :;11 -

1110 0.00 0.00 0.00 0.0 1 0.00 1.00 ~,t·o.19 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00

Dispo- .; sición 0.00 0.00 0.00 0.0 1 0.00 --0:19~ 1.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 Meses a Factu- -ración 0.04 0.07 -0.07 -0.01 0.00 0.00 0.00 1.00 0.39 0.26 0.03 0.04 -0.06 -0.07 -0.07 -0.01

Meses a Com- -oras 0.00 O. JO -0. I O -O.O 1 0.00 0.00 0.00 0.39 1.00 -0.02 -0 .06 0.01 -0.04 -0 . I O -0 . I O 0.00

Meses a Di spo- -sición 0.03 0. 19 -0. 18 -O.O 1 0.00 0.00 0.00 0.26 -0 .02 1.00 -0 .02 0.0 1 -0.08 -0. 18 -0.19 0.00

Meses a -Apertura 0.42 0.03 -0.03 0.00 0.00 0.00 0.00 0.03 -0.06 -0.02 1. 00 ·- 0.76- -0.42 -0.03 -0.03 -0.04

-Meses a 1'1"l_

lncre- 3; -mento 0.54 0. 18 -0.17 -0.02 0.00 0.00 0.00 0.04 0.0 1 0.01 0.76 1.00 -0.56 -0. 17 -0. 18 -0.06

Pagos -

Venci- -dos -0.33 0.30 0.31 -0.1 O 0.00 0.00 0.00 -0.06 -0.04 -0 .08 -0.42

- )"! -o:s.6 - 1.00 0.3 I 0.30 0.06

Importe ,,

- -'~''' 1-

Pagos -0. 1 O _0.99 ' Ó.99 -0.03 0.00 0.00 0.00 -0.07 -0.1 O -0.18 -0.03 -0.17 0.3 1 1.00 ~,.~Q;99 0.02

Pago Meses Meses Meses Meses Pagos Importe Pago Sal-1 Mí- Pa- lnte- Con- Dispo- Factu- Com- Dispo- Meses lncre- Vencí - Pagos Uso Sobre

Línea 1 do nimo gado rés sumo sición ración pras sic ión Apertura mento dos Vencidos Línea Mínimo ., -- .. --· ... - .. , .. ,., __

Vencí-dos Uso Línea 1 -0. 1 1 lfltff~m.~'11 0.001 0.001 0.00 1 0.001 -0.071 -0. 101 -0.19 1 -0.03 1 -0.1 81 0.30 ~ -.-.,·· - • . "-r. 'l' -h 1.00 1 0.02 Pago Sobre Mínimo 1 -0.04 I 0.021 0.02 1 o.os l 0.00 1 0.00 1 0.001 -0.01 1 0.001 0.00 1 -0.04 I -0.06 I 0.06 I 0.02 1 0.021 1.00

Tabla 11. Matriz de correlación del grupo de créditos incobrables

De las tablas 9, 1 O y 11, se consideró un umbral de 0.5 para decidir si la relación entre

dos variables se consideraba ( esto se muestra en las tablas por un sombreado). La

interpretación de las tablas es como sigue:

Si consideramos el universo encontramos que el Saldo tiene correlación con el Pago

Mínimo, los Intereses y el Importe de Pagos Vencidos; el Pago Mínimo lo tiene con el

Número de Pagos Vencidos, el Importe de Pagos Vencidos y el Uso de Línea; el Número de

Pagos Vencidos lo tiene con el Importe de Pagos Vencidos; el Importe de Pagos Vencidos lo

tiene con el Uw de Línea.

Ahora remarquemos lo que ocurre con el grupo de activos: el Límite de Crédito tiene

correlación con el Saldo; este último dato lo tiene con el Pago Mínimo, los Intereses; el Pago

Mínimo lo tiene con el Número e Importe de Pagos Vencidos: el Número de Pagos Vencidos

con el Importe de Pagos Vencidos.

No se comentará el mismo análisis sujeto al grupo de incobrables, simplemente es útil

comentar que varias de las relaciones de correlación se mantienen entre el universo y las

activas. El hecho de tomar estas últimas hace que se propongan correlaciones que son

empíricamente esperadas (Línea de Crédito con el Saldo).

El mismo análisis fue realizado tomando en consideración no sólo el grupo de

variables transaccionales sino también las correspondientes al comportamiento externo. A este

respecto las correlaciones mayores a 0.5 detectadas fueron:

• Línea de crédito: Saldo, Pago Mínimo, Intereses, línea de Crédito Externa.

• Saldo: Pago Mínimo, Intereses.

• Pago Mínimo: Intereses

• Pagado: Consumo

• Meses a Di.\posición: Meses a Apertura

• Número de Pagos Vencidos : Importe de Pagos Vencidos

• Uso Línea: Porcentaje de Cuentas con Uso de Línea

• Cuentas de Hipotecario: Peor Morosidad a 12 Meses de Hipotecario

• Saldo Vencido Préstamo Personal Interno: Peor Morosidad 12 Meses Préstamo

Personal interno

Una vez que se encontró la correlación entre las variables, se analizó y se descartaron

algunas variables con base en dos criterios:

1. Las variables en las que se detectó que estaban correlacionadas se desechó

alguna ya que el contenido de información de la otra se pretendía que fuera suficiente

para el modelo.

2. Con base en el conocimiento del negocio se decidieron los casos en los que

hubieran dudas.

Como se mencionará más adelante, el proceso de selección de las variables no fue

terminado aquí . Cuando se inició con el proceso de aprendizaje se detectó que algunas

variables no ayudaban en la fase de entrenamiento del algoritmo de la Red Neuronal. Se

regresó entonces a la selección de características y estas variables fueron igualmente

descartadas.

Las variables seleccionadas después del análisis de correlación son las resumidas en la

Tabla 12:

Número Variable 1 Importe de la Línea Interna

Número Variable 2 Saldo ,.,

Importe Pagado .)

4 Pago Mínimo 5 Meses a Ultima Compra 6 Meses a Ultima Disposición 7 Consumo 8 Disposición 9 Morosidad Más Reciente en Tarjeta de Crédito Interna 10 Morosidad Más Reciente en Tarjeta de Crédito Externa 11 Morosidad Más Reciente en Crédito Automotriz 12 Morosidad Más Reciente en Préstamo Personal 13 Morosidad Más Reciente en Tarjeta Departamental 14 Morosidad Más Reciente en Tarjeta de Servicio 15 Importe de la Línea Externa 16 Saldo Vencido en Tarjeta de Crédito Externa. 17 Saldo Vencido en Auto Interno 18 Saldo Vencido de Préstamo Personal Interno 19 Saldo Vencido de Préstamo Personal Externo 20 Saldo Vencido de Hipotecario Externo 21 Saldo Vencido de Tarjeta Departamental 22 Saldo Vencido de Tarjeta de Servicio 23 Número de Créditos de Tipo Automotriz 24 Número de Créditos de Tipo Préstamo Personal 25 Número de Créditos de Tipo Hipotecario 26 Número de Tarjetas Departamentales 27 Número de Tarjetas de Servicio . . .. 1 abla 12. Variables elegidas por anúlts1s de correlación

A fin de reducir aún más la cantidad de variables, se observó adicionalmente que las

variables relativas a Saldo Vencido tienen una alta cantidad de instancias en valores por

defecto, indicando la ausencia de saldo (por no tener el cliente el producto o debido a que se

encuentra con buen comportamiento y por tanto no existe Saldo Vencido). Para estas variables

se decidió realizar un agrupado tomando la suma del Saldo Vencido, representando esto el

hecho de que el cliente tuviera Saldo Vencido en otro tipo de créditos.

Llegamos entonces a las siguientes variables que se ocuparon inicialmente para el

proceso de aprendizaje.

Número Variable 1 Importe de la Línea Interna 2 Saldo 3 Importe Pagado

Número Variable 4 Pago Mínimo 5 Meses a Ultima Compra 6 Meses a Ultima Disposición 7 Meses a Apertura 8 Meses a Incremento de la Línea 9 Consumo 10 Disposición 11 Morosidad Más Reciente en Tarjeta de Crédito Interna 12 Morosidad Más Reciente en Tarjeta de Crédito Externa 13 Morosidad Más Reciente en Crédito Automotriz Interno 14 Morosidad Más Reciente en Préstamo Personal Interno 15 Morosidad Más Reciente en Tarjeta Departamental 16 Morosidad Más Reciente en Tarjeta de Servicio 17 Importe de la Línea Externa 18 Saldo Vencido de Otros Créditos 19 Número de Créditos de Tipo Automotriz 20 Número de Créditos de Tipo Préstamos Personales 21 Número de Créditos de Tipo Hipotecario 22 Número de Tarjetas Departamentales 23 Número de Tarjetas de Servicio Tabla 13. Variables a utilizar en el proceso de aprendiziüe

El resumen final de cómo se fue reduciendo el número de variables en cada etapa del

proceso de selección de características es el siguiente:

1. Se inicia con tres fuentes de datos:

• Archivo mensual que resume las transacciones del crédito (Mensual), el

cual contiene 20 variables.

• Archivo diario con las transacciones realizadas por el cliente en relación

con un crédito (Diario), el cual contiene 12 variables.

• Archivo mensual con el comportamiento externo del cliente (Buró de

Crédito), el cual contiene 399 variables.

2. Se descarta el archivo Diario, quedando los archivos Mensual y Buró de Crédito.

3. Se descartan las variables innecesarias del Buró de Crédito (de acuerdo al

conocimiento del problema) y se agrupan las variables del Buró de Crédito. En este

punto el archivo de Buró de Crédito contiene 46 variables.

4. Del análisis de correlación se descartan las variables redundantes del archivo Mensual

y el de Buró de Crédito (quedando en total 27 variables de ambos archivos).

5. Se agrupa el Saldo Vencido de los diferentes productos en una sola variable Saldo

Vencido Otros. Esto da un total de 23 variables entre el archivo Mensual y el archivo

de Buró de Crédito.

6. Se descartan las variables de Cuentas Abiertas de los diferentes productos. Esto deja

un total de 18 variables. Este último paso se detalla aquí al ser parte del proceso de

selección de las variables; sin embargo, debe remarcarse que este último paso se

realizó una vez que se inició el proceso de aprendizaje ya que se detectó que la

variable no ayudaba al algoritmo de la red neuronal.

5.4 Reducción de instancias.

Hasta este momento se cuenta con una serie de variables que fueron seleccionadas para

participar en el proceso de aprendizaje. Aún quedan dos tareas por realizar con los datos:

reducir el conjunto de instancias a tin de hacer viable un proceso de aprendizaje (tamaño

adecuado de la muestra ya que originalmente se tienen más de dos millones de registros) y

realizar un pronóstico de variables. Esto último será discutido en una sección posterior, sin

embargo es importante señalarlo desde ahora porque la reducción de instancias permitirá

realizar el proceso de pronóstico con un número adecuado de instancias, de manera que el

tiempo de ejecución no represente un problema.

Para realizar la reducción de instancias, se generaron números aleatorios que siguen

una distribución uniforme mediante el paquete R 11, estos valores se asignaron a las instancias

de manera que se escogieron aleatoriamente las instancias. A fin de hacer una muestra

representativa se segmentó a la base en diferentes grupos tomándose un porcentaje de

registros de cada grupo.

Se consideraron los siguientes grupos:

l. Activas Regulares

2. Activas Irregulares

3. Activas Marcadas Malas

4. Inactivas

5. Inactivas Marcadas Malas

6. Pagos Vencidos

7. Incobrables

Partiendo del universo de las activas regulares se tomaron aproximadamente 10,000

cuentas en dicho estado.

El muestreo final de los diferentes grupos es como sigue:

11 R es un lenguaje y ambiente para computación estadística y grálicos. Es un proyecto GNU que provee una amplia variedad de estadística (modelado lineal y no lineal. pruebas estadísticas clásicas. análisis de series de tiempo. c/ustering. etc.) y técnicas gráficas. El lenguaje R se encuentra disponible de manera gratuita b,~o los términos de la Licencia Pública General de la Fundación de Solhrnre Libre (Free Soft1rnre Foundation).

Conteo Grupo Original % Original Conteo Muestra % Muestra

Activas Regulares 874,519 0.4 10,056.97 0.4

Activas Irregulares 263,777 0.12 3,033.44 0.12

Inactivas 701,075 0.32 8,062.36 0.32

Pagos Vencidos 76,795 0.04 883.14 0.04

Inactivas Malas 29,983 0.01 344.8 0.01

Activa Mala 119,234 0.05 1,371.19 0.05

Incobrables 111,724 0.05 1,284.83 0.05 Total 2,177,107 1 125.036. 73 1 rabia 14. Muestreo de datos

Para validar las muestras anteriores, se analizó mediante R, comparando el universo de

activas en dos grupos: Activas Regulares y Activas Irregulares. Para estos dos grupos se

comparó entre la población total del mes diciembre del 2007 y el muestreo realizado en R

(con la idea de verificar si los valores de medias y desviaciones estándar son parecidos en

ambas muestras); sólo se realizó para el grupo de Activas Regulares y Activas Irregulares

(con la idea de que son estos grupos los que presentan mayor cantidad de variables pobladas,

es decir diferentes a cero).

Los resultados obtenidos son los siguientes:

Media Media SD SD !Variación Variación ¡población muestra población muestra media SD

Línea 36,124 35,956 45,972 f45,564 168.04 408.11 Saldo 2,650 2,753 12,768 12,865 103.53 96.66 Pago Mínimo 155 160 750 675 -5.29 75.33 Pagado 2,141 2,081 10,164 8,588 60.02 1575.94 Interés 8 8 68 71 0.11 3.17 Consumo 1,125 1,170 6,597 6,240 -44.47 356.91 Disposición ~04 3"" ... J 2,209 5,396 -119.32 3187.86 Meses a Facturación ~ 4 13 13 -0.15 0.18 Meses a Compras f4 4 13 13 0.11 0.07 Meses a Disposición 9 10 31 33 0.93 2.05

Media Media SD SD Variación Variación población muestra población muestra media SD

Meses a Apertura 43 ~3 61 61 0.42 0.2 Meses a Incremento 22 22 31 32 0.51 1.06 Pagos Vencidos o o o o o 0.02 Importe Pagos Vencidos 28 18 585 287 10.66 298.22 Uso Línea o o 11 2 O.O! 9.22 Pago sobre mínimo 100 69 2,441 635 31.31 1,805.28 Número Cuentas Auto Kl o o o 0.01 0.04 Número Cuentas Préstamo Personal Kl o 1 1 O.O! O.O! Número Cuentas Hipotecario Kl o o o O.O! 0.02 Número Cuentas Tarjeta Departamental I 1 I I 0.02 O.O! Número Cuentas Tarjeta Servicio Kl o o o o 1-0.0l Morosidad Reciente Tarjeta Crédito Interna Kl o 4 3 0.08 0.75 Morosidad Reciente rrarjeta Crédito Externa I 2 10 11 0.3 i-0.68 Morosidad Reciente Auto Interna I 1

., 2 0.07 0.88 _,

Morosidad Reciente Auto Externa I I o o o 0.08 Morosidad Reciente Préstamo Personal Interna 1 I 3 3 0.06 0.64 Morosidad Reciente Préstamo Personal Externa I 1 o o o 0.31 Morosidad Reciente Hipotecario Interna 1 1 1 2 0.03 ~0.88 Morosidad Reciente Hipotecario Externa 1 I o o o 0.14 Morosidad Reciente Tarjeta Departamental o o 5 5 O.O! 0.09 Morosidad Reciente !Tarjeta Servicio 1 o 4 5 0.18 0.99 Línea Crédito Tarjeta Externa 65,018 64,590 143,646 141,126 427.25 2,519.54 Saldo Vencido Tarjeta Crédito Externa 575 580 7.468 6,232 5.18 1,235.82 Saldo Vencido Auto Interno 97 122 5,520 l3,855 24.21 1,664.19 Saldo Vencido Préstamo Personal Interno 181 152 10,647 l3,233 28.79 7,414.23 Saldo Vencido Préstamo Personal Externo 170 79 6,549 ~60 90.52 5,588.97 Saldo Vencido Hipoteca Externa 352 102 24,902 ~,707 250.01 22,194.98

Media Media SD SD !Variación Variación ooblación muestra población muestra media SD

Saldo Vencido Tarjeta Departamental 77 ~8 1,527 602 ~9.45 924.07 Saldo Vencido Tarjeta Servicio 49 108 2,509 3,621 58.98 1,111.96 Porcentaje Límite rrarjeta Crédito Externa 20 15 600 ~6 5.33 574.06 !Número De Cuentas C:on Pago Ta,jeta Interna o o o o o 0.01 Número De Cuentas C:on Pago Tarjeta Externa o o o o o 0.01 Número De Cuentas Con Pago Auto Interna o o o o o o !Número De Cuentas ton Pago Auto Externa o o o o o 0.01 Número De Cuentas Con Pago Préstamo Personal Interna o o o o o 0.02 Número De Cuentas Con Pago Préstamo Personal Externa o o o o o 0.02 Número De Cuentas Con Pago Hipoteca Interna o o o o o 0.01 !Número De Cuentas ton Pago Hipoteca Externa o o o o o K)

!Número De Cuentas ton Pago Tarjeta Departamental o o o o o o !Número De Cuentas ton Pago Tarjeta Servicio o o o o o 0.01 Peor Morosidad 12 Meses Auto Interna -1 -1 2 3 -0.04 0.74 Peor Morosidad 12 Meses Auto Externa -1 -1 3 3 .... 0.03 0.3 Peor Morosidad 12 Meses Préstamo Personal Interna o o 5 5 0.06 0.35 Peor Morosidad 12 Meses Préstamo Personal Externa o o 6 7 0.09 0.59 Peor Morosidad 12 Meses Hipoteca Interna -1 -1 1 o 0.01 0.42 Peor Morosidad 12 Meses Hipoteca Externa -1 -1 2

,., 0.07 1.59 .)

Peor Morosidad 12 o o 6 6 -0.14 0.96

Media Media SD 5D ~ariación Variación población muestra población muestra media SD

Meses Tarjeta Departamental Peor Morosidad 12 Meses Tarjeta Servicio 1 1 2 l1 0.03 0.26 Porcentaje Cuentas Uso Línea 3 3 14 13 K).08 0.49 Número Cuentas Con Mora Tipo 99 o o o K) K) 0.04 rrotal Pago Productos 10,234 5,264 2,035,145 18,444 ~970.5 2,016,700.87 Meses Mora Reciente 6 6 13 12 KJ.o 1 0.3 Calificación Crédito 614 617 217 ~12 3.51 4.3 Tabla 15. Comparación de Medias y desviaciones estándar entre la población y la muestra para el grupo Activas Irregulares

Media Media SD SD Variación Variación ¡población muestra población muestra media SD

Línea ~3,305 ~3,288 50,659 50,491 17.43 167.34 Saldo ~0,228 20,169 29,647 29.479 59.4 167.46 Pago Mínimo 1,097 1,085 1,630 1,680 12.85 49.56 Pagado ¡3,404 3,502 9,171 10,219 -97.96 1047.83 Interés ~54 ~50 714 693 3.74 21.31 Consumo ¡3,423 3,341 10,473 10,959 82.23 485.38 Disposición 919 933 4,429 4,441 14.08 12.04 Meses a Facturación I 1

,., 2 0.02 0.11 .)

Meses a Compras ~ 1 4 4 0.04 0.13 Meses a Disposición 5 5 19 18 0.28 1.59 Meses a Apertura l13 33 47 46 0.4 0.66 Meses a Incremento 14 13 13 12 0.14 1.09 Pagos Vencidos o o o o o 0.01 Importe Pagos Vencidos 5 3 135 72 l. 71 63.52 Uso Línea 1 1 o o o 0.01 Pago sobre mínimo 15 9 711 87 5.51 623.67 !Número Cuentas Auto K) o o o 0.01 0.02 !Número Cuentas Préstamo Personal 1 1 1 1 o o !Número Cuentas Hipotecario K) o o o o o !Número Cuentas Tarjeta Departamenta 1 1 1 I 1 o 0.02 Número Cuentas Tarjeta Servicio o o o o o -0.02 Morosidad Reciente Tarjeta Crédito Interna o o 4 5 0.06 0.31 Morosidad Reciente Taijeta Crédito Externa 2 2 11 11 0.02 0.04 Morosidad Reciente Auto Interna 1 ~I 3 3 o 0.01 Morosidad Reciente 1 ,_¡ o 1 -0.01 o-0.36

Media Media SD SD Variación !Variación población muestra ¡población muestra media SD

!Auto Externa Morosidad Reciente Préstamo Personal Interna o o 14 5 0.01 0.16 Morosidad Reciente Préstamo Personal Externa -1 -1 1 1 o 0.25 Morosidad Reciente Hipotecario Interna -1 -1 1 1 ... 0.01 0.27 Morosidad Reciente Hipotecario Externa -1 -1 o o o 0.09 Morosidad Reciente Tarjeta Departamental o o 6 6 0.05 0.12 Morosidad Reciente Tarjeta Servicio -1 -1 4 5 ... 0.02 0.25 Línea Crédito Tarjeta Externa 82,632 82,225 156,954 161,972 1407.03 5,018.34 Saldo Vencido Tarjeta K::rédito Externa 600 597 8,114 9,685 2.62 1,571.8 Saldo Vencido Auto Interno 53 51 2,182 1,903 2.52 278.7 Saldo Vencido Préstamo Personal Interno 180 166 3,900 2,441 13.96 1,458.74 Saldo Vencido Préstamo Personal Externo 481 365 202,071 10,764 115.91 191,306.77 Saldo Vencido Hipoteca Externa 492 286 36,381 17,447 206.26 18933.8 Saldo Vencido Tarjeta Depa11amental 106 93 1,571 941 13.01 629.59 Saldo Vencido Tarjeta Servicio 87 252 4,348 12,271 ... (64.52 ... 7922.84 Porcentaje Límite Tarjeta Crédito Externa 39 34 755 35 14.67 719.83 [Número De Cuentas Con Pago Tarjeta Interna o o o o o o IN úmero De Cuentas Con Pago Tarjeta Externa o o o o o 0.02 !Número De Cuentas Con Pago Auto Interna o o o o o o !Número De Cuentas Con Pago Auto Externa o o o o o o IN úmero De Cuentas Con Pago Préstamo Personal Interna o o o o o 0.02 !Número De Cuentas Con Pago Préstamo Personal Externa o o o o o 0.01 Número De Cuentas Con Pago Hipoteca Interna o o o o o o

Media Media SD SD iVariación Variación población muestra población muestra media SD

Número De Cuentas Con Pago Hipoteca Externa o o o o o 0.01 !Número De Cuentas Con Pago Tarjeta Departamental o o o o o o !Número De Cuentas Con Pago Tarjeta Servicio o o o o o o Peor Morosidad 12 Meses Auto Interna 1 -1 2 2 -0.01 >-0.2 Peor Morosidad 12 Meses Auto Externa 1 o " 4 -0.04 0.69 .)

Peor Morosidad 12 Meses Préstamo Personal Interna o o 5 5 o 0.09 Peor Morosidad 12 Meses Préstamo Personal Externa o o 7 7 -0.02 0.26 Peor Morosidad 12 Meses Hipoteca Interna 1 -1 1 o o 0.33 Peor Morosidad 12 Meses Hipoteca Externa 1 1 2 1 0.01 0.64 Peor Morosidad 12 Meses Tarjeta Departamental o o 5 5 0.04 0.44 Peor Morosidad 12 Meses Tarjeta Servicio 1 1 2 G -0.03 0.36 Porcentaje Cuentas Uso Línea 15 15 28 ~8 O. 19 0.19 Número Cuentas Con Mora Tipo 99 o o o 1 o 0.05 rrotal Pago Productos ~.121 9,147 61,138 37,995 25.76 23,143.66 Meses Mora Reciente 5 5 11 11 0.1 0.27 Calificación Crédito 672 672 104 106 0.69 -2.11 l ahla 16. Compnrac1ón de Medias y desv1ac1ones estándnr entre la población y la muestra para el grupo Activas Regulares

5.5 Generación de series de tiempo.

Uno de los problemas tradicionales cuando se trabaja con series de tiempo es la falta de

períodos suficientes para la ejecución del algoritmo requerido. En cuanto al proyecto aquí

planteado, los datos disponibles correspondieron a dos fuentes de datos, una de información

de carácter interno (la cual consistió en 18 períodos de tiempo) y la otra externa (con cinco

períodos de tiempo). Ambas muestras partían del mismo período inicial. Como se puede

observar, las fuentes de datos no comparten los mismos períodos.

Por tanto, se requirió disponer de al menos la misma cantidad de historia para ambas

series de tiempo ( 18 períodos). De esta manera el proceso de aprendizaje tomaría fuentes de

datos con la misma cantidad de períodos, de manera que se facilitaría el cruce de estos datos

para llevar a cabo el proceso.

Se requirió por tanto, generar 13 períodos adicionales para la fuente de datos externa.

Los algoritmos que se evaluaron para esta tarea fueron los siguientes:

• Suavizado exponencial

• Modelo ARIMA

• Media móvil

• Modelo en base a distribuciones de frecuencia.

Los primeros dos algoritmos se implementaron mediante el paquete estadístico R. Los

resultados generados no se adecuaron a las necesidades requeridas. El tercero y cuarto se

implementaron en Java utilizando una base de datos MySQL.

Dentro de las variables que se consideraron existen dos tipos diferentes (por la

naturaleza del dato); el primer tipo corresponde a variables de naturaleza continua, tal como

montos de saldos o importes de límites; el segundo tipo corresponde a variables de naturaleza

discreta, tal como meses a la morosidad más reciente de un tipo particular de crédito. Estos

últimos datos presentan una particularidad importante: en su mayoría se trata de valores con

un valor por defecto indicando la ausencia del dato. La mayor parte de los datos de la fuente

externa se refiere a variables discretas que miden los meses a un evento particular.

Se presenta en la Tabla 17 un ejemplo de variable de esta fuente externa del tipo

discreto, indicando la migración entre valores medidos en el promedio de los cinco períodos

de datos disponibles.

o 1 2 3 4 5 6 7 o 98.94% 1.02% 0.03% 0.01% 0% 0% 0% 0% 1 2.62% 95.04% 2.21% 0.11% 0% 0.01% 0% 0% 2 0.34% 4.32% 92.12% 3.05% 0.13% 0.05% 0% 0% 3 0.04% 0.55% 6.61% 88.86% 3.54% 0.32% 0.04% 0.04% 4 o 0.24% 1.31% 7.79% 85.84% 4.58% 0.24% 0% 5 o 0% 0.69% 1.40% 8.22% 87.27% 1.72% 0.69% 6 o 0% 0% 0% 4.75% 16.16% 74.41% 4.67% 7 o 0% 0% 0% 0% 0% 5.08% 94.92% Tabla 17. Migración histórica parcial <le variable <le comportamiento externo discreta para sus diferentes valores

En la Tabla 17 se muestra la estacionariedad de los datos para la variable de cuentas de

préstamos personales. Por ejemplo se observa que un 98.94% de los clientes sin cuentas de

este tipo en un período de tiempo t, seguirán sin cuentas del tipo en el período t+ l; mientras

tanto, 1.02% de los clientes sin cuentas de este tipo en el período t habrán adquirido una

cuenta del mismo tipo en el período t+ 1.

En la Tabla 18 se muestra información de migración para la misma variable de la

Tabla 17, pero esta vez referida a la distribución de los mismos porcentajes considerando una

medición con respecto a la tabla completa (y no con respecto al porcentaje de cuentas que

migran de un valor x en el tiempo ta los diferentes valores y 1, _v2 .... y,, en un tiempo t+ 1).

o I 2 3 4 5 6 7

o 64.29% 0.67% 0.02% 0.00% 0.00% 0.00% 0.00% 0.00%

I 0.59% 21.35% 0.50% 0.02% 0.00% 0.00% 0.00% 0.00%

2 0.03% 0.37% 7.89% 0.26% 0.01% 0.00% 0.00% 0.00%

3 0.00% 0.01% 0.18% 2.42% 0.10% 0.01% 0.00% 0.00%

4 0.00% 0.00% 0.01% 0.07% 0.77% 0.04% 0.00% 0.00%

5 0.00% 0.00% 0.00% 0.00% 0.03% 0.27% 0.01% 0.00%

6 0.00% 0.00% 0.00% 0.00% 0.00% 0.01% 0.03% 0.00% 7 0.00% 0.00% 0.00% 0.00% 0.00% 0.00% 0.00% 0.02%

Tabla 18. Migración histórica total de variable de comportamiento externo discreta para sus diferentes valores

Un ejemplo de interpretación de la Tabla 18 es el siguiente: un 64.29% del total de

cuentas bajo análisis no tiene cuentas de Préstamo Personal en el período I y continuará así

para el siguiente período t+ l.

Analizando las tablas 17 y 18 podemos apreciar:

1. Existe estacionariedad en los datos porque partiendo del tiempo I, el siguiente período

mantiene en un alto porcentaje el mismo valor de la variable.

2. Existen algunos valores en que se refleja mayor variación (por ejemplo el 74.41 %

mostrado en la Tabla 17, correspondiente a pasar de 6 cuentas del tipo en el período ta

6 cuentas en t+ 1, lo que nos lleva a que existe casi un 25% de cuentas que se mueven

en otros valores); sin embargo en la Tabla 18 bajo análisis se muestra también que

sólo un 0.03% del universo total presentan movimientos de un valor de 6, en el tiempo

t, a 6, en el tiempo t+ l.

No se muestran las demás variables utilizadas; sin embargo, es de remarcar que este

tipo de variables presenta una alta estacionariedad. Los resultados de procesos de estimación

de series de tiempo utilizando los algoritmos de Suavizado exponencial y ARIMA para este

tipo de variables resultaron en la generación del mismo valor para los períodos subsecuentes.

Si bien es de notarse que no debe existir un alto cambio en la migración, si fue notorio que los

algoritmos planteados no proporcionaban variación significativa en los datos.

Otra dificultad con los métodos de ARIMA y Suavizado exponencial es que para

variables no discretas (ejemplo el Saldo Vencido o el importe de la Línea de Crédito),

elevaban muchos los estimados de los datos. Las Tablas 19 y 20 muestran los resultados de

estas dos variables; los primeros cinco períodos corresponden a datos reales mientras que los

restantes corresponden a la salida estimada proporcionada por el algoritmo ARIMA.

[ Perí_od_o _____ lMedia _Desviad~ estándar

120?7 I ~ _ J5.~_5_E_+o_o4 __ -~-1._J2_294J_e+o?_

1200801 ¡5.739818e+04 1.273675e+05

~~~-:6i- l::i:;~::04 ··~-::~:i~i~::~:-200804 -----

[200!05 __ •-

• 200806

l6.I96783e+04 · l .348094e+05-

l 9.6393 l 6e+04 l .5788 l 2e+05 ---- ---------

9.659681 e+04 1.585749e+05

/_20-080_7_--_-_-=-- - 9-.697_--3_1_4_e_+-=-0-4_ -_ ---1=.59_4_2=-49~i-=-05~--=---- =-Tabla 19. Análisis de media~ y desviaciones estándar de la variable Importe de fa Línea Externa.

1Período ---- -- ¡ Media ! Desviación estándar

'. 200712 l[ 2.~2_~0~7e_:':03__ l l_l~l 398e+O~

1200801 .2.105752e+03 l 1.875447e+04

\ 200802 t2.680882e+03 l 2.219256e+04

[ 200803-- - - ¡ 2. 919620e+03 i 2~302056-;+04-I -- - ---- -, ----- - -, - - --- ---. 200804 j 3.09422 le+OJ ¡ 2.369562e+04

! 200805- f l .418274e+04 ---14.880-536~~04 -

1 200806

i200807

! l .493445e+04 j__s.1102 l 8e+04

1 l.578172e+04 l5_J79959e+04 --- - ------·------- - ---

Tabla 20. Amílisis de medias y desviaciones estándar de la variable Saldo 1 ·e11cido de Créditos Externos.

Lo anterior significaba que un proceso de predicción para las series de tiempo bajo

estos algoritmos no ayudaba (si bien es poca la variación en muchas de las variables, en las

tablas 17 y 18 se muestra que si debe existir un porcentaje de variación).

En las figuras 14 a la 18 se muestran de manera gráfica los resultados del proceso de

predicción para el modelo ARIMA (para algunas variables). Se marca en un color más claro

el período 18 en todas las gráficas, esto se hace para ilustrar el último período de datos reales

ya que a partir del período 19 los valores corresponden al pronóstico realizado.

'::~ 1111 1

111111111111111111 II 1 3 5 7 9 11 13 15 17 19 21 23 25 27 29 31 33 35 37 39 41 43 45 47 49 51 53 55 57 59 61 63 65 67 69 71

Figura 14. l'ronústico para la \ariablc Soldo por el método ARIMA

lmpor1e pagado

111111111111111111111111111111111111111111111111111111 1 3 5 7 9 11 13 15 17 19 21 23 25 27 29 31 33 35 37 39 41 43 45 47 49 51 53 55 57 59 61 63 65 67 69 71

Figura 15. l'ronústico para la variable l111por1e l'ugodo por el método i\RIM;\

,ooo ]500

1 mpor1e pago mimmo

1t111111111lllllll 111111111111111111 11111

1 3 5 7 9 11 13 15 17 19 21 23 25 27 29 31 33 35 37 39 41 43 45 47 49 51 53 55 57 59 61 63 65 67 69 71

Figura 16. l'ronústico para la variable l111porte del Pago .\li11i1110 por el método /\RIMA

:: 25CO

-: 2000

F acturacion

111111111111111111111111111111111111111111111111111111 1 3 5 7 9 11 13 15 17 19 21 23 25 27 29 31 33 35 37 39 41 43 45 47 49 51 53 55 57 59 61 63 65 67 69 71

Figura 17. Pronóstico para la \ariablc Foc111rnció11 por el método i\RIM;\

Meses Ultima Disposicion

JIIIIIIII 1111111111111111111111111111111111111111111111 1 3 5 7 9 11 13 15 17 19 21 23 25 27 29 31 33 35 37 39 41 43 45 47 49 51 53 55 57 59 61 63 65 67 69 71

Figura 18. Pronóstico para la variable .\!eses a Ú/1i111a Disposición por d método J\RIMJ\

Como se observa de las Figuras 14 a la 18, este método de pronóstico en algunos casos

crecía demasiado los valores y en otros prácticamente no generaba variación.

Se programó un algoritmo de media móvil tomando diferentes períodos para generar la

media, utilizando dos tipos diferentes de período para el cálculo de la media, tres y seis meses.

El algoritmo sirve para aplicarlo a variables del tipo continuo pero en el caso de las discretas,

al realizarse un promedio, ocurre la misma situación que en el caso de los algoritmos

anteriores.

5.5.1 Estimación de datos mediante algoritmo basado en frecuencias.

A fin de realizar el proceso de estimación de variables (generando los 13 períodos faltantes

para la información de comportamiento externo), y posteriormente generando las series de

tiempo hasta llegar a 40 períodos, se utilizó un algoritmo propio que se basó en la idea de

generar cuantiles estadísticos e ir midiendo la tasa de migración entre períodos para los

diferentes cuantiles. Con base en la distribución de frecuencia se generaba el siguiente

período y se ajustaban nuevamente las frecuencias. El proceso fue dividido en dos partes, una

primera enfocada a los datos del tipo transaccional y la otra enfocada a los datos de

compor1amiento externo.

Para los datos de carácter transaccional se tomaron los tres últimos meses con

información real (de marzo del 2009 a mayo del mismo año). Se observó un problema durante

la generación de los datos, como en algunas variables de la muestra existen valores

extraordinariamente altos (los cuales son atípicos del conjunto), el hecho de usar

distribuciones de frecuencia mediante cuantiles provocaba que el portafolio de créditos en su

generación de series de tiempo creciera demasiado, provocando medias superiores al

comportamiento real del portafolio. A fin de evitar este problema se escogió que el último

cuantil que debía llegar hasta un porcentaje máximo del total ordenado de los créditos. Esto

garantizaba que el portafolio no creciera de manera extraordinaria con cada generación del

período correspondiente. Adicionalmente se notó que ayudaba el hecho de generar los

prnneros períodos con este porcentaje y posteriormente mover el criterio al 100% de los

datos.

Se obtuvieron los cuantiles con las siguientes características:

Variable

Límite Crédito

Importe Pagado

Saldo Corte

Facturacion

Meses Ultima Compra -------- -----

Meses Ultima Disposición

Meses Apertura

Meses Incremento

Uso Línea

___ ~ % ~uperior del _'Íltin10 cuantil _

-+~95 __ ¡0.95

i0.95 --~·---

_ --=jo.95 ______________ _ ¡ 0.95

--- 10.95--- ·---

Importe Pago Mínimo ----- --~~

--1 ~I

Tabla 21. Máximo porcentaje para el último cuantil generado para variables transaccionales

Información del comportamiento.

Se tomaron las siguientes variables:

• Identificador del Crédito

• Período de Datos

• Morosidad Más Reciente en Tarjeta de Crédito Interna

• Morosidad Más Reciente en Tarjeta de Crédito Externa

• Morosidad Más Reciente en Crédito de Automóvil

• Morosidad Más Reciente en Préstamo Personal Interno

• Morosidad Más Reciente en Tarjeta Departamental

• Morosidad Más Reciente en Tarjeta de Servicio

• Importe de Línea de Crédito Externa

• Saldo Vencido de Otros Créditos

Se consideraron los tres últimos meses con información real (de 200802 a 200804).

1 Variable

, Morosidad Más Reciente en · Tarjeta de Crédito Interna ---- ------ ---

! Morosidad Más Reciente en Tarjeta de Crédito Externa

f- ----- ---- -- -----

i Morosidad Más Reciente en 1

1 Crédito de_ Automóvi 1 __

~ Morosidad Más Reciente en Préstamo Personal Interno

1 Morosidad Más Reciente en Tarjeta Departamental

1 - - --- -- - --

! Morosidad Más Reciente en ; Tarjeta de Servicio f-- --- - - --Importe de Línea de Crédito Externa

--- --

1 % Superior del último cuantil

¡ -- -¡· ------- -

Saldo Vencido de Otros Créditos 0.95 ------------

Tabla 22. Acotamiento superior del último cuantil para variables de comportamiento externo.

Con base en la distribución de frecuencias de los cuantiles se obtuvieron las

probabilidades de cambiar del penúltimo al último mes (200904 a 200905 para información

transaccional y, 200803 a 200804 para información de comportamiento).

Mes a mes se van generando los datos de manera aleatoria siguiendo los valores de

frecuencias obtenidos del conteo del mes en cuestión multiplicado por el valor de frecuencia

esperado.

Se muestran a continuación (Figuras 19 a la 25), los resultados obtenidos para algunas

de las variables en forma gráfica. Los primeros 18 períodos de datos corresponden a

información real, los períodos siguientes representan el pronóstico. Nótese que en las Figuras

19 a la 25 el período 18 se muestra en un color diferente, esto se hizo con el propósito de

ilustrar cuál fue el último período de datos reales, esto es, a partir del período 19 los valores

mostrados corresponden al pronóstico realizado.

;~ 11111111111111111111111111111111111111111111111 9 11 13 15 17 19 21 23 25 27 29 31 33 35 37 39 41 43 45 47 49 51 53

figura 19. Pronóstico rara la \ariahlc Sale/o ror el método basado en frecuencias.

Facluracion

;~ 111 . 1111111111 11111111111111111111111111111111111

Figura 20. Pronóstico para la Yariablc Fac111raci<Í11 (Compras mas /)isposiciones) por el método basado en frecuencias.

lmpor1e pagado

~ 11 . 1 1 fü11111111111111111111 1 3 5 7 9 11 13 15 17 19 21 23 25 27 29 31 33 35 37 39 41 43 45 47 49 51 53

Figura 21. Pronóstico para la \ arinblc /111por1e l'ugado por el método basado en l'recuencias.

Importe pago mínimo

!11111111111111111 1111111111111111111111111111111 1 1 3 5 7 9 11 13 15 17 19 21 23 25 27 29 31 33 35 37 39 41 43 45 47 49 51 53

Figura 22. Pronóstico para la\ ariable !111por/e del l'ago .\lí11i1110 por el método basado en rn::cuencias.

Consumos

~ 1 1 '11111 11 11111111111111111111111111111111111 1 3 5 7 9 11 13 15 17 19 21 23 25 27 29 31 33 35 37 39 41 43 -15 47 49 51 53

Figura 23. Pronóstico para la rnriable Co11.1·111110 por el método basado rn frecuencias.

Disposiciones

11111111111111111, 1111111111111111111111111111111 1 3 5 7 9 11 13 15 17 19 21 23 25 27 29 31 33 35 37 39 41 43 45 47 49 51 53

Figura 24. l'ronóstico para la variahlc Disposición pur el 111.:todo basado en frecuencias.

Meses Incremento

~1111111111111111111111111111111111111111111111111111 3 5 7 9 11 13 15 17 19 21 23 25 27 29 31 33 35 37 39 41 43 45 47 49 51 53

Figura 25. l'ronóstico para la variablé ,\lese.1· o lncre111en/o por el 111.:todo hasado en frecuencias.

5.6 Proceso de aprendizaje.

5.6.1 Selección de algoritmos para el aprendizaje.

Se trab,~jó con dos algoritmos para el proceso de aprendizaje: redes neuronales y redes

bayesianas. La selección del primer algoritmo ya fue planteada en el Capítulo sobre la

metodología: como fue mencionado se tomó en cuenta su sencillez y el hecho de que facilita

el proceso de ajuste del aprendizaje a través de parámetros de la red misma (tal como la tasa

de aprendizaje). Sin embargo, también se reconoce que el algoritmo funciona como una caja

negra en la que ingresan variables y arroja un resultado (lo que puede hacer difícil la

interpretación). Adicional a esto surgió la inquietud de considerar el proceso de incertidumbre

que es natural a todo proceso de calificación de crédito.

Dentro de las redes neuronales existen métodos para incorporar procesos de

incertidumbre; sin embargo, se decidió tomar a las redes bayesianas debido a la sencillez del

algoritmo para representar los procesos de negocio (en este caso la calificación de crédito), el

hecho de que se comporta como una caja blanca en que es fácil interpretar la estructura de la

red y que facilita la generación de valores "grises" en los que es posible someter al juicio del

analista el hecho de si acepta o no un crédito como cumplido, es decir, es posible asociar una

probabilidad de que el cliente sea cumplido.

5.6.2 Resultados de las pruebas efectuadas con la Red Bayesiana.

La interpretación de la sensibilidad, aplicada al problema de clasificación de crédito, se

explica como el porcentaje de clientes morosos que son bien clasificados como tales, es decir

los clientes morosos que son clasificados como morosos.

Por otro lado, la especificidad se entiende como el porcentaje de clientes cumplidos en

su pago bien clasificados, es decir el porcentaje de exactitud para que un cliente que cumplió

con el pago sea bien clasificado como cumplido.

Un cliente cumplido se definió como una persona que en un período de tiempo tuvo

pagos cuya suma es al menos igual al monto mínimo que se le exige, esto quiere decir que no

necesariamente se debe liquidar el monto total del adeudo en un período específico. El

importe de los pagos en el período puede ser cero, sin caer en condición de mora, si es que se

específica un monto del pago mínimo igual a cero.

En una Red Bayesiana se puede presentar como evidencia una serie de valores

correspondientes a las variables de la red y, con base en esta evidencia estimar alguna(s)

otra(s) variable(s), en el caso de la Red Bayesiana planteada se incluyen las variables de

Importe Pagado e Importe del Pago Mínimo. Sin embargo, tomar como evidencia ambas

variables no tiene un significado práctico para el problema de clasificación de crédito

planteado dado que es en función de esas dos variables que se definió la morosidad.

Se analizaron por tanto los siguientes tres casos, indicando la ausencia de una o las dos

variables que definen a la mora:

1. Se incluye en la evidencia el Importe Pagado en el período bajo análisis

2. Se incluye en la evidencia el Importe del Pago Mínimo requerido en el período bajo

análisis.

3. No se incluye en la evidencia el Importe Pagado 111 el Importe del Pago Mínimo

requerido.

La herramienta utilizada para la Red Bayesiana fue Elvira 12; se implementó una serie

de clases en Java que se conectan a una base de datos en MySQL para obtener la evidencia y

las distribuciones de frecuencia de las diferentes variables, mediante el uso de las API de

Elvira (Java) se invocaba el algoritmo de aprendizaje de la Red Bayesiana. El mecanismo

utilizado para reducir la dimensionalidad de las tablas de probabilidad conjunta correspondió

a la Eliminación de Variables (lo cual es un algoritmo implementado por Elvira). La Red

Bayesiana fue del tipo discreto, se generaron los rangos de cada variable mediante un

algoritmo de cuantiles (lo cual fue dinámico para cada nuevo período que se le presentaba a la

Red Bayesiana). La Red Bayesiana fue dinámica (una de las variables de evidencia fue la

Mora del Período Anterior - la cual es una variable que estima la Red Bayesiana).

le La púgina del sitio en que se puede encontrar mayor información sobre el proyecto El vira es: htt p://,vw,1. ia. u ned.cs/i n vest ig/proycctos/el vira/

La Red Bayesiana planteada inició en el primer período sin contar con información

sobre la morosidad anterior. Esto corresponde a la Figura 9. A partir del segundo período ya

se cuenta con información de la morosidad previa, por lo que la Red Bayesiana añade un nodo

a la estructura de la red; el nuevo nodo contiene la morosidad del período anterior, la cual

corresponde a la salida de la Red Bayesiana en la variable Morosidad en una corrida previa.

La Figura 26 muestra la estructura de la Red Bayesiana a paitir del segundo período:

meses_ult_compra meses_ult_disp

meses_incr

ORA_MES_REC_TDC_MO AYOR_MORA_OTROS

Figura 26. Red Bayesiana para el proceso de calificación de crédito cuando se incluye información de la morosidad anterior.

La estructura de la Red Bayesiana fue desarrollada de acuerdo a la experiencia en el

tema del proceso de crédito. Se aprecia que los Meses a la [}/tima Compra

("meses_ult_compra") tienen influencia en el Consumo ("imp_tot_cons"); los lvfeses a la

Última Disposición ("meses_ult_disp") afectan las Disposiciones ("imp_disp'"); los Meses al

Último Incremento de la línea ("meses_incr") influyen en el Consumo y la Disposicián. El

Importe de la línea ele Crédito, tanto interna ("imp_lim_cred"'), como externa

("IMP _LIM_CRED_ TDC_OO'') afectan al Consumo y la Di.\posición. Estas últimas dos

variables influyen en el Saldo ("sdo_corte"). El Saldo influye en el Monto del Pago Mínimo

requerido ("imp _pag_m in"). Esta ú !tima variable influye en la Morosidad Actual

("MORA_ACT'), lo mismo que lo hacen el Saldo Vencido Externo ("SDO_ VEN_OTR"), la

Morosidad del Período Anterior ("MORA_ANT") y el Importe Pagado ("imp_pagado").

Finalmente, la Morosidad Más Reciente en la Tarjeta de Crédito Interna

("MORA_MES_REC_TDC_MO'") y la Morosidad Más Reciente de Otros Créditos

("MAYOR_MORA_OTROS'') influyen en el Importe Pagado.

Las características utilizadas por la Red Bayesiana fueron las mismas que las

empleadas por la Red Neuronal (también planteada en este Capítulo). La única diferencia

estribo en que en este caso todas las variables son discretas y que la variable

·'MAYOR_MORA_OTROS'' conjuntó las diferentes variables de morosidad de productos

con la excepción de la Moro en Tarjeta ele Crédito interna (la cual siguió separada). La razón

para esta conjunción es que la Tabla de Probabilidad Condicional para el nodo Mora crecía

mucho usando todas las variables, lo que dificultó el proceso de aprendizaje.

5.6.2.1 Caso l. Exclusión de la variable Importe Pagado como evidencia.

Se incluyeron todas las variables de la Red Bayesiana como evidencia con la excepción del

comportamiento de pagos en el período actual (Importe Pagado) y la morosidad actual (la

cual corresponde a la variable que se desea estimar).

La Morosidad ele la Cuenta en el Período Anterior es una variable que se incluye

como evidencia a partir del segundo período de análisis (en el primer período no existe un

estimado de morosidad para un período previo). Los resultados generados para esta ejecución

son los mostrados en las Tablas 23 y 24.

Estimado

1 Moroso (1) Cumplido (O)

real Cumplido (O) 21,368 1 1 ¡ 8,882

- - 1 Moroso (1) 7,116 -~,686 ! -

Tabla 23. Matriz de confusión de Red Baycsiana - exclusión de evidencia de importe pagado

Sensibilidad Especificidad Exactitud

68.72% 70.63% 69.84% Tabla 24. Resultados de Red Bayesiana - exclusión de evidencia de importe pagado

La Tabla 24 muestra que la Red Bayesiana es capaz de detectar adecuadamente un

68.72% de los clientes morosos y un 70.63% a los clientes cumplidos. En promedio la

exactitud de la red para predecir es de un 69.84%.

Un análisis por mes de los resultados es el siguiente:

r------- i --- --- - - ----- - - --~ 1

t----M_e_s ----+1 _S_en_s_ib_i_li_d_ad __ -t-_E_sp_e_c_ificida~ _ ____ 1 Exactitud J

11200712 i27.46% 82.57% 170.41% !

1 i l ¡200801 121.08% ___ __ 1_~2_._8 _10Jc_º __________ L~i-~~- __ _ 1 1200802 i 28.11 % 82.81 % 1 70.87% !- ----- ---j·--------- ------- -- -- -- ---- ---'···------------ J

l200803 1~ _ _7_2_!_% _ 83.07% _____ _______ i70.51%

! 200804 l 26.85% 84.90% : 70.88% I ______ - · - ·· '··---- ---- --·---·------ - · ·- ----- - - - - -- -

r 200805 7 30.67% 82.75% 1 69.82% ,------------ ·----- - - - --------- _¡ ____ _ _ 200806 133.25% 184.77% - --- ---- ~ 1.74%

! 200807 130.68% . 85. 17% 1 72.01 % --- - --1- --~

; 200808 \ 33.52% 84.66% ; 72.34% i ;-1 ------l---------- - - --------------¡ --- _ _ ! ' 200809 [ 32.50% 85.06% ¡ 71.14%

'-¡2_0_0_8_10 _ ____ -p.~2_2_o/c_o_ _ 86.08% :71.94% ----¡ ; 200811 45 .31 % -l so3oo/:- ----- - - - :68. 70% f - ---- - -!-------;200812 [34.54% :83.70% - ----=- -- :71.08% _ __ : ' - - - - ---- !-

86.38% ¡ 73.20% j ------· - - --- - j_ --- ----- -- - - ·

·200901 136.82% [ ___ :200902 ¡41.04% 87.30% 1 74.32% 1

200903 ~-:s 1 % ------+--

84.65% ,72.07% ---+

' 200904 159.51%

;200905 :s8.77%

70.70%

71.64%

J67.04% ------~ \66.25% L-.---

200906

200907

200908

200909

200910

200911

200912

201001

201002

201003

201004

201005

201006

201007

201008

Sensibilidad ---------

65.51% --- -------

81.10% ----- ----

83.59% ---- - ------ ---

85.83% --- - -

85.85% -------

86.33% ----

83.58% ---------- ----------

83.95%

81.36%

88.96%

86.13% ----- ---- ---

84.82%

84.24% --·-- ---

81.89% -- -- --- ---------

80.00%

Especificidad ----·--

54.75%

47.41 %

48.34% ----

51.25% -

55.27% ------------

53.53% -- --- --

50.78% ---- - .. -----

51.09%

50.09%

35.40%

41.48% - ------

44.75% --- -

47.69% --

45.19% ----------

45.98%

- -~~u_d -----, ¡61.09%

-------1

_6~._17%

70.95% -- . ---

73.06% -

174.72% -- -

74.32%

71.01%

69.29%

67.84%

68.10% --------

¡68.17%

69.03%

66.25% --- --- --

65.45%

~~:~~~- ~iil~ >~ I~¾~:~--~- -~ :::!~ --Tabla 25. Desglose mensual de los resultados de Red Bayesiana - exclusión de evidencia de /111por1e Pagado

5.6.2.2 Caso 2. Exclusión de la variable Importe del Pago Mínimo como evidencia.

Pago Mínimo que se debe cubrir en el período actual y la Morosidad Actual (la cual

corresponde a la variable que se desea estimar).

Al igual que en el primer caso analizado, la Morosidad de la Cuenta en el Período

Anterior es una variable que se incluye como evidencia a partir del segundo período de

análisis.

Los resultados generados para esta ejecución son los mostrados en las Tablas 26 y 27.

1 Estimado 1 1

1 Cumplido Moroso

lRe~ lc~mplido 25,919 4,331

i Moroso j 5,952 16,850 ·1 abla 26. Matriz de conlus1ón de Red Bayesiana - exclusión de ev1denc1a de Pago Mínimo

73.89% 85.68% 80.61% Tabla 27. Resultados de Red Bayesiana - exclusión de evidencia de Pago Mínimo

exactitud de la red para predecir es de 80.61 %.

Mes j Sensibilidad Especificidad Exactitud -----~---------~---------<

i~~:ci~i0:- -. -+-i :-:-:º-7;-:-:--------+-:-:-:~-:-:-:-200802 l29.88%- -- -- 96.20% 81.72%

1 ------------ -- •-----·- -

200803 1 30.57% 96.56% 7-- -------------...-----

200804 :25.21% 98.60% -_l ---------

200805 130.40% 97.27%

200806 128.53% 94.60%

1200807 1

•26.03% 97.38%

1200808 ;24.73% 97.38%

j32.25% 97.39% 200809 1

!200810 !39.32% 95.00%

/200811 : 51.70% 1 90.89% 1 --- --- --, ----- -

i200812 39.43% 199.64% ¡---- - _J_

200901 60.20% ¡95.31% - -- ------ ···- ----~-

200902 64.62% _ _ __189. 79%

·--- --- -- ~~-??% ____ I

80.87% ~ 80.68% !

_____ _J

: 77.90% 1

180.15% 1

] 79.88%

!so.is% 1

¡79.81% --~

i77.90% 1

:84.18%

• 85.97%

. 82.73%

--- - ----- - ----- -- - - -- --- --- ----- 7

Especificidad Exactitud __ --~

89.23% 82.93% - -1

91.05% ------ 72-~3~~-----~ 71.87% 69.76% 1

Mes Sensibilidad

200903 -68.61%

200904 49.39% . - --- - --- -----200905 66.82%

200906 88.65% 63.29% . 78.23% 1 200907

- - - ---- -----, ·88.72% 65.17% 79.68% 1

------- --- - -- - - - - --+-- -- - - - - -- ---- - - --- ----! 200908 87.41% 71.22% 81.60% 1

-- - -- ------ ---- - 1 88.46% - - 164.87% -- - -- --- - --,79.75% ____ 7 200909 ·-- -----~ - --- - --- - - li ~ --- --- -- ---- - -----_, __ ___ - - -- -,

20091 o 86.37% 164.00% ¡ 78.23% 1

200911 85.28% 65.64% ¡ 78.09% . --------- -----/------7 200912 89.91% 64.25% 180.08% i

201001 92.03% l56.30% 77.96% 1

2-01002- - - -- -8i44o/:------·¡ 64~67%- - --- - - - - - - -- - 79.88%----~-¡ 201003--- -~37%_ __ ¡66.28% - -- - - - -- 81 .47%- - - ---- · - - - - - - ·-·-- ---;- -- - - ----- - - -· - -201004 84.46% 177.54% 81.67%

}}~~!;= -~-:!;~- - ~:~~~~-= ~~~==- ¼~_:J~_ --j 201007 86.97% 73.29% 81.14% i

201008

201009

87.17%

88.86%

75.08%

76.88%

82.00%

83 .79%

_7=_~-'~'-°-- _ ·-· 90.63% 73 .~5!~-- --__ -- _ _ -- _ _j ~~~9~ _ _J Tahla 28 . Desglose mensual de resultados de Red Bayesiana - exclusión de evidencia de Pago Mínimo

5.6.2.3 Caso 3. Exclusión de la variable Importe del Pago Mínimo e Importe Pagado como evidencia.

Pago Mínimo que se debe cubrir en el período actual, el Comportamiento de Pagos y la

Morosidad Actual (la cual corresponde a la variable que se desea estimar).

Al igual que en el caso 1, la Morosidad de la Cuenta en el Período Anterior es una

variable que se incluye como evidencia a partir del segundo período de análisis. Los

resultados generados para esta ejecución son los mostrados en las Tablas 29 y 30.

,-----1 Estimado

1 Cumplido \ Moroso F-~· ¡cumplido= 17,437 ]12,813

¡_ oroso 5,821 J 16,981 ·--

----~-------------------·~

Tabla 29. Matriz de confusión de Red Baycsiana - exclusión de evidencia de Pago Mínimo e Importe Pagado

74.47% 57.64% 64.87% Tabla 30. Resultados de Red Bayesiana - exclusión de ev1denc1a de Pago Mínimo e Importe Pagado

exactitud de la red para predecir es de 64.87%.

\Mes -

Sensibilidad ··-- - -·-

----·- ··-- -,---- ---·· -¡

__ E~pecifiddad i Exactitud !

1200712 21.39% : --------------

r??~ 22.62% f.--- -----f0802 24.85%

200803 26.29% ---·-- ----1 200804 12.05%

Goo8os-~--- -

21.33% i

1200806 31.41%

1200807 29.32%

\200808 30.22%

83.31 % 69.64% '

110.10% ----~----·

83.22%

--~)~% __ __;9.38% __ j; 82.06% ! 69.4 I %

--··-- --··------ ·-· -

94.85% . 74.85% 1

-- :: !:t :~ = I~~ :!t · -1 --~----·~

83.94% ¡ 70.75%

83.70% 1

'70.81%

----¡

---···

:200809 27.75% . -

1200810 30.10% ------------

1_200811 35.93% -----

200812 28.35% - ·--·

1 200901 30.35% '--

¡200902 30.90% ·---·

82.46%

83.86%

i68.56%

69.62%

82.70% 68 17% -··------·-j .

Mes -!Sen~ibHid;d - Especificidad i Exactitud------.

200903. 133.98%~ ~-, 80.74% __ ¡ 66.45% - .. '

200904 148. 79% ! 71.19% '63.86% 200905 · 54.50% ----- bo~o5% - : 63-~53_%

200906 !6820% · ·=._j4L38%]57.is% ~ ·

200907 , 78.84%

7.24_% ~- "[62.8~% ..

200908 ! 82.25% 32.10% • 64.26% ----------- --- ------ ---- -----

200909 • 93.39% 14.87% • 64.39% •- - ------- --------- ~-- ---- 1

200910 ·195.63% j 11.27% 164.92% 1'

2009_1 l_¡ 97.~~- __ l 5.97% -- ~: 6_4_.2_0_o/c_o ----,

200912 199.79% 10.86% 161.88% :

~~ 1001-+1-~._oo_o/c_o - - 10.1 7% - ,6_0_.6_9% -- --~J 201002 : 100.00% 0.17% ,61.48% !

--== +60-.8-2°-1/o

. 59.70%

201003 ¡ 99.89% i 0.84%

2010()4 [ 1ºººº% Iº 16%

201005 100.00% 0.00% - -- ----- --------------

201006 ~ 99.89~0 __ 10. I 6% --

201007 ¡ 100.0~% 10.4 7%

- ---·- ---

. 58.44%

158.37%

57.58% ---------

201008 100.00% • 0.46% . 57 45% 1

201009 1·99.31 %-- 11.12% ---- ---- --

57.97% -- - --'- -- ----- -

201010 99.53% 0.75% 55.86% . - ___ ...______ --- -- ---- J

Tabla 31. Desglose mensual de resultados de Red Bayesiana - exclusión de evidencia de Pago .\línimo e lmporre Pagado

5.6.3 Resultados ele las pruebas efectuadas con la red neuronal.

La red desarrollada consistió en una arquitectura de retropropagación del gradiente. El

algoritmo completo fue desarrollado en lenguaje Java y la base de datos usada fue MySQL.

Con la implementación de este algoritmo surgió la necesidad de extender la historia

disponible ya que 18 períodos de datos resultaron insuficientes para el proceso de

entrenamiento. Como ya fue mencionado, se tomaron dos fuentes de datos, una conteniendo

18 períodos y la otra conteniendo cinco. Esta disparidad requirió realizar un pronóstico para

igualar ambas fuentes de datos. Cuando se inició el entrenamiento de la Red Neuronal con

estos 18 períodos se notó que no eran datos suficientes para entrenamiento (las tasas de

exactitud, sensibilidad y especificidad eran bajas); la red predecía muy bien un grupo

(morosos/ cumplidos) pero el otro era prácticamente mal detectado (es decir todo el universo

era prácticamente clasificado como bueno o todo era clasificado como malo).

Otro aspecto importante es que se requirió un ajuste en la dimensión de las diferentes

variables. Al usarse una función sigmoidal como función de activación de la red, el presentar

valores muy grandes (por ejemplo los saldos que se miden en miles de pesos) o muy pequeños

(como el porcentaje de línea usado el cual puede ser prácticamente cero), provocaba que la

red no fuera capaz de ajustar su salida al objetivo planteado (un número decimal entre O y 1 ).

Se requirió entonces ajustar los valores de este tipo de variables dividiendo entre una

constante aplicada a todas las instancias; se probó con números como 1 O, 100, 1,000 y 10,000,

encontrándose que un factor de 1,000 favorecía al proceso de entrenamiento al hacer que la

red tuviera un mejor ajuste de pesos (ya no resultaba que el valor era cero o uno, sino que se

lograba una mejor variabilidad en el ajuste de los pesos y por tanto de la salida de la red).

La Red Neuronal fue probada con diferentes escenarios, los cuales son:

1. El grupo de las cuentas con alta actividad, en este caso se filtró a las cuentas que se

caracterizaban por tener actividad en el mes bajo estudio o a lo más tres meses

anteriores. Para éstas se promediaron las diferentes variables por cada mes, de manera

que se obtuvo un comp011amiento del grupo de cuentas "con alta actividad'' a lo largo

del tiempo. Se generó un 80% de los meses para el proceso de entrenamiento y el

último 20% de los meses se destinó como datos de prueba.

2. El grupo de las cuentas con baja actividad, en este caso se filtró a las cuentas que se

caracterizaban por tener su actividad más reciente en un período entre 4 y 12 meses.

Al igual que en el caso anterior se promediaron las diferentes variables por cada mes,

de manera que se obtuvo un comportamiento del grupo de cuentas "con baja

actividad" a lo largo del tiempo. Se generó un 80% de los meses para el proceso de

entrenamiento y el último 20% de los meses se destino como datos de prueba.

3. El grupo de cuentas inactivas. Para este grupo se tomaron las cuentas sin actividad

registrada en un período de 12 meses o más. Los criterios de entrenamiento y prueba

fueron iguales a los casos anteriores.

4. Todas las cuentas, tomando el 80% de los meses como conjunto de entrenamiento y el

20% restante como conjunto de prueba.

5.6.3.1 Cuentas con alta actividad.

Un ejemplo de predicción de la variable Mora para las cuentas con alta actividad se muestra

ahora. La estructura de la Red Neuronal consistió en una red con dos capas ocultas cada una

con un número de neuronas igual al número de variables de entrada y una sola neurona de

salida (indicando si las cuentas con alta actividad tendrán una tendencia hacia la mora o no).

La figura 27 muestra la estructura de la red neuronal empleada para las cuentas con

alta actividad. Por simplicidad no se muestran todas las conexiones entre las neuronas (todas

las variables de entrada se conectan con todas las neuronas de la capa uno y todas las

neuronas de esta capa se conectan con todas las neuronas de la capa dos).

Linea de Crédito Interna 7

Saldo 7

Importe Pagado 7

Importe del Pago Mínimo 7

Meses a Última Compra 7

Meses a Última Disposición 7

Meses a Apertura 7

Meses a Último Incremento de Linea 7

Consumos 7

Disposiciones 7

Morosidad Más Reciente Tarjeta Interna 7

Morosidad Más Reciente Tarjeta Externa 7

Morosidad Más Reciente Auto Interno 7

Morosidad Más Reciente Préstamo Interno 7

Morosidad Más Reciente Departamental 7 Morosidad Más Reciente Tarjeta Servicio 7

Linea de Crédito Externa 7

Saldo Vencido Otros 7 Figura 27. Red N.::urnnal utilizada para los grupos ··Cuentas con Alta Actividad ... ·-cu.::ntas con Baja Actividad .. y ··cuentas Inactivas ...

Tasa de aprendizaje: 0.15

Ciclos: 2,500

0 -:::, 20 Q)

E 0 ... 15 c. 0 u o 10 Q)

-:::, ... 5 0 ... ... LU

Número de Ciclo

Figura 28. Gráfica de aprendizaje de Red Neuronal. cuentas con alta actividad. tasa de aprendizaje 0.15 y 2.500 ciclos.

Tabla 32. Matriz de confusión de Red Neuronal para alta actividad (entrenamiento). tasa de aprendizaje 0.15. ciclos 2.500

Tabla 33. Matriz de confusión de Red Neuronal para alta actividad (prueba). tasa de aprendizaje 0.15, ciclos 2.500

Variable Entrenamiento Prueba Sensibilidad 1 0.875 Especificidad 1 1

Exactitud 1 0.9375 Tabla 34. Resultados de Red Neuronal para alta actividad. tasa de aprendizaje 0.15. ciclos 2.500

Ciclos: 2,500

# 25 o

-:::, 20 Ql

E o ....

Q. 15 o u o 10 Ql

-:::, .... s o .... ....

Número de Ciclo

1 ~:; 1 ~.l 1 ~.S 1

Tabla 36. Matriz de confusión de Red Neuronal pj1ara alta actividad (prueba). tasa de aprendizaje 0.12. ciclos 2.500

Variable Entrenamiento Prueba Sensibilidad 1 1 Especificidad I 1

Exactitud 1 1 Tabla 37. Resultados de Red Neuronal para alta acti[ idad, tasa de aprendizaje 0.12. ciclos 2.500

Ciclos: 1,000

"""' g-· -o -= 20 Q)

E o .... c.. 15 o u o 10 Q)

-= .... 5 o .... .... LU

Número de Ciclo

Figura 30. Gráfica de aprendizaje de Red Neuronal. cuentas con alta actividad. tasa de aprendizaje O. I 2 y 1.000 ciclos.

I ~~ I F 1 ~: I

Tabla 38. Matriz de confusión de Red Neuronal para alta adividad (entrenamiento). tasa de aprendizaje 0.12. ciclos 1.000 1

Tabla 39. Matriz de confusión de Red Neuronal para alta aa1

tividad (prueba). tasa de aprendizaje 0.12. ciclos 1.000

Variable Entrenamiento Prueba Sensibilidad 1 1 0.1 25 Espec ificidad 0.75 1 1 Exactitud 0.875 0.5625 Tabla 40. Resultados de Red Neuronal para alta actividad. tasa de aprendiz:~je 0.12. ciclos 1.000

Ciclos: 2,500

# 25 o

"C Q,) 20 E o ...

Q. 15 o

o 10 Q,)

"C ... 5 o ... ... 1.1.J

Número de Ciclo

Figura 3 1. Gráfica de aprendizaje de Red Neuronal. cuentas con alta actividad. tasa de aprendiz,üe O. 1 y 2.500 ciclos.

Tahla 41. Matriz de confusión de Red Neuronal para alta actividad (entrenamiento). tasa de aprendizaje O. L ciclos 2.500

Tabla 42. Matriz de confusión de Red Neuronal para alta actividad (entrenamiento). tasa de aprendizaje O. l. ciclos 2.500

Variable Entrenamiento Prueba Sensibilidad 1 1 Especificidad 1 1 Exactitud 1 1

.. Tabla 43. Resultados de Red Neuronal para alta act1v1dad. tasa de aprendizaje O. 1. ciclos 2.500

Ciclos: 2,500

o 20 -::s Q)

E 15 o ...

a. o ü o 10

Q) -::s

5 ... o ... ...

Número de Ciclo

Tabla 45. Matriz de confusión de Red Neuronal para alta actividad (prueba). tasa de aprendizaje 0.5. ciclos 2.500

Variable Entrenamiento Prueba Sensibilidad 1 0.375 Especificidad 0.96875 1 Exactitud 0.984375 0.6875 Tabla 46. Resultados de Red Neuronal para alta actividad. tasa de aprcndin~jc 0.5. ciclos 2.500

Los resultados de las cuentas con alta actividad mostraron dos aspectos importantes:

1. La Red Neuronal requiere analizar el número de ciclos necesarios para reducir lo

suficiente el error de ciclo mientras se garantizan tasas aceptables de sensibilidad,

especificidad y exactitud. Esto se ilustra en la tercer prueba realizada en esta sección,

correspondiente a una tasa de aprendizaje de 0.12 y 1,000 ciclos. Se observa que la

gráfica con el error de ciclo parece ser aceptable si consideramos que es una

representación típica de cómo debe disminuir el error de ciclo. Sin embargo,

apreciamos que las tasas de sensibilidad y exactitud se vuelven muy bajas para la fase

de prueba.

2. La tasa de aprendizaje mejoró las tasas de sensibilidad, especificidad y exactitud. En

este caso se inició con una tasa de 0.15, cuando se disminuyo a 0.12 y se manejo un

número adecuado de ciclos se incrementaron las tasas de sensibilidad y exactitud

logrando un 100% de clasificación. A fin de corroborar la importancia de la tasa de

aprendizaje se manejó un número elevado de ciclos (2,500) mientras se incrementó

significativamente la tasa de aprendizaje (0.5); en este caso se aprecian dos cosas:

primera, las tasas de sensibilidad y exactitud para la fase de prueba bajan

significativamente, segunda, al ser relativamente alta la tasa de aprendizaje, se

produce un error de ciclo que oscila demasiado.

5.6.3.2 Cuentas con baja actividad.

Un ejemplo de predicción de la variable Mora para las cuentas con baja actividad se muestra

ahora. La estructura de la Red Neuronal consistió en una red con dos capas ocultas cada una

con un número de neuronas igual al número de variables de entrada y una sola neurona de

salida (ver la Figura 27).

Los resultados planteados muestran la manera como la tasa de aprendizaje puede

afectar significativamente los resultados obtenidos.

Ciclos: 5,000

~ 0 -e Q)

E 0 15 .... a. 0 u 10 o Q)

-e .... 5 0 .... ....

Níimero de Ciclo

Figura 33. Gráfica de aprendizaje de Red Neuronal. cuentas con baja actividad. tasa de aprendizaje 1.0 y 5.000 ciclos.

Tabla 47. Matriz de confusión de Red Neuronal para baja actividad (entrenamiento). tasa <le aprendizaje 1.0. ciclos 5.000

Tabla 48. Matriz de confusión de Red Neuronal para baja actividad (prueba). tasa de aprendizaje 1.0. ciclos 5.000

Variable Entrenamiento Prueba Sensibilidad 0.875 1 Especificidad 0.875 1 Exactitud 0.875 1 Tabla 49. Resultados de Red Neuronal para baja actividad (prueba). tasa de aprendiza,1e 1.0. ciclos 5.000

Ciclos: 5,000

E o 15 ... c.. o ü 10 o Q)

"CI ... 5 o ... ... LLJ

Número de Ciclo

Figura 34. Grálica de aprendizaje de Red Neuronal. cuentas con baja actividad, tasa de aprendiz,ue 0.8 y 5.000 ciclos.

Tabla 50. Matriz de confusión de Red Neuronal para baja actividad (entrenamiento). tasa de aprendizaje 0.8. ciclos 5.000

Tabla 51. Matriz Je confusión de Red Neuronal para baja actividad (prueba). tasa de aprendizaje 0.8. ciclos 5.000

Variable Entrenamiento Prueba Sensibilidad 1 1 Especificidad 0.875 0.125 Exactitud 0.9375 0.5625 Tabla 52. Resultados de Red Neuronal para baja actividad. tasa de aprendiz.aje 0.8. ciclos 5.000

Ciclos: 5,000

# -0 20 -:: Q)

E 0 ... c.. 0

~ 10 Q)

-:: ... 0 ... ...

Número de Ciclo

Figura 35. Gráfica de aprendizaje de Red Neuronal. cuentas con b¡~ja actividad. tasa de aprendizaje 0.6 y 5.000 ciclos.

IF Tabla 53. Matriz de confusión de Red Neuronal para baja actividad (entrenamiento). tasa de aprendizaje 0.6. ciclos 5.000

Variable Entrenamiento Prueba Sensibilidad 1 1 Especificidad 0.8125 1 Exactitud 0.90625 1 Tabla 55. Resultados de Red Neuronal para baja actividad. tasa de aprendizaje 0.6. ciclos 5.000

Ciclos: 5,000

'iii o 20

-:::1 Q)

E o 15 ... c. o ü 10 o Q)

-:::1 ... 5 o .... ....

Número de Ciclo

Figura 36. Gráfica de aprendizaje de Red Neuronal. cuentas con baja actividad. tasa de aprendizaje 0.4 y 5.000 ciclos.

Tabla 56. Matriz de confusión de Red Neuronal para baja actividad (entrenamiento). tasa de aprendizaje 0.4. ciclos 5.000

Variable Entrenamiento Prueba Sensibilidad 1 1 Especificidad 1 1 Exactitud 1 1 Tabla 58. Resultados de Red Neuronal para baja actividad. tasa de aprendizaje 0.4. ciclos 5.000

Ciclos: 5,000

#. 25 -o -:::1 20 Q)

E o .... 15 Q.

o u o 10

Q) -:::1 .... 5 o .... ....

Número de Ciclo

Figura 37. Grálica de aprendizaje de Red Neuronal. cuentas con bqja actividad. tasa de aprendizaje 0.2 y 5.000 ciclos.

Tabla 59. Matriz de conf"usión de Red Neuronal para b,~ja actividad (entrenamiento). t,L~a de aprendizaje 0.2. ciclos 5.000

Tabla 60. Matriz de confusión de Red Neuronal para bnja nctividad (prueba). tasa de aprendizaje 0.2. ciclos 5.000

Variable Entrenamiento Prueba Sensibilidad 1 1

Especificidad 0.8125 0.875 Exactitud 0.90625 0.9375 , . . . -1 abla 61. Resultados de Red Neuronal para ba_1a actividad. tasa de aprcnd1za_1c 0.2. ciclos ).000

Al igual que en otros resultados presentados observamos que la tasa de aprendizaje

puede afectar la oscilación del error de ciclo. Una tasa de aprendizaje de 1.0 parece generar

resultados buenos en tasas de sensibilidad, especificidad y exactitud; sin embargo, se observa

que existe una gran oscilación en el error de ciclo. Al ir disminuyendo la tasa de aprendizaje

desde 1.0 hasta 0.2 (con decrementos de 0.2), se va observando que mejora la continuidad en

la gráfica del error de ciclo y disminuyen las tasas de exactitud y especificidad (sin embargo

aún se mantienen en tasas aceptables).

5.6.3.3 Cuentas inactivas.

Un ejemplo de predicción de la variable Mora para las cuentas inactivas se muestra ahora. La

estructura de la Red Neuronal consistió en una red con dos capas ocultas cada una con un

número de neuronas igual al número de variables de entrada y una sola neurona de salida (ver

la Figura 27).

Ciclos: 5,000

-= Q) 20 E

o ,_ Q. 15 o ü o 10

-= ,_ 5 o ,_ ,_

Número de Ciclo

Figura 38. Gráfica de aprendizaje de Red Neuronal. cuentas inactivas. tasa de aprendizaje 0.9 y 5.000 ciclos.

Tabla 62. Matriz de confusión de Red Neuronal para créditos inactivos (entrenamiento). tasa de aprcndiz¡üe 0.9. ciclos 5.000

Tabla 63. Matriz de confusión de Red Neuronal para créditos inactivos (prueba). tasa de aprendiz~je 0.9. ciclos 5.000

Variable Entrenamiento Prueba Sensibilidad 0.96875 0.75 Especificidad 0.90625 0.75 Exactitud 0.9375 0.75 Tabla 64. Resultados de Red Neuronal para créditos inactivos (prueba). lasa de aprendizaje 0.9. ciclos 5.000

Ciclos: 5,000

# 40 o 35

"C Q) 30 E o

25 ... c.. o 20 13 o

Q) "C 10 ... o

5 ... ... LU

Número de Ciclo

Figura 39. Gráfica de aprendizaje de Red Neuronal. cuentas inactivas. tasa de aprendizaje 0.1 y 5.000 ciclos.

Tabla 65. Matriz de confusión de Red Neuronal para créditos inactivos (entrenamiento). tasa de aprendizaje O. l. ciclos 5.000

1 ~:! 1 ~·' 1 ~.s Tabla 66. Matriz de confusión de Red Neuronal para créditos inactivos (prueba). tasa de aprendizaje O. l. ciclos 5.000

Variable Entrenamiento Prueba Sensibilidad 0.90625 0.75 Especificidad 0.75 1 Exactitud 0.828125 0.875 " l ahla 67. Resultados de Red Neuronal para créditos 111acl1vos. Lasa de aprend1za.1e O. l. ciclos 5.000

Se puede apreciar que para el grupo de cuentas inactivas una tasa de aprendizaje de 0.9

(lo cual ya se encuentra muy cercano al máximo posible de 1.0), la gráfica de error de ciclo

inicia en aproximadamente en 0.25 y en su punto más bajo se acerca a 0.05.

Cuando se cambia la tasa de aprendizaje por una relativamente baja (0.1 ), el error de

ciclo parte de 0.4 y finaliza en aproximadamente 0.1 O. Se puede notar que la gráfica se

suaviza en algunos puntos.

El error de ciclo es mayor en la segunda corrida de estas cuentas inactivas; las tasas de

sensibilidad, especificidad y exactitud para el conjunto de entrenamiento disminuyen en esta

segunda corrida; sin embargo, es de notar que se incrementan las tasas ele especificidad y

exactitud para el conjunto de prueba.

5.6.3.4 Todas las cuentas.

Un ejemplo de predicción de la variable Mora para todas las cuentas se muestra ahora. La

estructura de la Red Neuronal consistió en una red con dos capas ocultas, la primera capa con

18 neuronas, la segunda capa con nueve neuronas y una sola neurona de salida. La Figura 40

muestra la Red Neuronal empleada para todas las cuentas (por simplicidad no se muestran

todas las conexiones que parten de las variables de entrada a la primera capa).

Línea de Crédito Interna -¿

Saldo -¿

Importe Pagado -¿

Importe del Pago Mínimo -¿

Meses a Última Compra -¿

Meses a Última Disposición -¿

Meses a Apertura -¿

Meses a Último Incremento de Línea -¿

Consumos -¿

Disposiciones -¿

Morosidad Más Reciente Tar1eta Interna -¿

Morosidad Más Reciente Tarjeta Externa -¿

Morosidad Más Reciente Auto Interno -¿

Morosidad Más Reciente Préstamo Interno -¿

Morosidad Más Reciente Departamental -¿

Morosidad Más Reciente Tarjeta SeNicio -¿

Línea de Crédito Externa -¿

Saldo Vencido Otros -¿

Figura -tO. Red Neuronal u1ili1.ada para todas las cuentas

Los resultados planteados muestran la manera como la tasa de aprendizaje puede

afectar significativamente los resultados obtenidos.

Tasa de aprendizaje: 1

Ciclos: 500

o -= (1,)

E o 6 ... c.. 5 o ü 4 o

(1,) 3

-= 2 ... o ... 1 ...

Número de Ciclo

figura 41. Gráfica de aprendizaje de Red Neuronal. todos los créditos. tasa de aprendizaje 1.0 y 500 ciclos.

1 o 1 19,774 9,454

labia 68. Matriz de confusión de Red Neuronal para todos los créditos (entrenamiento). tasa de aprendizqje l. ciclos 500

1 o 1 6,608 833

Tabla 69. Matriz Je confusión de Reo Neuronal para todos los créditos (prueba). tasa de aprendizaje l. ciclos 500

Variable Entrenamiento Prueba Sensibilidad 0.668908033900679 0.794871794871795 Especificidad 0.971599842767296 0.972050603118564 Exactitud o. 794871794871795 0.916332706305717 Tabla 70. Resultados de Red Neuronal para todos los créditos. tasa de aprcndiz¡\je 1. ciclos 500

Ciclos: 500

"CI CI)

E 6 o ... a. 5 o u 4 o CI)

"CI ... o ... 1 ...

Número de Ciclo

Figura 42. Gráfica de aprendizaje de Red Neuronal. todos los créditos. tasa de aprendizaje 0.6 y 500 ciclos.

1 o 1 19,729 10,484

Tabla 71. Matriz de confusión de Red Neuronal para todos los créditos (entrenamiento). tasa de aprendizaje 0.6. ciclos 500

1 o 1 6,422 656

Tabla 72. Matriz de confusión de Red Neuronal para todos los créditos (prueba). tasa de aprendizaje 0.6. ciclos 500

Variable Entrenamiento Prueba Sensibilidad 0.63292601 7996569 0.879011434894873 Especificidad O. 969722290489064 0.943717854518736 Exactitud O. 773033983560299 O. 915024126932199 , . -1 abla 73. Resultados de Red Neuronal para todos los créchtos. tasa de aprend1za,1e 0.6. ciclos )00

Ciclos: 1,000

"C 7 Q)

E o 6 ...

c.. s o ü o

Q) -:::,

2 ... o ... 1 ...

Número de Ciclo

Figura 43. Gráfica de aprendizaje de Red Neuronal. todos los créditos. tasa de aprendizaje 0.6 y L000 ciclos.

1 o 1 20,347 15,566

lºJ i2,988

Tabla 74. Matriz de confusión de Red Neuronal para todos los créditos (entrenamiento). tasa de aprendizl\ie 0.6. ciclos 1.000

1 o 1 6,798 1,829

lºJ ~,600

Tabla 75. Malriz de confusión de Red Neuronal para todos los créditos (prueba). lasa de aprendizaje 0.6. ciclos 1.000

Variable Entrenamiento Prueba Sensibilidad 0.454857463052462 0.663105544299134 Especificidad 0.9997543238993 71 1 Exactitud 0.681613 707929497 0.850413020364766 Tabla 76. Resultados de Red Neuronal para todos los créditos. lasa de aprendizl\ie 0.6. ciclos 1.000

Tasa de aprendizaje: 1

Ciclos: 1,000

.Ji! 8 o

-= Q) 7

E o 6 ... c. s o ü 4 o

-= 2 ... o ... 1 ...

Número de Ciclo

Figura 44. Gráfica de aprendizaje de Red Neuronal. todos los créditos. tasa de aprendizaje 1.0 y 1.000 ciclos.

1 o 1 19,591 7,246

Tabla 77. Matriz de confusión de Red Neuronal para todos los créditos (entrenamiento). tasa de aprendizaje l. ciclos 1.000

1 o 1 6,775 786

Tabla 78. Matriz de confusión de Red Neuronal para todos los créditos (prueba). tasa de aprendizaje l. ciclos 1.000

Variable Entrenamiento Prueba Sensibilidad 0.74626186224043 I 0.8551419093254 7 Es pee i ficidad 0.962750012285616 0.996177032789296 Exactitud 0.836339099496994 0.933589596793981 Tabla 79. Resultados de Red Neuronal para todos los créditos. tasa de aprendizaje 1. ciclos 1.000

Ciclos: 1,000

-:::, Q)

E o 6 ,_ c. s o u 4 o Q)

3 -:::,

2 ,_ o ,_

1 ,_ LU

Número de Ciclo

Figura 45. Gráfica de aprendizaje de Red Neuronal. todos los créditos. lasa de aprendizaje 0.9 y 1.000 ciclos.

1 o 1 17,880 3,334

lºJ 2,469 25,223

Tabla 80. Matriz de confusión de Red Neuronal para todos los créditos (entrenamiento). tasa de aprendizaje 0.9. ciclos 1.000

1 o 1 6,609 297

Tabla 81. Matriz de confusión de Red Neuronal para todos los créditos (prueba). tasa de aprendizaje 0.9. ciclos 1.000

Variable Entrenamiento Prueba Sensibilidad 0.883251041776097 0.945263545890158 Especificidad 0.878667256376235 0.971768857520953 Exactitud 0.881343802396434 0.960006542896867 Tabla 82. Resultados de Red Neuronal para todos los créditos. tasa de aprendizaje 0.9. ciclos 1.000

Ciclos: 1,000

-:::, Q)

6 ... c.. s Q

u 4 o Q)

3 -:::, 2 ... Q ... 1 ...

Número de Ciclo

Figura 46. Gráfica de aprendiz,~je de Red Neuronal. todos los créditos. tasa de aprendizaje 1.0 y 1.000 ciclos.

1 o 1 20,052 14,787

Tabla 83. Matriz de confusión de Red Neuronal para todos los créditos (entrenamiento). tasa de aprendizaje l. ciclos 1.000

1 o 1 6,772 1,616

Tabla 84. Matriz de contusión de Red Neuronal para todos los créditos (prueba). tasa de aprendizaje l. ciclos 1.000

Variable Entrenamiento Prueba Sensibi I idad 0.482193507721399 0.702174714338371 Especificidad 0.985404688191066 0.99573592 I I 8806 Exactitud 0.691571586308428 0.865461683160219 Tabla 85 Resultados de Red Neuronal para todos los créditos. tasa de aprendizaje l. ciclos 1.000

Ciclos: 2,000

;ji' 16

o "C 14 Q)

E o 12 '-

o.. 10 o

8 u o Q)

6 "C 4 '-o '- 2 '-

Número de Ciclo

Figura 47. Gráfica de aprendizaje de Red Neuronal, todos los créditos. tasa de aprendizaje 0.9 y 2000 ciclos.

1 o 1 18,606 5,734

1º5 1,741 22,825

Tabla !!6. Matriz de confusión de Red Neuronal para todos los créditos (entrenamiento). tasa de aprendizaje 0.9. ciclos 2.000

1 o 1 6,401 240

Tabla !!7. Matriz de confusión de Red Neuronal para todos los créditos (prueba). tasa de aprendizaje 0.9. ciclos 2.000

Variable Entrenamiento Prueba Sensibilidad 0.799222661857908 0.955752212389381 Especificidad 0.91443456037745 I 0.940908422754667 Exactitud 0.8471557682084 0.94749325263 7605 ·1 abla 8!!. Rcsultados de Red Neuronal para todos los créditos. tasa de aprcnd1z<-\JC 0.9. ciclos 2.000

Ciclos: 3,000

"O Q) 25 E 0

20 ... c.. 0 u 15 o

Q) 10 "O ... 0 5· ... ...

Número de Ciclo

Figura 48. Gráfica de aprendizaje de Red Neuronal. todos los créditos. tasa de aprendizaje 0.9 y 3.000 ciclos.

1~5 lºs 18,685 10,385

1,665 18,171

Tabla 89. Matriz de confusión de Red Neuronal para todos los créditos (entrenamiento). t.L~a de aprendizaje 0.9. ciclos 3.000

1~5 lºs 6,327 1.183

Tabla 90. Matriz de confusión de Red Neuronal para todos los créditos (prueba). tasa de aprendizaje 0.9. ciclos 3.000

Variable Entrenamiento Prueba Sensibilidad 0.636328617453425 0.782015846692464 Especificidad 0.918181818181818 0.930441176470588 Exactitud O. 75360896413528 0.864562034840926 Tabla 91. Resultados de Red Neuronal para todos los créditos. tasa de aprendizaje 0.9. ciclos 3.000

La ejecución del proceso con todas las cuentas resultó en el proceso más complicado

de los realizados para la Red Neuronal. En este caso el proceso consistió en entrenar la red

para cada cuenta a través de los períodos de prueba (80% de los períodos de tiempo fueron

usados). Posteriormente se utilizó el 20% restante de los períodos de tiempo para cada cuenta.

Se observa en las gráficas del error de ciclo de las diferentes corridas que existen mayores

"saltos" en la red, no obstante, se aprecia que el proceso de aprendizaje trabaja

adecuadamente.

También es de resaltar que la Red Neuronal utilizada en este caso es diferente a la

construida para los casos anteriores. La estructura consiste en 18 variables de entrada, una

primera capa oculta con 18 neuronas, una segunda capa oculta con 9 neuronas y una capa de

salida con una neurona (indicando Mora o Cumplido); para mayor referencia ver la Figura 40.

En las pruebas que se realizaron se utilizaron diferentes números para representar a las

clases de Mora y Cumplido. Mientras más cercanas son las clases (por ejemplo 0.1 y 0.3

utilizados), se aprecia que los "saltos'' en el error de ciclo se hacen menores logrando una

gráfica más uniforme.

Se movió posteriormente el rango de las variables de clase, ubicándolas en 0.1 y 0.5.

Las tasas de sensibilidad, especificidad y exactitud bajan; sin embargo, aún pueden ser

consideradas buenas (por ejemplo 87% de exactitud con una tasa de aprendizaje en I y 1000

ciclos - para la fase de prueba; o 95% con 2,000 ciclos, 0.9 de tasa de aprendizaje).

Se ejecutó adicionalmente con clases de 0.5 y 1.0, 0.9 de tasa de aprendizaje y 3,000

ciclos. Los resultados muestran 75% de exactitud en modo de entrenamiento y 86% en modo

de prueba.

5.6.4 Red Bayesiana vs Red Neuronal.

La Red Bayesiana mostró una alta sensibilidad a las variables que definen la morosidad: el

impo1te pagado y el importe del pago mínimo. Fue notorio que descartar ambas variables del

proceso de la Red Bayesiana disminuía significativamente la exactitud de predicción del

algoritmo (una sensibilidad de 74.47% y una especificidad de tan sólo 57.64% para dar una

exactitud global de 64.87%).

También se pudo apreciar que la inclusión de la variable importe pagado como

evidencia proporciona mejor resultado que si se incluye el importe del pago mínimo (logrando

tasas de exactitud del 80.61%).

Por el lado de la Red Neuronal, no existe tan alta sensibilidad a las variables importe

pagado e importe del pago mínimo (si bien no se probó el caso extremo de descartar ambas

variables).

La Red Neuronal obtuvo mejores resultados en términos de exactitud, sensibilidad y

especificidad. Para la Red Bayesiana no se realizó una corrida por los diferentes grupos de

cuentas que se ejecutaron en la Red Neuronal; sin embargo, si se compara la ejecución de la

Red Bayesiana con la Red Neuronal para todas las cuentas, se observa que en general se

obtiene una mejor tasa de exactitud, sensibilidad y especificidad para la Red Neuronal.

Como interpretación de las diferencias anteriores podemos mencionar que mientras en

la Red Neuronal se ha trabajado con la variación de parámetros de corrida como la definición

de las variables de clase (ejemplo Mora= 0.5, Cumplimiento= 0.1), en el ajuste de parámetros

de corrida tal como el factor de aprendizaje, en el caso de la Red Bayesiana se ha dejado que

el algoritmo se encargue de estimar la probabilidad de mora (sin que haya mayores ajustes).

Un segundo factor es que la Red Neuronal tuvo una calibración en cuanto a los datos

de entrada para hacerlos adecuados a la red; además se debe considerar que en el caso de la

Red Neuronal ésta aceptó datos continuos (calibrados pero no discretos); en el caso de la Red

Bayesiana se trabajó en un algoritmo de generación de cuantiles de manera dinámica para

discretizar a las diferentes variables.

Finalmente recordaré que algunas variables de la Red Bayesiana eran inviables de

mantener debido a la alta combinación de las tablas de probabilidad conjunta con lo que se

hizo necesario agrupar algunas variables previamente (esto no fue necesario en la Red

Neuronal).

Capítulo 6. Conclusiones y trabajo futuro.

La estimación de la calificación de crédito es un proceso que ha sido resuelto por muy

diversos medios, incluyendo los estadísticos y los de Inteligencia Artificial. Si bien los

métodos estadísticos proporcionan una solución "adecuada", la exploración de los métodos

inteligentes, los cuales son más recientes, menos generalizados y quizá más difíciles de

entender y por tanto de aceptar, es un reto importante dentro de las aplicaciones de la

Inteligencia Artificial.

Cuando inicié con el planteamiento de esta tesis me propuse utilizar algún método

inteligente para resolver el problema. Después de revisar el tema me percaté que

independiente al método utilizado, no existe un algoritmo universal que para cualquier

conjunto de datos nos diga con certeza si un cliente se comportará como moroso o cumplido

en un cierto tiempo. Además, los métodos usados no siempre son los mejores para cualquier

conjunto de datos, lo cual nos lleva a la existencia de tal diversidad de métodos: de hecho, una

revisión de la bibliografía existente indica que los autores divergen en los resultados,

encontrando por ejemplo que para algunos la Red Neuronal fue el mejor método mientras que

en otros casos se habla de una Máquina de Soporte Vectorial como mejor algoritmo.

En mi búsqueda de métodos aplicables a la calificación de crédito observé que era

importante verificar el tipo de variables disponibles, su carácter discreto o continuo, el

significado del contenido de la variable (por ejemplo un valor específico indicando Mora),

las reglas de negocio aplicables a una variable, etc. Como me pude percatar, no todos los

algoritmos son útiles para todos los tipos de variables: se debe entonces analizar el problema

en cuestión y los datos relativos al mismo. Por tanto, si considero que el problema de la

calificación de crédito hace uso de variables de diferentes tipos y que la naturaleza de los

datos, las reglas de negocio y el significado de los mismos varían en las diferentes

instituciones que requieren resolver el problema, puedo entonces reforzar la idea

anteriormente expuesta de que no existe un método "superior" para resolver el problema de la

calificación de crédito; un método puede funcionar bien para una institución pero no ser lo

suficientemente efectivo para otra.

Además consideremos las ideas expuestas en el Capítulo 2 referentes a las pérdidas de

oportunidad por rechazar a alguien "bueno" cuando se considera que puede ser ''malo" y el

costo por aceptar a alguien "malo" cuando se considera que es "bueno"; estos factores

naturales implican un riesgo que las instituciones deben estar dispuestas a correr hasta cierto

límite. Lo importante es remarcar que dependiendo de la institución y sus políticas de riesgo,

un cierto nivel de pérdida podría ser aceptable para una institución pero para otra no. Esta idea

me permite entonces plantear la conclusión que el método que se acepte para una institución

debe cumplir con las políticas internas de riesgo pero que el mismo método podría no ser

aceptable para otras instituciones.

A consecuencia de lo anterior, me propuse implementar un método (o métodos) para

resolver el problema haciendo énfasis en una metodología integral. No fue mi propósito

reforzar la idea de que un método particular es superior (aún restringiendo el problema al

mismo conjunto de datos). Sin embargo, el utilizar más de un algoritmo para resolver el

problema me llevó a formular una comparación natural de los métodos y un señalamiento de

sus ventajas y desventajas.

Una metodología que cubriera los diferentes aspectos del problema fue entonces un

planteamiento requerido. Si bien es cierto que el aspecto metodológico es fundamental en

cualquier investigación, en el caso aquí presentado, la idea fue que esta metodología

justificara la necesidad de investigar el tema al hacer accesible una serie de pasos que pueden

ayudar a entender cómo realizar un proceso de calificación de crédito que es aplicable a

distintas instituciones otorgantes de crédito. Por tanto, no se trató sólo de abarcar el aspecto

del algoritmo de aprendizaje que decide si dadas ciertas variables un cliente se comportará

como moroso o cumplido, sino que además se consideró el problema más amplio de cualquier

institución otorgante de crédito: dados ciertos datos reales como pasar a clasificar en un buen

o mal cliente.

El requerimiento anterior en cuanto a los datos reales parece simple, finalmente el

aspecto básico de la investigación es decidir si se debe tener precaución con alguien por la

manera en que se comportará en un futuro. Este sencillo planteamiento parece resolverse si

tomamos un conjunto de datos y simplemente ejecutamos algoritmos de clasificación para

decidir a qué variable de clase un cliente pertenecerá en un tiempo dado. De hecho algunos de

los conjuntos de datos disponibles públicamente ya se encuentran listos para probar métodos

sobre ellos (las variables ya se encuentran depuradas, han sufrido un proceso de discretización

si esto es requerido, etc.). El problema con esto es que el objetivo fue: partir de un conjunto

de datos crudos (sin limpieza o algún proceso especial de transformación) y llegar a estimar la

calificación de crédito.

Lo anterior es un planteamiento que nos permite servir de guía para que otros

interesados en resolver el problema puedan identificar como transformar los datos crudos en

una solución al problema. Si bien se incluyó una comparación de los métodos utilizados aquí

(redes neuronales y bayesianas), lo importante del trabajo fue mostrar una metodología para

resolver el problema.

Los datos públicos, por tanto, no fueron del todo útiles para el objetivo metodológico

seguido (ya se encontraban prácticamente listos para el algoritmo de clasificación): esto

hubiera resultado muy sencillo si consideramos que existe una gran variedad de algoritmos

que se pueden usar y que incluso muchos de ellos ya se encuentran implementados en

sortware. En el caso planteado los datos públicos permitieron verificar que el proceso de

aprendizaje implementado funcionará a fin de hacer más sencillo la ejecución bajo datos

reales (esto aplicado a la Red Neuronal desarrollada).

En cuanto a la metodología, los siguientes puntos fueron relevantes en el proceso de

transformación de los datos hasta el resultado final indicando si el cliente es moroso o

cumplido:

1. La selección de las variables se volvió de mayor complejidad que la esperada

debido al exceso de características disponibles: fue bueno tener variedad de

variables pero al ser excesiva la cantidad de las mismas (en una fuente de datos el

total de variables fue 399), se dificultó la elección de un método para filtrarlas

debido a la complejidad computacional que pudiera resultar para tratar con un

exceso de características.

2. Existe una gran cantidad de algoritmos de selección de características, algunos

con una alta complejidad, pero se detectó que existen medios simples que pueden

ayudar en este proceso (no haciendo necesario complicar un proceso que no lo

requiere). En el caso aquí planteado el uso de estadística mediante el análisis de

correlación facilitó este proceso.

3. La experiencia previa en el dominio del problema puede ayudar a simplificar el

proceso de selección de características, desechando de manera natural variables

inadecuadas al problema en cuestión.

4. La falta de instancias de datos es un problema recurrente de muchos problemas

planteados en forma de series de tiempo. Esto no fue la excepción en este caso:

fuentes de datos que median diferentes períodos de tiempo, en uno de los casos

una breve historia en el tiempo (inútil para un proceso de aprendizaje en el que se

requiere haber visto suficientes datos históricos). Se hizo necesario la creación de

un proceso de generación de datos. Si bien esto no fue el tema fundamental de la

tesis, si es un aspecto que remarcó la importancia del planteamiento del problema

y los consecuentes objetivos planteados: mostrar un método que pueda ser

utilizado por diferentes instituciones otorgantes de crédito para estimar la

calificación de crédito; aquí simplemente se ilustró que los requerimientos

iniciales pueden verse afectados por la dificultad intrínseca de los datos y la

representación de estos (en mi caso como series de tiempo) y por tanto, es

necesario aportar ideas metodológicas de cómo resolver el problema.

5. Existen métodos estadísticos diseñados para realizar procesos de pronóstico

que tienen una gran variedad de opciones para ajustarse a los datos disponibles.

Sin embargo, un conocimiento de los datos y las reglas de negocio pueden guiar de

buena manera los procesos de pronóstico. En mi caso resultó que una concepción

simple diseñada a través de un algoritmo basado en frecuencias (que disefié

personalmente), proporcionó resultados en un corto tiempo. Con esto no quiero

mostrar que los métodos estadísticos son inútiles en algunos casos. sino que el

conocimiento de algunas relaciones entre los datos y un breve análisis de su

estadística básica puede ayudar a simplificar el proceso de pronóstico.

6. Existen algoritmos, tal corno las redes neuronales, que son muy sensibles a los

órdenes de magnitud de las variables. La discretización de las variables y/o

disminución del orden de magnitud de las variables ayuda por tanto en el proceso

de aprendizaje. Aquí es importante remarcar que si bien existe mucho software

libre que implementa algoritmos inteligentes destinados a la clasificación, cuando

se trabaja con datos reales es importante implementar el código del proceso de

aprendizaje ya que facilita las tareas de depuración y ajuste.

La metodología utilizada en esta tesis es aplicable si se tiene una muestra de datos con

suficientes instancias y con una historia adecuada para cada instancia. Ya fue comentado que

en el caso aquí planteado existió una población grande, pero la historia disponible no fue

adecuada (para una fuente de datos se tuvieron 18 períodos mientras que para la otra sólo se

tuvieron cinco). Un proceso de aprendizaje adecuado requiere que las fuentes de datos

contengan los mismos períodos de datos. Adicionalmente pude observar que mecanismos

como las redes neuronales requieren "suficientes" períodos de datos para entregar resultados

satisfactorios (de acuerdo a la literatura y al problema resuelto aprecié que la cantidad de

historia "suficiente" no es un dato preciso, en mi caso 36 períodos de datos resultaron

adecuados). Una manera de identificar cuando se tiene la historia adecuada es comparar los

resultados en cuanto a exactitud, sensibilidad y especificidad de cada entrenamiento, cuando

se tiene poca historia se observa que no importando los cambios a parámetros de la red

neuronal como el número de capas, la disposición de las mismas y la tasa de aprendizaje, no

existe una mejora significativa cuando se realizan varias ejecuciones.

Otra premisa utilizada en esta investigación es el conocimiento de las variables

involucradas. Cuando hablé del proceso de selección de variables en capítulos anteriores,

mencioné que una de las fuentes de datos contenía 399 variables. Un proceso de selección de

variables basado en un número grande de variables hace necesario discriminar inicialmente

las mismas a fin de hacer manejable un algoritmo de selección; si bien en el caso planteado no

se usó un algoritmo computacional (sino uno estadístico), es un hecho que contar con un

número reducido de variables facilitó el proceso de identificación de las características

relevantes al proceso.

El conocimiento de las variables utilizadas ayudó también en los procesos de

pronóstico requeridos para generar historia "suficiente". Recordaré en este punto que el

mecanismo de pronóstico basado en estimación de cuantiles y generación de valores

aleatorios de acuerdo a estos cuantiles requirió conocer estadísticos como la media y la

desviación estándar, así como ubicar los valores significativamente grandes que pueden llegar

a afectar el pronóstico bajo un mecanismo basado en cuantiles. Esto último es un proceso

manual que debe ser realizado en función de los datos disponibles. El algoritmo disei'íado

funciona bien en el caso en que se realiza un análisis previo de los datos ubicando los casos

extremos que pueden llegar a generar inconsistencias si no son restringidos.

Referente al proceso de aprendizaje (y la comparación natural que surge cuando se

trabaja con más de un método), encontré que las redes neuronales tuvieron un mejor

comportamiento que las redes bayesianas. Como lo mencioné anteriormente, esto no es algo

que pueda ser tomado como regla universal, simplemente fue algo que resultó cuando aplique

el conjunto de datos disponible.

La Red Neuronal tuvo la ventaja de disponer de mecanismos de ajuste como la tasa de

aprendizaje y el número de ciclos para guiar el proceso y buscar un incremento en la

exactitud, la especificidad y la sensibilidad. La Red Bayesiana no incluyó este tipo de

mecanismos, sin embargo tuvo la ventaja de permitir un enfoque de "caja blanca" en el que el

modelo planteado pudiera ser descrito de manera intuitiva por el analista.

Una de las limitaciones de la Red Bayesiana fue que se trató de una del tipo discreto,

lo cual implicó establecer rangos dentro de las variables (en vez de las variables de naturaleza

continua de la Red Neuronal). Adicionalmente, debido a la complejidad computacional de la

Red Bayesiana, cuando crecieron las tablas de probabilidad condicional de los nodos, se hizo

necesario agrupar algunas variables para disminuir el número de combinaciones de la Tabla

de Probabilidad Condicional.

Algo interesante realizado en esta investigación es el compo11amiento de grupos de

crédito. El interés personal se enfocó en entender cómo se comporta la morosidad de grupos

con alta y baja actividad así como grupos inactivos. Sin embargo, este tema pudo enfocarse en

entender otro tipo de temas como el porcentaje pagado y su relación con la morosidad; esto

me llevó a plantearme que los objetivos del negocio pueden ser diferentes a los que a mí me

motivaron; por lo tanto, la investigación se puede adaptar a una gran cantidad de temas

relativos al proceso de crédito.

La red neuronal por retro propagación utilizada en esta investigación puede ser

utilizada para resolver el problema de la clasificación de crédito. En el caso planteado se

aplicó exitosamente para analizar el comportamiento de grupos de crédito con actividad alta,

actividad baja e inactividad. Adicionalmente se utilizó para clasificar a cada crédito

puntualmente. Lo referente a los grupos de crédito nos permite identificar como la cartera de

crédito ( en función del grado de actividad) se comportará en un futuro. Lo referente al

comportamiento puntual de cada crédito permite evaluar los patrones de desempeño de cada

crédito y tomar las medidas adecuadas para evitar un deterioro de la cartera. La red neuronal

desarrollada se puede aplicar en situaciones en que el conjunto de datos ha sido ajustado a

órdenes de magnitud equivalentes en las diferentes variables. Como ejemplo de lo anterior

tenemos que los saldos se encuentran típicamente en miles mientras que el número de créditos

típicamente es una cifra de un dígito; esto requiere que los saldos se adecuen dividiendo las

cifras para hacerlas comparables en ordenes de magnitud con las variables enteras.

En cuanto a la Red Bayesiana sólo la utilice para clasificar créditos individuales. De

igual manera se apreció que es un mecanismo que puede ser aplicado adecuadamente al

proceso de la calificación de crédito. Este algoritmo puede ser utilizado si los datos se

encuentran discretizados; existen otras redes que permiten datos continuos pero que no fueron

utilizadas aquí. El algoritmo es útil si la Red Bayesiana diseñada mantiene tablas de

probabilidad condicional que se mantienen relativamente reducidas (en el caso aquí planteado

se trata de un máximo de cuatro padres por nodo con un máximo de cinco diferentes valores

que puede tomar cada nodo, aunque siempre restringiendo para manejar alrededor de 600

combinaciones posibles en la Tabla de Probabilidad Condicional). Esta restricción no es un

factor que limite la red, simplemente es algo que en lo particular me hizo inviable un manejo

computacional adecuado en un equipo de cómputo personal con las restricciones que esto

implica (4 GB de RAM y 2.33 GHz de velocidad en el procesador).

La aplicación de la Red Bayesiana a otras instituciones es intuitiva desde el punto de

vista de la facilidad con que se integra Elvira dado que se encuentra programado en Java. Aún

cuando los algoritmos de discretización ya se encuentran programados debo reconocer que el

modelo requiere un fuerte trabajo de otras instituciones para crear una estructura de Red

Bayesiana adecuada a su negocio.

Dentro del trabajo futuro de esta investigación encontramos:

l. Incorporar el "momento" al modelo de la Red Neuronal (si bien los mecanismos

usados para el ajuste de la red fueron adecuados, se notó que en algunos casos el

aprendizaje requería un incremento en ciclos, lo que repercutió en tiempo de

procesamiento (especialmente cuando se ejecutó el algoritmo con todas las cuentas).

2. Incorporar un meca111smo difuso en la etapa de salida de la Red Neuronal. Esto

ayudará a definir la llamada zona gris del problema de clasificación de crédito y

permitiría una mejor comparación contra un modelo bayesiano.

3. Utilizar una Red Bayesiana del tipo continuo que facilite el uso de variables del

mismo tipo.

4. Extender los métodos de pronósticos para justificar diferentes métodos estadísticos

que por ahora se cubrieron mediante un sencillo algoritmo basado en distribuciones de

frecuencia.

5. Incorporar un algoritmo que ayude en el proceso de construcción de la Red Bayesiana,

de manera que toda la fase de aprendizaje se encuentre automatizada.

Bibliografía.

[l] 8 Baesens, T. Van Gestel, S. Viaene, M. Stepanova, J. Suykens, J. Vanthienen: Benchmarking state-of-the-art classification algorithms for credit scoring; Journal of the Operational Research Society; 2003.

[2] Bult & Wansbeek; Optima! selection for direct mail; Marketing Science; 14( 4 ); 1995. [3] Cheng Jie, Greiner Russell; Comparing Bayesian Network Classifiers; Department of

Computer Science, University of Albe11a; 1999 [4] Defu Zhang, Hongyi Huang, Qingshan Chen, Yi Jiang; A Comparison Study of Credit

Scoring Methods; IEEE Third lnternational Conference 011 Natural Computation; 2007 [5] Desai, V. S., Crook, J. N., & Overstreet, G. A., Jr.: A comparison of neural networks and

linear scoring models in the credit un ion environment; 1996. [6] Durand D., Risk Elements in Consumer lnstallment Financing, National Bureau of

Economic Research, New York. [7] Fisher R. A.; The use of multiple measurements in taxonomic problems; Ann. Eugenics;

Vol. 7 [8] Hair, Anderson, Tatham, Black; Análisis Multivariante 5" edicion; Ed Pearson Prentice

Hall; 2005 [9] Hanke John, Wichern Dean; Pronósticos en los negocios; 9ª edición; 2009 [10] Hassan Sabzevari, Mehdi Soleymani, Eaman Noorbakhsh; A comparison between

statistical and Data Mining methods for credit scoring in case of limited available data; Department of Risk Management, Karafarin Bank, Tehran, lran; 2007.

[ 11] Herbert L. Jensen; Using Neural Networks for Credit Scoring, Managerial Finance, Vol. 18 lss: 6, pp.15 - 26; 1993

[ 12] Hsieh, N.-C; Hybrid mining approach in the design of credit scoring models, Expert Systems with Applications. Vol.28, No.4, pp.655, 2005

[ 13] Huan Liu, Hiroshi Motoda; Feature selection for knowledge discovery and data mining; Boston : Kluwer Academic Publishers, 1998

[14] Hui-Chung Yeh, Min-Li Yang, Li-Chuen Lee; An empirical study of credit scoring model for credit card; IEEE; 2007

[ 15] 11-Seok Oh; Hybrid Genetic Algorithms for Fcature Selection; IEEE Transactions on Pattern Analysis and Machine lntelligence, vol. 26, no. 1 1, November 2004

[ 16] lscanoglu Aysegul; Credit Scoring Methods and Accuracy Ratio; 2005; Thesis submitted to the lnstitute of Applied Mathematics of the Middle East Technical University

[ 17] James Lattin, J. Douglas Carro!, Paul E. Green: Analyzing Multivariate Data; Ed. Thomson; 2003

[18] Kononenko, I; Semi-na"ive Bayesian classifier. In Y. Kodratoff (ed.); Proceedings of sixth European working session 011 learning (pp. 206-219); Springer-Verlag

[ 19] Lean Yu, Shouyang Wang, Kin Keung Lai, Ligang Zhou; Bio-lnspired Credit Risk Analysis; Computational lntelligence with Support Vector Machines; Springer; 2008

[20] Lyn C. Thomas, David B. Edelman; Jonathan N. Crook; Credit Scoring and lts Applications; SIAM; Monographs on Mathematical Modelling and Computation; 2002

[21] Nan-Chen Hsieh; An integrated data mining and behavioral scoring model for analyzing bank customers; Expert Systems with Applications 27 (2004); Elsevier.

[22] Orallo José, Ramírez María José, Ferri César; Introducción a Minería de Datos: Pearson; 2004

[23] Rakesh Agrawal, Tomasz lmielinsky, Arun Swani: Mining Association Rules between Sets of ltems in Large Databases: IBM Almaden Research Center; 1993

[24] Selwyn Piramuthu; Evaluating Feature Selection Methods for Learning in Data Mining; IEEE; 1998.

[25] Spyros Makridakis, Steven C. Whe, Rob J. Hyndman; Forecasting, Methods and Applications; Third Edition; 1998

[26] Su-Ling Pang, Yan-Ming Wang, Yuan-Huai Bai; Credit Scoring Model Based on Neural Network; Proceedings of the First lnternational Conference on Machine Learning and Cybernetics; 2002

[27] United States Code; Equal Credit Opportunity Act; Title 15, Section 1691 et seg.; 1975

[28] Wiginton; 1980; A Note on the Comparison of Logit and Discriminant Models of Consumer Credit Behavior, Journal of Financia! and Quantitative Analysis, Vol. 15, No. 3, pp. 757-770.

[29] Yanwen Dong: An Application of Support Vector Machines in Small-Business Credit Scoring; IEEE; 2007

[30] Y Liu and M. Schumann; Data mining feature selection for credit scoring models; Journal ofthe Operational Research Society; 2005;Page 1099

Anexo l. Basilea 13•

Basilea 1

En 1988, el Comité de Basilea, compuesto por los gobernadores de los bancos centrales de

Alemania, Bélgica, Canadá, España, EE. UU., Francia, Italia, Japón, Luxemburgo, Holanda,

el Reino Unido, Suecia y Suiza publicó el primero de los Acuerdos de Basilea, un conjunto de

recomendaciones alrededor de una idea principal: Se trataba de un conjunto de

recomendaciones para establecer un capital mínimo que debía tener una entidad bancaria en

función de los riesgos que afrontaba.

El acuerdo establecía una definición de "capital regulatorio" compuesto por elementos

que se agrupan en 2 categorías si cumplen ciertos requisitos de permanencia, de capacidad de

absorción de pérdidas y de protección ante quiebra. Este capital debe ser suficiente para hacer

frente a los riesgos de crédito, mercado y tipo de cambio. Cada uno de estos riesgos se medía

con unos criterios aproximados y sencillos.

Este acuerdo era una recomendación: cada uno de los países signatarios, así como

cualquier otro país, quedaba libre de incorporarlo en su ordenamiento regulatorio con las

modificaciones que considerase oportunas.

Entró en vigor en más de cien países.

Basilea 11

La principal limitación del acuerdo de Basilea I es que es insensible a las variaciones de

nesgo y que ignora una dimensión esencial: la de la calidad crediticia y, por lo tanto, la

11 Tomado de la página wch http://cs.wikipcdia.org/wiki/Basilca_II

diversa probabilidad de incumplimiento de los distintos prestatarios. Es decir, consideraba

que todos los créditos tenían la misma probabilidad de incumplir.

Para superarla, el Comité de Basilea propuso en 2004 un nuevo conjunto de

recomendaciones. Éstas se apoyan en los siguientes tres pilares.

Pilar I: el cálculo de los requisitos mínimos de capital

Constituye el núcleo del acuerdo e incluye una serie de novedades con respecto al anterior:

tiene en cuenta la calidad crediticia de los prestatarios (utilizando ratings externos o internos)

y añade requisitos de capital por el riesgo operacional.

La norma de Basilea I, que exige

fondos propios> 8% de activos de riesgo, considerando: (riesgo de crédito+ riesgo de

negociación+ riesgo de tipo de cambio)

mientras que ahora considera: (riesgo de crédito + riesgo de negociación+ riesgo de tipo de

cambio + riesgo operacional)

El riesgo de crédito se calcula a través de tres componentes fundamentales:

• PD, o probabilidad de incumplimiento

• LGD, o pérdida en el momento de incumplimiento (también se conoce

como "severidad")

• EAD, o exposición en el momento del incumplimiento

Habida cuenta de la existencia de bancos con distintos niveles de sofisticación, el

acuerdo propone distintos métodos para el cálculo del riesgo crediticio. En el método

estándar, la PO y la LGD se calculan implícitamente a través de las calificaciones de riesgo

crediticio publicadas por empresas especializadas (agencias de rating). En cambio, los bancos

más sofisticados pueden, bajo cierto número de condiciones, optar por el método de ratings

internos avanzado (AIRB), que les permite utilizar sus propios mecanismos de evaluación del

riesgo y realizar sus propias estimaciones. Existe un método alternativo e intermedio

(foundation IRB) en el que los bancos pueden estimar la PD, el parámetro de riesgo más

básico, y utilizar en cambio valores precalculados por el regulador para la LGD.

Hasta la fecha, muchas entidades bancarias gestionaban su riesgo crediticio en función

de la pérdida esperada, EL= PDxLGDxEAD, que determinaba su nivel de provisiones frente a

incumplimientos. La nueva normativa establece una nueva medida, el R WA, que se fija no en

la media sino en un cuantil elevado de la distribución de pérdida estimada a través de una

aproximación basada en la distribución normal.

El nesgo de crédito se cuantifica entonces como la suma de los R W A

correspondientes a cada una de las exposiciones que conforman el activo de la entidad.

Dentro del riesgo de crédito se otorga un tratamiento especial a las titulizaciones, para

las cuales se debe analizar si existe una transferencia efectiva y significativa del riesgo, y si

son operaciones originadas por la entidad o generados por otras.

El riesgo de negociación y el riesgo de tipo de cambio se siguen calculando conforme

a Basilea l.

El riesgo operacional se calcula multiplicando los ingresos por un porcentaje que

puede ir desde el 12% hasta el 18%. Existen 3 métodos alternativos para calcularlo

dependiendo del grado de sofisticación de la entidad bancaria.

Por último, la definición de capital regulatorio disponible permanece casi igual a la de

Basilea l.

Hay que advertir una objeción en este cálculo del riesgo: que se ignora los efectos

agravantes/mitigantes de la concentración/diversificación de riesgos ( estructura de correlación

probabilística entre las diversas exposiciones). Esta es una de las principales diferencias entre

capital regulatorio y Capital Económico.

Pilar 11: el proceso de supervisión de la gestión de los fondos propios

Los organismos supervisores nacionales están capacitados para incrementar el nivel de

prudencia exigido a los bancos bajo su jurisdicción. Además, deben validar tanto los métodos

estadísticos empleados para calcular los parámetros exigidos en el primer pilar como la

suficiencia de los niveles de fondos propios para hacer frente a una cns1s económica,

pudiendo obligar a las entidades a incrementarlos en función de los resultados.

Para poder validar los métodos estadísticos, los bancos estarán obligados a almacenar

datos de información crediticia durante periodos largos, de 5 a 7 años, a garantizar su

adecuada auditoría y a superar pruebas de "stress testing".

Además se exige que la alta dirección del banco se involucre activamente en el control

de riesgos y en la planificación futura de las necesidades de capital. Esta autoevaluación de

las necesidades de capital debe ser discutida entre la alta dirección y el supervisor bancario.

Como el banco es libre para elegir la metodología para su autoevaluación, se pueden

considerar otros riesgos que no se contemplan en el cálculo regulatorio, tales como el riesgo

de concentración y/o diversificación, el riesgo de liquidez, el riesgo de reputación, el riesgo de

pensiones, etc.

Para grupos financieros multinacionales se establecen Colegios Supervisores que, bajo

la coordinación del supervisor de la entidad matriz, se encargan de la coordinación

internacional de la supervisión del grupo financiero.

Pilar 111: La disciplina de mercado

El acuerdo establece normas de transparencia y define la publicación periódica de

información acerca de su exposición a los diferentes riesgos y la suficiencia de sus fondos

propios. El objetivo es:

1) La generalización de las buenas prácticas bancarias y su homogeneización internacional.

2) La reconciliación de los puntos de vista financiero, contable y de la gestión del riesgo sobre

la base de la información acumulada por las entidades.

3) La transparencia financiera a través de la homogeneización de los informes de nesgo

publicados por los bancos.

Inicialmente la información incluirá:

• Descripción de la gestión de nesgos: objetivos, políticas, estructura.

organización, alcance, políticas de cobertura y mitigación de riesgos.

• Aspectos técnicos del cálculo del capital: diferencias en la consolidación

financiera y regulatoria.

• Descripción de la gestión de capital.

• Composición detallada de los elementos del capital regulatorio disponible.

• Requerimientos de capital por cada tipo de riesgo, indicando el método de

cálculo utilizado.

El requisito inicial es que se publique al menos anualmente, aunque es previsible que

la frecuencia será mayor (al menos resumida) y a sus contenidos mínimos se irá afiadiendo la

información que el mercado exija en cada momento.

Canlpi.m Ciudad r TECNOLOGICO DE MONTERREY®

Documents

Transcript of Canlpi.m Ciudad r TECNOLOGICO DE MONTERREY®

Riesgo Tecnologico

Blblloteca TECNOLOGICO DE MONTERREY@

TECNOLOGICO DE MONTERREY tl9

Aprendizaje tecnologico

proceso tecnologico

prooceso tecnologico

TECNOLÓGICO DE MONTERREY• TECNOLOGICO DE …

Tecnológico de Monterrey Campus Monterrey

Ecuador e Irán - cemoan.org · Instituto Tecnologico de Monterrey Juan Cole Universidad de Michigan Paulo Botta Centro de Estudios del Medio Oriente Contemporáneo, CEMOC Jorge Alberto

Portafolio de diagnostico. Curso Innovación Educativa. Tecnologico de Monterrey.

Monterrey de CPVC - soltechltda.comsoltechltda.com/pdf/Catalogo Tuber#U00c3#U00ada... · El innovador sistema de plomería FlowGuard Gold®/Corzan , está fabricado ® con el cloruro

TECNOLOGICO NACIONAL DE MÉXICO INSTITUTO TECNOLOGICO DE …

Glosario Tecnologico

Perfil sociodemográfico de Mpnierre®internet.contenidos.inegi.org.mx/contenidos/productos/prod_serv/... · Perfil Sociodemográfico del Área Metropolitana de Monterrey. XII Censo

DIAGNOSTICO TECNOLOGICO

PROYECTO TECNOLOGICO

TECNOLOGICO DE MONTERREY - repositorio.tec.mx

Reciclaje Tecnologico

Practica 4-portafolio-presentacion-curso-rea-tecnologico-monterrey-coursera

ARTICULO TECNOLOGICO