MINER´IA DE DATOS APLICADA A TEOR ´IA DE JUEGOS. Teor´ıa y ... · aplicacion en campos diversos...

UNIVERSIDAD DE CHILEFACULTAD DE CIENCIAS FISICAS Y MATEMATICASDEPARTAMENTO DE INGENIERIA INDUSTRIAL

MINERIA DE DATOS APLICADA A TEORIA DE JUEGOS.

Teorıa y Aplicacion a la Industria Financiera

TESIS PARA OPTAR AL GRADO DE MAGISTER EN GESTION DE OPERACIONES

MEMORIA PARA OPTAR AL TITULO DE INGENIERO CIVIL INDUSTRIAL

CRISTIAN DANILO BRAVO ROMAN

PROFESOR GUIA:RICHARD WEBER H.

MIEMBROS DE LA COMISION:NICOLAS FIGUEROA G.

JAIME MIRANDA P.XIMENA ESQUIVEL M.

SANTIAGO, CHILENOVIEMBRE 2008

A mi familia y mi pareja:Por ser el viento en mis velas.

I

Agradecimientos

En general no es posible redactar estos textos sin el apoyo de la gente que nos rodea y nos daapoyo. Esta tesis, que representa la culminacion de un proceso de (al menos) seis anos, no es unaexcepcion a esta regla. Por lo mismo, una pequena pagina recordando a aquellos que nos apoyan sehace necesaria, tanto para que el lector entienda quienes se involucran en este trabajo, como paramirar en retrospectiva y recordar a todos aquellos que participaban de la vida del autor en esosanos.

En primer lugar, y desde el lado academico, agradezco a los profesores Nicolas Figueroa yRichard Weber, al primero por su desinteresado y no obligado apoyo en todo los aspectos dondesintio que podıa aportar y por su interes por esta lınea de investigacion “hıbrida” que ha sidoinspiracion de este trabajo. Al segundo, por su capacidad de ser un mentor de sus alumnos, unafuente de sustento, fuente de apoyo moral, fuente de infinitas puertas y oportunidades y, finalmente,motor de investigacion al interior de la Universidad. Gracias a ambos por su guıa en el camino dela creacion de conocimiento.

Por el lado laboral, agradezco a todos los miembros de la empresa en la que actualmente estoypor permitirme desarrollar mi carrera profesional y, por sobre todos, a Ximena Esquivel por su apo-yo incondicional tanto para esta tesis como para mi carrera en general. Se agradece de sobremanerala entrega anonima de los datos para la construccion de esta tesis.

Por ultimo: a mis padres, Andrea, mi abuelo y mis hermanos, por ser el motor de mi vida, mifuente mas grande de inspiracion y la razon por la que todo tiene significado. Sin ustedes cada pasoserıa imposible, hacen cada momento mejor.

II

Resumen Ejecutivo

En este trabajo se busca estudiar la factibilidad de desarrollar un modelo integrado que utilicede manera conjunta minerıa de datos y teorıa de juegos, destacando los aspectos teoricos relevan-tes dentro de cada tecnica que faciliten tal modelo sinergico, para luego desarrollar una aplicacionpractica de esta nueva aproximacion en la industria financiera. El problema que inspira la aplicacionpractica nace de la clasificacion de clientes acorde a su propension de compra, donde compiten cua-tro empresas para capturarlo utilizando el precio que cobran y campanas de marketing. Es relevanteutilizar una tecnica como la minerıa de datos para abordar el problema, pues encuentra patronesrelevantes para estos fenomenos en base a la explotacion de grandes bases de datos, considerandolas variables asociadas a los clientes y sus caracterısticas. Sin perjuicio de lo anterior, este modelofue complementado de manera novedosa con variables del mercado, como los precios que observael cliente y las campanas comerciales dirigidas a el, las que resultaron de importante capacidaddiscriminante, siendo su estudio un aporte de esta tesis.

Se utilizo la metodologıa de descubrimiento de conocimiento en bases de datos (KDD) enla construccion de los modelos de minerıa de datos, incorporando modificaciones para potenciarel contacto con el modelador. En cuanto a las tecnicas particulares, se utilizaron Support VectorMachines (SVMs), potente tecnica de basada en el aprendizaje estadıstico, y un modelo hıbridodesarrollado en el marco de esta tesis que complementa estos resultados utilizando redes neuro-nales artificiales (ANNs), potente tecnica en cuanto a su capacidad de aproximar funciones. Losresultados indican que el metodo que utiliza solo SVMs entrega mayores capacidades en la pre-diccion, mientras el modelo de SVMs y ANNs posee ventajas importantes en tiempos de prueba yreplicabilidad.

No menos importante es el modelo de teorıa de juegos creado, que considera el comportamientode clientes a partir de los modelos de minerıa de datos y que incorpora tambien la estructura decostos de las empresa competidoras y la eficiencia al competir utilizando el precio como variableestrategica. La intencion fundamental es determinar los factores que determinan los costos de loscompetidores y su capacidad de respuesta frente a las condiciones de mercado y demanda queenfrenten. Este modelo integrado entrega resultados estrategicos que utilizan, nuevamente comoun aporte novedoso, funciones agregadas que nacen a partir de los modelos atomicos de minerıade datos. Los resultados obtenidos reflejan fuentes de oportunidad para aumentar participacion demercado en base a debilidades de los competidores, permite utilizar una medida cuantitativa de laeficiencia de la empresa y de los competidores y permite revisar el efecto de acciones comercialesen los clientes. En conclusion, las sinergias causadas por el uso de ambas tecnicas en conjunto esconsiderable.

III

Indice general

1. Introduccion 1

1.1. Alcance del Trabajo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2

1.2. Objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3

1.2.1. Objetivo General . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3

1.2.2. Objetivos Especıficos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3

1.3. Metodologıa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3

1.4. Resultados Esperados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6

1.5. Estructura del Trabajo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6

I Teorıa y Metodos 9

2. Conceptos de Minerıa de Datos 10

2.1. Definicion del Problema a Estudiar . . . . . . . . . . . . . . . . . . . . . . . . . . 11

IV

INDICE GENERAL

2.2. Desarrollo del Modelo: Metodologıa KDD . . . . . . . . . . . . . . . . . . . . . . 12

2.2.1. Seleccion de Datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

2.2.2. Preprocesamiento de Datos . . . . . . . . . . . . . . . . . . . . . . . . . . 13

2.2.3. Transformacion de Datos . . . . . . . . . . . . . . . . . . . . . . . . . . . 15

2.2.4. Minerıa de Datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16

2.2.5. Interpretacion y Evaluacion . . . . . . . . . . . . . . . . . . . . . . . . . 18

3. Support Vector Machines 20

3.1. Conceptos de Aprendizaje Estadıstico . . . . . . . . . . . . . . . . . . . . . . . . 21

3.2. Espacios Caracterısticos y Kernels . . . . . . . . . . . . . . . . . . . . . . . . . . 23

3.3. Hiperplanos Separadores . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25

3.4. Support Vector Machines: Definicion Formal . . . . . . . . . . . . . . . . . . . . 29

3.5. Extension Multiclase a SVMs . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32

3.5.1. Clasificacion One versus All . . . . . . . . . . . . . . . . . . . . . . . . . 32

3.5.2. Clasificacion One versus One . . . . . . . . . . . . . . . . . . . . . . . . 33

3.5.3. SVMs Monomaquina . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34

4. Estimacion de Probabilidades en Base a Redes Neuronales para SVM Multiclase 37

4.1. Estimacion de Probabilidades para SVMs multiclase . . . . . . . . . . . . . . . . 38

V

INDICE GENERAL

4.2. Redes Neuronales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40

4.3. Estimacion de Probabilidades en base a NN para SVM multiclase . . . . . . . . . 43

5. Conceptos de Teorıa de Juegos 45

5.1. Conceptos de Probabilidades y Elecciones bajo Incertidumbre. . . . . . . . . . . . 46

5.2. Teorıa de Juegos: Definiciones y Conceptos . . . . . . . . . . . . . . . . . . . . . 47

5.2.1. Componentes de un Juego . . . . . . . . . . . . . . . . . . . . . . . . . . 47

5.2.2. Informacion de un Juego . . . . . . . . . . . . . . . . . . . . . . . . . . . 48

5.2.3. Representaciones de un Juego . . . . . . . . . . . . . . . . . . . . . . . . 49

5.2.4. Equilibrio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50

6. Aplicaciones de Minerıa de Datos a Teorıa de Juegos 52

6.1. Minerıa de Datos Aplicada a Teorıa de Juegos . . . . . . . . . . . . . . . . . . . . 53

6.1.1. Game Mining en la Industria Manufacturera . . . . . . . . . . . . . . . . . 53

6.1.2. Prediccion de Series de Tiempo para el Juego RPS . . . . . . . . . . . . . 55

6.1.3. Estimacion del Valor de un Juego Utilizando Teorıa de Rough Sets . . . . . 57

6.2. Teorıa de Juegos Aplicada a Minerıa de Datos . . . . . . . . . . . . . . . . . . . . 59

6.2.1. Segmentacion en un Modelo de Competencia . . . . . . . . . . . . . . . . 59

6.2.2. Clasificacion Pairwise Utilizando SVMs y Teorıa de Juegos . . . . . . . . 61

VI

INDICE GENERAL

II Modelos de Teorıa de Juegos y Minerıa de Datos Aplicados a la Indus-tria Financiera 63

7. Modelo de Tarificacion en base a SVMs y Teorıa de Juegos 64

7.1. Modelo de Tarificacion en base a Teorıa de Juegos . . . . . . . . . . . . . . . . . . 64

7.2. Modelo con Demanda en base Minerıa de Datos . . . . . . . . . . . . . . . . . . . 68

7.3. Modelo Determinıstico con Aproximaciones Numericas . . . . . . . . . . . . . . . 71

7.4. Modelo en base a Probabilidades de Compra . . . . . . . . . . . . . . . . . . . . . 74

8. Mercado de Creditos de Consumo y Construccion del Modelo 78

8.1. Caracterısticas del Mercado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79

8.2. Consolidacion de Bases de Datos y Seleccion de Atributos. . . . . . . . . . . . . . 81

8.2.1. Consolidacion de datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81

8.2.2. Seleccion de Atributos . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82

8.3. Construccion de Regresion de Precios . . . . . . . . . . . . . . . . . . . . . . . . 85

9. Resultados Experimentales 88

9.1. Construccion de la Muestra y Configuracion de Modelos . . . . . . . . . . . . . . 88

9.2. Resultados Modelos de Minerıa de Datos . . . . . . . . . . . . . . . . . . . . . . 91

9.3. Resultados Modelo de Teorıa de Juegos . . . . . . . . . . . . . . . . . . . . . . . 94

VII

INDICE GENERAL

10. Conclusiones y Futuros Desafıos 99

10.1. Modelos de Minerıa de Datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99

10.2. Modelo de Teorıa de Juegos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101

10.3. Union de Minerıa de Datos y Teorıa de Juegos . . . . . . . . . . . . . . . . . . . . 102

10.4. Desarrollo de Objetivos Planteados . . . . . . . . . . . . . . . . . . . . . . . . . . 105

10.5. Futuros Desafıos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106

Bibliografıa 108

Anexos 114

A. Ejemplos de Funciones Kernel 114

B. Juegos Repetidos 119

B.1. Definiciones Iniciales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 120

B.2. Equilibrio en Juegos Repetidos . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121

B.3. Juego de Competencia en Ambientes con Shocks de Demanda . . . . . . . . . . . 122

C. Atributos del Modelo 125

D. Resultado Seleccion de Atributos y Analisis de Correlaciones 128

VIII

Indice de figuras

2.1. Etapas de la Metodologıa KDD. . . . . . . . . . . . . . . . . . . . . . . . . . . . 13

3.1. Hiperplano separador. w representa el vector normal al plano y b la distancia alorigen. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26

3.2. Hiperplano construido en base a support vectors. . . . . . . . . . . . . . . . . . . 28

3.3. SVMs en configuracion OVA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32

4.1. Estructura de una neurona real. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40

4.2. Estructura de una red neuronal artificial. . . . . . . . . . . . . . . . . . . . . . . . 42

4.3. Algoritmo LBL. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44

7.1. Diagrama de la aplicacion del modelo. . . . . . . . . . . . . . . . . . . . . . . . . 73

8.1. Participacion de mercado para las companıas. . . . . . . . . . . . . . . . . . . . . 79

8.2. Participacion de mercado competencia en otros mercados. . . . . . . . . . . . . . 80

IX

INDICE DE FIGURAS

10.1. Representacion del Modelo Integrado. . . . . . . . . . . . . . . . . . . . . . . . . 103

A.1. RBF en el Plano. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115

A.2. Kernel Polinomial de Grado 3. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 116

A.3. Kernel Sigmoidal. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 116

A.4. Spline compuesta por cuatro polinomios de grado uno. . . . . . . . . . . . . . . . 117

X

Capıtulo 1

Introduccion

La teorıa de Support Vector Machines [10, 40, 46] corresponde a una tecnica de minerıa dedatos basada en la separacion por hiperplanos cuya construccion y sus caracterısticas de aprendi-zaje, avaladas fuertemente por conceptos estadısticos, la hacen ampliamente flexible y permiten suaplicacion en campos diversos que van desde la industria financiera a la diagnosis de pacientes1.Por otro lado, la teorıa de juegos [19, 42] corresponde a la aplicacion base de la economıa a losmodelos de competencia y a traves de ella se intenta dilucidar el comportamiento de los jugadores(agentes) cuando se desenvuelven en ambientes no cooperativos.

Pocos y recientes esfuerzos se han realizado para unir estas teorıas, [26, 31] y es a partir deesta motivacion que se busca crear un primer marco teorico con tal de desarrollar un nuevo tipo demodelos que acerque estos dos mundos. En particular, la teorıa de juegos aplicados a la industriafinanciera entrega un campo donde la aplicacion de tecnicas de minerıa de datos se hace naturalpor resultados donde han existido falencias en la adaptacion de los modelos por falta de poderexplicativo, nicho donde es posible introducir minerıa de datos para alcanzar mejores resultadosaplicables.

Finalmente, teniendo en cuenta que la minerıa de datos tiene un fin eminentemente practico,

1Detalles en capıtulo 3

1

Capıtulo 1: Introduccion

se busca desarrollar una aplicacion en la industria financiera dentro del mercado de los creditos deconsumo, para ası validar los modelos desarrollados en un ambiente real.

1.1. Alcance del Trabajo

En esta tesis se tratara la union de minerıa de datos y teorıa de juegos con un enfoque teorico- practico, destacando las secciones de ambas tecnicas que son relevantes para esta tesis y sinadentrarse en profundidad en los temas que no estan relacionados con los modelos y resultados deeste trabajo. Sin perjuicio de lo anterior, el capıtulo 6 incorpora aplicaciones de teorıa de juegoscon minerıa de datos realizadas por diversos investigadores que destacan a la fecha de desarrollode esta tesis, donde se muestran algunos elementos adicionales de ambas tecnicas.

En cuanto al desarrollo de modelos, estos se aplican al mercado financiero, en particular a loscreditos de consumo, centrandose en el casi la totalidad de los analisis. Los modelos aquı planteadosutilizan tecnicas base que seran explicadas en el cuerpo de la tesis, donde se explicaran las tecnicasy metodologıas asociadas a la minerıa de datos (capıtulos 2, 3 y 4) y teorıa de juegos (capıtulo 5).

Las conclusiones y resultados tambien siguen la misma lınea presentada, con miradas tantohacia la aplicacion, comentando la interpretacion y uso de los resultados en el negocio particular,como a la teorıa, donde se analizaran las implicancias teoricas de los modelos desarrollados ylas perspectivas de trabajo futuro, apuntando ahora un enfoque de desarrollo de conocimiento einvestigacion.

En general, la intencion principal es explicar el desarrollo de un modelo de minerıa de datosunido con teorıa de juegos y, por otra parte, servir como primera aproximacion a un enfoque con-junto para usuario con experiencia en cualquiera de los dos campos que desee conocer algunos delos potenciales focos para la union de estas tecnicas.

2


1.2. Objetivos

1.2.1. Objetivo General

Desarrollar un modelo acompanado de un primer marco teorico que, en base a la union detecnicas de teorıa de juegos y de minerıa de datos, permita obtener informacion relevante conrespecto a los efectos de las acciones competitivas que toma un conjunto de agentes determinados.

1.2.2. Objetivos Especıficos

1. Disenar un juego cuyo volumen de informacion permita la aplicacion de tecnicas de minerıade datos.

2. Adaptar la tecnica de Support Vector Machines aprovechando sus ventajas para su uso enestos problemas.

3. Disenar un experimento real para poner a prueba el modelo expuesto.

4. Obtener un primer marco teorico identificando maneras de unificar estas tecnicas.

1.3. Metodologıa

Para construir los modelos de esta tesis se tuvo en cuenta el caracter mixto que posee estetrabajo y se diseno una metodologıa acorde, que comienza con disenos teoricos, sigue con la cons-truccion de los experimentos practicos para luego finalizar en los analisis necesarios para obtenerel conocimiento relevante de ellos.

3


Disenar juego.

La teorıa de juegos tiene diversas aristas por lo que un tema a abordar es el tipo de juego aelegir. Se cumple que aquel presentado en la seccion 7.1, y definido por Sudhir et al. [43],para modelar fijacion de precios y competencia entre empresas presenta grandes ventajaspara esta aproximacion debido a que:

• Supone estrategias dispares para los jugadores, indicando que las empresas fijan preciosdistintos y generan actividades comerciales distintas para un mismo grupo de clientes.

• Es un modelo pensado para aplicarlo en el mundo real, ya que los autores comentanque el modelo fue pensado para una aplicacion directa por tomadores de decisiones enmarketing.

• Presenta una aplicacion directa para minerıa de datos, ya que el modelo intenta ajustaruna funcion logıstica2 para la demanda agregada y la utiliza para calcular participacio-nes de mercado. La aplicacion de minerıa de datos en este modelo considera la demandacliente a cliente, modelando ya no la demanda agregada, sino la participacion de mer-cado esperada para un conjunto de clientes considerandolos de manera unitaria a travesde un modelo con Support Vector Machines.

Construir Modelo de Mineria de Datos.

La intencion principal es utilizar las ventajas de las SVM para realizar la minerıa de datosde forma mas sencilla. La primera de las caracterısticas que es de utilidad en esta tesis co-rresponde a la capacidad de elegir el espacio a utilizar con mucho menos restricciones quelas tecnicas de minerıa de datos clasicas. Cualquier espacio en el que se pueda definir unproducto punto (espacio llamado “de Hilbert” [13]) se puede utilizar en una SVM, lo quepermite disenar las variables relevantes para los juegos con mayor sencillez.

Por otro lado, para construir una SVM se debe definir la funcion kernel (seccion 3.2) a serutilizada, pues la manera de unir los espacios generales definidos anteriormente (el espacio

2La funcion logıstica corresponde a una popular funcion utilizada en modelos para fenomenos acotados entre dosintervalos. Entrega resultados entre [0,1] ajustando la funcion 1/ [1+ exp(−(β0 +∑i βi · xi))] utilizando el metodo demaxima verosimilitud.

4


de origen y el espacio donde opera la SVM) es a traves de una funcion de mapeo3 y poste-riormente un producto punto definido en el espacio caracterıstico; la funcion que engloba lafuncion de mapeo y el producto punto es conocida como funcion kernel. Lo anterior es suventaja principal para una potencial adaptacion a la teorıa de juegos ya que se puede crearuna funcion de distancias ad-hoc para apoyar un mejor ajuste luego de definir un espacioafın.

Considerando que la tecnica de SVMs presenta la limitante de entregar resultados discretos,se intenta relativizar las salidas de ellas utilizando un procesamiento posterior en base a redesneuronales, presentado en la seccion 4.3, que entrega salidas continuas, esperando con estomejorar la capacidad del modelo de aproximar las demandas.

Construir experimento real.

Segun el marco definido en los puntos anteriores, se debe construir un ejemplo real paraprobar el comportamiento de la teorıa desarrollada. La facilidad de acceso del autor a losdatos de creditos de consumo con descuento por planilla de una conocida empresa del sectorfinanciero entrega un punto de partida para cualquier modelo de competencia o de seleccion,por lo que se busca aplicar el modelo creado a los datos facilitados.

Los puntos a definir son:

• Variables necesarias para crear el juego y la forma de obtenerlas.

• Horizonte de tiempo a considerar para la repeticion del juego o, visto de otra forma,fechas para los datos de origen.

• Resultados esperados de este modelo y la manera de medirlos, sean estos ajustes de losmodelos, simulaciones u otros.

Validar modelo. Los resultados del modelo anterior seran utilizados para validar el compor-tamiento de la tecnica y su utilidad como aproximacion novedosa a los problemas existentesactualmente en el area de estudio.

3La palabra “mapeo” proviene del verbo ingles “to map” que se define en la linguıstica cognoscitiva como elentendimiento de un concepto o de un dominio conceptual en terminos de otro. Aquı se aplica de la misma forma,buscando “comprender” o representar un espacio en terminos de otro.

5


Analisis de resultados y conclusiones. Al ser esta una tesis metodologica, los resultadosdeben ser ampliamente analizados considerando sensibilidad y exactitud para ası medir sucomportamiento frente a tecnicas clasicas. Ademas, se plantearan futuras lıneas de estudiopara continuar con el desarrollo de la tecnica.

1.4. Resultados Esperados

Esta tesis presenta dos modelos que funcionan en forma coordinada, esperandose resultadosadecuados para cada uno de ellos. El modelo de teorıa de juegos consiste en parametros asociadosa una estimacion de precios y costos, por lo que se espera encontrar un conjunto de regresores,y parametros asociados a ellos, que representen correctamente el fenomeno de la competencia enprecios y los equilibrios de Nash, y por otro lado se esperan que estos parametros posean valorescoherentes para el fenomeno, conforme a la teorıa economica.

El segundo modelo corresponde a la estimacion de demanda utilizando minerıa de datos, dondese deben encontrar explicaciones satisfactorias del fenomeno tanto a nivel individual como agrega-do, con efectividades sobre 60% para el caso individual al ser un fenomeno social, y con regresoresque sean razonables y correctamente asociado al fenomeno. Esto se puede ver de dos maneras, pueslos regresores pueden entregar relaciones antes desconocidas, pero que hacen sentido y, por otraparte, deben surgir relaciones ya conocidas por quien realiza el modelo.

1.5. Estructura del Trabajo

El siguiente capıtulo de esta tesis entrega los conceptos generales de la metodologıa de descu-brimiento de conocimiento en bases de datos (KDD, Knowledge Discovery in Databases), funda-mento base para el desarrollo de trabajos en minerıa de datos y ademas aporta en un area con pocoestudio: la definicion inicial del problema a estudiar.

Este trabajo esta divido en dos partes. La primera parte corresponde a los fundamentos teoricos

6


necesarios de tener en cuenta para la comprension completa de lo aquı expuesto. Esta parte incluyetanto resultados de la literatura clasica de minerıa de datos y teorıa de juegos como resultadosdesarrollados especialmente para esta tesis o inspirados en ella.

El capıtulo 3 desarrolla la tecnica de Support Vector Machines (SVMs) que sera aplicada,centrandose en los conceptos y resultados que son de mayor utilidad para la union con teorıa dejuegos, entregando ası los primeros resultados del estudio.

El capıtulo siguiente muestra el desarrollo de un modelo para generar probabilidades en base alas salidas continuas de un conjunto de SVM [4], desarrollado a lo largo del ano 2007, que surgio apartir de las necesidades de potenciar los modelos presentados en este trabajo.

El capıtulo 5 entrega los fundamentos de teorıa de juegos, nuevamente entregando conceptosque son de utilidad para la union de estas tecnicas. El lector encontrara en estos capıtulos losfundamentos teoricos de cada una de estas tecnicas que avalan la aplicacion de minerıa de datos ateorıa de juegos.

Por ultimo, el capıtulo 6 aporta resultados de la revision bibliografica de aplicaciones previasa este nuevo campo, con una descripcion de los modelos desarrollados previamente orientandosesobre todo a las caracterısticas teoricas de cada una de las tecnicas que se utilizaron para realizar elpuente entre las metodologıas.

La segunda parte entra de lleno ya en las experiencias practicas de esta teorıa, en el capıtulo 7se introducen ya a los modelos desarrollados en esta tesis, presentado sus orıgenes, la descripciondetallada de los mismos, sus ecuaciones, la interpretacion de salidas y coeficientes y la metodologıade resolucion.

El capıtulo 8 presenta el mercado en el cual se aplicaron los modelos, el cual presenta particu-laridades que lo hacen idoneo para aplicaciones como las creadas. Esta introduccion se acompanapor las caracterısticas del proceso KDD para este proceso, incluyendo modificaciones que fueronincorporadas para maximizar el aprendizaje que el modelador obtiene de los datos.

Finalmente, el capıtulo 9 presenta los resultados obtenidos junto con su interpretacion y discu-

7


sion, apuntando a desarrollar las ventajas y desventajas que poseen este tipo de modelos en su usocomercial y su interes academico. Sigue a este capıtulo las conclusiones de este estudio, presen-tando todos los elementos que se pueden deducir de este modelo, de su aplicacion, del aprendizajecorporativo y academico obtenido de el y, para terminar, las nuevas preguntas que esta tecnica abre.

8

Parte I

Teorıa y Metodos

9

Capıtulo 2

Conceptos de Minerıa de Datos

La minerıa de datos ha sido en la ultima decada uno de los campos de estudio de mayor desa-rrollo y con mayor impacto en las distintas ciencias debido principalmente a que toma en conside-racion uno de los fenomenos que se presentaron junto con los avances computacionales: que hacercon todos los datos con los que se cuenta en una empresa o institucion. Acorde a Myatt [31]: “elvolumen de datos generado ha llevado a una sobrecarga de informacion y la habilidad de obteneralgun sentido de ella se ha vuelto cada vez mas importante”. En este contexto se define la minerıade datos como “la extraccion de informacion previamente desconocida de grandes bases de datosque pueden ser grandes, ruidosas y tener datos perdidos” [8].

El desarrollo de esta rama de las estadısticas ha sido rapido y, como toda rama una vez comienzaa ser masiva, ha desarrollado un marco teorico amplio y detallado que describe en profundidadtodos los pasos necesarios para mejorar la probabilidad de exito de un nuevo proyecto. Este capıtulodescribira una reunion de los distintos puntos que han expresado los autores en la literatura y queson necesarios para extraer de forma rigurosa informacion de una base de datos.

En particular, se estudia el camino a seguir para definir el problema, luego cada uno de lospuntos de la metodologıa KDD para crear el modelo y finalmente los requerimientos mınimos quedeben tener las conclusiones de un estudio de minerıa de datos.

10

Capıtulo 2: Conceptos de Minerıa de Datos

2.1. Definicion del Problema a Estudiar

Todo estudio de minerıa de datos aborda un problema particular para una entidad, sin embargo,en la literatura existen pocas publicaciones que noten los pasos que se deben seguir para asegurarque el problema este bien definido. En [27] se definen los siguientes puntos que deben ser abordadosprevio a la construccion del modelo:

Objetivos

El primer paso luego de haber identificado un problema potencial para una entidad es definircual es el objetivo general que se desea perseguir, como ejemplifica el planteado en estetrabajo: “se desea construir un marco general para unir SVM y teorıa de juegos”. Este objetivodebe ser divido en objetivos especıficos, identificando los distintos puntos donde se deseatener una resultado. En este paso es recomendable definir un criterio de exito cuantificable,como por ejemplo “se desea incrementar las ventas en un 5%”.

Entregables

Es importante definir los resultados a obtener del proyecto, como pueden ser un nuevo soft-ware, un modelo general, un marco teorico, etcetera. Definir este punto intenta alinear lasexpectativas de cada uno de los participantes del proyecto con los resultados que finalmentese obtendran, junto con validar los resultados del proyecto con el problema, pues no sirveperder tres meses en desarrollar un modelo con un 95% de eficacia si se puede desarrollaruno con un 85% en dıas y esto suple los problemas de la empresa. Aquı se debe sopesar eltiempo de desarrollo, el costo de las equivocaciones y el equipo necesario para cumplir conlos objetivos.

Roles y responsabilidades

La gran mayorıa de los proyectos corporativos se desarrolla en equipos de mas de una personay, aunque esto no sea ası, quien desarrolla el proyecto y quien se beneficia de el no sueleser la misma persona. Los roles que cumple cada uno de los miembros y la definicion dellımite de sus responsabilidades ayuda a hacer mas expedito el trabajo. Posibles roles puedenser el jefe del proyecto, analistas del negocio (con conocimiento del funcionamiento de la

11


entidad), expertos en minerıa de datos (con conocimiento de los modelos), expertos en TI(para manejar las fuentes de datos y la futura implementacion) y el consumidor (quien sebeneficia del proyecto).

Costos y Carta Gantt

Una vez definido los participantes del proyecto, se puede definir el tiempo que este tardara yel costo asociado. Los plazos deben ser definidos tanto por los consumidores como por losparticipantes del proyecto, asegurando ası que los intereses de cada uno sean resueltos, yaque el equipo de minerıa de datos desearıa tener mucho tiempo, mientras el consumidordesea tenerlo lo mas rapido posible. Al momento de completar cada paso del desarrollo delmodelo es recomendable reajustar esta carta Gantt con tal de reflejar los retrasos o adelantosy las nuevas metas de tiempo. Con todo lo anterior se puede desarrollar una presupuestogeneral del proyecto y evaluar finalmente si el proyecto es rentable.

Teniendo estos pasos definidos y una vez que el proyecto de minerıa de datos ha sido aceptadopara su desarrollo se puede comenzar con la creacion del modelo.

2.2. Desarrollo del Modelo: Metodologıa KDD

La metodologıa KDD [17, 27] es el resultado de la estandarizacion de los procesos relacionadoscon la transformacion de grandes volumenes de datos en conocimiento util en cualquier area delconocimiento que necesite de modelos matematicos (generalmente estadısticos) para interpretarrelaciones no triviales en bases de datos. Esquematicamente el proceso se puede observar en lafigura 2.1.

2.2.1. Seleccion de Datos

El primer paso de la metodologıa KDD es la seleccion de los distintos orıgenes que pueden tenerlos datos necesarios para el correcto desarrollo del modelo. Los datos deben ser seleccionados de

12


Figura 2.1: Etapas de la Metodologıa KDD.

todas las fuentes posibles, sean estas externas (como el valor de la UF o compras a fuentes externas),bases de datos corporativas o data warehouses, o creada especıficamente para este problema (atraves de encuestas o indicadores calculados a partir de otras variables), siempre teniendo en cuentaque la calidad de los datos es por mucho el factor mas importante para la creacion de un modelo,pues ellos deben ser capaz de representar patrones en los datos de forma fidedigna. En esta fasese corre un alto riesgo de introducir errores, sobre todo al consolidar las bases de datos para elsiguiente paso.

El input de esta fase corresponde a todos los distintos orıgenes de datos, mientras el output esuna base de datos con toda la informacion disponible para resolver el problema.

2.2.2. Preprocesamiento de Datos

El siguiente paso involucra limpiar los datos, siendo en este paso donde suele gastarse la mayorcantidad del tiempo del proyecto ya que los datos de multiples fuentes suelen estar incompletos ycon inconsistencias. Tareas comunes que deben realizarse son:

13


Descripcion previa de los datos

Los distintos campos o atributos a ser utilizados deben ser examinados utilizando herramien-tas estadısticas clasicas, como frecuencias y medias. La intencion de este paso es comprenderla calidad de los datos, pues pueden existir atributos con un solo valor (concentrados al 100%)o con todos sus datos nulos, lo que se quiere detectar a priori.

Datos Nulos

Los registros con datos nulos no pueden ser utilizados por practicamente ningun modelo deminerıa de datos (a excepcion de los arboles de decision) por lo que su presencia en las basesde datos es un grave y comun problema que se debe enfrentar. Existen diversas tecnicasdesarrolladas para el tratamiento de datos nulos que van desde eliminar los registros quecuenten con ellos, imputar datos de manera aleatoria (o segun la distribucion de la variable), ametodos mas complejos como generar regresiones o metodos de expectacion - maximizacionque son estadısticamente estables.

Limpieza de datos

Se deben explorar las bases para estandarizar algunas entradas y eliminar los datos que nocorresponden al atributo. Estos pueden incluir diversas formas de registrar algun valor puespor ejemplo un atributo “region” puede incorporar “region metropolitana”, “RM”, “Reg. Me-trop.”, etc. O, pueden figurar valores inconsistentes, como edades negativas y otros errores.

Incorporacion de informacion conocida adicional

Al incorporar datos de bases de datos corporativas usualmente se registran algunos cambiosde sistemas que pueden alterar el valor de los campos o pueden incorporar informacion in-consistente o repetida. Esta informacion debe ser incorporada ya sea para consolidar algunosatributos o para eliminarlos.

La salida de este paso es una base de datos limpia, completa y preparada para ser adaptada parasu uso en un modelo estadıstico.

14


2.2.3. Transformacion de Datos

Los modelos estadısticos utilizados para la minerıa de datos suelen tener requerimientos encuanto a que tipo de datos aceptan. Esto debe ser tomado en consideracion y es en esta fase dondese debe decidir para cada atributo cual sera la transformacion que mejor se adapta a las necesidadesdel modelador. Algunas transformaciones potenciales corresponden a:

Normalizacion

Los atributos continuos (como el ingreso o la edad) se pueden escalar a algun intervalo, eli-minando ası el efecto de la diferencia de escalas entre las distintas variables y otorgandole elmismo peso relativo a cada una de ellas. Algunos metodos corresponden a la normalizacionen el intervalo [0,1], el escalamiento z (restar la media de la variable y dividir por la desvia-cion estandar observada) y el escalamiento decimal, que corresponde a dividir por 10n donden es la cantidad de dıgitos que posee el valor mas alto de la variable.

Mapeo de variables ordinales

Las variables que representen categorıas con un ordenamiento definido pueden ser trans-formadas en variables numericas definiendo alguna magnitud explıcita para cada categorıa,representando ası una distancia conceptual en terminos de una distancia numerica. El riesgoque se corre es que la definicion y la interpretacion de esta distancia numerica es subjetiva ypor ende puede llevar a introducir patrones donde realmente no los hay.

Transformacion de variables categoricas

Las variables categoricas se pueden representar matematicamente en base a transformar unatributo con n categorıas en n-1 variables tales que si un registro particular pertenece a la ca-tegorıa i entonces la variable i toma valor uno y el resto toma valor 0. Una de estas categorıasse fija como categorıa de referencia, pues en caso contrario existira un problema de multi-colinealidad en las variables1 y no se le debe crear variable asociada, al ser determinable apartir de las demas.

1Dos o mas variables son colineales si una variable se puede expresar como una funcion lineal de las demas. En estecaso, si se crearan n variables binarias entonces una de ellas (arbitraria) se podrıa representar como xi = 1−∑ j 6=i x j .

15


Discretizacion de variables continuas

En el caso que la escala de alguna variable no sea confiable por su construccion original o sila variable se encuentra altamente concentradas en rangos disjuntos de valores se puede optarpor construir una nueva variable que englobe estos rangos. De esta forma se puede capturarde manera mas “limpia” relaciones que un modelo puede interpretar de forma erronea osimplemente pasar por alto.

Otro motivo para utilizar este tipo de transformacion es cuando se esta en presencia de unavariable con comportamiento no lineal y se esta utilizando un modelo lineal. Una opciona seguir es eliminar la variable con comportamiento no lineal y generar nuevas variablescategoricas, una para cada tramo en el cual se observe comportamiento lineal.

Agregacion y cambio de rango

Las variables pueden ser transformadas para aumentar su capacidad discriminante cuandoestan altamente agregadas a traves de cambiar el rango. Esto puede ser realizado por ejemplocalculando el logaritmo natural de alguna de ellas, ralentizando el crecimiento de la variable.Otra opcion es construir una nueva variable calculando el total de un conjunto de variablesafines, como por ejemplo calcular el ingreso total por familia para un conjunto de habitantessumando sobre los ingresos de cada integrante.

Una vez transformado los datos se dispone de una base de datos en condiciones optimas paraaplicar un metodo de minerıa de datos. Esta base de datos contiene en el optimo todos los regis-tros con valores confiables y dentro de rango, escalados o transformados para asegurar que seandiscriminantes y representen el problema.

2.2.4. Minerıa de Datos

El siguiente paso es aplicar el modelo estadıstico utilizado, que suele ser en realidad una apli-cacion iterativa del modelo inicialmente definido o la prueba de distintos modelos para encontrarel de mejor funcionamiento en el problema particular. Previo a esta aplicacion se debe segmentarla base para poder validar de forma optima los resultados, por lo que se debe definir un porcentaje

16


de los registros que nunca sera incorporado a los modelos y es para validacion y comparacion entredistintos resultados; se recomienda que este conjunto de test sea entre el 20% y el 30% del total deregistros, utilizandose un promedio de un 25% [23].

El conjunto de datos restantes debe ser nuevamente dividido para realizar analisis de validacioncruzada del modelo, analizando ası la estabilidad de los resultados; por lo general se busca dividirel conjunto en particiones iguales, volviendo a dejar afuera el 20% o 25% de la muestra total yentrenando con el 60% o 50% restante y luego rotando el conjunto que queda fuera, sin nuncaincorporar el conjunto de test separado en el paso previo.

Luego de realizar esta division se debe aplicar el modelo de minerıa de datos, definiendo clara-mente una metodologıa de prueba para los distintos factores que influyen en un modelo y que porlo menos incluya los siguientes pasos:

Seleccion de atributos

No todos los atributos inicialmente seleccionados son discriminantes e incluso si lo fuesenno lo seran en la misma medida. La seleccion de atributos suele ser ignorada en los modelos,bajo la falsa creencia que al aplicar tecnicas avanzadas de modelacion estos se seleccionaransolos al otorgar pesos bajos a los valores de estos atributos [55], pero esto no es ası. Existenmuchos metodos desarrollados para seleccionar atributos y queda a criterio del desarrolladorencontrar uno que se adapte mejor a la tecnica a utilizar.

Seleccion del modelo a utilizar o a medir eficacia

El siguiente factor a considerar corresponde a la tecnica a utilizar. Acorde al problema par-ticular existen una variedad de modelos que sirven para abordarlo, todos con distintos nive-les de complejidad, tiempo de computacion, conocimiento necesario por parte del experto,etcetera. La seleccion de los modelos debe pasar por considerar el nivel de conocimientoque el experto tenga de los mismos, la complejidad necesaria para resolver el problema (sies necesario un complejo modelo no lineal o basta con otro mas sencillo), las herramientascomputacionales disponibles y por ultimo la complejidad en el tiempo de desarrollo.

17


Seleccion de parametros del modelo

Los distintos tipos de modelos poseen una variedad de parametros que se deben ajustar y cu-yos valores dependen fuertemente del problema particular a ser abordado. Una metodologıade prueba de estos valores para determinar el mejor modelo debe ser definida para minimizarel riesgo de fallar en encontrar la mejor combinacion de parametros.

Una vez disenados todos estos pasos se deben probar los modelos y validar los resultados enbase a la capacidad discriminante que posea (medida en el conjunto de testeo) y probada su esta-bilidad considerando las distintas combinaciones de las particiones del conjunto de entrenamiento.La salida de este paso es un modelo completamente validado que debe ser evaluado en el pasosiguiente para su implementacion.

2.2.5. Interpretacion y Evaluacion

Este proceso considera el utilizar los resultados del modelo para crear el nuevo conocimiento,es aquı donde se analizan las secciones de implementacion y resumen de la informacion o disenode los entregables.

Entregables

En esta fase se deben disenar los entregables del proyecto, siendo los mas populares los re-portes, los modulos para incrustarse a otro software y los software autonomos. Los reportessirven para describir los descubrimientos realizados y las acciones a seguir para la imple-mentacion, por lo que siempre debiesen estar presente en un proyecto de minerıa de datosya que permiten tener la informacion teorica y practica resultante disponible para consultasposteriores. Los modulos de software para integracion en sistemas existentes tienen la venta-ja de ser efectivos en costos, requieren bajo nivel de entrenamiento en el personal y se puedeacceder de forma rapida a la informacion existente. El software autonomo crea una solucionque puede ser de despliegue rapido al venir “listo para ser usado”, pero su integracion en lossistemas de una empresa puede ser mucho mas difıcil.

18


Implementacion

En esta fase se debe planificar y ejecutar la implementacion en base a describir que y quienesparticiparan en la implementacion, describir si se deben redefinir responsabilidades, iden-tificar el entrenamiento necesario y discutir la metodologıa para mantener actualizado losmodelos. Otro paso necesario corresponde a describir como se medira la efectividad de losmodelos descritos y tambien su nivel de ajuste a los datos a lo largo del tiempo.

El ultimo paso de la metodologıa KDD es la comprension de los resultados del proyecto. Elesfuerzo realizado y el tiempo invertido para obtener un modelo estadıstico que extraiga conoci-miento de bases de datos no es despreciable, por lo que se debe aprovechar al maximo todas suspotencialidades.

Por lo general en el desarrollo de un modelo de minerıa se obtiene mucho conocimiento externoal que aporta el modelo en sı mismo, pues si se sigue la metodologıa KDD entonces en cada pasose va alcanzando un nivel nuevo de conocimiento de las bases de datos y de las caracterısticasde las mismas, que son finalmente un fiel reflejo del significado de los procesos que una entidaddesarrolla.

19

Capıtulo 3

Support Vector Machines

Dentro de las tecnicas de minerıa de datos existentes las Support Vector Machines [10, 40, 46]han sido una de las tecnicas mas avaladas y de mayor impacto dentro de las aplicaciones que esta hatenido en los ultimos anos, debido a su altısima flexibilidad que le ha permitido ser usada en campostan disımiles como la medicina [15], el reconocimiento de imagenes [12], el reconocimiento devoces [22], el analisis de proteınas [48], la deteccion de hackers e intrusos virtuales [30] y porsupuesto el mercado financiero [11, 29].

La flexibilidad intrınseca de las SVMs las hace idoneas para una aplicacion a un area tan alejadade la minerıa de datos como lo es la teorıa de juegos. En este capıtulo se espera dilucidar el funcio-namiento de esta tecnica a partir de la base de la teorıa de aprendizaje estadıstico, se explicara suflexibilidad a traves del funcionamiento de los kernels y los cambios de espacio para finalmenteexplicar la base de la tecnica disenando el problema a resolver y las tecnicas de optimizacion quese utilizan para resolverlo.

20

Capıtulo 3: Support Vector Machines

3.1. Conceptos de Aprendizaje Estadıstico

Sea un conjunto de m datos pertenecientes a un conjunto X , tales que a cada elemento le co-rresponde una categorıa en el conjunto Y = −1,1 : (xm,ym) ∈ X×−1,1,m ∈R. Si se quisieracrear una funcion tal que para un elemento del conjunto X le correspondiese su respectivo elementoen el conjunto Y entonces se requerirıa que la funcion “aprenda” los patrones que los datos poseeny permitiera generalizar esta clasificacion a los datos que no estan presentes en la muestra. Para rea-lizar esto Vapnik y Chervonenkis [46] crearon en los anos ’60 la teorıa de aprendizaje estadıstico,o teorıa VC, objetivo de la seccion.

El supuesto principal de esta teorıa es que los datos son generados en base a un funcion dedistribucion de probabilidad conjunta P(x,y) desconocida, pero fija. La meta es entonces encontraruna funcion f : X → −1,1, obtenida a partir de los datos de muestra, que clasifique correcta-mente todos los pares (x,y) posibles dentro del espacio X . Sin embargo, ajustar una funcion queclasifique correctamente solo los datos de la muestra no asegura un ajuste certero en todo el con-junto de datos, pues para toda funcion f : X → −1,1 existira una funcion f ∗ : X → −1,1 talque f (xi) = f ∗(xi) ∀xi, i ∈ 1, . . . ,m ∧ f (x) 6= f ∗(x), x 6= xi, i ∈ 1, . . . ,m. Esto es, siempre esposible construir una segunda funcion tal que tome el mismo valor que la funcion ajustada en elconjunto de muestra, pero que sea distinta en todo el resto del espacio. Para tratar de sobrepasarestos problemas se definen los siguientes conceptos:

Definicion 3.1 (Riesgo). Se define el riesgo de una funcion f : X →−1,1 como el promedio deerror de la funcion por sobre todo el conjunto X ×−1,1, promediada sobre la distribucion deprobabilidad conjunta subyacente a los datos, i.e.

R[ f ] =∫| f (x)− y|dP(x,y)

Definicion 3.2 (Riesgo Empırico). Se define el riesgo empırico de una funcion f : X → −1,1como el promedio de error generado por sobre el conjunto observado, i.e.

Remp[ f ] =1

2m

m

∑i=1| f (x)− y|

21


Entonces se desea obtener aquella funcion f que minimice el riesgo de la funcion, no el riesgoempırico. La teorıa VC indica que es necesario restringir el conjunto sobre el cual se elige la funcionf a uno que contenga las funciones que poseen “capacidad” suficiente para el conjunto de datosde muestra con los que se cuenta, y para ello entrega cotas para el riesgo de la funcion en base alriesgo empırico y a propiedades particulares de los datos, pasando a ser relevante la “dimensionVC” de la clase de funciones a la cual pertenece la funcion f .

Definicion 3.3 (Dimension VC). Se define la dimension VC (h) de una clase de funciones como elmaximo numero de puntos del espacio en posicion general1 que pueden ser separados de todas las2h formas posibles.

Dado este valor, para un conjunto de funciones de una debida clase con dimension h la teorıaVC entrega diversas cotas que pueden ser utilizadas para construir una funcion que tenga riesgo (noempırico) mınimo en base a la minimizacion de estas cotas, lo que nos lleva a la minimizacion delriesgo estructural. Un ejemplo de estas cotas corresponde, en el caso que la funcion f pertenezca ala clase de funciones con dimension VC menor a la cantidad de datos de muestra m (h < m), es elsiguiente:

R(α)≤ Remp(α)+

√h(log(2m/h+1)− log(µ/4))

m(3.1)

donde µ es tal que la cota anterior se cumple por lo menos con una probabilidad de 1−µ cual-quiera sea el conjunto de datos que se consideren. Existen cotas mas ajustadas para tipos especialesde funciones siendo relevante las cotas para funciones lineales debido a que las SVM utilizan unhiperplano lineal para separar los datos de muestra, sin embargo, la formulacion explıcita de estascotas carecen de interes para efectos de esta tesis. Para mas detalles se pueden encontrar una ex-plicacion teorica detallada de las cotas utilizadas en SVM junto con todos los teoremas necesariospara llegar a ellas en [10].

1En posicion general se refiere a que los puntos no son generados de forma ordenada, es decir, no estan posicionadossobre un hiperplano u otra funcion de manera obligada

22


3.2. Espacios Caracterısticos y Kernels

Segun se adelanto en la seccion anterior las SVMs son clasificadores lineales pues utilizan unhiperplano el cual divide los conjuntos de datos de muestra, pero en la introduccion se menciona quelas SVM son clasificadores potentes y flexibles que permiten clasificar muchos tipos distintos deelementos y que es esta caracterıstica la que las hace idoneas para una aplicacion en teorıa de juegos¿como se sostienen entonces estas afirmaciones? a traves del uso de funciones de transferencia ofunciones Kernel.

Se volvera a analizar los puntos en un conjunto general X descrito en las secciones anteriores.Para poder realizar cualquier tipo de clasificacion es necesario poder representar los vectores per-tenecientes a X en un espacio donde exista alguna medida de distancia o de similitud (norma). Encaso que el conjunto X posea una norma intrınseca (por ejemplo, si se trata de Rn) es posible utili-zarla y generar una distancia explıcita a traves del producto punto de dos elementos: k(x,x′) = x ·x′2

y ası medir las disimilitudes en el conjunto X .

En el caso que no exista tal medida (el cual es el caso interesante) podrıamos considerar unafuncion φ tal que para todo vector x ∈ X , x = (x1, . . . ,xn) φ(x) = (φ1(x1), . . . ,φn(xn)). Esta funcion“mapea” los elementos del conjunto X en un nuevo espacio (conocido como el espacio caracterısti-co) F : φ(x)|x ∈ X. Para efectos de utilizar SVMs como clasificadores esta funcion de transferen-cia debe cumplir con llevar los elementos del espacio origen a un espacio con un producto puntodefinido, que es el requerimiento inicial. Una propiedad interesante es que no es necesario conocerexplıcitamente la funcion que define la transferencia, sino que en realidad lo necesario es definirun producto punto en el espacio vectorial definido por la funcion de mapeo, mas aun, ni siquieraes necesario que el espacio caracterıstico tenga dimension finita, basta con que se le pueda definirun producto punto. A estos espacios se les conoce como espacios de Hilbert inducidos por kernels(RKHS, por sus siglas en ingles).

Definicion 3.4 (Espacio de Hilbert). Un espacio real o complejo es de Hilbert [13] si es un espaciocompleto o de Banach3 bajo la norma definida por el producto punto.

2Se recuerda al lector que el producto punto de dos vectores es igual a la multiplicacion de las normas de cadavector por el coseno del angulo que forman: x · x′ = ‖x‖‖x′‖cos(θ).

3Un espacio X es de Banach si para toda sucesion convergente a un lımite l, l ∈ X , es decir, el lımite esta dentro del

23


Para abordar el problema anterior es posible definir el mapeo a traves de una funcion kernel,definida como k(x,x′) = φ(x) ·φ(x′) la cual realiza el mapeo de forma implıcita, pues la expresionfinal no necesita que la funcion de transferencia aparezca. Claramente no todas las funciones de-finidas en un espacio poseen las cualidades necesarias para ser una funcion kernel: sean x,z ∈ X

cualquiera y k(x,z) una funcion, entonces para que k(x,z) sea un producto punto bien definido debecumplir con las siguientes propiedades:

Propiedad 3.1 (Simetrıa). k(x,z) = k(z,x).

Propiedad 3.2 (Desigualdades de Cauchy-Schwartz). k(x,z)2 ≤ k(x,x) · k(z,z).

Lamentablemente las condiciones anteriores no son suficientes para que una funcion sea con-siderada como funcion kernel. Para ello existe el teorema de Mercer, el cual entrega condicionesnecesarias y suficientes para caracterizar estas funciones. Se comenzara por una caracterizacionsencilla presentada sin demostracion4.

Proposicion. Sea X una espacio finito con k(x,z) una funcion simetrica definida en el. Entonces

k(x,z) es una funcion kernel si y solo si la matriz

K =(k(xi,x j)

)ni, j=1

Es semi-definida positiva, o equivalentemente, posee valores propios no negativos. A la matriz K

se le conoce como Matriz de Gram.

La definicion anterior permite definir con seguridad una funcion kernel cuando el espacio esfinito, pero ¿que sucede si no lo es? El teorema siguiente, propuesto por Mercer, incluye una gene-ralizacion para este caso.

Teorema 3.1 (Mercer). Sea X un conjunto no vacıo y x1, . . . ,xm ∈ X una secuencia cualquiera. Si

una funcion k : X ×X ∈ R es tal que ∀m ∈ N la matriz de Gram definida por k es semidefinida

positiva, entonces k es una funcion kernel de Mercer o, simplemente, funcion kernel.

conjunto.4Esta se puede encontrar en [10].

24


La presentacion del teorema 3.1 escrita aquı es una representacion alternativa a la original, peroque es de mayor utilidad al momento de aplicarla en problemas reales [41]. Una funcion kernelposee todas las propiedades de un producto punto y ademas permite mapear los elementos delconjunto general X en el espacio de Hilbert F . Por lo general, se buscara aumentar el numero dedimensiones en los cuales se trabaja, o se buscara generar un espacio medible a partir de elementosque no lo son. El apendice A entrega ejemplos de funciones kernel comunmente utilizados y sirvede referencia para la definicion del modelo en el capıtulo seis.

3.3. Hiperplanos Separadores

La seccion anterior entrega las definiciones necesarias para entender que es posible disenaralgoritmos para producir “aprendizaje” de patrones para un conjunto de datos a traves de la mini-mizacion de cotas generales que aseguran un ajuste correcto de una funcion a un espacio. Ademasse sabe que es posible transformar los datos de cualquier espacio a otro a traves de funciones kernelque permiten adaptar el conjunto a las necesidades de quien modela. Falta ahora definir un tipoespecial de clasificadores conocidos como “clasificadores lineales” que permiten dividir de maneraefectiva el conjunto de datos en el espacio definido en el espacio caracterıstico.

Para poder utilizar correctamente los conceptos de la seccion 3.1 se necesita crear una funciontal que se pueda calcular correctamente la capacidad (dimension VC). Las funciones lineales poseenesta caracterıstica por lo que es razonable pensar en ellas al momento de decidir el tipo de funciona proponer.

Ası [46] considera funciones clasificadoras de la forma:

f (x) = sgn((w · x)+b),w ∈ Rn,b ∈ R (3.2)

La funcion “sgn” representa el signo de la expresion entre parentesis, que corresponde a unhiperplano definido en el conjunto de origen tal que w es el vector normal a el y b corresponde asu distancia al origen. Esta funcion clasificadora posee dos caracterısticas interesantes que la hacen

25


atractiva:

De todos los hiperplanos posibles en Rn existe un unico que maximiza la distancia (margen)entre dos clases.

∀n ∈ N, ∃!w ∈ Rn, b ∈ R | maxw,b

[mın‖x− xi‖ : x ∈ Rn, (w · x)+b = 0, i = 1, . . . ,m]

Figura 3.1: Hiperplano separador. w representa el vector normal al plano y b la distancia al origen.

A mayor margen entre dos clases, menor es la dimension VC del hiperplano. Este principioes el gran fundamento que apoya este tipo de clasificadores y fue propuesto por Vapnik en[45] ya en el ano 1963 como un argumento potente para el uso de estas funciones comoclasificadores.

Tomando el principio anterior es posible definir correctamente el problema de encontrar la fun-cion de clasificacion (i.e. el hiperplano) que minimice el riesgo estructural en base a, simplemente,encontrar aquel hiperplano unico descrito en el primer punto que maximiza el margen entre lasclases pues con ello aseguramos que la dimension VC de la funcion de clasificacion sea mınimay por ende lo es el riesgo estructural. El hiperplano optimo define entonces en base al siguienteproblema de optimizacion cuadratica:

26


mınw,b

12

∥∥w2∥∥s.a yi(w · xi +b)≥ 1, i = 1, . . . ,m

(3.3)

Para resolver este problema se siguen las tecnicas usuales de optimizacion, definiendo un lan-grangeano para la funcion objetivo que corresponde a:

L(w,b,α) =12‖w‖2−

m

∑i=1

αi [yi(w · xi +b)−1]

Este langrangeano debe ser minimizado con respecto a las variables wi y maximizado conrespecto a las variables αi. La intuicion detras de esta operacion es la siguiente:

En el caso que la restriccion del problema de maximizacion yi(w ·xi +b)≥ 1 se viole significaque yi(w ·xi +b)−1 < 0 y por ende aumentar αi aumenta el valor de L. Al mismo tiempo, loscoeficientes wi y el valor de b deben cambiar de tal forma de ajustarse a satisfacer de formaexacta la restriccion, tomar valor 0 y evitar ası que la funcion L crezca infinitamente.

En el caso que la restriccion yi(w · xi + b) ≥ 1 no sea alcanzada ni violada implica queyi(w · xi +b)−1 > 0 y la unica forma de aumentar el valor del langrangeano es hacer que elrespectivo coeficiente αi tome el valor 0.

Las condiciones de Karush - Kuhn - Tucker (KKT) permiten resolver estos langrageanos y depaso producir la forma final de la solucion:

∂L∂b

(w,b,α) = 0

∂L∂w

(w,b,α) = 0(3.4)

27


Resolviendo estas ecuaciones se obtiene finalmente:

m

∑i=1

αiyi = 0

m

∑i=1

αiyixi = w

Las ecuaciones anteriores entregan una excelente intuicion para la solucion. El vector normalw que define el hiperplano (pues el valor del parametro b se despeja sencillamente de alguna delas restricciones originales) es tal que posee una descomposicion en los puntos originales de lamuestra, pero solo aquellos vectores que poseen un coeficiente αi > 0. Los vectores que poseen estacaracterıstica son llamados “vectores soportantes” (support vectors) y capturan la idea fundamentalde las SVM: para construir un hiperplano que separe dos clases entonces no es necesario un granconjunto de puntos, sino solo una parte de ellos por sobre los cuales se apoya el hiperplano. Laimagen siguiente obtenida de [40] entrega graficamente la solucion.

Figura 3.2: Hiperplano construido en base a support vectors.

Como ultimo paso se construira el dual de Wolfe del problema de maximizacion que aporta con

28


una formulacion mas sencilla de (3.3). Para formular el dual, basta con reemplazar las condicionesde KKT (3.4) en la formulacion del problema de maximizacion, eliminando las variables primalesy por ende solo minimizando los valores de las variables duales que finalmente pasa a ser:

maxαi

αi−12

m

∑i, j=1

αiα jyiy j(xi · x j)

s.a αi ≥ 0, i = 1, . . . ,mm

∑i=1

αiyi = 0

(3.5)

Este problema es lineal y de mucha mas facil resolucion que el problema (3.3), ademas depermitir redefinir el hiperplano clasificador (3.2) para ajustarse a la nueva formulacion en base aldual:

f (x) = sgn

(m

∑i=1

αiyi(x · xi)+b

)(3.6)

3.4. Support Vector Machines: Definicion Formal

Con las definiciones presentadas en las secciones anteriores es posible ya definir completa-mente a que corresponde una SVM: Una Support Vector Machine corresponde a un subconjuntode clasificadores que entrenan eficientemente un clasificador lineal en base a Hiperplanos (sec-cion 3.3) definido en algun espacio caracterıstico como los presentados en la seccion 3.2 que seanconsistentes con los conceptos presentados en 3.1, minimizando el riesgo estructural intrınseco aellos.

En lo siguiente se encontraran de forma explıcita los valores que deben tomar los parametrosdel hiperplano. Primeramente, los clasificadores de la seccion anterior sucedıan en un espacio con

29


producto punto definido. Sabemos de la seccion 3.2 que el producto punto esta definido en elcontexto del espacio caracterıstico a traves de la funcion kernel. La formulacion de la ecuacion(3.6) entrega el producto punto de forma explıcita, es ası como la funcion de clasificacion queda dela siguiente forma:

f (x) = sgn

[m

∑i=1

αi yi (φ(x) ·φ(xi))+b

]

= sgn

[m

∑i=1

αi yi k(x,xi)+b

] (3.7)

De la misma forma el problema de maximizacion se modifica considerando dos nuevas carac-terısticas. La primera de ellas es que la funcion objetivo tambien debe considerar que el productopunto se calcula en el espacio caracterıstico, por lo que debe ser ingresado el kernel a la primeraexpresion en (3.5).

El segundo factor importante tiene que ver con la estructura clasica de un problema de minerıade datos. El ruido propio de los datos, los errores presentes en la base de datos del conjunto deentrenamiento o simplemente la inexistencia de una “funcion magica” que represente la realidadproduce que, en general, los conjuntos de entrenamiento no sean linealmente separables. Dos con-juntos se les dice “linealmente separables” si es posible encontrar un hiperplano que los divida deforma perfecta, por lo que si no los son significa que el problema definido en (3.5) no tiene solucion.

Para manejar este problema se agregan nuevas variables de holgura que permiten que algunospuntos esten mal clasificados, pero este efecto debe ser minimizado tambien pues se pierde elcaracter clasificador del hiperplano. Ası, se agregan las variables de holgura castigadas por unfactor “C” en la funcion objetivo primal. El problema primal queda entonces:

30


mınw,b

12‖w‖2 + C

m

∑j=1

ξ j

s.a yi [k(w,xi)+b ]≥ 1−ξi, i = 1, . . . ,m

ξi ≥ 0, i = 1, . . . ,m

(3.8)

Este tipo de clasificadores que incorporan variables de holgura se conocen como “clasificadoresde margen suave”. La formulacion dual, obtenida utilizando las condiciones de KKT, posee elkernel ademas de las variables de holgura, finalizando la formulacion de una SVM:

maxα

m

∑i=1

αi−12

m

∑i, j=1

αi α j yi y j k(xi,x j)

s.a 0≤ αi ≤C, i = 1, . . . ,mm

∑i=1

αi yi = 0

(3.9)

En esta ecuacion la presencia de las variables de holgura se puede observar en los lımites paralas variables duales, las que ahora dependen de la constante C, reflejando que los efectos de cadacaso en la funcion objetivo estaran limitados al existir la posibilidad que representen casos fuera derango o outliers.

Existen otras formulaciones alternativas que, por ejemplo, dejan la constante C como variable,pues en la formulacion presentada aquı su valor queda a criterio del modelador. Otro ejemplomodifica el parametro C por una constante ν que acota la cantidad de SVMs y los puntos malclasificados. Para otras formulaciones en forma detallada se refiere al lector a [10].

31


3.5. Extension Multiclase a SVMs

Dentro de las limitaciones que tiene la tecnica SVMs, una de las que se han podido superarcon exito corresponde a la inhabilidad de clasificar cuando se cuenta con mas de una clase, esdecir, cuando la clase para un objeto particular yi /∈ −1,1, sino que yi ∈ 1, . . . ,K, donde K

es el numero de clases existentes. Existen diversas tecnicas asociadas para ello [25], destacandodos de ellas: la clasificacion One versus All (OVA) y la clasificacion One versus One (OVO), queseran de importancia para esta tesis. Ademas, existe una extension natural que no utiliza mas deuna maquina, la clasificacion con SVMs monomaquina.

3.5.1. Clasificacion One versus All

La clasificacion OVA [1] corresponde a utilizar N clasificadores binarios (SVMs) para separar auna determinada clase de todas las demas. De este modo, para la SVM k con k ∈K, se asocian todoslos objetos que tienen esa clase con la calificacion positiva (yk

i = +1) y al resto con la clasificacionnegativa (yk

i =−1).

Figura 3.3: SVMs en configuracion OVA

La funcion de clasificacion asociada corresponde a elegir aquella SVM que entrega un valorpositivo mas alto, i. e.

32


f (x) = argmaxk

[∑

i es SVk

αik(x,xi)+bk

],k = 1, . . . ,K (3.10)

Donde SVk corresponde al conjunto de support vectors de la SVM asociada a la clase k. Larepresentacion usual que se le da al vector f (x) corresponde a un vector f ∈ −1,1K tal quefk(x) = +1 si el caso x es asignado a la clase k.

La gran ventaja que tiene este metodo es que utiliza muy pocos clasificadores, comparados conlas demas tecnicas y tienen la ventaja que permitirıan obtener todos los patrones existentes en losdatos [36], siendo ası los mas eficientes.

3.5.2. Clasificacion One versus One

La segunda aproximacion consiste en generar K(K− 1)/2 SVMs distintas que separen a cadapar de clases en Y y luego realizar alguna combinacion de los resultados de cada SVM para cadadato y ası clasificarlo finalmente, con la ventaja de acelerar la velocidad de entrenamiento frente aalgunas otras SVM multi-clase, pero perdiendo en cuanto a la cantidad de clasificadores [25]. Laformulacion general para las SVM corresponde a la siguiente:

fi j(x) = ∑l es SVi j

αi j,lK(xl,x)+bi j. i, j ∈ Y, i 6= j (3.11)

Donde los subındices i, j indican que la SVM particular separa entre las respectivas clases y elconjunto SVi j representa el conjunto de vectores soportantes de la SVM particular. Para combinarlos resultados existen tres tecnicas distintas:

Metodo de Votacion: Una vez evaluadas las clases de las distintas SVMs se elige la cla-se que tiene mayor cantidad de “votos” o clasificaciones positivas, resolviendo el siguiente

33


problema:y = argmaxvi(x), vi(x) = ∑

j=1,...,Msgn[ fi j(x)]

El problema que trae esta aproximacion es que pueden quedar algunas areas del espacio quedefine X sin clasificacion.

SVMs Pairwise Difusas: Para intentar resolver las limitaciones del sistema anterior se hapropuesto en [44] una aproximacion difusa de la pertenencia a cada clase en base a considerarla funcion de pertenencia dada por:

mi(x) = mınj∈Y

fi j(x)

Donde luego se resuelve la funcion de pertenencia calculando el maximo de las funciones depertenencias mi(x).

SVMs Pairwise Probabilısticas: El ultimo enfoque corresponde a intentar generar una pro-babilidad a partir de los puntajes fi j, que no poseen una interpretacion sencilla, en basea estimar la probabilidad ri j de pertenecer a la clase i dado que se esta en i o j, es decirp(y = i|y = i∨y = j,x) con ∑i pi = 1. En [34] se indica que por lo general la funcion sigmoi-de entrega una muy buena forma de combinar estos resultados, pero debiendo estimar dosnuevos parametros (A y B):

ri j(x) =1

1+ exp(A fi j +B)(3.12)

3.5.3. SVMs Monomaquina

Contrastando con las visiones anteriores, que entrenan mas de una SVM (enfoque multimaqui-

na), es posible encontrar los parametros de todos los hiperplanos con un solo problema (enfoquemonomaquina) considerando todas las clases a la vez [6, 47, 52] en base a resolver el siguienteproblema de optimizacion:

34


mınK

∑k=1

(wk ·wk)+CI

∑i=1

K

∑k=1

ξki

s.a. (wzi · xi)+bzi ≥ (wk · xi)+bk +2+ξki ∀k

ξki ≥ 0 ∀i,k

(3.13)

Donde zi contiene la clase real del elemento i ∈ I y wk, bk corresponden al vector normal y ala distancia del hiperplano correspondiente a la clase k. La funcion de decision es equivalente a lasotras aproximaciones, como la ecuacion (3.10). Definiendo a ck

i como la variable binaria que tomavalor 1 si yi = k y 0 si no y a Ai = ∑

Kk=1 αk

i , la suma de las variables duales asociadas al elemento i,el dual de Wolfe de este problema (incorporando la funcion kernel) corresponde a:

max 2I

∑i=1

K

∑k=1

αki −

I

∑i, j=1

czij AiA jk(xi,x j)

+I

∑i, j=1

K

∑k=1

(αmi α

zij −

12

αmi α

mj )k(xi,x j)

s.a.I

∑i=1

αki =

I

∑i=1

cki Ai ∀k

0≤ αki ≤C ∀i,k

αzii = 0 ∀i

(3.14)

La funcion de decision ajustada a estos parametros resulta entonces:

f (x) = argmaxk

[∑

i es SVk

(cki Ai−α

ki )k(xi,x)+bk

](3.15)

El gran problema que tiene esta metodologıa es que se requiere determinar los valores de una

35


gran cantidad de variables y, por lo general, resulta intratable para los metodos de solucion actuales.Existen algoritmos numericos para resolver este problema, pero no es una practica extensiva utilizareste metodo frente a los otros existentes, que no poseen estas limitantes.

36

Capıtulo 4

Estimacion de Probabilidades en Base aRedes Neuronales para SVM Multiclase

Segun se ha explicado ya en el capıtulo 3, las SVM son potentes clasificadores binarios (aunqueextensibles a mas de una clase) que pueden ser usados en diversas areas del conocimiento. Sinembargo, las SVMs son clasificadores de margen duro, es decir, entregan una salida binaria queclasifica directamente a un objeto dentro de alguna de las clases, sin relativizar esta pertenencia deforma alguna.

Para abordar este problema se diseno un algoritmo novedoso para abordar este problema cuan-do se utilizan SVMs en configuracion One versus All (seccion 3.5.1) para generar probabilidadesde pertenencia a cada una de las clases basado en la conocida tecnica estadıstica de las Redes Neu-ronales (NN, por sus siglas en ingles) entrenadas con propagacion hacia atras (backpropagation).El trabajo fue presentado inicialmente en [3] y luego mejorado y publicado en [4]. Este trabajo tuvosu motivacion en la problematica de esta tesis y sera utilizado en 7.4.

En este capıtulo se describe este trabajo, comenzando por presentar algunos metodos existentespara generar probabilidades en el caso multiclase, para seguir con presentar brevemente la tecnicade redes neuronales y luego desarrollar la aproximacion de probabilidades con este metodo, para

37

Capıtulo 4: Estimacion de Probabilidades en Base a Redes Neuronales para SVM Multiclase

finalmente presentar el algoritmo disenado para aproximar probabilidades en base a las salidas delas SVMs.

4.1. Estimacion de Probabilidades para SVMs multiclase

Diversos procesos han sido desarrollados para generar probabilidades a partir de clasificadoresbinarios (SVMs) cuando se esta trabajando con mas de una clase. En este caso particular se cuentacon K clases y un conjunto de atributos xi del elemento i∈ I. Se busca estimar el valor pk j = P(y j =k|x j), k = 1, . . . ,K, ∑k pk j = 1. Se muestran tres aproximaciones para alcanzar estos valores.

El primero, desarrollado por Wu, Lin y Weng [53], corresponde a generar un problema de pro-gramacion lineal que nace de estimar primeramente las probabilidades de pertenecer a una clasedado que se esta en una o en otra, rkl = P(y = k|y = k∧ y = l). Esto se puede realizar utilizandoel metodo planteado por Platt [34] que encuentra una funcion sigmoidal para aproximar las pro-babilidades, ajustando sus parametros en base al estimador de maxima verosimilitud de toda lamuestra:

rkl(x) =1

1+ exp(A+B fkl(x))(4.1)

Donde fkl corresponde a la salida continua de la SVM que separa las clases k y l cuando seutilizan SVM multiclase One Versus One (seccion 3.5.2). A partir de estos valores, se generanlas probabilidades absolutas, para cada elemento, resolviendo el problema lineal con restriccionesdado por:

pk = ∑l:l 6=k

(pk + pl

k−1

)rkl , sujeto a ∑

lpl = 1, pk ≥ 0 ∀k (4.2)

Este problema puede ser resuelto en base a un problema de optimizacion o a una cadena deMarkov ergodica. Ambos metodos llevan a la misma solucion, pero se demuestra que si rkl > 0 ∀k, l

38


entonces existe una solucion unica para el problema anterior, sino es ası pueden existir solucionesdegeneradas.

El segundo metodo, tambien propuesto por [53], proviene de notar que en general rkl + rlk = 1por (4.1), por lo que el problema (4.2) puede ser reescrito utilizando un problema de optimizacion,buscando resolver:

mınpk

K

∑k=1

∑l:l 6=k

(rlk pk− rkl pl)2

s. a.K

∑k=1

pk = 1

pk ≥ 0 ∀k

(4.3)

En [53], los autores proponen diversas relajaciones lineales y restructuraciones para resolverestos problemas, pero se pueden identificar inmediatamente algunas complicaciones de estos meto-dos. La mas notoria corresponde a que cada uno de los elementos tiene asociado un problema de laforma (4.3), por lo que solucionar un problema para I elementos requiere resolver un problema deoptimizacion cuadratica con I ·K variables, K por cada elemento, o requiere generar I problemascon K variables cada uno. Esto puede ser intratable en tiempo computacional.

El segundo tema importante tiene que ver con la replicabilidad de los resultados, pues para unanueva muestra de prueba se debe volver a resolver el problema (4.3) por lo que no se tiene unaexpresion analıtica que genere las probabilidades, lo que eleva enormemente los tiempos de test.

El tercer metodo corresponde a una nueva formulacion para las SVM que entrega directamenteuna funcion de probabilidad. Para ello, se realiza una extension al metodo multiclase monomaquinade la seccion 3.5.3, en base a redefinir el problema de las SVM considerando una probabilidadde pertenencia P(k|xi) en vez de la clasificacion correcta dada por las restricciones del problema(3.13). El problema dual, en contraste con (3.14), queda:

39


maxI

∑i=1

K

∑k=1

αki [P(zi|xi)−P(k|xi)]

− 12

I

∑i, j=1

czij AiA jK(xi,x j)

+I

∑i, j=1

K

∑k=1

(α

ki α

zij −

12

αki α

kj

) (4.4)

4.2. Redes Neuronales

El algoritmo de redes neuronales entrenadas con backpropagation [38] corresponde a la tecnicade regresion no lineal mas utilizada de los ultimos anos. Esta tecnica tiene su inspiracion en lasneuronas humanas, las cuales consisten de un soma, o cuerpo celular, que posee todos los elementos(nucleo, ribosomas, etc.) que la capacitan para sintetizar proteınas y neurotransmisores; el axon, encuyo terminal se fijan las sinapsis que transmiten informacion hacia otras neuronas; y finalmentelas dendritas, tubos celulares que transmiten informacion desde otras neuronas hacia el soma.

Figura 4.1: Estructura de una neurona real.

Para realizar el sımil con una neurona real, se modela una neurona teorica como una funcion

40


matematica que recibe informacion y la transmite hacia otras neuronas de tal modo de generar sa-lidas. Una red neuronal consiste en una serie de neuronas interconectadas, de tal forma de produciruna salida (potencialmente multidimensional), aproximando alguna funcion real. Diversos tipos deredes neuronales existen, pero solo se discutiran aquı las llamadas redes neuronales feed-forward,en las que la informacion fluye hacia un solo lado, simulando las neuronas reales.

La estructura clasica de una red neuronal corresponde a:

Capa de Entrada: Corresponde a la capa donde se ingresan los datos. Cada variable delmodelo correspondera a una neurona de entrada, por lo que un modelo con N variables po-seera N neuronas de entrada, cada una de ellas conectadas con la primera capa oculta en basea un peso wnh1.

Capa Oculta: Corresponde al “soma” de la red neuronal. En cada una de estas capas (nonecesariamente es una, sino pueden ser varias sucesivas), las entradas de la capa anteriorse mezclan utilizando alguna funcion matematica “de transferencia” que, a traves de pesos,calcula nuevas variables y las alimenta a la siguiente capa. Funciones de transferencia clasicasincluyen a la funcion lineal y la funcion sigmoidal.

Capa de Salida: Corresponde a la salida de la red neuronal. Un problema con K clasestendra asociadas K neuronas de salida, cada una de ella aplica alguna funcion matematica alas variables que entrega la ultima capa oculta, ponderadas por pesos propios de la neuronade salida, y genera una variable final en el formato que se desee. Por ejemplo, si se quisieranaproximar probabilidades, puede ser utilizada una funcion logit o softmax, mientras que si sedesean aproximar algun otro numero real es posible utilizar regresiones lineales o tangenteshiperbolicas.

Con ello, la estructura de la red neuronal queda definida, pero ¿como se ajustan los distintospesos? que se asocian a cada neurona. El algoritmo de entrenamiento de mayor fama correspondeal algoritmo backpropagation [51] que va ajustando los pesos a medida que se le presentan datosde entrenamiento, por medio de ajustar alguna funcion de error o “de costo”, con tal de reducir elerror de salida de la red.

41


Figura 4.2: Estructura de una red neuronal artificial.

Si yi ∈ 0,1K es el vector que refleja la clase real de un objeto, con valor 1 en la posicionk ∈ 1, . . . ,K si el elemento es de esa clase y ∑

Kj=1 yi j = 1; y pi ∈ [0,1]K con ∑

Kj=1 pi j = 1 es una

prediccion de la clase real, entonces se definen las siguientes medidas de error:

Definicion 4.1 (Error cuadratico medio o MSE).

K

∑j=1

(yi j− pi j)2

K(4.5)

Definicion 4.2 (Entropıa Cruzada).K

∑j=1

yi j ln(pi j) (4.6)

Los pesos en cada una de las capas se ajustan de tal modo que en cada paso se reduzca el errorcreado por cada una de estas funciones. El error MSE es por mucho el mas utilizado, pero en lasiguiente seccion se vera que no esta exento de problemas.

El resultado mas destacado de las redes neuronales corresponde a aquel que indica que cualquierfuncion real f : RN → Rd puede ser aproximada por una red neuronal con solo una capa oculta,utilizando cualquier funcion en las capas de salida [7]. El problema de este algoritmo es, por otrolado, que no es posible determinar si alguna vez va a converger, pues no se ha demostrado quepueda operar en tiempos no-exponenciales1.

1Por exponencial se entiende a aquel tiempo que crece proporcionalmente a ex, donde x es alguna medida de la red,como los datos de ingreso, el numero de neuronas, etc.

42


4.3. Estimacion de Probabilidades en base a NN para SVM mul-ticlase

El algoritmo de NN es un potente regresor, pero ademas tiene otra caracterıstica que lo haceinteresante al ser capaz de generar estimaciones de probabilidades a posteriori (i. e. P(k|x) dondek es la clase del objeto y x es el vector de caracterısticas utilizadas para describirlo) cuando seutilizan funciones de costo que son estrictas en el sentido bayesiano [9].

Definicion 4.3 (Error Estricto en el Sentido Bayesiano). Una funcion de error C(y, t) se dice “es-tricta en el sentido bayesiano” si al intentar estimar un vector y ∈ S, S = y ∈ RK | 0 ≤ yi ≤1, ∑

Ki=1 yi = 1 que aproxime un objetivo t ∈ 0,1K utilizando como medida de error C(y, t) se

tiene que el mınimo global de la funcion C(·, t) se alcanza en aquel vector y que representa lasprobabilidades bayesianas a posteriori.

Esta interesante propiedad es caracterıstica de la entropıa (4.2) y de la funcion MSE (4.1), perola primera esta probada como una de las mejores funciones para generar probabilidades a posteriori

[14] en gran medida debido a que castiga los errores de forma drastica, permitiendo convergencia amayor velocidad. Esta funcion de error esta ademas soportada por la teorıa de la informacion, puesla entropıa representa una medida de la cantidad de caos que esta presente en un conjunto de datoscon valores reales t estimados por y. A menor entropıa, mayor certeza en la estimacion y por endemenor caos en los datos.

Es esta propiedad la que la hace interesante para estimar probabilidades, pero ahora existe unnuevo problema pues este algoritmo posee una gran complejidad computacional, al igual que lasSVM, por lo que es de interes adecuar estos algoritmos para que trabajen unidos y generen unaestimacion que aproveche tanto la capacidad de generalizacion de las SVMs como las capacidadesde estimacion de probabilidades de las redes neuronales.

Este algoritmo se resume en dos pasos:

1. Se ajustan K SVMs binarias (segun aproximacion OVA de la seccion 3.5.1) para generarK salidas continuas (sin tomar el signo), que representaran distancias ponderadas por signo

43


Figura 4.3: Algoritmo LBL.

segun la ubicacion del objeto con respecto a cada hiperplano. Esto conforma el nuevo vectorf ∈ RK que representa una primera clasificacion de los objetos segun su ubicacion espacial.

2. Tomando este vector y las salidas reales t se entrena una red neuronal con K neuronas enlas capas de salida y entrada y, para asegurar que la estimacion sea interpretable como pro-babilidades a posteriori se utiliza la entropıa como funcion de costo y, ademas, una funcionsoftmax en la capa de salida, que esta dada por:

pk =exp(gk( f ))∑

Ki=1 gi( f )

(4.7)

Con gk la salida de las capa ocultas que generan el input para la neurona de salida k. Lassalidas de esta funcion estan aseguradas en el intervalo [0,1] y la funcion de costo aseguraque sea una estimacion correcta de la probabilidad a posteriori.

Empıricamente, este algoritmo se ha comportado de manera superior en una serie de conjuntosde datos debido a su capacidad de reducir dimensionalidad y sacar partido de la fragmentacion delos pasos en problemas mucho mas sencillos que el enfoque global de estimar probabilidades en unsolo problema. Se esta trabajando en una publicacion de este trabajo, desarrollado en conjunto conesta tesis. Esquematicamente, se puede expresar la composicion del algoritmo en la figura 4.3.

44

Capıtulo 5

Conceptos de Teorıa de Juegos

Los capıtulos anteriores introducıan los conceptos de minerıa de datos que seran el fuerte de estetrabajo. Queda para este capıtulo finalizar el marco teorico por medio de introducir la tecnica a laque seran aplicados los modelos y conceptos de capıtulos anteriores: la teorıa de juegos [19, 42], lacual define modelos matematicos avanzados que describen el comportamiento de entidades cuandose enfrentan en ambientes no cooperativos.

La teorıa de juegos es amplia, con muchısimas descripciones de fenomenos y circunstanciasen las que se enfrentan distintos jugadores, por lo que realizar una descripcion detallada en pocaspaginas es imposible. Considerando esto, el presente capıtulo se centrara en los conceptos generalesque serviran de base para este trabajo. La siguiente seccion incorpora los conceptos basicos deprobabilidades y utilidades para poder comprender esta teorıa y luego la segunda seccion incorporalas definiciones base de la teorıa de juegos con conceptos como el famoso equilibrio de Nash.

45

Capıtulo 5: Conceptos de Teorıa de Juegos

5.1. Conceptos de Probabilidades y Elecciones bajo Incertidum-bre.

La teorıa de juegos esta fundamentada per se en la teorıa de las probabilidades, por lo que serequieren conceptos de conjuntos, medidas y algunas definiciones que no son de uso comun. Sibien no todos estos conceptos seran relevantes para el desarrollo particular de esta tesis, si son unareferencia para aplicaciones futuras de minerıa de datos a teorıa de juegos pues son definicionesque se deben tener en cuenta para aprovechar las caracterısticas flexibles de las SVM al construirmodelos.

En primer lugar, una funcion de probabilidad definida sobre un conjunto X es en realidad unafuncion definida sobre un conjunto especial llamado una σ-algebra del conjunto X .

Definicion 5.1 (σ-algebra). F es una σ-algebra definida sobre X si y solo si:

El conjunto vacıo esta en F .

Si E ⊆ X esta en F , entonces tambien lo esta el complemento de E, X\E.

Si E1,E2,E3, . . . es una sucesion numerable1 en F , entonces su union (⋃

i Ei ) esta en F .

A la σ-algebra /0,X se le llama la σ-algebra elemental o trivial. Los elementos de F se deno-minan “conjuntos medibles”. Ahora se esta en condiciones de definir un espacio de probabilidad:

Definicion 5.2 (Espacio de Probabilidad). Sea X un conjunto no vacıo, denomınese “eventos” alos elementos de X ; sea F una σ-algebra definida sobre X y sea P una funcion P : F → [0,1]. Latripleta (X ,F ,P) es un “espacio de probabilidad” si F es un campo2 y P es “finitamente aditiva”,es decir, P(X) = 1 y si E1∩E2 = /0, entonces P(E1∪E2) = P(E1)+P(E2). Al valor P(E),E ⊆ Fse le denomina “probabilidad de ocurrencia” del elemento E.

1Una sucesion E = E1,E2,E3, . . . se le dice numerable si es posible “contar” sus elementos a traves de una funcionbiyectiva “ f : E→ N que otorga a todos y cada uno de los elemento de E un unico numero natural en N.

2F es un campo si ∀E1,E2 ⊆ F ⇒ E1 ∩E2 ⊆ F ∧ E1 ∪E2 ⊆ F . La segunda condicion esta asegurada al ser Funa σ-algebra del conjunto original.

46


El siguiente punto a tratar es la definicion matematica de utilidad en el contexto de teorıa dejuegos. Para ello ademas de considerar un espacio de probabilidad (X ,F ,P) se define un espacio deestados de la naturaleza E, un espacio de acciones (decisiones) posibles A y una funcion de utilidadu : A×X → R (conocida como funcion de utilidad de Von Neumann-Morgenstern) la cual asignapara cada par accion/estado de la naturaleza (a,ω) el valor de la utilidad de tal forma de definirpreferencias entre ellos. Ası, se define una “estrategia” como funciones s : E→ A que a cada estadode la naturaleza e entregan una accion (o un conjunto de acciones) a seguir. Un plan optimo s∗(e)se define como aquel que resulta de resolver:

maxa ∑

ω

u(a,ω)P(ω|e)

En muchos de los casos no existiran estados de la naturaleza independientes de los jugadoreso no existira dependencia de la probabilidad con los estados de la naturaleza, por lo que se podranomitir. Bajo estos supuestos se pueden definir las acciones de los jugadores, que buscan maximizarsu propia utilidad.

5.2. Teorıa de Juegos: Definiciones y Conceptos

5.2.1. Componentes de un Juego

Con los conceptos anteriores se esta en condiciones de definir un juego no cooperativo. Unadefinicion de un juego puede ser una interaccion en el cual participantes, definidos como jugadores,toman decisiones para manejar recursos de tal forma de maximizar su utilidad. Un juego consistede [24]:

Jugadores: Quienes participan del juego. El jugador puede ser una persona, una institucion,una empresa, un equipo, etc. Seran denotados comunmente por la letra i. El conjunto dejugadores distintos del jugador i se le denotara como −i, mientras el conjunto de todos los

47


jugadores sera llamado comunmente I.

Acciones: Todo jugador posee un conjunto determinado de acciones validas Ai, el cual puedeser igual para todos los jugadores o no. Si lo son, el conjunto de acciones se denotara simple-mente como A. En el caso que no lo sean se hablara de acciones asimetricas Ai.

Estrategia pura: Es una regla o funcion que asocia la accion de un jugador con la infor-macion que tiene disponible en ese momento, lo que corresponde en la gran mayorıa de losjuegos a una accion en particular3 frente a alguna otra accion de su competidor. Al conjuntode estrategias puras de un jugador se le denotara Si.

Estrategia mixta: Corresponde a una distribucion de probabilidad P definida sobre el espa-cio de probabilidad de las estrategias puras (Si, /0,Si,P). La estrategia mixta de un jugadorse escribe como σi, mientras las estrategias de los demas jugadores se escriben como σ−i, alconjunto de estrategias mixtas de un jugador lo denominaremos como Σi. Se define el “sopor-te” de una estructura mixta como el set de estrategias puras (o acciones) que tienen asociadasprobabilidades positivas.

Utilidades: Corresponde a la utilidad de Von Neumann-Morgenstern definida en el puntoanterior de tal forma que a cada resultado (Si,S−i) le asocia una utilidad ui(Si,S−i). Otrosnombres corresponden a funciones de pago, recompensas, etc.

5.2.2. Informacion de un Juego

Un concepto importante para los juegos tiene que ver con la cantidad de informacion disponible.Un juego se le llama de “informacion completa” si el jugador dispone de toda la informacioncorrespondiente a los distintos jugadores, a sus posibles acciones y a las utilidades para todas lassalidas posibles. En el caso que el jugador conozca parcialmente la informacion al juego se leconoce como de “informacion incompleta” y en este caso el jugador solo conoce un subconjuntode estados en los que se puede encontrar el y otros jugadores.

3Esto no sucede si una jugada involucra realizar acciones simultaneas en todas las movidas, pero puede entenderseası de todos modos considerando que se realizan de forma secuencial.

48


El segundo concepto tiene que ver con la caracterizacion de las aleatoriedad del juego y el ordenen que se juegan las jugadas. Un juego se dice de “informacion perfecta” si para cualquier estadoo posible combinacion en la que se encuentre el juego, los jugadores conocen perfectamente todaslas condiciones existentes, en el caso que esto no suceda se dice que el juego es de “informacionimperfecta”. Un ejemplo de este tipo de juegos son los juegos simultaneos, en los que el jugadorno conoce en que nodo esta luego de la jugada del primer jugador.

5.2.3. Representaciones de un Juego

Existen dos formas de representar un juego, la primera corresponde la forma explıcita que defineun orden al momento de jugar para los participantes, llamada representacion en forma “extensiva”para un juego. Esta representacion se hace valer de un arbol4 para explicitar el juego, de tal formaque en cada nodo un unico jugador tiene la posibilidad de jugar. Cada arco representa las posiblesacciones para el jugador en cada nodo y a partir de esto se forma una dinamica de juego. No seadentrara en este tipo particular de representacion de juegos pues no es el enfoque que se utilizara eneste trabajo.

La forma extensiva de un juego aporta mucha informacion de forma sencilla con respecto alas utilidades de cada jugador, sin embargo, pierde mucho su utilidad cuando existen accionescontinuas o el orden de juego no es relevante. Para ello existe la forma normal de expresar unjuego.

Definicion 5.3 (Forma Normal de un Juego). Un juego se define en “forma normal” si se expresade la forma G = Si,uii∈I. Esta representacion aporta entonces las estrategias de los jugadoresy sus funciones de utilidad para todas las estrategias conjuntas. Notese que no hace referencia alorden en que los jugadores juegan, informacion que debe ser considerada al momento de elegir enque forma se disena el juego y como esta informacion sera incorporada al momento de modelar.

Esta es la forma usual en la que se muestran los juegos y sera la utilizada en este trabajo, ya que

4Se recuerda a un lector que un arbol se define como un grafo acıclico conexo compuesto de nodos (las jugadas) yarcos (las acciones posibles en cada nodo).

49


los modelos planteados no requieren una expresion secuencial de las dinamicas, como se puede veren la seccion 7.1.

5.2.4. Equilibrio

El primer concepto necesario para comprender la dinamica de los juegos corresponde al de una“mejor respuesta”.

Definicion 5.4 (Mejor Respuesta). Una estrategia mixta σ∗i es una “mejor respuesta” frente a algunaestrategia σ−i si ∀si ∈ Si, ui(σ∗i ,σ−i)≥ ui(si,σ−i), es decir, la estrategia mixta es lo mejor que puedehacer un jugador dada la jugada de los demas.

Para llegar a resolver juegos y comprender su dinamica existe el concepto de equilibrio queintenta dilucidar las condiciones necesarias para que cada jugador deje de ajustarse frente a lasacciones de los demas. El fundamento base, del cual ademas existen variados refinamientos, co-rresponde a los “equilibrios de Nash” [32].

Definicion 5.5 (Equilibrio de Nash). Un vector de estrategias mixtas σ = (σ1, . . . ,σI) resultado deun juego G = Si,uii∈I se dice un “equilibrio de Nash” si para todo jugador, su estrategia esmejor respuesta frente a la estrategia de los demas, i. e. ∀i ∈ I,∀si ∈ Si, ui(σ∗i ,σ

∗−i)≥ ui(Si,σ

∗−i).

La intuicion para un equilibrio de Nash es que cuando se esta en el equilibrio ningun jugadortiene incentivos economicos (en terminos de su funcion de utilidad) para jugar alguna otra estra-tegia, entonces este es un equilibrio estable. Un segundo resultado interesante tiene que ver con laexistencia de este equilibrio.

Teorema 5.1 (Nash). En un juego G = Si,uii∈I si existe un numero finito de jugadores y los

conjuntos de estrategias Si son finitos para todos los jugadores, entonces existe a lo menos un

equilibrio de Nash.

La demostracion de este teorema involucra encontrar un punto fijo5 de la funcion que define al5Un punto fijo de una funcion f : A→ A es un punto a ∈ A tal que f (a) = a. En el caso de los juegos el punto fijo

define que no se cambia de estrategia para ningun jugador.

50


juego. El teorema anterior asegura la existencia de un equilibrio de Nash cuando los juegos tienenuna cantidad finita de estrategias, sin embargo, en una parte importante de los juegos esto no secumple ya que las estrategias potenciales son continuas. Para ello existe una generalizacion delteorema anterior:

Teorema 5.2 (Glicksberg). Considerese un juego en forma normal cuyos espacios de estrategia

Si son subconjuntos convexos6 de un espacio de Hilbert. Si las funciones de utilidad ui de los

jugadores son continuas en S = S1× . . .×SI entonces existe a lo menos un equilibrio de Nash en

estrategias mixtas.

Con estos teoremas es posible asegurar la existencia de juegos para los modelos de esta tesis.En particular, el teorema 5.2 asegura que una amplia familia de juegos, incluyendo los de esta tesis,tengan al menos un equilibrio.

6Un conjunto X se dice “convexo” si ∀x,y ∈ X ,∀δ ∈ [0,1],δx +(1− δ)y ∈ X . Es decir, la combinacion lineal deelementos del conjunto esta en el conjunto.

51

Capıtulo 6

Aplicaciones de Minerıa de Datos a Teorıade Juegos

La intencion de este capıtulo es realizar una exploracion bibliografica de los pocos esfuerzosrealizados hasta el momento para combinar minerıa de datos con teorıa de juegos, donde cabedestacar que no se encontraron trabajos con antiguedades previas al ano 2005, lo que indica lonovedoso de este enfoque. Existe un esfuerzo conocido previo a esta tesis para realizar una unionseria entre teorıa de juegos y minerıa de datos en el trabajo generado por Wang [50], quien postuladefinir un marco teorico para generar aplicaciones que utilicen conceptos de ambos mundos, el cualaplica posteriormente en [49]. El capıtulo comienza con distinciones generales acerca de esta unionpara pasar a revisar aplicaciones especıficas que se han realizado en investigaciones dentro de losultimos anos.

Para unificar teorıa de juegos y minerıa de datos se vislumbran dos posibles aproximaciones,la primera de ellas corresponde a aplicar conceptos de teorıa de juegos a algoritmos de minerıade datos, incorporando por ejemplo los elementos de aprendizaje o de evolucion muy propios dela teorıa de juegos para crear nuevos algoritmos de entrenamiento estadıstico de las ecuaciones.Esta es la aproximacion seguida por [20] y [33] quien en el primer caso intento desarrollar unaaplicacion de teorıa de juegos para la seleccion de multiples clasificadores en base a SVMs. El

52

Capıtulo 6: Aplicaciones de Minerıa de Datos a Teorıa de Juegos

segundo caso corresponde a una metodologıa para extender la aplicacion de SVMs a casos dondeel espacio de clasificacion no es dicotomico, el cual sera detallado en este capıtulo. La siguienteaplicacion que sera revisada corresponde a la propuesta realizada en [26] para realizar clasificacionde elementos en base a conceptos de teorıa de juegos, trabajo que ademas plantea una novedosavision de la minerıa de datos desde la perspectiva de la microeconomıa.

La manera alternativa de unir teorıa de juegos y minerıa de datos es seguir el camino inverso,es decir, aplicar conceptos de minerıa de datos para potenciar los modelos de teorıa de juegos.Este es el camino seguido en esta tesis y uno de los menos explotados segun esta exploracionbibliografica. Se revisara en la siguiente seccion el intento realizado en [39] quien desarrolla unaprimera y sencilla aproximacion a traves de buscar predecir el resultado de un juego repetido decachipun (piedra, papel o tijera) en base a crear un modelo de series de tiempo suponiendo uncomportamiento definido de sus jugadores.

Por ultimo, este analisis es la instancia perfecta para introducir conceptos que, por lo especıficosque resultan para cada teorıa tratada en el marco teorico, no tenıa cabida en el, como lo son las seriesde tiempo, la clasificacion pairwise en SVM y conceptos de aprendizaje en juegos repetidos.

6.1. Minerıa de Datos Aplicada a Teorıa de Juegos

6.1.1. Game Mining en la Industria Manufacturera

El primer trabajo presentado corresponde al planteamiento de un marco conceptual para extraerreglas de asociacion cuando se dispone de una base de datos asociada a algun juego. Wang [49]propone la utilizacion del Game Mining, que parte de la base que las decisiones estan basadasen el conocimiento que tiene el jugador de sus oponentes y, disponiendo de una base de datos coninformacion de las jugadas, es posible generar mejor informacion y ası dominar el juego. El metodose compone de una adaptacion del proceso KDD a los retos que presenta el juego:

1. Definicion del problema: Se identifica la dinamica del juego en base a la experiencia ante-

53


rior. En base a esto, se identifican las variables relevantes.

2. Preparacion de los Datos: Los datos necesarios son recolectados de donde sea necesario. Esrequisito que la base de datos sea consistente y este consolidada, pues se le aplicaran herra-mientas de minerıa de datos. La base de datos construida es tal que represente el movimientoentre los atributos, por lo que se necesita una base de datos que cuente con los datos de las ju-gadas en un orden temporal, contando con n registros asociados a n perıodos de tiempo y conm atributos asociados a los jugadores. Estos datos corresponden a los precios, presupuestos,o cualquier variable que indique una decision estrategica.

3. Minerıa de Datos: Para extraer las reglas se utiliza el algoritmo de Minerıa Dinamica Causal(DCM, por sus siglas en ingles) compuesto de tres fases.

Primero se preprocesa la base de datos de tal forma de crear relaciones de sucesion, esdecir, incrementos o disminuciones en las distintas variables que puedan estar causadaspor alguna decision de los demas jugadores.

Luego, la base de datos es recorrida para encontrar cuando algun elemento no presentavariaciones en el tiempo, lo que se identifica como una variable que no esta relacionadacon los demas.

Finalmente, se revisa si alguna regla, identificada como la union entre dos variables demanera causal, es contradictoria. Esto quiere decir que produce tantos efectos adversosy favorables a un jugador en el mismo dataset. Las reglas que cumplan con relacio-nes contradictorias son revisadas para eliminar aquella que tiene menor impacto en losdemas jugadores, para luego revisar aquellas que tienen alguna relacion marcada y estasse mantienen solo si crean mas relaciones que algun indicador numerico inicialmentedefinido por el investigador.

La conclusion principal de este trabajo es que existe una posibilidad real para obtener reglas deasociacion entre jugadores en cualquier base de datos que almacene interacciones. Obtener estasreglas y mejorar ası las caracterısticas de los jugadores representan una interesante manera deextraer utilidad a las bases de datos corporativas, aunque segun lo que se extrae del trabajo nohan existido aplicaciones reales de esta metodologıa.

54


6.1.2. Prediccion de Series de Tiempo para el Juego RPS

En este trabajo se analiza el famoso juego del cachipun, el cual se clasifica como un juego desuma cero ya que las utilidades de cada jugador sumadas dan ese valor. Este sencillo juego ha sidoampliamente estudiado dentro de la teorıa de juegos [18] al representar un marco “de laboratorio”para la prueba de distintas metodologıas de aprendizaje de los jugadores, pues la probabilidadde jugar cualquier estrategia, por ejemplo papel, se puede identificar como Ppapel = 1−Ppiedra−Pti jeras lo que permite representar la evolucion del juego en un plano de dos dimensiones. El juegoposee un unico equilibrio de Nash en estrategias puras, (1/3,1/3,1/3) donde cada jugador decidealeatoriamente que jugada utiliza, por lo que en el largo plazo siempre se utilizara esta estrategia1.

En general al estudiar juegos repetidos y definir las estrategias que cada jugador sigue se debedecidir alguna manera “racional” para que estos aprendan y alcancen eventualmente el equilibrio,por lo que debe definir algun concepto de “aprendizaje” por parte de los jugadores. En este caso sedefinen las estrategias para el juego por etapas s j = R,P,S siendo R piedra, P papel y S tijeras, porsus iniciales en ingles y para cada jugador existe la probabilidad Pi(s j) de que juegue la estrategias j. El metodo seleccionado de aprendizaje corresponde a la metodologıa de aprendizaje reforzadoque define una curva de ajuste de la siguiente forma:

Pt+1i (s j) = Pt

i +αwi(1−Pti (si))

Donde α corresponde a la tasa de aprendizaje del juego, parametro que representa la velocidada la que los jugadores ajustan las probabilidades y wi corresponde a un parametro que toma valoruno si el resultado del uso de esta estrategia fue positivo y −1 si no lo fue. Ası, los jugadores seadaptan al juego de los demas en base a modificar las probabilidades de jugar un cierto valor acordese van dando resultados.

Para agregar el concepto de minerıa de datos se agrega un super-jugador quien intenta predecircual sera la movida que realizara alguno de los jugadores en base a su comportamiento historico yallı decidir si juega o no contra el. Esta decision la tomara en base a construir un modelo de series

1ver anexo B, teorema B.2

55


de tiempo y ademas predecir cual sera el momento exacto donde su prediccion se acerca al juegoreal del jugador.

En el marco del juego este super-jugador no requiere jugar (utilizar el resultado de su predicciony ajustar sus parametros) todos los turnos, sino que espera al momento justo donde el comporta-miento se asemeje mas a su prediccion. El supuesto que se realiza es que esta intervencion por partedel super-jugador no afecta el desarrollo de los demas jugadores; los autores indican que esto seasemeja al mercado de la bolsa donde algun observador puede intentar predecir el comportamientode alguna empresa o de algun corredor de bolsa y no por ello modificar su comportamiento, ya seadebido a que la ultima desconoce su intento por predecir o porque las pruebas realizadas por elobservador no influiran su comportamiento.

Para medir los resultados del super-jugador es necesario definir la estrategia que seguira. Consi-derando que el super-jugador utiliza una serie de tiempo para predecir el comportamiento y ademastiene la facultad de decidir en que momento juega se hace necesario definir alguna medida paraello, utilizando los autores dos medidas:

Definicion 6.1 (Exponente Local de Lyapunov (LLE)). Corresponde a una medida de la aleatorie-dad de la serie. Para una serie con un punto de referencia x0 y una distancia δ0 tal que defina unpunto cercano x0 +δ0, si luego de n pasos se tiene que δn ≈ δoenλ es la distancia entre ellos se diceque λ es un exponente de Lyapunov. En el marco de este estudio se utilizo un ındice de este tipopara decidir el momento en el que el super-jugador deberıa jugar contra quien esta realizando laprediccion.

Definicion 6.2 (Entropia). Si se tiene una fuente de eventos S = S1, . . . ,Sn asociados las salidasde una distribucion de probabilidad P = p1, . . . , pn se tiene que la informacion asociada a unevento E ⊆ S es:

I(E) = log(

1P(E)

)La entropıa de una fuente corresponde al valor esperado de la informacion de los eventos quecontenga:

H(S) = ∑s∈S

P(s)I(s) = ∑s∈S

P(s) log(

1P(s)

)(6.1)

Esta medida puede ser utilizada para medir el grado en el que una serie puede ser predicha, pues

56


indica cuanta informacion contiene un conjunto. Ademas, es de particular interes para esta tesis,pues es la funcion de error utilizada en la seccion 4.3 para obtener probabilidades a posteriori

cuando se utilizan SVMs.

Entonces el proceso para crear la serie de tiempo incluye seleccionar el mejor momento en elque se puede predecir las jugadas de algun jugador utilizando una de las medidas anteriores y luegose genera la serie de tiempo para definir la jugada que el jugador utilizara. Los resultados de esteestudio presentaron mejores con respecto al equilibrio de Nash, lo que indica que es posible utilizareste tipo de herramientas para predecir comportamientos aleatorios, pues solo el definir un estilode aprendizaje es suficiente informacion para poder predecir el comportamiento futuro de algunode los jugadores.

Como se menciono previamente, los resultados de este estudio pueden ser generalizados acordea sus autores a diversos campos donde sea de utilidad el predecir la jugada, como por ejemplo labolsa de comercio, el mercado de divisas y otras aplicaciones financieras donde se pueden definirestrategias similares a este juego.

6.1.3. Estimacion del Valor de un Juego Utilizando Teorıa de Rough Sets

El objetivo de este trabajo, presentado por Polkowski y Araszkiewicz [35], es obtener el “valorde un juego” para una coalicion en casos de juegos de suma cero. Una “coalicion” representa a unaunion de un grupo de jugadores que buscan maximizar el valor de su utilidad en conjunto, por loque se extiende el concepto de competencia entre los jugadores a la competencia de una coalicioncompleta en contra de otra y se entiende como el “valor de un juego” para la coalicion S a aquellafuncion v(s) calculada como la suma de las utilidades obtenidas por cada jugador en la coalicion.Se entiende que la coalicion juega una unica estrategia, decidida considerando las estrategias detodos los miembros de la coalicion.

El problema principal que se presenta es que a medida que crece el numero de jugadores lacantidad de coaliciones que se pueden formar crece exponencialmente. Por lo mismo, alguna me-todologıa que permitiese obtener la funcion de valor del juego a partir de las ganancias de las

57


coaliciones observadas durante un cierto numero de periodos es un problema interesante de abor-dar.

La teorıa de conjuntos en bruto (rough sets) corresponde a una seccion de la minerıa de datosque permite aproximar un cierto “concepto” (en este caso el valor del juego) a partir de ciertosdatos. Se supone que se posee una base de datos (llamado sistema de informacion) compuesta depares (U,A) donde U es un objeto y A es un atributo (o una serie de ellos), es decir, una funciona(u) : U → Dom(A). Por otro lado un “concepto” Q⊆U corresponde a algun fenomeno atribuiblea una seccion de los objetos de U y representado por ellos. Lo importante para la teorıa correspondea cuanta informacion se dispone del fenomeno, en otras palabras si es discernible o no.

Definicion 6.3 (Concepto Discernible). Un concepto Q es discernible a partir del atributo A si paratodo par (x,y) ∈U2 tal que presenten valores distintos del concepto Q se da que a(x) 6= a(y). Esdecir, se puede explicar el concepto en base a los atributos que se disponen de los objetos. Si Q esdiscernible, se le dice “exacto”, en caso contrario se dice que Q es un “conjunto en bruto” (rough

set).

Cuando un concepto Q es un rough set es posible aproximarlo a partir de la informacion delconjunto. Esta aproximacion se lleva a cabo considerando todos los elementos que pertenecen a Qy que ademas pertenecen a algun conjunto de objetos tales que son posibles de discernir entre elloscon los atributos que se conocen ([x]IndA , conjunto llamado Q) y tambien tomando todos aquelloselementos de U que forman un conjunto discernible y tienen un elemento en Q, llamado Q. Ası,Q ⊆ Q ⊆ Q.

Entonces, si se dispone del sistema de informacion SI(v) asociado a un juego v, de tal modo queSI(v) = (P,A) con p ∈ P alguno de los jugadores y A = S1, . . . ,Sk alguna de las k coalicionesposibles. Se considera a Si(p) = vip es la utilidad del jugador p cuando forma parte de la coalicioni.

Para determinar las coaliciones que se crean a partir de estas utilidades se define la relaciontal que INDk = (p1, p2) : vkp1 = vkp2 y se consideran a todos aquellos pares tales que estanrelacionados entre sı como coaliciones2.

2INDk corresponde a una “relacion de equivalencia” definida por sobre el conjunto de jugadores. Una relacion R

58


A partir de esta definicion es posible construir los lımites del rough set como simples com-binaciones lineales de las utilidades, lo que permite definir de forma aproximada las coalicionesformadas para cada instante particular a partir de los datos que se poseen. Esta capacidad permitemejorar el estudio de los oligopolios y cualquier otro juego donde los jugadores puedan formarequipos y se disponga de conjuntos limitados de informacion.

6.2. Teorıa de Juegos Aplicada a Minerıa de Datos

Segun lo expuesto en la introduccion del capıtulo, para continuar el analisis se revisan dosaplicaciones de la formulacion inversa, aplicar teorıa de juegos a minerıa de datos.

6.2.1. Segmentacion en un Modelo de Competencia

El trabajo definido en [26] entrega una formulacion de un modelo de competencia entre empre-sas que buscan capturar una cantidad fija N de clientes en un conjunto C. Supongase tambien queexisten dos empresas A y B cada una de ellas con n y m estrategias de marketing distintas respecti-vamente con efectos distintos sobre los clientes, se puede definir un juego de suma cero sobre cadacliente de tal forma que para cada cliente n∈N la utilidad ganada por una empresa por cada clientees:

ua(sak ,s

bj) =

1 si cliente prefiere sa

i a sbi

−1 si no, ub(sa

k ,sbj) =−ua(sa

k ,sbj)

definida sobre un conjunto U es una relacion de equivalencia si:

a. R es reflexiva. ∀x ∈ U, xRx.

b. R es simetrica. ∀x,y ∈ U, xRy⇒ yRx.

c. R es transitiva. ∀x,y,z ∈ U tal que xRy∧ yRz⇒ xRz.

Entonces, el conjunto [u]R = x ∈U : xRu corresponde a la clase de equivalencia de u asociada a R. En el marco de laaplicacion, las coaliciones son construidas en base a las clases de equivalencia definidas para la relacion INDk.

59


Para tratar este problema, cada empresa debe segmentar su mercado, eligiendo del conjuntoC de clientes cuales de ellos seran asignados a cada estrategia de marketing. Cada jugador divideentonces el conjunto de clientes en li, i = a,b subconjuntos de tal forma de maximizar la utilidadgeneral de la empresa.

Segun lo expuesto en el teorema 5.1 en este juego siempre existira un equilibrio en estrategiasmixtas que correspondera a la probabilidad de abordar a algun subconjunto de clientes con ciertaprobabilidad. El problema presentado de esta forma trae variadas preguntas con respecto a la com-plejidad de calculo de estas opciones pues la estrategia que debe seguir cada empresa correspondea decidir que clientes coloca en cada segmento y ademas decidir la estrategia asociada a ellos, porlo que abordar de esta manera el problema puede ser engorroso y, por sobre todo, con complejidadcomputacional inabordable.

El estudio deja abierto el detalle del planteamiento del problema, pues no expresa condicionespor sobre las cuales podrıan existir equilibrios en estrategias puras ni las formulaciones exactasdel problema general, lo que entrega desafıos para proximas aplicaciones que deseen estudiar estadinamica.

Una propuesta que podrıa ayudar a una realizacion de este problema en un contexto real tieneque ver con las estrategias para cada empresa, pues este problema puede ser ampliamente reducidoen su complejidad si se enfrenta en forma iterativa, ya que previo a la decision de las estrategiascomerciales (que sucede en un ambiente competitivo) se puede decidir de forma interna una seg-mentacion por clientes en base a caracterısticas distintas a la respuesta, pre-agrupando los clientesen grupos definidos y luego realizando la decision de que clientes abordar en base a un modelo deteorıa de juegos. Este planteamiento reduce la cantidad de calculos necesarios con perdida pequenade generalidad y ademas permite complejizar la generacion del juego pues se pueden incorporarconceptos como el costo de realizar una estrategia de marketing a un segmento particular.

60


6.2.2. Clasificacion Pairwise Utilizando SVMs y Teorıa de Juegos

El siguiente trabajo presentado inicialmente en [33] define una aproximacion novedosa queutiliza conceptos de teorıa de juegos para mejorar la extension multiclase de las SVMs para el casode la clasificacion OVO (tambien llamada pairwise) de la seccion 3.5.2.

La motivacion para la union con teorıa de juegos es definir la clasificacion pairwise en base aun juego de suma cero, donde se considera que el objetivo es clasificar correctamente cada casopara lo que se sigue la estrategia de clasificar al objeto en cada una de las clases Y , y donde existeun factor desconocido (la clase real del objeto) que se debe considerar, que se puede interpretarcomo un jugador adicional (la naturaleza) que tiene estrategias tambien de clasificar en cada claseel objeto. Para finalizar de definir el juego se necesitan las funciones objetivo, donde se utiliza lallamada “funcion de perdida”, que corresponde a una funcion c : X ×Y ×Y → [0,∞) que recibeel numero, la prediccion y el valor real y entrega una medida del error; la funcion debe tener lapropiedad de ser nula cuando la prediccion y el valor real son iguales: ∀x ∈ X , y ∈Y, c(x,y,y) = 0.Para finalizar se define la utilidad del jugador de la siguiente forma:

ci j(x) =

0 i = j

c(x,1, fi j(x)) i 6= j

De esta forma se busca obtener la estrategia optima de tal forma de clasificar cada objeto en suclase real minimizando la perdida. Este juego entrega un resultado que representa la mejor formade combinar los resultados y realiza extensiones en la forma de clasificar cada uno de los resultadospresentados en la seccion 3.5.2, pues ahora se pueden dar tres salidas distintas:

Equilibrio en Estrategias Puras: Si el juego anterior presenta un equilibrio en estrategiaspuras y este es unico entonces se puede clasificar unıvocamente el objeto a alguna clase. Losautores demuestran que esto sucede si y solo si existe una clase k tal que cik(x) = 0,∀i ∈ Y ,con la propiedad adicional de que si esta clase existe entonces es unica.

Utilidad Mınima Garantizada: Si se utiliza la estrategia que entrega la utilidad maxima, ypor ende la que es la cota inferior para cualquier estrategia mixta, los autores demuestran que

61


se esta siguiendo el mismo camino que utilizan las SVM pairwise difusas (seccion 3.5.2).

Equilibrio en Estrategias Mixtas: Siempre existira para un juego como el definido pre-viamente un equilibrio en estrategias mixtas (teorema 5.1), por lo que se puede seguir estaaproximacion. De esta forma se deben encontrar las probabilidades pk de jugar la estrate-gia “clasificar a x en la clase k”, lo que se realiza solucionando el siguiente problema deprogramacion lineal (PPL):

mınpk,V

V

s.aK

∑i=1

pk = 1

M

∑k

c jk pk ≤V

pk ≥ 0

(6.2)

La aproximacion presentada por los autores es novedosa, pues se hace valer de un teorema deteorıa de juegos que realiza una equivalencia entre un juego de suma cero y la clasificacion deobjetos. Este teorema puede ser de utilidad para cualquier investigacion futura que busque unir lasteorıas tratadas en esta tesis, lo que en conjunto con la aplicacion en SVM que lo hace aun masinteresante.

Los resultados presentados por los autores indican que este sistema clasificador, utilizando equi-librios en estrategias mixtas, funciona mejor que las alternativas clasicas presentadas al inicio y queson una alternativa valida para resolver estos problemas. Si bien se reconocen las capacidades quepresenta este resultado no se debe desconocer que el aumento en costo computacional es grande yaque se debe resolver un PPL por cada dato de la muestra luego de calcular las estimaciones de lasSVM, lo que resulta intratable en muestras medianas; aspecto no tratado en el paper.

62

Parte II

Modelos de Teorıa de Juegos y Minerıa deDatos Aplicados a la Industria Financiera

63

Capıtulo 7

Modelo de Tarificacion en base a SVMs yTeorıa de Juegos

Como se ha presentado ya a lo largo de los capıtulos anteriores, la intencion de esta tesis esgenerar un modelo integrado de teorıa de juegos y minerıa de datos. Dos modelos fueron genera-dos para tal efecto, ambos acerca del tema de fijacion del precio de un producto determinado deuna companıa. La primera fase sera presentar la lınea de razonamiento de Sudhir, Chintagunta yKadiyali para construir un modelo de tarificacion que utilice teorıa de juegos.

7.1. Modelo de Tarificacion en base a Teorıa de Juegos

El siguiente modelo es un juego de fijacion de precios que considera competencia variable en eltiempo en terminos de un juego, el fundamento base para este juego se basa en un trabajo previo deRotemberg y Saloner [37] quienes estudiaron el fenomeno de las alzas de precios cuando hay alzasde demanda, concepto que contradice la teorıa economica que indica que a mayor precio menordemanda. La razon impulsada por los autores es que los jugadores tienden a intentar capturar lademanda en periodos altos bajando los precios de tal forma de mejorar su rentabilidad y alcanzar

64

Capıtulo 7: Modelo de Tarificacion en base a SVMs y Teorıa de Juegos

mayores utilidades en el largo plazo dentro del concepto de un juego de participacion de mercadocuando los castigos por desviarse del acuerdo equilibrio actual no son muy intensos.

Un factor importantısimo a destacar es que los autores indican que el modelo que ellos presen-tan se desenvuelve dentro de un juego repetido, sin embargo, el juego que definen NO lo es. Ladiferencia fundamental entre el juego presentado para efectos de este modelo y un juego repetidoes que en el caso de los juegos repetidos existe algo, ya sea una estrategia o la funcion de utilidad,que une dos periodos de forma secuencial, lo que en la practica NO se da en este modelo. De todosmodos, la aplicacion de tecnicas de minerıa de datos a juegos repetidos es un campo interesantede estudio, ya que poseen caracterısticas unicas en terminos de la informacion que poseen y queson una posibilidad para futuros tesistas en el area, razon por la cual se agrega el anexo B con susprincipales caracterısticas.

Este modelo fue creado por Sudhir, Chintagunta y Kadiyali [43] e intenta encontrar precios deequilibrio para un conjunto de competidores que presentan estructuras distintas de costos y queacompanan sus decisiones del precio con variables que afectan indirectamente1 el mercado, comolas campanas de marketing. La aplicacion planteada por los autores es modelar los equilibriosen el mercado de los films de camaras fotograficas, donde el mercado esta controlado por dosfirmas, Kodak y Fuji, las que compiten en precios para dominar el mercado. Los autores planteanun modelo que estima simultaneamente la demanda, los costos de las empresas y el equilibrio enprecios, en base a los datos agregados para el periodo 1981-1998. Se describen entonces cada unode estos modelos.

Demanda.Para modelar la demanda agregada a nivel de mercado se sigue un camino que se adecuabastante a una posterior adaptacion a minerıa de datos, pues supone una funcion de demandapor cliente en base a un modelo logit que dispone de variables observables y no observables,el cual posteriormente se simplifica hasta llegar a un modelo general. La funcion base quemodela la probabilidad Pi jt de preferencia de un cliente hipotetico i por la marca j en alguntiempo t es:

1La definicion de ındirecta”se sustenta en que la demanda clasica no esta determinada por el marketing, por lo queeste efecto no se observarıa de forma clasica.

65


Pi jt =exp(αi j +βi p jt + γiX jt +δ jt)

1+ exp(αi j +βi pi j + γiXi j +δ jt)(7.1)

Donde αi j es la preferencia del cliente i ∈ I por la marca j ∈ J, p jt es el precio de la marca j

en el tiempo t y se multiplica por la sensibilidad βi del cliente al precio, γi es la sensibilidaddel cliente a X jt que corresponde a alguna variable que mide actividades comerciales distintasde fijar el precio como pueden ser comerciales o mailings y finalmente δ jt es el interceptoque modela factores externos al cliente e inherentes a la marca que pudiesen modificar elcomportamiento del cliente en algun tiempo especıfico.

Los componentes de la ecuacion anterior se pueden descomponer suponiendo que cada parame-tro del cliente se compone de un factor promedio del mercado mas una desviacion: αi j =α j + ∆αi j, βi = β + ∆βi y γi = γ + ∆γi. De este modo la expresion en la exponencial se des-compone en un factor del mercado y desviaciones por cliente:

αi j +βi p jt +δiX jt +δ jt = α j +βp jt + γX jt +δ jt︸︷︷︸Y jt

+∆αi j +∆βi p jt +∆βiX jt︸︷︷︸∆Yi jt

Ahora la idea es plantear las variables especıficas para el cliente como una variable aleatoriamultidimensional θi = (∆βi,∆γi,∆αi1, . . . ,∆αiJ) y lo mismo con las variables agregadas delmercado θ. La idea es ajustar el modelo en base a una funcion de distribucion acumuladaF(·), como puede ser una normal multinomial de J +2 variables. Para finalizar este modelose plantea una ecuacion de participacion de mercado por cada empresa, que esta finalmentedada por:

S jt =∫

Ai

exp(Y jt +∆Yi jt)1+∑

Jj=1 exp(Yjt +∆Yi jt)

dF(θ) (7.2)

Costo. El costo final por empresa se realiza en base a los factores productivos observablespor el investigador, como pueden ser la mano de obra, la productividad, las materias primasy un intercepto expresados en la matriz Z = Z jt j,t y ponderado por un vector desconocidoa ser estimado λ j, que representa la sensibilidad de la empresa a cada uno de los factores dela matriz Z. Se permite ademas la existencia de un error dado por ε jt , con tal de ajustar una

66


regresion lineal, con lo que el modelo resulta:

c jt = Z jt ·λ j + ε jt (7.3)

Intensidad de la Competencia. Para finalizar el modelo se plantea la expresion que entregael equilibrio. Se supone competencia del tipo Bertrand donde los competidores observan unmercado potencial Nt e intentan maximizar sus utilidades considerando la participacion demercado que enfrentan, fijando un precio p jt :

maxp jt

Nt(p jt− c jt)S jt(p jt)⇒ p jt = c jt +−S jt

S jjt

, S jjt =

∂S jt

∂p jt(7.4)

El factor−S jt/S jjt es conocido como el “margen de Bertrand” (mBertrand

jt ). Los autores deseanmodelar los efectos de pequenas desviaciones de este margen a traves de coeficientes ω jt =Wjt · ν j donde Wjt es una matriz de variables predictivas que modelen el comportamiento,a criterio del investigador y ν j es el vector de parametros que modelan la sensibilidad dela empresa a estos parametros. El modelo final queda, reemplazando (7.3) en la ecuacionanterior (7.4) y ajustando el margen de Bertrand:

p jt = Z jt ·λ j +Wjt ·ν jmBertrandjt + ε jt (7.5)

Para ajustar este modelo se realiza de manera simultanea a traves del metodo generalizado demomentos (GMM, por sus siglas en ingles) que esta ıntimamente relacionado con la estimacionmınima de chi-cuadrado. Este metodo se basa en minimizar el estadıstico chi-cuadrado de unafuncion que simule las distribuciones de los parametros, suponiendo a priori una matriz con ellosy ası encontrar los valores que se ajustan estadısticamente de mejor forma a los datos.

Los resultados de los autores son bastante certeros en los precios de equilibrio en su estudio,pero lo mas relevante de este modelo es que presenta generalizaciones naturales hacia la minerıa dedatos. La intencion de las secciones siguientes es generalizar el modelo anterior en base a redefinirlos margenes y los metodos para estimar los parametros utilizando tecnicas de minerıa de datos.

67


7.2. Modelo con Demanda en base Minerıa de Datos

El primer modelo entrega resultados solo basados en tecnicas de SVM multiclase de la seccion3.5, mientras para el segundo modelo se seguira la metodologıa del capıtulo 4, donde se desa-rrollo un metodo para generar probabilidades a partir de las salidas continuas de SVMs multiclase.Primeramente se definen los conceptos comunes para ambos modelos, para luego entrar en detalleacerca de las diferencias que presentan.

Se supone que existe un mercado con N clientes donde trabajan J firmas, las que deben decidirprecios p j y enfrentan costos marginales c j. El primer cambio que se realiza con respecto al modelooriginal es que ahora ademas la demanda esta modificada por acciones comerciales, elegidas dentrode L disponibles, realizadas por la firma que crea el modelo2 y dirigidas a cada uno de los clientesdadas por x ∈ 0,1LxN y ademas esta caracterizada por la heterogeneidad observable del mercadodada por el conjunto χ = χi, χi ∈RM, i ∈ 1, . . . ,N, definido por M caracterısticas observablespara cada cliente. Se considera para efectos de este trabajo que la definicion de las estrategiascomerciales a seguir fue tomada a priori, supuesto sustentado en que los presupuestos de marketingse definen en planificacion anual, mientras los precios se deciden en configuracion mensual.

Para modelar el comportamiento de la firma, esta intenta maximizar su utilidad fijando su pre-cio p j considerando como dados los vectores de acciones comerciales x y la heterogeneidad delmercado χ:

maxp j

N(p j− c j)S j(p,x,χ)

⇒ p j = c j−S j∂S j∂p j

(7.6)

Donde la segunda ecuacion corresponde a la condicion de equilibrio dadas por las condicionesde primer orden de KKT aplicadas al problema.

2En el caso que se disponga de la informacion, tambien es posible agregar campanas comerciales de la competencia,pero se reconoce que este conocimiento es mas difıcil de adquirir. Una posible aplicacion es cuando alguna firmacompetidora tenga comerciales televisivos al aire, los que son facilmente observables.

68


El vector de costo es modelado con la misma inspiracion que la del modelo original, en base aregresores de costo observables. Se mantiene entonces la expresion dada por (7.3), donde el costoc j es modelado segun un vector de regresores de costo Z que pueden ser, por ejemplo, el ındicede precios al productos (IPP) o el ındice de salarios del Banco Central de Chile. Estos costos sonajustados a cada empresa por un vector de sensibilidad a los regresores λ j y sujetos a un error deestimacion ε j, lo que define finalmente el costo de cada empresa como

c j = λ j ·Z + ε j ∀ j (7.7)

Finalmente, el modelo queda caracterizado al incorporar la ecuacion de costo a las condicionesde primer orden de (7.6) y agregando un termino de eficiencia asociada a la empresa dado por κ j,que permite pequenas desviaciones del equilibrio teorico. El modelo resulta:

p j = λ j ·Z +κ jS j(p j,x,χ)

∂S j(p j,x,χ)∂p j

+ ε j ∀ j (7.8)

El parametro κ j representa un valor interesante de explicar en este modelo. Este valor repre-senta la desviacion de la empresa con respecto a precios de equilibrio, el que al tomar un valormaximo de uno indica racionalidad total. Un valor menor a uno corresponde a decir que la empresaesta ocupando valores “suboptimos”, pues esta alterando el precio en mayor o menor medida de lonecesario. De este modo, el coeficiente corresponde a una medida de la eficiencia de la empresa almomento de fijar sus precios e incorporar sus costos a este analisis, a mas cerca de uno que estosvalores esten, mejor en terminos economicos es la polıtica de fijacion de precios. El otro signifi-cado que tiene este valor es cuanto se ajustan las regresiones para incorporar los precios, pues unvalor muy bajo podrıa indicar tambien sobredimensionamiento de los costos al momento de correrla regresion.

Falta especificar entonces las metodologıas para aproximar la demanda. Inicialmente, se mode-lara la demanda de un solo cliente en base a SVMs. Entonces, las bases de datos corporativas queestan pobladas con informacion de los clientes generan la matriz χ, por lo que M (la cantidad deatributos disponibles para caracterizar al mercado) estara definido segun los atributos que se deseen

69


incorporar al modelo y que seran, si el modelo esta bien construido, aquellos que mejor permitencaracterizar la compra del cliente. Ası, un cliente i queda determinado por el vector de precios queobserva en ese momento particular p = (p1, . . . , pJ), por sus caracterısticas personales χi ∈ RM ypor las acciones comerciales dirigidas a el en ese periodo particular, xi ∈ 0,1L.

Cada cliente tiene J +1 opciones: compra a alguno de los J competidores o no compra a nadie,opcion caracterizada por j = 0. Ası, se definen las salidas de cada cliente por el valor yi ∈0, . . . ,J,por lo que el problema es multiclase. Para abordarlo, se seguira la tecnica de SVMs con sistemaOne versus All (seccion 3.5.1) donde se entrenan J + 1 SVMs, cada una binaria con salidas en−1,+1, con funcion de clasificacion dada por:

f j(p,χi,xi) = sgn[k((wxj,w

pj ,w

χ

j ),(xi, p,χi))+b j], j = 0, . . . ,J, i = 1, . . . ,N (7.9)

A partir de esta salida atomica se generara, de maneras distintas para cada tipo de modelo, lademanda total S j(p,x,χ) que se utilizara para caracterizar el equilibrio en precios para las firmas.

Este modelo presenta algunas caracterısticas interesantes que vale la pena notar. En primerlugar, es un modelo en dos etapas donde la estimacion de la demanda es el paso principal, incorpo-rando la mayor cantidad de datos. Esto es una de las ideas principales del mismo, pues busca utilizara la minerıa de datos para potenciar algunas falencias de la econometrıa en base a los metodos debusqueda de patrones mas sofisticados que existen actualmente, mientras en la segunda etapa cadauna de las ecuaciones (7.8) se ajusta en base a regresiones lineales sencillas, donde los parametrosde entrada corresponden a las participaciones de mercado (conocidas) para los meses con los quese cuenten datos y los regresores de costo obtenidos.

Se sigue ahora por presentar las metodologıas utilizadas para encontrar la demanda S j(p,x,χ),utilizando agregaciones de las salidas del modelo de minerıa de datos utilizado para estimar lademanda atomica.

70


7.3. Modelo Determinıstico con Aproximaciones Numericas

El primer modelo, desarrollado en etapas tempranas del desarrollo de esta tesis y presenta-do en el VII Congreso Chileno de Investigacion Operativa en [5], solo se hace valer de tecnicasnumericas para estimar los valores que se incorporan en las regresiones de la ecuacion (7.8). Enparticular, se modela la demanda como la suma de los valores binarizados de la SVM, lo que selogra simplemente reescalando la salida original, que toma valores en −1,1K , i. e. f ′j(p,xi,χi) =( f j(p,xi,χi)+1)/2, j = 0, . . . ,J. La demanda resulta entonces:

S j,t(p,x,χ) = ˆS j,(t−1) +∑i∈NCt f ′(p,xi,χi)

N

ˆS j,(t−1) =S j,(t−1) ·Nt−1− et−1

Nt

(7.10)

Donde S j,(t−1) corresponde a la participacion de mercado (conocida) del periodo anterior, ajus-tada para que se adapte al nuevo numero de clientes por el coeficiente Nt−1

Nty extrayendo los clientes

et−1 que se fugan al final del periodo porque vencio su producto, por ejemplo. El conjunto NCt co-rresponde al conjunto de clientes de los N disponibles que en el periodo no han elegido a algunacompanıa (no forman parte de la participacion de mercado), con tal de reajustarla segun la predic-cion realizada por las SVM.

El segundo valor a estimar corresponde a la derivada ∂S j(p,x,χ)/∂p j. La derivada representael cambio infinitesimal en la demanda S j frente a un cambio infinitesimal en los precios, peroen este caso particular la demanda la constituyen clientes atomicos, por lo que la idea de cambioinfinitesimal no es valida. Siguiendo este razonamiento, la mejor aproximacion que se tiene dela derivada es cuantos clientes cambian su decision de comprar o no comprar frente a un cambioen el precio, pero ¿cual cambio, aumento o disminucion? Una opcion es utilizar el metodo de lasecante para realizar una aproximacion numerica de este valor, promediando el efecto del aumentoy disminucion en una cantidad pequena del precio original y ası estimando el valor de la derivada.Este metodo disminuye el error de estimacion de la derivada en forma considerable y ademas

71


permite disenar una derivada cuando existen datos atomicos [16].

Ası, el procedimiento para estimar este valor corresponde a generar nuevamente la salida de lasSVMs modificando el precio que se ingresa en la estimacion en un valor ∆p j (por ejemplo 0,01p j)y midiendo cuantos clientes se cambian de decision, tanto cuando se aumenta el precio en ∆p j

como cuando se disminuye en ese valor. La derivada resulta entonces:

∂S j(p,x,χ)∂p j

≈ 12

[S j(p+,x,χ)−S j(p,x,χ)

∆p j+

S j(p,x,χ)−S j(p−,x,χ)∆p j

]=

S j(p+,x,χ)−S j(p−,x,χ)2∆p j

=∑i∈NCt [ f ′(p+,xi,χi)− f ′(p−,xi,χi)]

2∆p j(ecuacion (7.10))

con p+ = (p1, . . . , p j +∆p j, . . . , pJ), p− = (p1, . . . , p j−∆p j, . . . , pJ)

(7.11)

El modelo final se desarrolla a partir de reemplazar en la ecuacion original (7.8) la estimacionpara la demanda de mercado (7.10) y la derivada de la misma (7.11):

p j = λ j ·Z +κ j

ˆS j,(t−1) +∑i∈NCt f ′(p, xi, χi)

N∑i∈NCt [ f ′(p+, xi, χi)− f ′(p−, xi, χi)]

2∆p j

+ ε j (7.12)

El modelo es bastante simple de implementar, pues en su fase de entrenamiento necesita de unentrenamiento para las J +1 SVMs, lo que tiene complejidad O(N3) como maximo, mientras luegorequiere realizar tres testeos, uno para obtener el valor con los precios originales y luego dos con losprecios modificados, cada uno requiriendo O(N) calculos, por lo que el algoritmo esta acotado porla complejidad del entrenamiento de las SVM. El diagrama 7.3 describe el proceso de aplicaciondel modelo.

Es posible tambien aplicar este modelo para simular situaciones esperadas (what if?), puesse puede variar cualquier parametro, como por ejemplo las campanas comerciales aplicadas a los

72


Figura 7.1: Diagrama de la aplicacion del modelo.

clientes o el precio de alguno de los competidores, y luego resolver el sistema de ecuaciones quenace de plantear las ecuaciones (7.12) y resolver el punto fijo (equilibrio del juego) para esta funciondeterminando como modificaran el precio los competidores.

Se ahondara un poco en la existencia de la solucion para el sistema de ecuaciones anterior. Unafuncion g(x) tiene un punto fijo en x′ si x′= g(x′). La existencia de un punto fijo la podemos utilizarconsiderando el siguiente teorema:

Teorema 7.1 (Punto Fijo de Brouwer). Para toda funcion continua g definida sobre el conjunto

compacto Dn ⊆ Rn en si mismo g : Dn → Dn, siempre existira al menos un punto x ∈ Dn tal que

g(x) = x.

Se da que los conjuntos de la funcion del lado derecho de (7.12) son compactos, pues losprecios se mueven entre [0, pmax], donde pmax corresponde al precio maximo que puede cobraralguna empresa, el que se obtiene ya sea de alguna regulacion o de la demanda, y dado que esta semueve en [0,1], la derivada presenta variaciones pequenas en modulo, pues son pocos los clientesque cambian de companıa y los costos estan fijos para la estimacion, lo que genera un conjuntocompacto. Por ultimo, la funcion del lado derecho de (7.12) es continua en ese intervalo, toda vezque la derivada de la demanda este definida y sea mayor a 0.

En cuanto a la resolucion numerica, se debe tener la precaucion de que la derivada tambiendepende de los valores a estimar en el sistema de ecuaciones, por lo que se puede dejar fija y suponer

73


que no cambia su valor frente a desviaciones pequenas con respecto al precio original o se puederealizar una aproximacion de Taylor de segundo orden en torno a algun punto conocido, evaluandola funcion de demanda en dos puntos mas lejanos (p + 2∆p y p− 2∆p) y luego aproximandolinealmente la segunda derivada.

∂S j

∂p j≈

∂S j

∂p j

∣∣∣p j=p j0+

∂2S j

∂p2j

∣∣∣p j=p j0∆p j , con

∂S j

∂p j

∣∣∣p j=p j0de la forma (7.11)

7.4. Modelo en base a Probabilidades de Compra

El segundo modelo desarrollado sigue la misma lınea de razonamiento planteada en la seccionanterior, pero difiere de ella en la manera de plantear la demanda. Para este caso se utilizara lametodologıa del capıtulo 4 en el cual se utiliza una combinacion de redes neuronales y SVMs paragenerar probabilidades de compra.

Entonces, el modelo sigue siendo regido por la expresion (7.8) y ahora la estimacion de lademanda corresponde a la esperanza de la participacion de mercado, que corresponde a la sumade la probabilidad de compra para cada cliente. Definimos ası pci j(p, xi, χi) como la probabilidadde que el cliente i, descrito por su vector de caracterısticas personales y del mercado (p, xi, χi),compre en la empresa j. La probabilidad requiere de un proceso de dos fases, donde en la primerase debe resolver una SVM multiclase OVA para encontrar la salida continua de la expresion 7.9que corresponde a la misma expresion, pero sin tomar el signo para realizar la clasificacion:

fi j ≡ f j(p,χi,xi) = k((wxj,w

pj ,w

χ

j ),(xi, p,χi))+b j, j = 0, . . . ,J, i = 1, . . . ,N (7.13)

Y luego se debe ajustar una red neuronal con salidas softmax de la forma (4.7) presentada en elcapıtulo 4. Cada una de estas salidas representa a la probabilidad que el cliente compre en algunade las companıas o no compre en ninguna y corresponde a una funcion que mezcla todas las SVMs

74


en enfoque OVA utilizando la funcion softmax entrenada en base a una red neuronal. La funcion declasificacion se obtiene entonces al agregar la funcion de clasificacion continua (7.13) a la funcionsoftmax (4.7):

pci j(p, xi, χi) =e∑

jl=0 β

jl fl(p, xi, χi)

∑Jk=0 e∑

Jl=0 βk

l fl(p, xi, χi)(7.14)

Donde βkl corresponde al peso que le asigna la neurona asociada a la salida k ∈ 0, . . . ,J a

la SVM fil con l ∈ 0, . . . ,J la cual proviene de los pesos asignados a cada neurona. Segun laarquitectura de la red descrita en el capıtulo 4, la red tiene una sola capa oculta con K neuronas yentradas en j = 0, . . . ,J, entonces se tienen que la matriz de pesos de entrada (IW ) es de tamano(J +1)×K y la matriz de pesos en la capa oculta (LW ) a la capa de salida es de tamano K×(J +1),por lo que la matriz de coeficientes β queda definida por LW · IW , de tamano (J +1)× (J +1).

La expresion consiste finalmente en una funcion no lineal (la funcion softmax) que recibe comoargumento una combinacion lineal de funciones no lineales (las SVMs) y por ende es una expresionbastante compleja en terminos matematicos. Finalmente, la demanda se modela sumando (7.14) porsobre todos los clientes y dividiendo por sobre el total para obtener la esperanza del aumento enparticipacion de mercado:

S j,t(p,x,χ) = ˆS j,(t−1) +1N ∑

i∈NCt

e∑jl=0 β

jl fl(p, xi, χi)

∑Jk=0 e∑

Jl=0 βk

l fl(p, xi, χi)(7.15)

Para finalizar el modelo, se debe calcular la derivada de la funcion (7.15) y es este paso elque mayor manejo algebraico requiere en todo este problema. En particular, la expresion depen-dera de la funcion kernel elegida para realizar los calculos por lo que se analizan dos potencialesfunciones kernel para cubrir la gran mayorıa de las aplicaciones. La primera corresponde al kernellineal (k(x) = ∑wnxn, wn ∈ Rn) y la segunda corresponde al kernel RBF, cuya expresion generalcorresponde a:

75


k(x) = ∑k∈SV

αk exp(−‖x− xk‖2

2σ2

)(7.16)

Donde xk corresponden a los vectores soportantes de la SVM y αk corresponde al peso delcorrespondiente vector soportante. Esta expresion es bastante mas compleja de manejar, pues poseemayores complejidades analıticas. La expresion general de la derivada es la siguiente:

∂Sk,t(p,x,χ)∂pk

= ∑i∈NCt

pcik

N·

J

∑j=0

βkj∂ f j

∂pk−

∑Jj=0

(∑

Ji=0 β

ji

∂ fi∂pk

)e∑

Ji=0 β

ji fi

∑Jj=0 e∑

Ji=0 β

ji fi

(7.17)

La derivada de la funcion lineal es simplemente el parametro w jpk asociado a la SVM j, pero

para el kernel RBF se tiene que la derivada de la funcion para una companıa l ∈ 0, . . . ,J es:

∂ fl(p,χi,xi)∂p j

= σ−2

∑k∈SVl

αk(pk, j− p j)exp(−‖(p,χi,xi)− (pk,χi,k,xi,k)‖2

2σ2

)(7.18)

El kernel RBF introduce una gran cantidad de complejidad computacional, como se discutira enel capıtulo 9, lo que se ve compensado por la gran capacidad discriminante que posee. Ahora, lapregunta logica es la ganancia de estos factores para el proceso, pues se esta agregando un compo-nente extra en el entrenamiento y, para justificar este costo, se deben dejar claro los beneficios. Sevislumbran los siguientes:

1. Al utilizar probabilidades en vez de salidas fijas por cliente se esta permitiendo mayor flexi-bilidad a la hora de generar los resultados. Dada la metodologıa de entrenamiento de la redse privilegia el errar de manera “menos grave”, es decir, se suavizan los errores de la predic-cion al no forzar a un cliente a estar presente en una y solo una empresa, como en el modeloanterior.

2. Las SVM tienen una de las mejores capacidades de generalizacion (clasificar correctamente

76


incluso en datos que son observables), pero las redes neuronales tienen la mejor capacidad deaproximacion (aproximar correctamente cualquier funcion en Rn) por lo que se espera quela union de ambas permita mejorar la prediccion al buscar mejorar la capacidad de aciertocon las SVM y luego la correcta especificacion de la funcion de probabilidad con las redesneuronales.

3. La expresion (7.15) corresponde a una expresion analıtica de una funcion continua y deriva-ble en todos los puntos. Esto permite un mejor manejo de las expresiones, pues si bien loscalculos analıticos para llegar a resultados son bastante extensos, estos se ven compensadospor un mejor manejo analıtico y mejores tiempos de prueba y aplicacion futura. Ahora secuenta con una expresion analıtica mucho mas manejable.

77

Capıtulo 8

Mercado de Creditos de Consumo yConstruccion del Modelo

Para testear el funcionamiento del modelo se desarrollo una aplicacion en el competitivo mer-cado de los creditos de consumo, en particular, en el mas especıfico mercado de los creditos deconsumo con descuento por planilla, que consiste en una modalidad regulada en el paıs que permi-te a las empresas entregar creditos cuyas cuotas son descontadas directamente de la liquidacion desueldo, lo que disminuye el riesgo que enfrenta la empresa que presta el dinero y facilita las condi-ciones de otorgamiento a clientes. Esta modalidad lo hace idoneo para este estudio por la siguientesrazones:

Para el caso que se desarrollara, la empresa en estudio1 es la que emite la liquidacion derenta, por lo que esta en conocimiento de cuando un cliente tomo un credito en la companıa y

en la competencia al tener que descontar la cuota de cualquiera de ellas, con lo que se cumpleel requerimiento tener las colocaciones y participaciones de mercado de todas las companıas.

El descuento por planilla en el caso estudiado solo es accesible para la companıa en estudioy para un punado de otras empresas (5 en total), de las cuales solo 2 tienen participaciones

1Se recuerda al lector que la empresa solicito que su nombre fuera mantenido en el anonimato, por lo que seprotegera su identidad a lo largo de esta tesis.

78

Capıtulo 8: Mercado de Creditos de Consumo y Construccion del Modelo

Figura 8.1: Participacion de mercado para las companıas.

de mercado aceptables. Con ello, se cuenta con 4 companıas para el estudio: La que emitelas liquidaciones, que llamaremos companıa C, las dos companıas que tienen participacionesde mercado relevantes, llamadas A y H, y las companıas restantes con participaciones demercado pequenas que se agruparan y llamaran companıa O. De este modo se cumple elsegundo requerimiento que es tener una serie de competidores que concentren el mercado,teniendo ası poder para influir en las decisiones de los demas competidores y en el precio.

8.1. Caracterısticas del Mercado

El primer paso para desarrollar los modelos es comprender el ambiente en el que se desenvuel-ve la empresa. En particular se deben comprender las posiciones de mercado que cada empresaposee y ademas el estado de los precios y su dinamismo, como una medida de la intensidad de lacompetencia de mercado.

En la figura 8.1 se observan las participaciones, donde la companıa C concentra la mayor canti-dad de clientes, con una participacion de mercado del 56% y, en conjunto, alcanzan una penetracion(cantidad de clientes del total disponible) cercana al 50%, lo que indica que aun hay mucho espaciodonde crecer.

Las empresas A, H y O compiten tambien en el mercado del credito directo a trabajadores,donde otorgan creditos a todos aquellos trabajadores cuya empresa donde trabaje tenga conveniocon alguna empresa en estudio. Este tipo de credito no corresponde a una competencia directa

79


Figura 8.2: Participacion de mercado competencia en otros mercados.

para la empresa en estudio, pues una empresa determinada puede estar afiliada solo a una de lasempresas en estudio, por lo que la competencia no se produce en el mismo nivel. Para efectos decomparacion se muestran las participaciones de mercado asociadas a este tipo de creditos, en lafigura 8.2.

En cuanto a las tasas para los creditos (precios) se observa la siguiente distribucion:

C A H OTasa Actual 2,19% 1,89% 2,34% 2,19%Tasa Promedio 2,08% 1,80% 2,20% 2,09%Desv. Tasa 0,05% 0,11% 0,10% 0,15%

Tabla 8.1: Resumen de tasas cobradas por competidores.

Existe la asociacion logica de la demanda con el precio: las empresas con menor precio tienenmayor participacion, pero la empresa C posee la maxima tajada, sobre todo debido a que tiene unmayor contacto con los clientes y mayor poder de marketing, al emitir ellos mismos las liquidacio-nes. Ademas, el mercado presenta un dinamismo restringido con poca desviacion estandar dondeestos precios estan limitados por los costos y por la intensidad de la competencia.

En este mercado se intentara modelar las racionalidades del dinamismo de los competidoresajenos a la empresa C, planteando los modelos desarrollados en el capıtulo anterior. El paso inicialpara ello corresponde a desarrollar la base de datos necesaria para generarlos, tema a tratar en estela seccion siguiente.

80


8.2. Consolidacion de Bases de Datos y Seleccion de Atributos.

El proceso KDD usual descrito en el capıtulo 2 es una manera estructurada de encontrar infor-macion relevante dentro de grandes bases de datos, con el objetivo de maximizar la cantidad deinformacion que extrae el investigador de los datos existentes. Los pasos asociados directamentea la empresa, e independiente aun del modelo, corresponden a la seleccion de los orıgenes de losdatos y a la seleccion inicial de atributos.

8.2.1. Consolidacion de datos

La gran cantidad de datos que se tienen de estos clientes permite obtener los tres tipos de fuentesde datos presentados en la seccion 2.2.1:

Fuentes Internas: Se utilizaron bases de datos corporativas que almacenan colocaciones decredito, informacion personal, informacion de contactos de marketing (mailings, contactosdirectos por ejecutivos y concursos).

Fuentes Externas: Boletines comerciales, informacion del Banco Central de Chile e informa-cion de precios de la competencia vıa Web.

Variables Generadas: Ratios deuda/renta, agrupaciones varias de informacion general.

En total se utilizaron datos provenientes de cinco entidades, con un total de 14 orıgenes de datosdistintos. A partir de estas se generaron 75 atributos base para caracterizar cada caso. El total deatributos, su origen y algunas descripciones generales se pueden encontrar en el anexo C.

Se cuentan con aproximadamente 350.000 datos a lo largo de 16 meses, pues se construyo ini-cialmente la base de datos utilizando 18 meses, sin embargo, existen dos de ellos cuyas carac-terısticas estan “manipuladas” por cambios internos en polıtica de credito y otras circunstanciasque sobredimensionaron la venta de esos meses. De incorporarlos en el estudio se provocarıa una

81


distorsion importante en los patrones, pues se darıa un peso mayor a todos aquellos clientes quevinieron ese mes particular (se aumento la venta en un 50% esos meses) ya que era la primera vezque recibıan oferta.

8.2.2. Seleccion de Atributos

Las tecnicas actuales muchas veces limitan el contacto que el investigador posee con sus propiasbases de datos, como por ejemplo cuando se utiliza analisis de componentes principales comotecnica de seleccion de atributos, donde el resultado es “cerrado” y no entrega informacion acercade la variable en sı y su estructura. Es por ello que se genero una nueva metodologıa para reducirla cantidad de atributos que se entregan un modelo intentando maximizar el aprendizaje directo delos atributos por parte del modelador.

El primer paso es revisar los valores nulos en la muestra. Variables con mas de un 30% devalores nulos son descartadas, pues requieren extraer una gran cantidad de elementos de la muestrafinal; felizmente ninguna variable se encuentra en esta situacion.

El segundo paso de esta tecnica corresponde a generar un test univariado para las variables.A partir de la variable objetivo “SIN CREDITO” se genera un test K-S para las variables conti-nuas y un test Chi-Cuadrado para las variables nominales que permite definir si esa variable tieneinfluencia sobre la variable objetivo. Se utiliza esta variable objetivo debido a que indirectamenteinvolucra las demas variables objetivo, buscando si existe influencia sobre alguna empresa.

El test K-S corresponde a un test no parametrico2 que se realiza sobre una variable continuacuando existen dos set de datos distintos, en este caso, dos clases separadas por la variable objetivo.El test utiliza como hipotesis nula que ambos conjuntos de datos tienen la misma distribucion, porlo que si la variable en realidad es discriminante el resultado del test sera rechazar la hipotesis nula.

El test chi-cuadrado corresponde a un equivalente al test K-S en el caso discreto, cuando se

2No parametrico indica que el test estadıstico no realiza suposicion alguna con respecto a la distribucion que debeposeer el conjunto de datos al cual se esta aplicando, lo que es deseable cuando se tienen datos sobre los cuales no seconoce o no se desea imponer ninguna distribucion a priori.

82


desea probar si la muestra de ambas categorıas es consistente con una unica funcion de distribucion,lo que marcarıa a la variable como no discriminante. De la misma forma que el metodo anterior, sebusca rechazar la hipotesis nula. El criterio utilizado para ambos test es eliminar aquella variablecuyo test entregue un p-valor3 menor a 0,05.

La ventaja principal de realizar el primer descarte de variables por este metodo es que estostest son muy sensibles a pequenas variaciones en los datos, por lo que si el test indica que ladistribucion entre los valores separados por la variable objetivo son distintos, entonces es porqueefectivamente aparece una distribucion estadısticamente distinta que la inicial. En caso contrario,si no se esta totalmente seguro de esto, el test indica que hay diferencias significativas con muypequenas diferencias entre las medias de las variables. Este es el test que es mas conservador encuanto a eliminar variables se trata, pues solo se eliminan en este paso si se esta totalmente seguroque no existe diferencia entre las variables.

Cabe destacar que un problema de este metodo es que descarta variables que potencialmentepueden tener un comportamiento no lineal al ser combinado con otras, pero este riesgo se corre apriori pues construir relaciones que pueden ser significativas (los modelos no lineales se manejana nivel de parametros, no potencias de variables u otra funcion que ellas posean) es tarea a realizaren la seccion anterior, donde se utiliza el conocimiento del modelador para crear variables a priori.

Dado que aun existen muchas variables de las cuales elegir, el siguiente paso del metodo deseleccion de atributos corresponde a eliminar aquellos que claramente no presentan asociacioncon las demas variables. Una variable que tenga algun poder de discriminacion, pero que al serincorporada en conjunto con otras variables lo pierda o interfiera con la capacidad conjunta de todaslas demas no es util para un modelo multivariado. Para probar este punto se incorporan las variablesrestantes en un arbol de clasificacion4 [54] utilizando como objetivo las cinco variables objetivo ypermitiendo al arbol llegar a cualquier numero de niveles. Este modelo estara sobreajustado per se,

3P-valor corresponde al valor de la probabilidad asociada al estadıstico medido. A menores valores de este valor,mas seguro se esta del rechazo de la hipotesis nula.

4La tecnica de arboles de decision se basa en realizar un test chi-cuadrado o un test basado en el aporte de informa-cion que entrega agregar una variable y realizar un corte, utilizando una funcion muy similar a la ecuacion de entropıa(4.6) de la seccion 4.2. Esta tecnica ha sido ampliamente estudiada y su uso se remonta a los orıgenes de la minerıa dedatos, pues cuenta con gran capacidad para discriminar cuando hay relaciones sutiles entre los datos, al ir dividiendoen conjuntos cada vez mas pequenos y realizando cortes en base a aquella variable no utilizada que mas discrimina.No se ahondara en los detalles de esta tecnica, invitando al lector a revisar la bibliografıa si ası lo requiere.

83


pero eso no es grave, pues indicara que existe alguna correlacion con las demas variables que esposible de explotar al construir el modelo final.

La salida de este modelo permite discriminar entre variables cuyo costo de no tenerlas es bajopues no es posible discriminar con ellas considerando un gran numero de potenciales relaciones.Este metodo es un tanto menos intuitivo que el anterior y permite mas manejo por parte del mode-lador al entregar la posicion (con respecto al comienzo del arbol) que toma una variable. Ademaseste metodo permite realizar seleccion entre atributos correlacionados, pues si dos variables estanaltamente correlacionadas y el arbol desea incorporarla, se agregara solo una (la mas discriminante)y la siguiente perdera su interes, al estar incorporada la informacion que esta entrega a traves de lavariable ya ingresada.

Entre las variables que queden, finalmente se analizan sus correlaciones para descartar cual-quier relacion invalida. El punto de corte elegido fue de 0,8, eliminando variables que tuvieran uncoeficiente de correlacion absoluto5 mayor al punto de corte. De este modo se ingresan efectos“puros” al modelo.

Como complemento a lo anterior se recategorizaron algunas variables de tal modo de generaruna menor cantidad de variables dummy o variables que resuman algun tipo de comportamiento.Estas variables se categorizaron como “reemplazadas” y pueden ser revisadas en el anexo D quetambien incluye el detalle de las variables elegidas. El desglose de las variables consideradas eneste paso corresponde a:

Variable CasosCORRELACIONADA 8REEMPLAZADA 10EXCLUIDA 24INCLUIDA 22TOTAL 64

Tabla 8.2: Resumen de seleccion de atributos y analisis de correlaciones.

5El coeficiente de correlacion corresponde a una medida de la intensidad de la relacion lineal entre dos variables

X e Y . El coeficiente de correlacion mas utilizado corresponde al de Pearson, dado por ρX ,Y = (∑Ni xi·yi)/N−X ·Y√

X2−X2·√

Y 2−Y 2 con

ρX ,Y ∈ [−1,1]. El coeficiente de correlacion absoluto corresponde al mismo coeficiente en valor absoluto.

84


Con esto se tiene un conjunto de 22 variables sobre los cuales se tiene un gran conocimientoacerca de su capacidad discriminante. Al utilizarse un modelo no lineal (SVMs) para discriminaciony como el metodo de seleccion de atributos (tanto en el caso de una clase como de muchas) esaun un tema en investigacion se procede a construir el modelo utilizando las variables que hastaaquı se han elegido. Ademas, las variables de precio son requeridas para el buen funcionamientodel modelo, por lo que su seleccion es forzosa.

Otra opcion es generar modelos con seleccion de atributos hacia adelante (partir de un modelobasico y luego incorporar solo una variable, aquella que mas aporte en discriminacion) o modeloscon seleccion hacia atras (se comienza con todas las variables y luego descartar las que aporten me-nos). Existen tambien modelos ad-hoc que se han creado para la tecnica en el caso no lineal, comoel creado en la Universidad de Chile en [28] y que es tema de doctorado del alumno actualmente. Laultima posibilidad es realizar extraccion de caracterısticas utilizando alguna tecnica clasica comoel analisis de componentes principales (PCA, por sus siglas en ingles) el cual representa una me-todologıa de cambio de espacio, lo que se puede entender que se realiza en el modelo que incluyeredes neuronales, ya que las SVM funcionan como extractor de caracterısticas no lineal.

8.3. Construccion de Regresion de Precios

Para conseguir los precios de los competidores, elemento base de la regresion, se utilizo la in-formacion proveniente de la superintendencia que regula a todos estos competidores6 y que publicamensualmente los precios (tasas) que estos jugadores cobran.

Para construir los factores restantes se obtuvieron indicadores de precio de mercado utilizando-se los datos del Banco Central y del Instituto Nacional de Estadısticas (INE), quienes entreganinformacion detallada con respecto a la situacion del mercado. Los regresores de costo que se uti-lizaron corresponden a los siguientes:

Indice de Precios al Consumidor (IPC): Instrumento de medida del cambio en precios

6Se protegera el nombre para no entregar mayor informacion con respecto al mercado.

85


a consumidores en base a una canasta de productos obtenido por el INE. El popular IPC seutiliza en este modelo segun lo presenta el Banco Central (BC), es decir, sobre un ponderadorcon respecto a los precios de un ano base, no como se suele conocer que es el porcentaje deincremento de estos valores entre un mes y otro.

Indice de Precios al Productor (IPP): Instrumento de medida del cambio en precios aso-ciados a actividades economicas que en conjunto representan mas del 80% del valor bruto deproduccion. Esta medida se tiene diversos desgloses, entre los que se utilizaron el ındice deprecios para industrias de servicios (IPS) y el ındice de precios para empresas manufactureras(IPP Manufactura).

Indice de Precios al por Mayor (IPM): Instrumento de medida del cambio en precios aconsumidores que compran al por mayor obtenido por el INE.

Tasa de Polıtica Monetaria (TPM): Corresponde a la tasa interbancaria que cobra el BancoCentral a bancos e industrias financieras con acceso a el.

Indice de Remuneraciones (IR): Corresponde a una medida del precio de las remuneracio-nes por sector economico y por grado de calificacion para empresas de mas de diez trabaja-dores, calculado por el INE. Se utilizo el ındice global y los especıficos a administrativos yprofesionales, al representar la mayor cantidad de personas que trabajan en estas empresas.

Indice del Costo de Mano de Obra (ICMO): Se diferencia del valor anterior en que esteındice refleja los descuentos o aumentos en el costo realizados por el empleador por conceptode capacitaciones, ventajas tributarias, asignaciones y descontando tambien las cotizacionesque entrega el estado. Se utilizan tambien los asociados a administrativos y a profesionales.

Diferencia con Tasa Maxima Convencional: La tasa maxima convencional correspondea la maxima tasa que cualquier companıa que entregue credito puede cobrar a clientes. Estatasa esta regulada por la SBIF y se verifica su correcta aplicacion por el Servicio Nacional delConsumidor. La diferencia entre la tasa que cobra una empresa y la tasa maxima que puedecobrar representa un “costo de oportunidad” de las empresas y se incluye como potencialpredictor de la intensidad de la competencia.

86


Para decidir cuales atributos finalmente se utilizaran se realizo un analisis de correlaciones, elcual resulto en que los ındices desglosados representaban por lo general una gran parte del ındiceagregado, descartandose para los ındices IPM, IR y ICMO. Dentro de los ındices de precio alproductor, los precios para servicios (IPS) no tenıa correlacion alta, sin embargo, los precios paramanufactura poseen correlacion del 92%, por lo que se elimino este indicador. Ademas, la altısimacorrelacion (0,98) que poseen los ındices IR e ICMO hace necesario eliminar alguno, eliminandoICMO para reflejar las remuneraciones brutas de los trabajadores de la empresa.

De este modo se tienen todos los datos necesarios para empezar a entrenar modelos, lo quesera tratado en el capıtulo siguiente. Cabe destacar que el proceso de consolidacion y limpiezade datos tardo aproximadamente tres meses, considerando todos los procesos aquı descritos. Estesuele ser el elemento que mas tarda en los proyectos de minerıa de datos.

87

Capıtulo 9

Resultados Experimentales

En este capıtulo se delinean las consideraciones muestrales para formar los modelos y sus re-sultados, acompanados de la interpretacion de los mismos en terminos de su calidad para discernir,significado teorico y la concordancia con la realidad. Se pone enfasis en la caracterizacion de loselementos que componen el modelo, para en el proximo capıtulo describir las conclusiones que sepueden obtener y un analisis profundo al conocimiento creado.

9.1. Construccion de la Muestra y Configuracion de Modelos

El primer paso ahora que se dispone de todas las variables seleccionadas es disenar los expe-rimentos y la metodologıa de entrenamiento. Para poder realizar un entrenamiento eficiente hayque tener cuidado con lo altamente desbalanceadas que se encuentra la base de datos creada. Parasubsanar esto se eligieron aleatoriamente un subconjunto de los casos asociados a clientes que noeligieron a ninguna empresa en ese mes particular, llevando a seleccionar un total de 10.000 clientesen esta categorıa y se utilizo un conjunto con el 80% de los casos que si eligieron a alguna empresaen particular.

88

Capıtulo 9: Resultados Experimentales

En general, segun se explica en 2.2.4, se deben crear tres conjuntos de datos:

Conjunto de Entrenamiento: Conformado por el 80% de los datos que eligen a algunaempresa y 10.000 clientes que eligen no comprar. Este conjunto se utilizara para obtener loscoeficientes del modelo y fue construıdo en base a un muestreo aleatorio.

Conjunto de Validacion: El conjunto de entrenamiento se dividio nuevamente en dos peda-zos, un 20% de la muestra original (25% de la de entrenamiento) se separa para realizar laobtencion de parametros de los modelos. La seleccion de parametros se realiza tanto para lasredes neuronales como para las SVMs.

Conjunto de Prueba: Conjunto que jamas se incluye en los entrenamientos y sirve paraanalizar el comportamiento del modelo.

Para analizar que los tres conjuntos sean homogeneos se realizo un test de medias y varian-zas para cada variable de la muestra, este test cumple con el objetivo de evitar que las muestrassean distintas y por ende se corra el riesgo de eliminar patrones importantes (porque quedan en lamuestra de validacion) o de incorporar patrones ficticios (por error de muestreo).

El primer paso es entrenar las SVM en la muestra, donde se deben seleccionar dos parametros:el coeficiente C y el coeficiente σ (seccion 3.4). Para elegirlos, se utiliza cross-validation (CV) detres muestras, lo que implica nuevamente particionar la muestra en tres partes, entrenar en dos yquedarse con el resultado de la tercera, rotando luego la particion que funciona como muestra. Estose realiza varias veces, moviendo el valor de los parametros en potencias de dos; en particular, sehizo variar los coeficientes entre C,σ ∈ 2i,2 j, i, j ∈ −5, . . . ,5. Para palear el desbalancede la muestra se utilizo como medida de desempeno el promedio entre las tres muestras de lamultiplicacion del porcentaje de acierto para cada clase, obligando al modelo a ser eficiente en sucapacidad de discriminar para todas las clases:

∑3i=1 ∏

Jj=0

aij

Nij

3(9.1)

89


Donde aij corresponde a la cantidad de casos de la clase j clasificados correctamente en la

particion i y Nij a la cantidad total de casos de la clase j en la particion i.

Una vez encontrado este modelo, el siguiente paso es calcular la cantidad de epocas y neuronasde capa oculta que se utilizaran para estimar las probabilidades. Se utiliza el mismo conjunto dedatos para generar los f j (las salidas continuas de las SVMs) que se utilizan en este modelo (capıtulo4) y se entreno la red. Como ahora las salidas son continuas, se utilizo el error cuadratico mediode la ecuacion (4.5) para medir el desempeno para todas las clases, iterando los parametros en

Nepocas, Nneuronas∈ 1, 20×1, 20. Los parametros obtenidos corresponden a:

Parametro ValorC 80σ 4

Nepocas 10Nneuronas 10

Tabla 9.1: Parametros de los Modelos

Finalmente, algunos parametros adicionales se fijaron para acelerar las velocidades de conver-gencia de los algoritmos de entrenamiento: se fijo el punto de corte para los valores de los coefi-cientes α de la ecuacion (3.8) en 10−5, lo que significa que ignora todos los vectores soportantesque estan “en duda” o son muy pequenos, lo que acelera bastante la velocidad de entrenamiento. Elsiguiente parametro, tambien para SVM, es el coeficiente de balanceo (balanced ridge) que permitea las SVM que balanceen la muestra de manera artificial, considerando los errores contrapesadospara una de las clases o para la otra. En este caso, se utilizo un coeficiente de balanceo igual a unoque equivale a decir que equivocarse en una de las clases es igual de costoso que equivocarse encualquier otra.

El siguiente paso es correr ya los experimentos. Dada la estructura del modelo, es posible ge-nerar resultados de forma independiente para los modelos que utilizan minerıa de datos y luegoutilizar los resultados que estos modelos entregan para generar el modelo de teorıa de juegos.

90


9.2. Resultados Modelos de Minerıa de Datos

De la seccion 7.2, la demanda se estima como la suma de las predicciones individuales, gene-radas a partir de cinco SVMs, una por cada empresa mas una “no compra”, evaluadas para cadacliente, generando una “demanda individual”. Para el segundo modelo, se entreno una red neuronala partir de los resultados de las SVMs (secciones 4.3 y 7.4)), que se reporta tambien en esta seccion.Este segundo modelo sera llamado “modelo en base a redes neuronales”, por simplicidad.

Los resultados expuestos aca se realizaron en una muestra de prueba independiente y, para che-quear estabilidad, se realizo una validacion cruzada de 3 muestras en la particion de entrenamiento.Esta muestra se realiza para confirmar la estabilidad de los resultados y no representa una medidadel ajuste real, basta con que el acierto sea razonable y que no tenga variaciones importantes entreparticiones. El acierto que si representa generalizacion es el de la muestra de prueba. Se utiliza elerror absoluto medio (MAE por sus siglas en ingles) para medir el error por cada vector de clasestanto en SVM como en redes neuronales. Este error esta dado por:

Definicion 9.1 (Error Medio Absoluto (MAE)).

∑i |pi− ti|N

El error se reporta entonces a nivel de clase, para ası tener una medida objetiva del compor-tamiento en ambos modelos, que sea comparable dada la estructura de ambos. Los resultados seresumen en la tabla 9.2.

Clase Acierto SVM Acierto NNC 60% 56%A 63% 58%H 64% 59%O 64% 59%N 80% 78%

Tabla 9.2: Resultados del entrenamiento a nivel de cliente para ambos modelos.

“Acierto SVMs” indica el acierto del modelo basado solamente en SVMs, mientras “Acierto

91


NN” representa el acierto del modelo hıbrido en base a redes neuronales y SVMs. Este acierto es elpromedio entre los vectores que tienen clase positiva y los vectores que tienen clase negativa, paracada clase. De este modo se reporta un error mas “real”, ya que de reportar el error para el vectorcompleto, sin promediar por clase, se estarıa sacando partido del desbalance de la base para elevarenormemente el desempeno. Por ejemplo, el error MAE de la clase O para SVM, sin promediar, esdel orden del 1%, pero esto sucede dado que existen muy pocos casos en esta clase. Este error, sibien aumenta el acierto reportado, no entrega una vision objetiva del acierto que se espera obteneral aplicarlo.

Los resultados a nivel de cliente no son los que uno desearıa en una aplicacion atomica, peroaun dentro de los margenes de lo aceptable para casos donde se trata con un fenomeno social.Estudiando mas a fondo el desempeno de estos modelos se observa que este cuenta con problemasasociando a un cliente con una clase particular, es decir, que detecta bien cuando un cliente tienenecesidad de tomar un credito, reflejado en el 80% de acierto para la clase “no compra”, pero noa que competidor lo hara. Esta complicacion provoca una cantidad alta de falsos positivos en todaslas clases que representan participacion de mercado, que en realidad son positivos de alguna de lasotras empresas. No se encontro otra relacion que permita discriminar mejor entre ambos resultados.

Otra diferencia salta a la vista es que el modelo continuo, de redes neuronales, presenta uncomportamiento inferior al de SVMs. Esta disminucion de comportamiento es sorprendente, puesel modelo de redes neuronales representa una manera de “continuizar” el modelo de SVMs. Larazon que se vislumbra pasa por la composicion de la muestra y la funcion de error, ya que estabase es desbalanceada de manera natural, mientras las redes neuronales no poseen factor de balancenatural y, considerando que la funcion de entropıa cruzada (definicion 4.2) castiga fuertementeerrores graves, se cree que el desbalance puede incorporar problemas al traer patrones similaresde clases distintas, lo que se ve empeorado por lo similares que estas son segun se explico en elparrafo anterior. Una potencial solucion es reducir el tamano de la muestra para balancear los casos,pero ya se esta utilizando solo el 5% de los casos sin credito, por lo que reducir menos es un tantopeligroso al correr el riesgo de eliminar patrones relevantes.

Mas alla del comportamiento atomico del modelo, lo mas interesante de analizar es la utilidaddel mismo para predecir participacion de mercado, sumando los resultados del modelo de demanda

92


individual. Los modelos de minerıa de datos en general no se utilizan para medir sistemas agrega-dos (como la demanda), pero en este caso autores previos destacaron como los modelos sencillosno funcionaban. Una de las capacidades de los modelos de minerıa de datos mas destacables alutilizarlos de este modo es que el error se calcula solo como la diferencia absoluta entre falsos po-sitivos y falsos negativos: asociar a un cliente que no compra como si lo hiciera se ve compensadopor contabilizar un cliente que no lo haga como si ası fuera. Esto provoca una gran mejora en ca-pacidad predictiva frente a los modelos originales, pues usualmente existen un numero balanceadode falsos positivos como falsos negativos.

Para medir la capacidad de prediccion de estos modelos se calculo la demanda esperada mensualpara los meses con los que se cuenta y se promediaron los errores obtenidos. Para reflejar mejor lasdesviaciones se utilizo el error porcentual y ademas se agrega la desviacion estandar del error paramedir cuan dispersos son los resultados obtenidos:

Empresa Error Prom.% Desv. ErrorC 16,4% 11,50%A 19,6% 5,86%H 29,0% 9,80%O 19,9% 8,38%

Tabla 9.3: Resultados de prediccion de participacion de mercado utilizando solo SVMs.

Las SVM tienen un error maximo en la prediccion del 30%, lo que significa que si una empresatiene una participacion de 30%, entonces la prediccion mas errada es de 39%. Esto no se da,pues son aquellas companıas con participaciones de mercado mas altas (A y C) las que tienenla menor tasa de error, por lo que la prediccion de demanda es razonable para el modelo y sufuncionalidad, permitiendo en general acertar a la participacion esperada o con desviaciones que notienen un mayor efecto en la prediccion. Esta mejora en el funcionamiento del modelo con respectoa los resultados atomicos es muy importante, considerando que todos los resultados posterioresestan basados en la prediccion de la demanda. Para el caso del modelo complementado con redesneuronales se observan los siguientes resultados:

Los resultados siguen la tendencia del resultado atomico, destacando que sobrestima excesiva-mente la participacion de mercado de la empresa C, afectando con ello a A, pero que en las otrasempresas no tiene un mayor efecto. Otro factor destacable es la baja desviacion del error compara-

93


Empresa Error Prom. Desv. ErrorC 46% 14%A 32% 11%H 19% 6%O 23% 7%

Tabla 9.4: Resultados de prediccion de participacion de mercado utilizando SVMs y ANNs.

tiva con el modelo anterior, lo que hace a este modelo mas “confiable” en terminos de la prediccion,pero solo para los casos donde se comporta mejor.

Los modelos tienen comportamiento adecuado para esta aplicacion, pero falta ahora medir sufuncionamiento en conjunto con los modelos de regresion provenientes de la teorıa de juegos.

9.3. Resultados Modelo de Teorıa de Juegos

Con los resultados de las estimaciones de demanda es posible desarrollar el modelo de regresionque obtiene los coeficientes de costo y el coeficiente de eficiencia para cada empresa, siguiendo elplanteamiento de la seccion 7.2.

Para correr las regresiones se utilizo SPSS 16.0 y se utilizo metodo de seleccion de atributoshacia atras y hacia adelante para seleccionar las variables de costo mas relevante para cada em-presa. Cuando estos metodos estaban en desacuerdo (mas variables seleccionadas hacia atras quehacia adelante) se generaron regresiones utilizando los atributos que estaban en desacuerdo paraseleccionar finalmente a aquel que mejor se comportaba.

Previo a estimar la demanda se deben calcular las derivadas de ella con respecto al precio, yasea de forma numerica (ecuacion (7.11)) o de forma analıtica (ecuacion (7.17)), segun sea el caso.Este proceso es altamente costoso en tiempo para el caso de SVMs, tomando alrededor de 14 horasen terminar la muestra para los 16 meses de estudio, sin embargo, el caso analıtico presenta unaventaja adicional tardando solo unos cuantos minutos en realizar estos calculos.

94


Esto se da pues la formula (7.17) se puede calcular rapidamente utilizando la multiplicacion dematrices en bloque, por lo que se puede estimar la derivada en pocos calculos, frente a la estimacionque requiere re-calcular cuatro veces la demanda esperada de la estimacion numerica.

Con la estimacion realizada se puede ahora generar las regresiones de los precios. Los resulta-dos para la regresion que utiliza SVMs, proveniente de la ecuacion (7.12), es la siguiente:

Companıa R R2 Corregida Error Tıpico Coef. de EficienciaC 0,973 0,796 0,016 0,684A 0,919 0,758 0,054 0,757H 0,961 0,903 0,031 0,096O 0,994 0,981 0,020 0,000

Tabla 9.5: Resultados regresion modelo solo SVMs.

La regresion se comporta de forma bastante satisfactoria. El coeficiente R representa una medi-da del ajuste o de la varianza en los precios explicadas por el modelo y figura en sobre el 90% entodos los casos, lo que indica que es posible ajustar de forma certera los movimientos de precio enbase al modelo predicho y, mas importante aun, que los regresores son los correctos para interpretarlos fenomenos.

El coeficiente R2 ajustado representa una medida mas correcta del ajuste, pues toma en conside-racion los grados de libertad que tiene la regresion para entregar una estimacion correcta del valorde la varianza explicada. Se observa que este valor sigue siendo alto, pero que es mas complejomedir a la empresa que tiene mayor movilidad en precio, la companıa A, aunque un 75,8% de lavarianza explicada es un coeficiente altamente satisfactorio. Algo similar sucede con la empresaC, que posee un coeficiente alto de eficiencia y por ende un mas bajo ajuste. Este resultado se veavalado por errores tıpicos (cuanto se espera errar en promedio al utilizar al modelo) que se mueveentre un 1% y un 5% lo que hace aun mas confiable este resultado.

El valor del coeficiente de eficiencia, el valor κ j de (7.12), se dijo ya que representaba unamedida de cuan eficiente era la empresa al fijar sus precios, siendo uno cuando existe eficiencia(teorica) perfecta y valores menores pueden generarse a partir de tomar poco en cuenta los movi-mientos de mercado para tomar decisiones, y por ende perdiendo oportunidades de mercado paracobrar precios mas altos.

95


En este caso particular se tiene que la los coeficientes reflejan la realidad. El competidor A esaquel mas eficiente al fijar los precios, conociendose de antemano su comportamiento altamenteagresivo, y tiene asociado el valor de κ j mas alto, lo que tambien es cierto para la empresa C.Los competidores mas debiles (H y O) estarıan en deficiencia al fijar el precio, teniendo valoresmuy bajos de κ j y siendo una oportunidad para la empresa el crecer en esto, y tambien lo es laposibilidad de C y A para ser mas agresivo y aumentar su participacion de mercado con los clientesde sus competidores1.

Ahora se analizara la regresion que utiliza la demanda en base a probabilidades, de la ecuacion(7.15). Este modelo utiliza solo formulas analıticas para obtener sus resultados. Las salidas de estaregresion son las siguientes:

Companıa R R2 Corregida Error Tıpico Coef. de EficienciaC 0,885 0,662 0,021 0,191A 0,798 0,492 0,077 0,085H 0,990 0,970 0,017 0,004O 0,994 0,981 0,019 -0,024

Tabla 9.6: Resultados regresion modelo SVMs + NNs

Los resultados son similares en muchos aspectos, fallando solamente en el peso que le da a losvalores κ j, siendo estos mucho mas bajos que los obtenidos en el modelo anterior, considerandoincluso un valor negativo (aunque muy cercano a cero) para el caso de la companıa O. Esto puededarse debido a que la prediccion de la demanda es un tanto mas baja en los competidores A y C,conclusion reforzada por los resultados de las companıas O y H, donde la estimacion de demandafuncionaba mejor y los resultados de la regresion son consistentemente mejores. Los R2 ajustadosavalan este resultado a su vez.

El coeficiente de eficiencia se mantiene constante para la companıa O, con valor nulo. Estevalor refleja la falta de eficiencia en la fijacion de precios, pues ambos modelos estan de acuerdo enque la companıa no toma acciones que apunten a modificar el equilibrio en pro de un mejor precio.En el caso de la empresa H se ve que este modelo presenta un mejor ajuste en la regresion y estoligado a que ademas el modelo SVMs + NN representa mejor la demanda de H se concluye que

1Lo anterior puede ser realizado a traves de compras de cartera. En la actualidad, y ya habiendo asimilado estosresultados, se estan preparando campanas para poder realizar compras de cartera a estos clientes

96


un valor cercano a 0,3 es realmente el que mejor mide la eficiencia de la empresa. Ası, se puedepensar que la empresa H estarıa siendo ineficiente en fijar los precios, lo que se condice con elconocimiento que de ella se tiene. Existen posibilidades ciertas de sacar partido por parte de suscompetidores de esta practica, aprovechando la base de clientes que esta empresa posee, al teneruna alta participacion de mercado.

El ultimo punto a analizar corresponde a los factores de costo relevantes para las empresas. Latabla 9.3 resume los factores que resultaron relevantes para el modelo que solo incluye demandaestimada por SVMs.

Variable / Empresa C A H OIPSTPM X XIPC XIPM X X X XIPP XIR X X XDif. TMC

Tabla 9.7: Factores de costo relevantes en modelo solo SVMs

Se observa que el ındice de remuneraciones es el factor mas relevante en el costo de todas estasempresas, salvo C. Este factor representa el alza en costo de remuneraciones segun el INE y si setoma en consideracion que todas estas empresas son intensivas en mano de obra, este resultadoes bastante razonable. Para C, al ser una empresa financiera que cubre todos los aspectos masalla de solamente los creditos, la aparicion de la TPM parece razonable, mientras el costo internose absorbe a traves del ındice de precios IPM.

Para el competidor A, son los ındices de insumos (IPM e IR) aquellos que influyen. La empresano esta asociada a grandes consorcios financieros, por lo que es independiente de la tasa de polıticamonetaria; sobre todo ya que el financiamiento de ella proviene de capitales privados que estanlejos del mercado bancario. De este modo, la empresa se mantiene fuerte frente a los mercadosbancarios, dependiendo solo del impacto de precios que afectan directamente a sus operaciones.

Los resultados del modelo de SVMs y NNs esta reflejado en la tabla 9.3. Se observa que en Ay C concuerdan con los anteriores salvo algunos cambios, incorporando el IPS a A, eliminando la

97


dependencia de IPM en A y de TPM en C, sin embargo, los resultados de estos modelos no sonenteramente confiables, puesto que el ajuste global del modelo es menor.

Variable C A H OIPS X XTPM XIPC X X X XIPM X XIPP X X XIR X X XDif. TMC

Tabla 9.8: Factores de costo relevantes en modelo SVMs+NNs

En el caso de H se observa una situacion muy similar a A, con dependencia a factores de costosolo ligados a insumos y RR. HH., lo que esta ligado a la realidad, nuevamente esta empresa no esparte del mercado bancario de forma directa.

El caso de O es distinto, en ambos modelos representa el impacto de insumos y de la tasa depolıtica monetaria, lo que indica que existen ya sea decisiones mas ligadas al movimiento del mer-cado de tasas, y por ende indexados a la demanda objetivo del mercado fijada por el Banco Central.Esto se puede confirmar en base a la dependencia del precio de O al IPC, indicando que es posi-ble que la empresa fije sus precios atentos mas a como los indicadores del mercado muestran queel mercado esta que a decisiones que tomen en consideracion la demanda efectiva que enfrentan.Es interesante notar que los resultados son identicos en ambas regresiones, principalmente por elefecto nulo que tiene la demanda en esta companıa.

El modelo de teorıa de juegos ciertamente ofrece potentes insights acerca de la situacion demercado y sus resultados son satisfactorios. El capıtulo siguiente intenta englobar estos conceptosy presentar conclusiones acerca de este trabajo.

98

Capıtulo 10

Conclusiones y Futuros Desafıos

En este capıtulo se intenta englobar los puntos relevantes de esta tesis, conciliando las multiplestecnicas utilizadas y sus consecuencias tanto en la empresa donde se desarrollo la aplicacion comoa nivel de desarrollo academico.

10.1. Modelos de Minerıa de Datos

En general la aplicacion de estos modelos es satisfactoria, los modelos cumplen con predecirel fenomeno de forma correcta, permitiendo cumplir la aplicacion propuesta de forma objetiva.Dentro del proceso de construccion del mismo se destaca como el metodo propuesto de seleccionde atributos permite maximizar el contacto del evaluador con las variables y ası se pueden introducirde mejor manera el conocimiento del modelador al modelo y el conocimiento que entrega el modelode vuelta al modelador. La experiencia previa de este metodo en un proyecto de investigacion y laexperiencia entregada en este trabajo avalan la metodologıa para futuros usos, sobre todo cuandose aplica en desarrollos in house, pues indagar tan profundo en las variables al realizar consultorıasexternas no trae el valor agregado que aporta el analisis por los miembros de una empresa. En esteaspecto, los aportes fundamentales de esta tesis corresponden a:

99

Capıtulo 10: Conclusiones y Futuros Desafıos

Inclusion de Variables de Mercado a Modelos de Minerıa de Datos.No es comun que se incluyan variables propias del mercado (los precios) o de los efectosindirectos (campanas de incentivo a ejecutivos) a modelos de minerıa de datos, pero de estetrabajo se extrae que estas variables traen mejoras sustanciales a la capacidad predictiva y,ademas, incorporan una mayor comprension con respecto al efecto de la empresa en losclientes a la hora de tomar decisiones con respecto al producto esperado. La inclusion delprecio en estos modelos fue el primer paso hacia un cambio de paradigma importante, yaque se descubrio que los clientes sı toman en consideracion el precio de la empresa y suscompetidores al tomar esta decision, y no solo la comodidad de acceso que se tenga. Estomanifiesta tambien un cambio en el comportamiento de los clientes, independiente de laedad que tengan, mostrando que buscan la informacion y aprovechan los canales de acceso aella.

Modelamiento de Demanda Utilizando Minerıa de Datos.Otro factor importante a destacar es que si es posible modelar la demanda (un fenomeno agre-gado) dentro de rangos confiables utilizando modelos de minerıa de datos (desagregados). Esposible en un modelo de minerıa de datos obtener predicciones agregadas que sean correctas,suficientes y, por sobre todo, que permitan incorporar un gran numero de variables y tomenen consideracion relaciones complejas entre los datos. Esta herramienta permite manejar deforma eficiente la gran cantidad de informacion que se manejan de los clientes actualmente eincorporarlas a un modelo agregado, lo que se piensa que aporta mucho valor a la tecnica deminerıa de datos como una herramienta predictiva y de apoyo a la compresion de fenomenosdistintos de los tratados hasta el momento.

En cuanto a los modelos en si, el modelo que utiliza solamente SVMs se comporta mejor enterminos de prediccion, tanto atomica como agregada. Esto indica que en este caso particular laestructura del problema hace que los metodos de entrenamiento utilizados en las redes neuronalesno sea adecuado, siendo necesario utilizar salidas mas cerradas en sus resultados, pero a la vezcon menos riesgos a la hora de generalizar. La razon de lo anterior puede venir por lo confuso delos patrones a la hora de tomar creditos, pues ambos modelos presentaban deficiencias en cuantoa discernir a cual companıa elegıa cada cliente, siendo la diferenciacion asociada solo en factoressutiles (como el precio, del parrafo anterior) y por ende este problema presenta esta complejidad

100


agregada. Este reto lo hizo aun mas interesante, siendo abordado este problema por medidas deerror en el entrenamiento ad-hoc que dieran un peso relativo identico a los errores.

El modelo que incorpora redes neuronales presenta otros desafıos y conclusiones interesantes.La metodologıa de entrenamiento castiga enormemente a los valores erroneos extremos, por lo queen este caso, al existir patrones sutiles de diferencias entre empresas, tiende a relativizar en extremola eleccion de los clientes y en base a eso genera mayor error. Este funcionamiento es interesante,pues hace ver que la tecnica debe ser aplicada solo si las clases son concretamente distintas, puesen esta aplicacion se observa que las empresas son basicamente una misma decision (comprar) yen esto el modelo es capaz de predecir correctamente.

10.2. Modelo de Teorıa de Juegos

El modelo de teorıa de juegos utilizado proviene de la literatura, pero pareciese que los autoresno extrajeron de el todo el potencial que tiene, una parte del cual se ha visto en esta tesis. Lainterpretacion economica de los coeficientes y, por sobre todo esto, el potencial estrategico queentrega a la empresa que lo utiliza, lo hacen un potente modelo que identifica las relaciones entrelas empresas, sus factores de costo mas importantes y, con la ayuda de la minerıa de datos, una grancantidad de variables que definen a los clientes. Se destaca, como aporte novedoso desarrollado yestudiado en esta tesis, los siguientes fenomenos:

Es Posible Estudiar Factores de Costo de los Competidores.Los factores de costo corresponden a uno de los puntos mas importantes a destacar de estetrabajo, pues permite a la empresa conocer la tendencia que debiesen seguir sus competidoresfrente a situaciones particulares de la economıa. Los costos suelen ser factores que, por ladificultad de su obtencion, tienden a ser pasados por alto al momento del analisis estrategicoque realizan las empresas, por lo que existe una ventaja el utilizar herramientas estadısticaspara comprender ya no a los clientes, como suele ser la aplicacion “clasica” (aunque notiene mas de 20 anos) de la estadıstica, sino tambien a los competidores. Para ello, la teorıade juegos estudia hace cincuenta anos relaciones entre agentes, el adecuar esta teorıa para

101


su aplicacion directa en empresas es un campo de investigacion muy interesante y lleno depotencial.

Modelo Entrega Informacion Acerca de la Situacion Actual de la Competencia.Para completar la vision estrategica de las empresas, el modelo incorpora elementos que per-miten obtener una vision estrategica de sus acciones, con indicadores numericos que aportaninformacion asociada al comportamiento y la agresividad de los competidores en el mercado,lo que permite entender de mejor manera a la competencia y disenar estrategias que permitanestar mejor preparados frente a sus acciones.

La teorıa de juegos tiene importantes aplicaciones, pues esta dentro de las pocas secciones de laciencia que incorporan relaciones entre agentes, mas alla de conocimiento estatico. La estadısticaen bases de datos corresponde, en opinion personal, un punto de partida natural para la aplicacionde estos metodos y la generacion de valor para usuarios corporativos. Un importante desafıo fu-turo corresponde a generar nuevas aplicaciones de estos metodos hıbridos y de metodos clasicosadaptados, para aprovechar las ventajas que estas tecnicas poseen, por lo que en la actualidad yahay nuevos estudiantes tomando este desafıo en sus manos y tambien opera una comunidad paragenerar conocimiento por esta vıa.

10.3. Union de Minerıa de Datos y Teorıa de Juegos

La gran conclusion asociada a esta tesis es que es posible generar importantes sinergias alaplicar modelos de minerıa de datos y de teorıa de juegos en conjunto. Las aplicaciones anterioreseran demasiado abstractas para ser aplicadas en bases de datos de empresas, por lo que este modeloprueba que estas aplicaciones son posibles y, mas aun, utiles e ilustrativas. En particular se observanlos siguientes fenomenos:

Grandes Ganancias por Sinergia de la Union.La minerıa de datos aporta patrones estadısticos complejos a los modelos, que no suelen estarconsiderados en la teorıa de juegos, mientras la teorıa de juegos entrega relaciones complejas

102


Figura 10.1: Representacion del Modelo Integrado.

entre agentes que toman decisiones, vision que es inexistente en el area de minerıa de datos.Es esta sinergia que hace comprender directamente por que es deseable realizar uniones entreestas tecnicas, pues abordan los mismos problemas, solo que desde enfoques distintos. Altener un objetivo comun, es natural que tengan puntos en comun que vale la pena explotar.

El modelo plantea una vision integral, que une a los clientes, a los competidores y a la em-presa en estudio a traves de todos los datos que los conectan, siendo este el punto mas fuertede este estudio. La figura 10.1 representa graficamente esta union.

Amplio Rango de Aplicacion.Este modelo particular permite obtener una aplicacion en el mercado financiero siguiendola logica que se ha presentado. Sin embargo, el razonamiento seguido es aplicable en otrosrubros. En particular se vislumbran los siguientes desarrollos potenciales:

• Retail: En las empresas de retail chilenas se da la condicion principal que es condi-cion necesaria para aplicar estos modelos, a saber, pocos competidores (oligopolio).Sinembargo, cumplir con la condicion de determinar cuando un cliente elige a la empresa

103


propia o a la competencia es muy difıcil, a simple vista, lo que dificultarıa la aplicacionde estos modelos. Es posible subsanar esta condicion en base a una inversion mayor,considerando la posibilidad de obtener una muestra de clientes a quienes aplicar unaencuesta telefonica que permita extraer si el cliente particular ha comprado en algunade las casas comerciales y, en caso de ser positiva su respuesta, algunos patrones decompra. En este caso, la informacion comprada a otras empresas sera fundamental y,dentro de los resultados esperados, los factores de costo seran fundamentales, pues lasempresas de retail debiesen ser mucho mas sensibles a los vaivenes de la economıa.

• Banca: La banca presenta una aplicacion mas sencilla de estos modelos, pues dentrode sus clientes con cuenta corriente es mas sencillo determinar cuando un cliente hatomado creditos con la competencia, por ejemplo, a traves de sus pagos automaticos ode los cheques cobrados. Los problemas principales a solucionar en esta implementa-cion es el sesgo que se puede introducir en los datos al utilizar clientes internos, lo quepuede subsanarse incorporando variables apropiadas que capturen los productos que losclientes ya poseen con el banco que realice el estudio.

Otro factor interesante de destacar de este trabajo es la base de datos en si misma, pues es uncaso donde la empresa dispone de informacion sobre las colocaciones de sus competidores, siendoesto la unica condicion necesaria para aplicar el modelo de minerıa de datos en el de teorıa de jue-gos, lo que es reproducible en otras areas a bajo costo, pues no es necesario tener informacion sobrelas colocaciones de todo el mercado, sino solo de un conjunto relevante que sea estadısticamentesignificativo. El resto de la informacion esta disponible publicamente y por ello es importante co-nocer todas las fuentes de datos que estan disponibles, aprovechando que la calidad de los mismoses alta en el paıs.

En cuanto a las consecuencias que puede traer este estudio, es por ejemplo que permite eldiseno de campanas mas eficaces para poder aumentar la participacion de mercado. Actualmentela empresa esta preparando, habiendo ya comprendido el potencial de clientes que existe en loscompetidores, una campana para realizar compras de cartera a los clientes que hayan elegido a suscompetidores y este modelo indica que empresas serıan los candidatos mas adecuados para abordar,donde se puede rentabilizar de mejor forma la cartera. Uno de los puntos a destacar es que como serealizan dos modelos bajo los mismos datos se ahorran costos en su creacion, y esto los hace aun

104


mas deseables.

El desarrollo de esta tesis llevo a una exitosa primera aproximacion para unir estas tecnicas.Utilizar minerıa de datos para modelar la demanda es sin lugar a dudas el lugar mas “obvio” paraunir estas tecnicas, considerando que existen variados modelos en base a juegos que utilizan estosresultados. Se pueden ver varios otros donde esta union es posible y esto representa un desafıovigente y que pueda traer a palestra interesantes preguntas, al menos ası se espera que sea el casode esta tesis.

10.4. Desarrollo de Objetivos Planteados

Dentro del cierre formal de esta tesis, se debe incluir mencion a los objetivos planteados y comoeste trabajo los abordo. El objetivo global era desarrollar un modelo que uniera minerıa de datosy teorıa de juegos, lo que se expone cumplido al haber creado un modelo que, en base a demandamodelada con minerıa de datos, representa el juego en el mercado de una companıa en particular.El segundo aspecto del objetivo general es desarrollar un primer marco teorico que se refiera a launion de estas tecnicas, lo que se declara cumplido a partir de los capıtulos 3 y 5, donde se muestranpotenciales fuentes de union y, por sobre todo, donde se diferencian y donde se complementan estastecnicas.

En cuanto a los objetivos especıficos, el primer punto es disenar un juego que acepte el volumende informacion asociado a minerıa de datos, lo que se subsana en base a incorporar estimacion dedemanda que utiliza grandes bases de datos. Un comentario importante con respecto a este temaes que la minerıa de datos se integro de forma parcial al modelo, desarrollando minerıa de formaanexa al modelo de teorıa de juegos y luego incorporando esta informacion a traves de los resultadosagregados.

El segundo objetivo correspondıa a adaptar la tecnica de SVMs para su uso en juegos, lo que secumple ampliamente a traves de la incorporacion de variables propias de modelos economicos a losmodelos de minerıa y el estudio subsecuente de su relevancia. El tercer objetivo esta directamenterelacionado con los dos anteriores y corresponde a disenar un modelo real para implementar esta

105


aplicacion, lo que fue desarrollado al aplicar el modelo hıbrido a una companıa de creditos deconsumo.

En conclusion, todos los objetivos han sido abordados y cumplidos satisfactoriamente, dejandode todos modos espacio muy amplio para crecer y seguir profundizando en la union de estas teorıas.

10.5. Futuros Desafıos

Los futuros desafıos de esta tesis incorporan mejoras en ambos tipos de modelos, de tal forma decomplementarse de mejor manera. Se presentan cuatro lıneas adicionales de trabajo que permitirıanmejorar los resultados obtenidos para cada uno de estos modelos.

Mejoras en la Obtencion de Equilibrios del Modelo. El modelo de teorıa de juegos en-cuentra los parametros a partir de una regresion lineal independiente para cada empresa. Estofacilita el calculo, pero es posible que llegue a resultados que no son idoneos para un modelomultiagente. Por ello, es posible estudiar de mejor manera los espacios en los que se mue-ven las variables de los modelos obtenidos para ası generar un algoritmo que, en base a laconvergencia a un punto fijo (equilibrio) de forma simultanea para todas las empresas, per-mita obtener parametros mas robustos. El realizar esto mejorara los resultados al considerarcualquier relacion entre empresas directamente.

Disenar Indicadores para Predecir Compra Multiempresa.Segun se expuso en la seccion 9.2, los modelos encontraron dificultades para medir las di-ferencias entre la empresa que finalmente elegıa un cliente, cuando el cliente efectivamenteelegıa a una. Disenar indicadores que mejoren esta capacidad de los modelos es un desafıointeresante, pues requiere encontrar que elementos medibles son determinantes al momentode seleccionar una empresa contra otra, y que van mas alla del precio que cada companıa eli-ge. Estos indicadores pueden ir unidos a variables de lealtad u otras, mas alla de las variablesde marketing aca incluidas y requieren un estudio profundo del comportamiento subyacenteal mercado y a los clientes que lo componen.

106


Rediseno del Juego que Determina el Precio.Como parte de un estudio mas profundo del mercado, es posible plantear juegos mas comple-jos que cumplan con la finalidad de entregar informacion relevante y que, a su vez, presentencomplejidad de calculo abordable. El disenar nuevos juegos, con potencialidad para la apli-cacion de tecnicas de minerıa de datos, que se localicen en sectores diferentes en el trade-offentre informacion entregada y complejidad representa un desafıo principal para profundizaren esta interesante lınea de investigacion.

Investigacion mas Profunda en los Aspectos Teoricos de la Union.Ambas tecnicas presentan un punto teorico en comun que no fue explotado en esta tesis:el estar basadas en espacios de probabilidad. Las SVMs presentan oportunidades muy in-teresantes, a traves del uso de kernels, para desarrollar modelos unificados de forma directae integrada, lo que requiere un trabajo teorico profundo para desarrollar distribuciones deprobabilidad que puedan ser utilizadas en modelos de teorıa de juegos. Explotar estas capa-cidades es un desafıo de alta complejidad que puede traer dividendos muy importantes.

A manera de cierre, es interesante concluir que, en general, el desarrollo de modelos integradosque utilicen datos para encontrar relaciones complejas y no triviales que involucren a distintosagentes (empresas y clientes, por ejemplo) es una lınea de investigacion potente, novedosa y llenade desafıos, que puede representar una atractiva oportunidad de investigacion para quienes deseenprofundizarla.

107

Bibliografıa

[1] Allwein,E. L., Schapire, R. E. y Singer, Y. Reducing multiclass to binary: A unifying ap-proach for margin classifiers. Journal of Machine Learning Research, 1:113-141, 2000.

[2] Bertrand, J. Theorie Mathematique de la Richesse Sociale (en frances). Journal des Savants.67:499-508. 1883.

[3] Bravo, C., L’Huillier, G. y Lobato, J. Probability Estimation Using SVMs and Neural Net-works. En: IV Escuela de Verano en Inteligencia Computacional de IEEE. 11-13 de Diciem-bre, 2007. Santiago, Chile.

[4] Bravo, C., L’Huillier, G., Lobato, J. L. y Weber R. A Hybrid System for Probability Esti-mation in Multiclass Problems Combining SVMs and Neural Networks. Proceedings of theEighth International Conference on Hybrid Intelligent Systems. 649-654. 2008.

[5] Bravo, C. y Weber, R. Modelo de Tarificacion en Base a SVMs y Teorıa de Juegos. En: VIICongreso Chileno de Investigacion Operativa. 21 a 23 de Noviembre, 2007. Puerto Montt,Chile.

[6] Bredensteiner, E. J. y Bennett, K. P. Multicategory Classification by Support Vector Machi-nes. Computational Optimization and Applications. 12(1):53-79. 1999.

[7] Burton, R. y Dehling, H. Universal approximation in p-mean by neural networks. NeuralNetworks. 11(4):661-667. 1998.

[8] Chatfield, C. Model Uncertainity, Data Mining and Statistical Inference. Journal of the RoyalStatistical Society. 158:419-466, 1995.

108

BIBLIOGRAFIA

[9] Cid-Suero, J., Arribas J. I., Urban Munoz S. y Figueiras Vidal A. R. Cost Functions to Estima-te a posteriori Probabilities in Multiclass Problems. IEEE Transaction on Neural Networks.10(3):645-656 . 1999.

[10] Cristiannini, N. y Shawe-Taylor, J. An Introduction to Support Vector Machines and OtherKernel-Based Methods. Inglaterra. Cambridge University Press. 2003. 190p.

[11] Coloma, P., Weber, R., Guajardo, J. y Miranda, J. Modelos Analıticos para el Manejo delRiesgo de Credito. Trend Management. 8:44-51. 2006.

[12] Deniz, O., Castrillon, M. y Hernandez, M. Face Recognition Using Independent Compo-nent Analysis and Support Vector Machines. Pattern Recognition Letters. 24(13):2153-2158.2003.

[13] Dieudonne, J. A. Fundamentos de analisis moderno. Reverte. Barcelona, Buenos Aires. 1966.359p.

[14] El-Jaroudi, A. y Makhoul, J. A New Error Criterion for Posterior Probability Estimation withNeural Nets. Proceedings of the International Joint Conference on Neural Networks. 1:185-192. 1990

[15] Embrechts, M. et al. Use of Machine Learning for Classification of Magnetocardiograms.Proceedings of the IEEE International Conference on Systems, Man and Cybernetics. 2:1400-1405. 2003.

[16] Faires, J. D. y Burden, R. Numerical Analysis. Thomson Brooks/Cole, EE. UU. 1986. 864p.

[17] Fayyad, U., Piatetsky-Schapiro, G. y Smyth, P. From Data Mining to Knowledge Discoveryin Databases. Communications of the ACM. 39(11):24-26, 1996.

[18] Fudenberg, D. y Levine D. The Theory of Learning in Games. EE. UU. MIT Press, 1998.276p.

[19] Fudenberg, D. y Tirole, J. Game Theory. Cambridge, Inglaterra. MIT Press, 1991. 604p.

[20] Gergiou, H. Mavroforakis, M. y Theodoridis, S. A Game Theoretic Approach to WeightedMajority Voting for Combining SVM Classifiers. Artificial Neural Networks - ICANN 2006,Part I: Lecture Notes on Computer Science. 4131:284-292. 2006.

109

BIBLIOGRAFIA

[21] Gonen, M., Gonul Tanugur, A. y Alpaidin, E. Multiclass Posterior Probability Support VectorMachine. IEEE Transactions on Neural Networks. Sin Publicar. 2007.

[22] Gordan, M., Kotropoulos, C. y Pitas I. A Temporal Network of Support Vector Classifiersfor the Recognition of Visual Speech. Proceedings of the Second Hellenic Conference on AI:Methods and Applications of Artificial Intelligence. 355-368. 2002.

[23] Hastie, T., Tibshirani, R. y Friedman, J. The Elements of Statistical Learning - Data Mining,Inference and Prediction. EE. UU. Springer, 3a edicion, 2003. 552p.

[24] Haurie, A. y Krawczyk, J. An Introduction to Dynamic Games. Lecture Notes. S.E. 2000.125p.

[25] Hsu, C. W. y Lin, C. J. A Comparison on Methods for Multi-Class Support Vector Machines.IEEE Transactions on Neural Networks. 13:415-425. 2002.

[26] Kleimberg, J., Papadimitriou, C. y Raghaban, P. A Microeconomic View of Data Mining.Data Mining and Knowledge Discovery. 2:311-324. 1998.

[27] Mackinon, M. y Glick, N. Data Mining and Knowledge Discovery in Databases - An Over-view. Australian & New Zealand Journal of Statistics. 41(3):255-275, 1999.

[28] Maldonado, S. Utilizacion de Support Vector Machines No Lineal y Seleccion de Atributospara Credit Scoring. Tesis (Magıster en Gestion de Operaciones, Ingeniero Civil Industrial).Santiago, Chile. Universidad de Chile. 2007. 127p.

[29] Miranda, J., Rey, P. y Weber, R. Prediccion de Fugas de Clientes para una Institucion Fi-nanciera mediante Support Vector Machines. Revista de Ingenierıa de Sistemas. 19:49-68.2005.

[30] Mukkamala, S., Janosky, G. y Sung, A. Intrusion Detection Using Neural Networks and Sup-port Vector Machines. Proceedings of the International Joint Conference on Neural Networks.2:1702-1707. 2002.

[31] Myatt, G. Making Sense of Data. New Jersey, EE. UU. John Wiley & Sons Inc. 2007, 293p.

[32] Nash, J. Non-Cooperative Games. Annals of Mathematics. 54:286-295. 1951.

110

BIBLIOGRAFIA

[33] Petrovskiy, M. A Game Theory Approach to Pairwise Classification with Support VectorMachines. En: International Conference on Machine Learning and Applications. 16 a 18 dediciembre, 2004. Louisville, Kentucky. pp 115-122.

[34] Platt, J. Probabilistic Outputs for Support Vector Machines and Comparison to RegularizedLikelihood Methods. Advances in Large Margin Classifiers. MIT Press. 1999. pp 61-74.

[35] Polkowski, L. y Araszkiewicz, B. A Rough Set Approach to Estimating the Game Value andthe Shapley Value from Data. Fundamenta Informaticae. 53(3,4): 335-343. 2002.

[36] Rifkin, R. y Klautau, A. In Defense of One-vs-All Classification. Journal of Machine Lear-ning Research. 5:101-141. 2004.

[37] Rotemberg, I. y Saloner, G. A Super-Game Theoretic Model of Business Cycles and PriceWars During Booms. American Economic Review. 76(3):390-407. 1986.

[38] Rumelhart, D., McClelland, J. y el grupo de investigacion PDP. Parallel Distributed Proces-sing: Explorations on the Microstructure of Cognition. MIT Press. Cambridge, EE. UU. 1986.560p.

[39] Salvetti, F., Patelli, P. y Nicolo, S. Chaotic Time Series Prediction for the Game Rock-Paper-Scissors. Applied Soft Computing. 7(4):1118-1196. 2006.

[40] Scholkopf, B. Statistical Learning and Kernel Methods. Reporte Tecnico MSR-TR-23-2000.Microsoft Research. 2000.

[41] Scholkopf, B. Support Vector Learning. Tesis (Doktor der Naturwissenschaften). Berlin, Ale-mania. Technischen Universitat Berlin, 1997. 173p.

[42] Stinchcombe, M. Notes for a Curse in Game Theory. Lecture Notes #29755. Texas, EE. UU.University of Texas. 2002. 169p.

[43] Sudhir, K., Chintagunta, P. y Kadiyali, V. Time Varying Competition. Marketing Science.24(1):96-110, 2005.

[44] Tsujinishi, D. y Abe, S. Fuzzy Least Squares Support Vector Machines for Multiclass Pro-blems. Neural Networks. 16(5-6):785-792. 2003.

111

BIBLIOGRAFIA

[45] Vapnik, V. y Lerner, A. Pattern Recognition using Generalized Portrait Method. Automatiza-tion and Remote Control, 24, 1963.

[46] Vapnik, V. y Cortes, C. Support Vector Networks. Machine Learning. 20:1-25. 1995.

[47] Vapnik, V. Statistical Learning Theory. Nueva York, EE. UU. Johm Wiley & Sons Inc. 1998,736p.

[48] Wang, M. et al. Weighted-Support Vector Machines for Predicting Membrane Protein Ty-pes Based on Pseudo-Amino Acid Composition. Protein Engineering Design & Selection.17(6):509-516. 2004.

[49] Wang, Y. Combining Data Mining and Game Theory in Manufacturing Strategy. Journal ofIntelligent Manufacturing. 18:505-511. 2007

[50] Wang, Y. Integration of Data Mining with Game Theory. International Federation for Infor-mation Processing. 207:275-280.

[51] Werbos, P. The Roots of Backpropagation. Wiley-IEEE. Nueva York, EE. UU. 1994. 319p.

[52] Weston, J. y Watkins, C. Multiclass Support Vector Machines. Reporte Tecnico CSD-TR-98-04. Departamento de Ciencias de la Computacion de la Universidad de Londres, RoyalHolloway. 1998.

[53] Wu, T.-F., Lin, C.-J. y Weng, R. C. Probability Estimates for Multi-Class Classification byPairwise Coupling. Journal of Machine Learning Research. 5:975-1075. 2004.

[54] Yuan Y. y Shaw M. J., Induction of fuzzy decision trees. Fuzzy Sets and Systems. 69:125-139.1995.

[55] Zhang, P. Avoiding Pitfalls in Neural Network Research. IEEE Transactions on Systems, Manand Cybernetics: Part C - Applications & Reviews. 37(1):3-16, 2007.

112

Anexos

113

Anexo A

Ejemplos de Funciones Kernel

La siguiente es una lista de distintas funciones usualmente utilizadas como kernels y algunasotras de interes particular para esta tesis y para referencia de futuros tesistas.

Radial Basis Function Kernel o Kernel Gaussiano

La funcion kernel mas popular corresponde al kernel gaussiano, que intenta realizar un ajusteen base a englobar los casos en pseudo-distribuciones de probabilidad en un espacio de dimensioninfinita, calculando la distancia entre los casos con una funcion gaussiana de la forma:

K(xi,x j) = exp(−∥∥xi− x j

∥∥2

2σ2 ) (A.1)

El parametro σ representa a la dispersion de los datos y por ende se debe decidir para considerarel ajuste de los datos. En el plano una funcion RBF genera cortes de la siguiente forma:

114

Anexo A: Ejemplos de Funciones Kernel

Figura A.1: RBF en el Plano.

Una de las ventajas principales de esta funcion kernel es que produce un “Espacio de Hilbert

Reproducido por Kernel” (RKHS, por sus siglas en ingles), el cual tiene dimension infinita y es, enteorıa, capaz de separar cualquier conjunto de datos. Lo anterior dado que en infinitas dimensionestodo subconjunto de Rn es linealmente separable. Por otro lado, una de las desventajas principaleses que esta funcion no posee inversa, lo que no permite “volver” al espacio original.

Kernel Polinomial

La siguiente funcion corresponde a transformar el espacio en alguno de mayor orden en base aajustar la diferencia entre los casos con algun polinomio:

K(xi,x j) = (xi · x j +1)d (A.2)

Este kernel representa diversas curvas entre los objetos, para el caso n = 3 se visualiza de lasiguiente forma en el conjunto de entrada:

Kernel Sigmoidal

Una variante que utiliza funciones hiperbolicas para medir las distancias entre espacios corres-ponde a la funcion sigmoidal:

115


Figura A.2: Kernel Polinomial de Grado 3.

K(xi,x j) = tanh(α(xi · x j)+β

)(A.3)

La representacion del kernel en el espacio de entrada resulta de la siguiente forma:

Figura A.3: Kernel Sigmoidal.

Kernel en Base a Splines

Considerando que no necesariamente todos los elementos en el hiperplano se pueden clasificarcon una sola funcion polinomial, es posible realizar un ajuste mas amplio utilizando una mezcla defunciones de este tipo, llamadas funciones spline, cuya forma general es la siguiente:

K(xi,x j) =

(xi · x j +1)d1 si (xi,x j) ∈ A1

(xi · x j +1)d2 si (xi,x j) ∈ A2

(xi · x j +1)d3 si (xi,x j) ∈ A3

(A.4)

116


El numero de polinomios a utilizar, sus respectivos parametros y los lımites donde se utilizaranquedan a discrecion del investigador, lo que representa su desventaja principal pues existen muchosparametros a estimar. En el plano un ejemplo de estos kernels que utiliza cuatro rectas distintas serepresenta de la siguiente forma:

Figura A.4: Spline compuesta por cuatro polinomios de grado uno.

Kernels Probabilısticos

Un tipo especial de kernels que han sido utilizados sobre todo en aplicaciones de reconocimien-to de objetos e imagenes corresponden a medidas de probabilidad definidas por el investigador enel espacio de su interes. Existen dos clases, una considera medidas a nivel de objetos y la otra anivel de distribuciones:

A nivel de objetos: Si un conjunto Ω es una σ-algebra y Pr es una medida de probabilidaden A entonces la funcion

K(A,B) = Pr(A∩B)−Pr(A)Pr(B) A,B⊆Ω (A.5)

Corresponde a un kernel definido positivo.

A nivel de distribucion: Medir las diferencias entre objetos a nivel de sus distribuciones deprobabilidad ha resultado de utilidad para clasificar imagenes, rostros y una serie de objetosno tradicionales. El kernel de Kullback-Leibler es una de las opciones para representar estasdiferencias, dado por la funcion K : ℘×℘→ R que va del espacio dado por el producto

117


cruz del espacio de todas las distribuciones de probabilidad definidas un conjunto X consigomismo en los numeros reales, y se denota por:

K(p,q) = exp(−γ(D(p‖q)+D(q‖p))) D(p‖q) =∫

Xp(x) log

(p(x)q(x)

)dx (A.6)

Donde p y q son distribuciones de probabilidad pertenecientes a ℘. El kernel anterior midela divergencia entre las distribuciones de probabilidad y ası es capaz de medir la similitud odiferencia entre objetos sobre los cuales se ha definido una distribucion.

118

Anexo B

Juegos Repetidos

En las secciones anteriores se entregan las definiciones necesarias para entender el conceptode un juego y los temas tratados en esta tesis, pero la meta del trabajo es aplicar SVMs a algunjuego particular y ademas definir las teorıas y tecnicas dentro de minerıa de datos y teorıa de juegosque permitan unirlas. La minerıa de datos es la herramienta por excelencia para manejar grandesvolumenes de datos, por lo que los juegos a los que resulta de interes aplicarle tecnicas de esta areason aquellos donde gran cantidad de informacion se maneja y donde los equilibrios no provienende modelos “sencillos” como los que puede pensarse provienen de la seccion 5.2.

Los juegos dinamicos representan un area de la teorıa de juegos con interesantes propiedadespara esta potencial union debido a su complejidad intrınseca y la complejidad en la definicion desus equilibrios. Aquı se entregan las definiciones basicas de estos juegos para el caso con infor-macion completa y las condiciones para la existencia de equilibrios, referencias obligadas para lasaplicaciones posteriores que indican de forma general que equilibrios se alcanzan.

119

Anexo B: Juegos Repetidos

B.1. Definiciones Iniciales

Para comenzar el analisis resulta de utilidad definir el juego en forma normal. Al juego que serepite cada perıodo se le llama “juego por etapa” pues se supone que los periodos de tiempo sepueden numerar. Redefinimos entonces a Gt = Ai,gii∈I como el juego a desarrollar dentro decada etapa, donde la estrategia a elegir corresponde a una accion en particular para ese periodo.

Los jugadores, al ser un juego de informacion completa, observan todas las acciones de suscompetidores al momento de finalizar cada jugada por lo que si consideramos que at = (a1, . . . ,aI)es el resultado de la jugada en el tiempo t y ademas consideramos que el juego comienza en eltiempo t = 0, podemos definir la historia de un juego como ht = (a1, . . . ,at) la matriz con lasacciones jugadas en cada tiempo t y definimos a Ht = At como el espacio de todas las posibleshistorias que se pueden jugar en un tiempo t. Con lo anterior, una estrategia si corresponde a unasecuencia de estrategias st

i que van del espacio Ht a las acciones disponibles en Ai, el espacio dedistribuciones de probabilidad sobre las acciones o estrategias disponibles para un periodo Ai.

Existen variadas formulaciones con respecto a las utilidades. Un ejemplo de ellas correspondefunciones de utilidad tal que la utilidad general es la suma de las potenciales utilidades futuras: ui =E[(1−δ)∑

Nt=0 δtgi,t(δ(ht))] donde δ ∈ [0,1] corresponde a un factor de descuento de las utilidades

futuras, que toma valor cero si que el jugador solo valora el presente y uno si es indiferente entreel presente y el futuro y el operador E[·] corresponde a la esperanza de la utilidad dentro de laestrategia jugada en cada uno de los periodos.

Ahora, previo a definir el concepto de equilibrio para juegos repetidos, se necesitan algunosconceptos generales.

Definicion B.1 (Utilidad de Reserva o Valor Minmax). Se llama utilidad de reserva al valor mınimoque cualquier equilibrio de Nash puede entregar para todo factor de descuento y es el resultante decalcular la expresion:

v∗i = mınα−i

[max

αigi(αi,α−i)

]Definicion B.2 (Ganancia Factible). Como es logico, ningun jugador aceptara ganar menos que elvalor v∗i , lo que define un espacio factible para las utilidades aceptables. Ası, se define la ganancia

120


factible como todos los valores que los jugadores pueden esperar ganar.

V = v = (v1, . . . ,vI)|vi ≥ v∗i ∀i

B.2. Equilibrio en Juegos Repetidos

Al definir equilibrio en juegos repetidos se debe realizar una distincion si el juego es infinito ono. El primer teorema acerca de la existencia del equilibrio es la mas sencilla y tiene que ver con laexistencia de equilibrios multiples o no en el juego por etapa:

Teorema B.1 (Existencia de equilibrios en juegos repetidos 1). Si el juego por etapa posee un

unico equilibrio de Nash, entonces para todo juego repetido finito jugado T veces existe un unico

equilibrio perfecto en el sub-juego, el equilibrio de Nash del juego por etapa.

La definicion anterior indica que para todo juego repetido donde el equilibrio es unico este sejugara todas las etapas, lamentablemente esto no es siempre ası. La forma de encontrar equilibriosen juegos finitos es a traves de la busqueda de equilibrios perfectos en el sub-juego, lo que puedeser una tarea compleja, apoyando la aplicacion de tecnicas de minerıa de datos incluso en casos“simples” como lo son estos juegos, pues basta solo con un pequeno numero de etapas para que lacantidad de trayectorias en Ht sea intratable. El siguiente teorema entrega informacion con respectoa la generalizacion de equilibrios de Nash en los juegos repetidos:

Teorema B.2 (Existencia de equilibrios en juegos repetidos 2). Si α∗ es un equilibrio estatico

(del juego por etapa) entonces las estrategias “cada jugador juega α∗ de aquı en adelante” es un

equilibrio perfecto en el subjuego.

Entonces para cada juego repetido existe, por lo menos, un equilibrio dado por el equilibrio deNash del juego por etapa. Para el caso de juegos repetidos infinitos el sistema es aun peor, puesexisten teoremas generales que prueban la existencia de un gran numero de equilibrios potenciales.

Teorema B.3 (Friedman). Sea G un juego finito con informacion completa, sea e = (e1, . . . ,eI)las ganancias de alguno de sus equilibrios de Nash y sea x = (x1, . . . ,xn) cualquier otro vector de

121


ganancias factibles de G. Si ∀i ∈ I,xi > ei y si δ (la tasa de descuento) es suficientemente cercano

a uno, entonces existe un equilibrio perfecto en el sub-juego del juego repetido infinito G(∞,δ) tal

que alcanza a x como ganancia promedio ∀δ≥ δ.

El teorema anterior indica que siempre es posible, dado que el factor de descuento sea sufi-cientemente grande, o sea si los jugadores son lo suficientemente pacientes, encontrar un equilibrioperfecto en el sub-juego que alcance una cierta ganancia promedio. El siguiente teorema es aunmas general, pues es en el caso que se utilice cualquier funcion de utilidad:

Teorema B.4 (Friedman (2)). Sea G un juego finito con informacion completa y sea α∗ un equi-

librio del juego con utilidad e = (e1, · · · ,eI), entonces ∀v vector de ganancias factibles tal que

∀i ∈ I,vi > ei existe un δ < 1 tal que ∀δ ≥ δ existe un equilibrio perfecto en el subjuego con utili-

dades v.

La intuicion en este tipo de juegos es clara entonces, no existen condiciones “unicas” paraque un juego repetido tenga un unico equilibrio, por lo que las condiciones finales dependerande las trayectorias seguidas para llegar a el. De esta forma, la aplicacion de tecnicas de minerıade datos para intentar encontrar equilibrios reales en base a los datos empıricos que entregue unabase de datos es una opcion valida que permitirıa encontrar equilibrios en base a una aproximaciondiferente.

B.3. Juego de Competencia en Ambientes con Shocks de De-manda

El juego de Rotemberg y Saloner [37] corresponde a una aplicacion de los juegos repetidos almercado y es el punto de partida para los modelos de esta tesis. Rotemberg y Saloner introducenuna serie de modelos cuantitativos para las guerras de precio, pero el caso interesante de estudiarpara efectos de esta tesis es aquel donde los jugadores utilizan el precio como variable estrategica .Existen N empresas en el mercado, las cuales enfrentan una funcion de demanda inversa P(Qt ,εt)donde Qt = ∑i qit , la cantidad total producida por las N empresas y εt es la realizacion de una

122


variable aleatoria εt de distribucion acumulada F(ε) con valores en el intervalo [ε,ε] que representaa desviaciones de la demanda de los valores de la curva, o shocks en la demanda producidas porfluctuaciones en el mercado.

Si se supone que las firman tienen todas un costo marginal igual a c, en el caso del equilibrio deljuego propuesto por Bertrand [2] se tiene que el precio es igual para todas las firmas P = c dondecada firma entrega 1/N de la demanda total, ademas, como el equilibrio se encuentra en el costomarginal se tiene que las utilidades para todas las firmas son Πm

t (Qt) = 0. Para el juego repetido setiene que las ganancias de la empresa se ajustan acorde al valor del shock en cada estado particular,resultando ser Πm

t (εt), con esto en mente se puede definir la dinamica del juego, una empresa sepuede desviar del equilibrio cobrando una cantidad un tanto inferior al precio anterior y ganar eltotal del mercado, capturando una utilidad de NΠm, por lo que estara dispuesta a hacerlo si:

NΠm(εt)−K > Π

m(εt)⇔Πm(εt) >

KN−1

(B.1)

Es decir, la utilidad ganada corresponde a la utilidad de todo el mercado menos la constante K

que corresponde a la suma de los flujos futuros del castigo aplicado a la empresa por sus competi-dores por desviarse del equilibrio, que puede venir del resultado de la guerra de precios ejecutadapor los competidores.

El siguiente paso es analizar los equilibrios que tendrıa este juego, definiendo Πs(εt ,ε∗t ) como

la maxima utilidad que el oligopolio entero puede obtener, las que son sencillas de calcular puesya sea las empresas se intentan desviar del precio o no acorde al numero de empresas que existe enel mercado y el monto del castigo acorde a (B.1). Entonces las utilidades del oligopolio se definencomo:

Πs(εt ,ε

∗t ) =

Πm(εt) si εt ≤ ε∗tΠm(ε∗t ) = K

N−1 si εt > ε∗t(B.2)

Con esto se puede analizar el equilibrio si se supone que el castigo se aplica por infinitos perio-

123


dos1 y que el precio en competencia es igual al costo marginal, el valor del castigo es igual al valorpresente de las utilidades que la firma hubiese obtenido si no se desviara:

K(ε∗t ) =δ

1−δ

∫ε

ε

Πs(εt ,ε

∗t )dF(ε) =

δ

1−δ

[∫ε∗t

ε

Πm(e)dF(e)+(1−F(ε∗))Π

m(ε∗t )]

(B.3)

Donde la segunda igualdad proviene de reemplazar (B.2) en la primera igualdad. Con estaecuacion se define el juego, pues un castigo dado define un ajuste en el valor optimo de shock ε∗tque define las utilidades de cada jugador en el juego. Para que exista un equilibrio esta funciondebe tener un punto fijo (seccion 5.2), lo cual se da si se cumple que:

Πm(εt)∫ε

εΠm(e)dF(e)

>δ

(1−δ)(N−1)y N <

11−δ

Estas condiciones aseguran que el resultado monopolico no sea la unica solucion en todas lassituaciones, lo que siguiendo los teoremas presentados en la seccion 5.2 indicarıa que las unicasutilidades aceptables por los jugadores serıan el equilibrio coludido o el precio de competenciaperfecta, segun el valor del castigo y la tasa de descuento. En caso que se cumplen se da queexisten ademas otros equilibrios, infinitos de hecho segun Friedman, con lo que se pueden definirmodelos que encuentren otros estados y por ende lo expuesto en la seccion siguiente sea razonabley este sustentado economicamente. Los autores definen dos conclusiones interesantes del juegoanterior:

Si εt > ε∗t mientras mas alta es la demanda de shock, mayor es la cantidad producida y menores el precio del equilibrio.

Si aumenta el numero de firmas o disminuye el factor de descuento se tiene que ε∗t disminuye.En estos casos se da que las ganancias de desviarse relativas a las ganancias por cada empresaaumentan, con lo que las colusiones son menos sostenibles en el largo plazo.

1Los autores apuntan que esta suposicion, si bien no es realista, es suficiente para explicar el fenomeno del juegopor lo que se utiliza para esta seccion a manera de ilustracion.

124

Anexo C

Atributos del Modelo

La siguiente tabla resume todos los atributos que se utilizaron en la creacion de los distintosmodelos, considerando todos los orıgenes distintos. Los campos corresponden a:

Fuente: El datawarehouse o fuente de datos original. Se utilizaron cinco tipos distintos, tresinternos (CREDITOS, RENTAS, CORPORATIVA que indica el datawarehouse corporativo)mas dos externos (DICOM y la Web) para generar los atributos del modelo.

Tabla: La tabla madre del datawarehouse donde se sacaron los datos.

Variable: El nombre de la variable, segun la tabla maestra que se construyo para el modelo.

Procedencia: Si es una variable interna, externa o generada a partir de otros datos.

Descripcion: Glosa de la variable.

Tipo: Clase de variable, puede ser descriptiva (solo se utiliza para marcar el objeto), nominal(atributo cuenta con varias clases), continua u objetivo. La marca “OBJETIVO” indica que lavariable corresponde a una variable objetivo, es decir, que entrega la informacion supervisadapara el entrenamiento del modelo.

125

Anexo C: Atributos del ModeloN

oFU

EN

TE

TAB

LA

VAR

IAB

LE

PRO

CE

DE

NC

IAD

ESC

RIP

CIO

NT

IPO

1C

RE

DIT

OS

POL

ITIC

AD

EC

RE

DIT

OS

RU

TIN

TE

RN

AR

utde

lclie

nte,

tran

sfor

mad

ose

gun

corr

elat

ivo

para

priv

acid

ad.

DE

SCR

IPT

IVA

2R

EN

TAS

RE

NTA

SM

ES

PRO

CE

SOIN

TE

RN

AM

esde

proc

eso

deR

enta

,pag

ada

eldı

aha

bil2

0/M

M/A

AA

AD

ESC

RIP

TIV

A

3R

EN

TAS

RE

NTA

SE

NC

NS

INT

ER

NA

Com

panı

aen

laqu

ese

encu

entr

ael

clie

nte.

NO

MIN

AL

4R

EN

TAS

RE

NTA

SSE

XO

INT

ER

NA

Sexo

delc

lient

e.N

OM

INA

L

5R

EN

TAS

RE

NTA

SFE

CH

AN

AC

IMIE

NTO

INT

ER

NA

Fech

ade

naci

mie

nto

delc

lient

e.D

ESC

RIP

TIV

A

6R

EN

TAS

RE

NTA

SE

DA

DG

EN

ER

AD

AE

dad

enan

osde

lclie

nte,

calc

ulad

aa

part

irde

FEC

HA

NA

Cco

ntra

01/1

0/20

07.

CO

NT

INU

A

7C

RE

DIT

OS

POL

ITIC

AD

EC

RE

DIT

OS

INVA

LID

EZ

PIN

TE

RN

ASi

tuac

ion

dein

valid

ezde

lclie

nte

(der

ivad

ade

INVA

LID

EZ

)N

OM

INA

L

8R

EN

TAS

RE

NTA

SC

OM

UN

AIN

TE

RN

AC

omun

ade

resi

denc

iade

lclie

nte.

NO

MIN

AL

9R

EN

TAS

RE

NTA

SC

IUD

AD

INT

ER

NA

Ciu

dad

dere

side

ncia

delc

lient

e.N

OM

INA

L

10R

EN

TAS

RE

NTA

SR

EG

ION

INT

ER

NA

Reg

ion

dere

side

ncia

delc

lient

eN

OM

INA

L

11R

EN

TAS

RE

NTA

ST

IPO

PEN

SIO

NIN

TE

RN

ATi

pode

liqui

daci

onde

lclie

nte,

segu

npr

oduc

toco

ntra

tado

.N

OM

INA

L

12C

RE

DIT

OS

POL

ITIC

AD

EC

RE

DIT

OS

RG

AR

AN

TIZ

AD

AIN

TE

RN

AM

odal

idad

dela

liqui

daci

onde

lclie

nte,

segu

npl

azo

dere

nta

fija.

NO

MIN

AL

13C

RE

DIT

OS

POL

ITIC

AD

EC

RE

DIT

OS

PRIM

ER

PAG

OIN

TE

RN

AFe

cha

prim

erpa

gode

laliq

uida

cion

DE

SCR

IPT

IVA

14C

RE

DIT

OS

POL

ITIC

AD

EC

RE

DIT

OS

FEC

HA

INIC

IOIN

TE

RN

AFe

cha

ingr

eso

delc

lient

ea

empr

esa

DE

SCR

IPT

IVA

15R

EN

TAS

RE

NTA

SPP

ME

SG

EN

ER

AD

AM

eses

tran

scur

rido

sde

sde

prim

erpa

gode

liqui

daci

on.(

deriv

ada

dePR

IME

RPA

GO

)C

ON

TIN

UA

16R

EN

TAS

RE

NTA

SPP

AN

OG

EN

ER

AD

AA

nos

tran

scur

rido

sde

sde

prim

erpa

gode

liqui

daci

on.(

deriv

ada

dePR

IME

RPA

GO

)C

ON

TIN

UA

17R

EN

TAS

RE

NTA

SFI

ME

SG

EN

ER

AD

AM

eses

tran

scur

rido

sde

sde

ingr

eso

delc

lient

ea

empr

esa.

(der

ivad

ade

FEC

HA

INIC

IO)

CO

NT

INU

A

18R

EN

TAS

RE

NTA

SFI

AN

OG

EN

ER

AD

AA

nos

tran

scur

rido

sde

sde

ingr

eso

delc

lient

ea

empr

esa.

(der

ivad

ade

FEC

HA

INIC

IO)

CO

NT

INU

A

19C

RE

DIT

OS

POL

ITIC

AD

EC

RE

DIT

OS

ME

SES

GA

RA

NT

IZA

DO

INT

ER

NA

Mes

esga

rant

izad

osde

laliq

uida

cion

.Dua

lcon

MO

DA

LID

AD

RE

NTA

CO

NT

INU

A

20C

RE

DIT

OS

POL

ITIC

AD

EC

RE

DIT

OS

VIA

DE

PAG

OIN

TE

RN

AV

ıade

pago

dela

liqui

daci

on.

NO

MIN

AL

21C

RE

DIT

OS

POL

ITIC

AD

EC

RE

DIT

OS

CO

ND

EPO

SITO

INT

ER

NA

Indi

casi

clie

nte

tiene

liqui

daci

onco

nde

posi

to.(

deriv

ada

deV

IAD

EPA

GO

)N

OM

INA

L

22C

RE

DIT

OS

POL

ITIC

AD

EC

RE

DIT

OS

RL

CIN

TE

RN

AR

enta

Lıq

uida

segu

nE

mpr

esa

delC

lient

eC

ON

TIN

UA

23R

EN

TAS

RE

NTA

SR

EN

TAIN

TE

RN

AR

enta

enU

Fde

lape

nsio

n.C

ON

TIN

UA

24R

EN

TAS

RE

NTA

SR

EN

TAPE

SOS

INT

ER

NA

Ren

taen

peso

sde

lape

nsio

n.C

ON

TIN

UA

25R

EN

TAS

RE

NTA

SL

IQU

IDO

INT

ER

NA

Ren

talıq

uida

enpe

sos.

CO

NT

INU

A

26R

EN

TAS

RE

NTA

SIM

PON

IBL

EIN

TE

RN

AR

enta

impo

nibl

e.C

ON

TIN

UA

27R

EN

TAS

RE

NTA

STO

TAL

HA

BE

RE

SIN

TE

RN

ATo

talh

aber

esde

lape

nsio

nC

ON

TIN

UA

28R

EN

TAS

RE

NTA

STO

TAL

IMPO

NIB

LE

INT

ER

NA

Tota

lim

poni

ble

dela

pens

ion.

CO

NT

INU

A

29R

EN

TAS

RE

NTA

STO

TAL

TR

IBU

TAB

LE

INT

ER

NA

Tota

ltri

buta

ble

dela

pens

ion

CO

NT

INU

A

30R

EN

TAS

RE

NTA

SIS

APR

EIN

TE

RN

AIs

apre

delc

lient

e.N

OM

INA

L

31R

EN

TAS

RE

NTA

SPL

AN

SAL

UD

FIN

AL

INT

ER

NA

Porc

enta

jede

scon

tado

alcl

ient

epo

rcon

cept

ode

salu

d.C

ON

TIN

UA

32R

EN

TAS

RE

NTA

SA

FIN

TE

RN

AA

sign

acio

nfa

mili

arC

ON

TIN

UA

33C

RE

DIT

OS

POL

ITIC

AD

EC

RE

DIT

OS

DE

SCR

IPC

ION

CA

JAIN

TE

RN

AD

escr

ipci

onde

laco

mpe

tenc

iaafi

liado

NO

MIN

AL

34C

RE

DIT

OS

POL

ITIC

AD

EC

RE

DIT

OS

CU

OTA

CC

AF

INT

ER

NA

Cuo

taC

redi

toen

Com

pete

ncia

CO

NT

INU

A

35R

EN

TAS

RE

NTA

SPR

EST

FON

ASA

INT

ER

NA

Mon

tode

scue

nto

porp

rest

amo

soci

alde

FON

ASA

CO

NT

INU

A

36R

EN

TAS

RE

NTA

SIM

PTO

INT

ER

NA

Impu

esto

asoc

iado

ala

liqui

daci

onC

ON

TIN

UA

37R

EN

TAS

RE

NTA

STO

TAL

DC

TOS

INT

ER

NA

Tota

ldes

cuen

tos

real

izad

osa

laliq

uida

cion

.C

ON

TIN

UA

38R

EN

TAS

RE

NTA

SN

UM

ER

OPE

RSO

NA

INT

ER

NA

NU

ME

RO

PER

SON

AN

OM

INA

L

39C

RE

DIT

OS

POL

ITIC

AD

EC

RE

DIT

OS

CU

POTA

RJE

TAA

CT

UA

LIN

TE

RN

AC

upo

tarj

eta

decr

edito

vige

nte

CO

NT

INU

A

40C

RE

DIT

OS

TAR

JETA

SD

EC

RE

DIT

OC

ON

TAR

JETA

INT

ER

NA

Sicl

ient

epo

see

ono

tarj

eta

decr

edito

.N

OM

INA

L

41C

RE

DIT

OS

DIC

OM

DO

CS

MO

RO

SIN

TE

RN

AC

antid

adde

mor

asen

DIC

OM

CO

NT

INU

A

42D

ICO

MD

ICO

MM

MO

RA

SIN

TE

RN

AM

onto

mor

oso

regi

stra

dose

gun

tabl

aD

ICO

MC

ON

TIN

UA

43C

RE

DIT

OS

DIC

OM

DO

CS

PRO

TIN

TE

RN

AD

ocum

ento

sPr

otes

tado

sC

ON

TIN

UA

44D

ICO

MD

ICO

MM

PRO

TIN

TE

RN

AM

onto

deD

ocum

ento

sPr

otes

tado

sC

ON

TIN

UA

45D

ICO

MD

ICO

MM

MO

RA

PRO

TG

EN

ER

AD

ASu

ma

Mon

toM

ora

+M

onto

Prot

esta

do(d

eriv

ada

deM

MO

RA

S+

MPR

OT

)C

ON

TIN

UA

46C

RE

DIT

OS

POL

ITIC

AD

EC

RE

DIT

OS

TIP

OO

FER

TAIN

TE

RN

ATi

pode

eval

uaci

onre

aliz

ada

alcl

ient

e(d

eriv

ada

deTi

poE

valu

acio

n)N

OM

INA

L

47C

RE

DIT

OS

POL

ITIC

AD

EC

RE

DIT

OS

LE

VE

RA

GE

GE

NE

RA

DA

Lev

erag

ede

lclie

nte

([C

UPO

TC

])/R

LC

CO

NT

INU

A

48C

RE

DIT

OS

POL

ITIC

AD

EC

RE

DIT

OS

CA

RG

AC

NS

GE

NE

RA

DA

Car

gade

lclie

nte

enC

onso

rcio

.(0,

06*[

CU

POT

C])

/RL

CC

ON

TIN

UA

49C

RE

DIT

OS

POL

ITIC

AD

EC

RE

DIT

OS

CA

RG

ATO

TAL

GE

NE

RA

DA

Car

gade

lclie

nte

ento

tal.

(0,0

6*[C

UPO

TC

]+[C

UO

TAC

CA

F])/

RL

CC

ON

TIN

UA

50C

RE

DIT

OS

POL

ITIC

AD

EC

RE

DIT

OS

VE

CE

SR

TAIN

TE

RN

AV

eces

sure

nta

para

ofer

tam

axim

a.C

ON

TIN

UA

126

Anexo C: Atributos del ModeloN

oFU

EN

TE

TAB

LA

VAR

IAB

LE

PRO

CE

DE

NC

IAD

ESC

RIP

CIO

NT

IPO

51C

RE

DIT

OS

POL

ITIC

AD

EC

RE

DIT

OS

PRE

EM

ITIB

LE

INT

ER

NA

Bin

aria

que

indi

casi

elcl

ient

etu

voof

erta

decr

edito

ono

enel

mes

encu

estio

n.D

ESC

RIP

TIV

A

52C

RE

DIT

OS

BA

SEM

AE

STR

AC

AM

PAN

AS

CO

NC

AM

PAN

AIN

TE

RN

AB

inar

iaqu

ein

dica

siel

clie

nte

tuvo

ofer

tapo

rmed

iode

piez

aen

elm

esen

cues

tion.

NO

MIN

AL

53C

RE

DIT

OS

BA

SEM

AE

STR

AR

EFE

RID

OS

RE

FER

IDO

INT

ER

NA

Bin

aria

que

indi

casi

elcl

ient

efu

ere

feri

dopa

raco

ntac

toco

nag

ente

sdu

rant

eel

mes

.N

OM

INA

L

54C

RE

DIT

OS

TAB

LA

TR

AN

SAN

TIA

GO

CO

MU

NA

TS

EX

TE

RN

AZ

ona

asoc

iada

alcl

ient

ese

gun

tabl

atr

ansa

ntia

go.

NO

MIN

AL

55C

OR

POR

AT

IVA

OT

RO

SPR

OD

UC

TOS

CO

NSE

GU

RO

GE

NE

RA

LIN

TE

RN

AB

inar

iaqu

ein

dica

siel

clie

nte

pose

ese

guro

gene

ralc

ontr

atad

oen

laem

pres

a.N

OM

INA

L

56C

OR

POR

AT

IVA

OT

RO

SPR

OD

UC

TOS

CO

NSE

GU

RO

VID

AIN

TE

RN

AB

inar

iaqu

ein

dica

siel

clie

nte

pose

ese

guro

devi

daco

ntra

tado

enla

empr

esa.

NO

MIN

AL

57C

OR

POR

AT

IVA

OT

RO

SPR

OD

UC

TOS

CO

NSE

GU

RO

INT

ER

NA

Bin

aria

que

indi

casi

elcl

ient

etie

nese

guro

devi

dao

segu

roge

nera

les

enla

empr

esa.

NO

MIN

AL

58C

RE

DIT

OS

CO

LO

CA

CIO

NE

STA

SAC

NS

INT

ER

NA

Tasa

prom

edio

pond

erad

aE

mpr

esa.

CO

NT

INU

A

59E

XT

ER

NA

WE

BTA

SAA

EX

TE

RN

ATa

sapr

omed

iopo

nder

ada

Em

pres

aA

CO

NT

INU

A

60E

XT

ER

NA

WE

BTA

SAH

EX

TE

RN

ATa

sapr

omed

iopo

nder

ada

Em

pres

aH

CO

NT

INU

A

61E

XT

ER

NA

WE

BTA

SAO

EX

TE

RN

ATa

sapr

omed

iopo

nder

ada

Em

pres

aO

CO

NT

INU

A

62E

XT

ER

NA

N/A

ME

SC

RE

DIT

OE

XT

ER

NA

Mes

obse

rvab

lede

lpro

ceso

,par

aes

taci

onal

idad

NO

MIN

AL

63C

RE

DIT

OS

BA

SEM

AE

STR

AC

AM

PAN

AS

CO

NIN

CE

NT

IVO

SSC

CIN

TE

RN

AB

inar

iaqu

ein

dica

sies

em

eshu

boca

mpa

nade

ince

ntiv

osa

serv

icio

alcl

ient

eN

OM

INA

L

64C

RE

DIT

OS

BA

SEM

AE

STR

AC

AM

PAN

AS

CO

NIN

CE

NT

IVO

EJE

CIN

TE

RN

AB

inar

iaqu

ein

dica

sies

em

eshu

boca

mpa

nade

ince

ntiv

osa

ejec

utiv

osde

laem

pres

aN

OM

INA

L

65C

RE

DIT

OS

BA

SEM

AE

STR

AC

AM

PAN

AS

CO

NIN

CE

NT

IVO

INT

ER

NA

Bin

aria

que

indi

casi

ese

mes

hubo

algu

naca

mpa

nade

ince

ntiv

osN

OM

INA

L

66C

RE

DIT

OS

CO

LO

CA

CIO

NE

SC

ON

CR

DM

ES

INT

ER

NA

Indi

casi

elcl

ient

etu

voco

loca

cion

decr

edito

dura

nte

elm

esen

cues

tion.

OB

JET

IVO

67R

EN

TAS

RE

NTA

SC

ON

CR

DC

AJA

AIN

TE

RN

AIn

dica

siel

clie

nte

tuvo

colo

caci

onde

cred

itoen

Em

pres

aA

enm

esen

cues

tion

OB

JET

IVO

68R

EN

TAS

RE

NTA

SC

ON

CR

DC

AJA

HIN

TE

RN

AIn

dica

siel

clie

nte

tuvo

colo

caci

onde

cred

itoen

Em

pres

aH

enm

esen

cues

tion

OB

JET

IVO

69R

EN

TAS

RE

NTA

SC

ON

CR

DC

AJA

OIN

TE

RN

AIn

dica

siel

clie

nte

tuvo

colo

caci

onde

cred

itoen

Em

pres

aO

enm

esen

cues

tion

OB

JET

IVO

70R

EN

TAS

RE

NTA

SSI

NC

RE

DIT

OIN

TE

RN

AIn

dica

siel

clie

nte

notu

voco

loca

cion

decr

edito

enm

esen

cues

tion

OB

JET

IVO

71R

EN

TAS

RE

NTA

SR

EG

ION

2CA

TG

EN

ER

AD

AR

egio

n2

Cat

egor

ıas

NO

MIN

AL

72R

EN

TAS

RE

NTA

SSI

VE

JEZ

GE

NE

RA

DA

Tipo

deliq

uida

cion

delc

lient

e,se

gun

prod

ucto

cont

rata

do.N

orm

aliz

ada

a2

cate

gorı

as.

NO

MIN

AL

73R

EN

TAS

RE

NTA

SSI

CO

RR

EO

GE

NE

RA

DA

Sicl

ient

etie

nevı

ade

pago

corr

eo.P

ara

unir

con

SID

EPO

SITO

NO

MIN

AL

74R

EN

TAS

RE

NTA

SSI

FON

ASA

GE

NE

RA

DA

Indi

casi

elcl

ient

ees

taafi

liado

aFO

NA

SAN

OM

INA

L

75D

ICO

MD

ICO

MC

AN

TM

OR

APR

OT

EX

TE

RN

AC

antid

adde

mor

as+

Can

tidad

prot

esto

sen

DIC

OM

CO

NT

INU

A

Tabl

aC

.1:A

trib

utos

obte

nido

spa

rael

desa

rrol

lode

los

mod

elos

.

127

Anexo D

Resultado Seleccion de Atributos y Analisisde Correlaciones

VARIABLE TIPO UNIVARIADO ARBOL RESULTADORUT DESCRIPTIVA - - -

MES PROCESO DESCRIPTIVA - - -

EN CNS NOMINAL 0,858 6 EXCLUIR

SEXO NOMINAL 0,393 0 EXCLUIR

FECHA NACIMIENTO DESCRIPTIVA - - -

EDAD CONTINUA 0 4 INCLUIR

INVALIDEZ P NOMINAL 0 0 EXCLUIR

COMUNA NOMINAL 0 0 EXCLUIR

CIUDAD NOMINAL 0 0 EXCLUIR

REGION NOMINAL R R REEMPLAZADA

TIPO PENSION NOMINAL R R REEMPLAZADA

R GARANTIZADA NOMINAL 0,646 0 EXCLUIR

PRIMER PAGO DESCRIPTIVA - - -

FECHA INICIO DESCRIPTIVA - - -

PP MES CONTINUA 0,56 0 EXCLUIR

PP ANO CONTINUA 0,66 3 EXCLUIR

128

Anexo D: Resultado Seleccion de Atributos y Analisis de Correlaciones

FI MES CONTINUA 0,36 5 EXCLUIR

FI ANO CONTINUA 0,94 6 EXCLUIR

MESES GARANTIZADO CONTINUA 0,97 0 EXCLUIR

VIA DE PAGO NOMINAL R R REEMPLAZADA

CON DEPOSITO NOMINAL 0 6 INCLUIR

RLC CONTINUA 0 5 CORRELACIONADA

RENTA CONTINUA 0 0 CORRELACIONADA

RENTA PESOS CONTINUA 0 0 INCLUIR

LIQUIDO CONTINUA 0 5 INCLUIR

IMPONIBLE CONTINUA 0 0 CORRELACIONADA

TOTAL HABERES CONTINUA 0 4 CORRELACIONADA

TOTAL IMPONIBLE CONTINUA 0 0 CORRELACIONADA

TOTAL TRIBUTABLE CONTINUA 0 0 CORRELACIONADA

ISAPRE NOMINAL R R REEMPLAZADA

PLAN SALUD FINAL CONTINUA R R REEMPLAZADA

AF CONTINUA 0 4 INCLUIR

DESCRIPCION CAJA NOMINAL R R REEMPLAZADA

CUOTA CCAF CONTINUA 0 0 INCLUIR

PREST FONASA CONTINUA 0,26 0 EXCLUIR

IMPTO CONTINUA 0 0 INCLUIR

TOTAL DCTOS CONTINUA 0 4 INCLUIR

NUMERO PERSONA NOMINAL 0,9 0 EXCLUIR

CUPO TARJETA ACTUAL CONTINUA 0 4 INCLUIR

CON TARJETA NOMINAL 0 4 EXCLUIR

DOCS MOROS CONTINUA R R REEMPLAZADA

M MORAS CONTINUA 0 0 REEMPLAZADA

DOCS PROT CONTINUA R R REEMPLAZADA

M PROT CONTINUA R R REEMPLAZADA

M MORA PROT CONTINUA 0 2 INCLUIR

TIPO OFERTA NOMINAL 0 0 EXCLUIR

LEVERAGE CONTINUA 0 5 CORRELACIONADA

CARGA CNS CONTINUA 0 6 CORRELACIONADA

129


CARGA TOTAL CONTINUA 0 1 INCLUIR

VECES RTA CONTINUA 0,8 0 EXCLUIR

PREEMITIBLE DESCRIPTIVA - - -

CON CAMPANA NOMINAL 0 0 INCLUIR

REFERIDO NOMINAL 0 0 EXCLUIR

COMUNA TS NOMINAL 0 0 EXCLUIR

CON SEGURO GENERAL NOMINAL 0 0 EXCLUIR

CON SEGURO VIDA NOMINAL 0 0 EXCLUIR

CON SEGURO NOMINAL 0 0 EXCLUIR

TASA CNS CONTINUA 0 7 INCLUIR

TASA A CONTINUA 0 3 INCLUIR

TASA H CONTINUA 0 4 INCLUIR

TASA O CONTINUA 0 3 INCLUIR

MES CREDITO NOMINAL 0 0 EXCLUIR

CON INCENTIVO SSCC NOMINAL 0,03 0 EXCLUIR

CON INCENTIVO EJEC NOMINAL 0 0 EXCLUIR

CON INCENTIVO NOMINAL 0 7 INCLUIR

CON CRD MES OBJETIVO - - -

CON CRD CAJA A OBJETIVO - - -

CON CRD CAJA H OBJETIVO - - -

CON CRD CAJA O OBJETIVO - - -

SIN CREDITO OBJETIVO - - -

REGION 2CAT NOMINAL 0 3 INCLUIR

SI VEJEZ NOMINAL 0 5 INCLUIR

SI CORREO NOMINAL 0 2 INCLUIR

SI FONASA NOMINAL 0 7 INCLUIR

CANT MORA PROT CONTINUA 0 5 INCLUIR

Tabla D.1: Resultados de seleccion de atributos y analisis de co-

rrelaciones.

Las variables reemplazadas corresponden a:

130


Region: Se creo variable Region 2cat que agrupa regiones segun su comportamiento (% declientes que regresan o no a alguna empresa).

“Docs Moros” - “Docs Prot”: Se creo variable “CANT Mora Prot” que suma la cantidad demoras y de protestos.

“M Moras” - “M Prot”: Se creo variable “M Mora Prot” que incluye la suma de las moras yprotestos.

“Descripcion Caja”: Se creo variable “Si Caja” que indica si cliente posee o no Caja asocia-da. Variable original contenıa la descripcion.

“Plan Salud Final” - “Isapre”: Se creo variable “Si Fonasa” que indica si cliente pertenece aFONASA y por ende entrega el 7% de su renta en Salud.

“Via De Pago”: Utilizando conocimiento previo se crearon variables “Si Correo” y “Si Deposito”,que son vıas de pago que efectivamente discriminan.

“Tipo Pension”: El momento de jubilacion del cliente se modifico de tal modo de reflejar enque momento lo hizo (“Si Vejez”).

131

MINER´IA DE DATOS APLICADA A TEOR ´IA DE JUEGOS. Teor´ıa y ... · aplicacion en campos diversos...

Documents

Transcript of MINER´IA DE DATOS APLICADA A TEOR ´IA DE JUEGOS. Teor´ıa y ... · aplicacion en campos diversos...