Construccion de Un Modelo de Mineria de Datos Para

download Construccion de Un Modelo de Mineria de Datos Para

of 12

Transcript of Construccion de Un Modelo de Mineria de Datos Para

IX Congreso Chileno de Investigacin Operativa, OPTIMA 2011 Universidad de La Frontera, Temuco Chile Octubre 26-29, 2011

CONSTRUCCIN DE UN MODELO DE MINERA DE DATOS PARA LA SEGMENTACIN DE CLIENTES EN UNA EMPRESA DE TELECOMUNICACIONES A DATA MINING MODEL FOR CUSTOMER SEGMENTATION FOR A TELECOMMUNICATION COMPANYSEBASTIN MALDONADO1 Y GASTN ROJAS2 Universidad de los Andes, Facultad de Ingeniera y Ciencias Aplicadas. Av. San Carlos de Apoquindo 2200, Santiago, Chile. [email protected] 1

Departamento de Ingeniera Industrial, Universidad de Talca. Avenida 2 Norte 685, Talca, Chile. [email protected]

RESUMEN En la actualidad, las empresas de telecomunicaciones se encuentran en un mercado muy competitivo, donde los clientes se encuentran informados para tomar decisiones de compra. En estos mercados, la empresa que posea una mayor cantidad de informacin relevante podr ejecutar estrategias comerciales efectivas, sobresaliendo del resto de las compaas. Extraer esta informacin es, sin embargo, un proceso complejo y costoso. En el presente documento utiliza estrategias de Minera de Datos, tales como segmentacin con K-medias y tcnicas de seleccin de atributos, con el fin de identificar segmentos de clientes que conduzcan a estrategias efectivas de retencin de clientes. Los resultados obtenidos permiten cumplir con este objetivo, confirmando ciertas nociones sobre las variables cuantitativas que reflejan la fuga de clientes. Palabras clave: Minera de Datos, Anlisis de Negocios, Segmentacin, K-medias. ABSTRACT Telecommunication companies face a competitive market, which forces them to define commercial strategies. These strategies promote long term relationships between companies and their main costumers. Companies extracting relevant knowledge from their clients execute more effective commercial campaigns than those which do not, thus, allowing those companies to excel beyond others. However, extracting relevant information from customers is a complex process. This work applies data mining strategies, such as clustering via K-means and features selection techniques to a Chilean telecommunication company. Both techniques are used to develop a model that identifies customer clusters. The results obtained from this work allow us to accomplish this goal, confirming certain notions about the variables that reflects customer churn. These clusters may lead to effective retention campaigns. Key Words: Data Mining, Business Analytics, Clustering, K-means.

IX Congreso Chileno de Investigacin Operativa, OPTIMA 2011 Universidad de La Frontera, Temuco Chile Octubre 26-29, 2011

.

1. INTRODUCCINLa necesidad de mantenerse comunicado en todo momento trae consigo el desarrollo de nuevas tecnologas dedicadas a satisfacer las necesidades de las personas. Esto se ve reflejado en el mercado de telefona mvil, alcanzando en Chile durante el ao 2008 una penetracin de 87,8 usuarios por cada 100 habitantes (ver Figura 1). La gran cantidad de usuarios disponibles en el mercado hace que cada vez sea ms difcil identificar los servicios idneos que requieren cada uno de ellos.

Figura N1. Logo Penetracin de diferentes segmentos del sector Telecomunicaciones (Fuente: SUBTEL, 2009)

El mercado de la telefona mvil en Chile es de una fuerte competencia entre las tres empresas predominantes. La participacin de mercado es de un 42,92% para Movistar, 38,13% para Entel PCS, y un 18,94% para Claro (Subtel, 2009). Esta fuerte competencia ha provocado que los clientes se vuelvan cada vez ms exigentes e informados al momento de adquirir un servicio. Por consiguiente, es posible encontrar un gran nmero de clientes con bajos periodos de permanencia en las empresas, siendo una constante preocupacin para las estas, las cuales buscan la permanencia de los clientes en sus servicios. Para poder realizar mejores campaas de retencin de clientes las compaas deben determinar las razones que provocan el abandono voluntario del cliente, las cuales pueden ser causadas por el producto, servicio, marca o mercado. Una de las maneras ms eficaces en conocer los motivos es contando con la opinin directamente del cliente, y es por esto que se ejecutan encuestas con respuestas guiadas permitan identificar las causas ms relevantes. Los resultados de un estudio aplicado a los clientes de una compaa de telefona mvil, que se encuentran en el grupo de Personas y Pyme C, seala que la mejor forma de evitar un abandono voluntario, en el servicio, es realizando una mejora en los planes para que sean ms convenientes alcanzando un porcentaje de alrededor del 30% de coincidencia entre los encuestados (ver Figura 2).

IX Congreso Chileno de Investigacin Operativa, OPTIMA 2011 Universidad de La Frontera, Temuco Chile Octubre 26-29, 2011

Figura N2. Resultados de encuesta a clientes (Fuente: Compaa de Telecomunicaciones).

El objetivo del presente trabajo es realizar un modelo de segmentacin para una empresa de telecomunicaciones que permita tomar decisiones de manera eficiente mediante la aplicacin de herramientas de Minera de Datos, en particular para el servicio de trfico de datos. El presente trabajo se divide de la siguiente manera: la metodologa utilizada es presentada en la Seccin 2. La Seccin 3 destaca los principales resultados numricos del trabajo, mientras que la Seccin 4 presenta un anlisis con los principales descubrimientos que entregan los resultados. Finalmente, la Seccin 5 entrega las conclusiones del presente trabajo.

2. METODOLOGA

En la presente seccin se describe el procesamiento aplicado para desarrollar el modelo en trminos generales. El proceso utilizado es el conocido como descubrimiento de conocimiento en bases de datos (Knowledge Discovery in Databases o proceso KDD, Fayyad, 1996), el cual especifica los puntos para el correcto desarrollo de modelos de Minera de Datos. La figura 3 explicita estos puntos, los cuales se detallan a continuacin.

IX Congreso Chileno de Investigacin Operativa, OPTIMA 2011 Universidad de La Frontera, Temuco Chile Octubre 26-29, 2011

Figura N3. Proceso KDD (Fuente: Fayyad, 1996).

2.1. Recopilacin y consolidacin de los datos Antes de utilizar los mtodos que permiten construir modelos predictivos, el conjunto de datos objetivo debe construirse. Dado que el objetivo es revelar patrones ocultos presentes en los datos, este conjunto debe ser suficientemente grande para contener estos patrones, pero a la vez suficientemente conciso para ser minado en un tiempo aceptable. Para problemas como el presentado un paso clave es la consolidacin de datos de panel, es decir, informacin recopilada de forma peridica (en este caso mensual) de clientes. Dado que se dispone de datos de esta naturaleza, tales como el trfico mensual de internet, y caractersticas estticas de los clientes, tales como variables socio-demogrficas y caractersticas de los planes, es necesario transformar los datos de panel a variables agregadas, que resuman el comportamiento en un plazo fijo. Para ello se utilizan estadsticos descriptivos bsicos, tales como la media, el mximo y el mnimo. En un paso posterior se evaluar el poder predictivo de estos indicadores de comportamiento. Otra decisin es el plazo a considerar, dnde se decide tomar siete meses al momento de que el cliente entra, para as considerar los mismos niveles de antigedad entre clientes. El plazo de siete meses es considerado como el tiempo necesario que pasa hasta que el cliente alcanza su madurez dentro de la compaa. 2.2. Pre-procesamiento de los datos La utilidad de la extraccin de informacin de los datos depende en gran medida de la calidad de stos. El propsito fundamental de esta fase es el de manipular y transformar los datos en bruto, de manera que la informacin contenida en el conjunto de datos pueda ser descubierta, o hacer ms fcilmente accesible (Pyle, 1999). La lista de tareas que se incluyen en esta fase se

IX Congreso Chileno de Investigacin Operativa, OPTIMA 2011 Universidad de La Frontera, Temuco Chile Octubre 26-29, 2011

puede resumir en tres: limpieza de datos (eliminacin de inconsistencias y valores perdidos), transformacin (proceso de adecuar los datos al posterior proceso de construccin de modelos, con el fin de mejorar su capacidad predictiva) y reduccin (eliminacin de ejemplos o atributos que no sean relevantes para la informacin inherente a la base de datos). Las estrategias de seleccin de atributos son de vital importancia para el xito de modelo predictivo (Langley, 1994; Maldonado & Weber, 2009). Dentro de los mtodos que utilizan comnmente en esta etapa, los ms relevantes en este trabajo son las estrategias seleccin de atributos mediante test de independencia no paramtricos, tales como el test Kolmogorov-Smirnov y el test Chi-Cuadrado. Test de Kolmogorov- Smirnov Un modelo paramtrico se suele especificar al hacer una hiptesis acerca de la distribucin y con el supuesto que esta hiptesis es verdadera. Pero esto a menudo puede ser difcil o incierto. Una posible forma de superar esto es utilizar procedimientos no paramtricos, que eliminan la necesidad de especificar la forma de la distribucin. Un modelo no paramtrico slo asume que las observaciones proceden de una cierta funcin de distribucin F, no especificadas por los parmetros. Para evaluar la bondad de ajuste de una distribucin de la funcin, por lo general utiliza el test de Kolmogorov-Smirnov. En esta prueba, la hiptesis nula se refiere a una distribucin particular, que llamaremos F *(X). Por lo tanto se tiene: un se de de

(1)

Para contrastar H0 contra H1, se considera que la informacin disponible es una muestra aleatoria X1,, Xn. La idea es comparar la funcin de distribucin observada, S(x), con la terica, funcin de distribucin F*, calculada usando los valores observados. El concepto de KolmogorovSmirnov es simple e inteligente (Chakravart et al., 1967). Como S(x) calcula F(x) es lgica a la hiptesis de una "distancia" entre S(x) y F(x). Si S(x) y F(x) son lo suficientemente cercanos (es decir, son bastante similares), la hiptesis nula puede ser aceptada, de otro modo se rechaza. Pero, qu tipo de estadsticas de prueba se puede utilizar para medir la discrepancia entre S (x) y F (x)?. Una de las medidas es la altura de la distancia vertical entre las dos funciones. Esta es la estadstica sugerido por Kolmogorov:

(2)

Para los valores altos de T1, la hiptesis nula es rechazada, mientras que para valores bajos, no existe evidencia suficiente para rechazar la hiptesis nula. La lgica de la estadstica de

IX Congreso Chileno de Investigacin Operativa, OPTIMA 2011 Universidad de La Frontera, Temuco Chile Octubre 26-29, 2011

T1 es evidente, pero el clculo de la distribucin de probabilidad es ms complicado. Este razonamiento es fcilmente extensible a dos muestras a modo de test de independencia considerando una variable continua y una dicotmica, donde S(x) y F*(x) pasan a ser las distribuciones marginales de la variable continua para cada valor de la variable dicotmica.

Test Chi-cuadrado El test Chi-Cuadrado es usado para medir la independencia de dos variables categricas, partiendo del supuesto que dichas variables son independientes. Para probar independencia, se construye una tabla con las frecuencias esperadas (fe) para cada fila y columna a partir de las distribuciones marginales de cada variable con respecto a la otra, asumiendo independencia. Estas medidas se comparan con las frecuencias observadas (fo), que corresponden a la cantidad de casos que posee cada valor de la tabla de contingencia resultante entre ambas variables. A partir de estos valores, el estadgrafo toma la siguiente forma:

(3)

Este estadstico posee distribucin chi-cuadrado. La hiptesis nula corresponde a que las muestras son independientes (no poseen efectos en la discriminacin entre las clases), la cual se evala comnmente bajo un nivel de significancia de un 95 por ciento.

2.3. Construccin de los modelos predictivos Esta etapa consiste en la construccin de modelos predictivos que conduzcan a patrones potencialmente tiles para la toma de decisiones. En este caso, los modelos de Minera de Datos utilizados son las estrategias de segmentacin o clustering, los cuales buscan similitudes dentro de los datos estudiando las distancias entre las observaciones, en este caso los clientes de la compaa, vistos como vectores multidimensionales en un plano. Dentro de los mtodos que se utilizan comnmente para esta tarea, los ms relevantes son los mtodos jerrquicos aglomerativos y el mtodo de particionamiento K-medias (Hartigan, 1975). Mtodos Jerrquicos Aglomerativos Mtodos de agregacin jerrquica permiten obtener una familia de particiones, cada una asociada con los niveles posteriores de la agrupacin entre las observaciones, calculada sobre la base de los datos disponibles. Las diferentes familias de las particiones pueden representarse grficamente a travs de una estructura de rbol, llamado rbol jerrquico de agrupacin o dendrograma. El algoritmo tiene el siguiente comportamiento de aglomeracin para la generacin de clster:

IX Congreso Chileno de Investigacin Operativa, OPTIMA 2011 Universidad de La Frontera, Temuco Chile Octubre 26-29, 2011

a) b) c) d) e)

Inicializacin: dadas n observaciones a agrupar, cada elemento representa inicialmente un grupo en s mismo. Seleccin: se unen los dos grupos ms cercanos entre s, en funcin de una medida de distancia definida, por ejemplo, la norma euclidiana. Actualizacin: La matriz de las distancias y el nmero de grupos se actualizan. Repeticin: los pasos b) y c) se realizan n - 1 veces. Trmino: el procedimiento se detiene cuando todos los elementos que se incorporan en un nico clster.

El algoritmo divisivo se diferencia del aglomerativo en su estrategia de construccin del rbol: ste parte de la raz como un clster nico y se van haciendo divisiones paulatinas hasta llegar a las hojas que representa a la situacin en que cada ejemplo es un grupo. Como los clster se definen como un conjunto de uno o ms registros, no existe una medida de distancia nica para la seleccin del punto b). Las medidas de distancia comnmente utilizadas entre grupos son: a) Distancia Mnima (single linkage): la distancia entre los dos grupos se define como el mnimo de n1 x n2 distancias entre cada observacin del grupo C1 y cada observacin de C2 de grupo:

(4)

b)

Distancia Mxima (complete linkage): la distancia entre los dos grupos se define como la mxima distancia en n1xn2 entre cada observacin de un grupo y cada uno de la observacin del otro grupo:

(5)

c)

Distancia media (average linkage): la distancia entre los dos grupos se define como la media aritmtica promedio en n1xn2 distancias entre cada una de las observaciones de un grupo y cada una de las observaciones del otro grupo:

(6)

IX Congreso Chileno de Investigacin Operativa, OPTIMA 2011 Universidad de La Frontera, Temuco Chile Octubre 26-29, 2011

K-medias El mtodo de particionamiento K-medias tiene como objetivo minimizar la suma de las distancias entre cada vector de entrada y el centro de su correspondiente clase, llamado centroide. El procedimiento es el siguiente: Primero, se definen aleatoriamente k centroides en el plano de los datos. Luego, para cada ejemplo xi, se calcula la distancia entre ste y el centro ms prximo Ak y se incluye en la lista de ejemplos en el grupo. Despus de haber introducido todos los ejemplos, cada grupo k tendr un conjunto de ejemplos a los que representa:

l(Ak ) = {xk1, xk 2,...,xkn}

(7)

Una vez con los grupos se arman, es necesario ajustar los centroides, desplazndolos hacia el centro de masas de su conjunto de ejemplos:m

xAk =i =1

ki

m

(8)

Este procedimiento se repite el procedimiento hasta que ya no se desplacen los centroides. Ambos mtodos descritos presentan ventajas y desventajas: Clustering jerrquico presenta una solucin nica, mientras que en K-medias distintas distribuciones iniciales de centroides pueden producir distintos grupos. Para clustering jerrquico existen medidas de distancia clara que permiten determinar el nmero adecuado de grupos, mientras que en K-medias no existe una medida de este tipo. K-medias presenta soluciones ms robustas, dado que iterativamente se van ajustando las asignaciones a los distintos centros, mientras que en clustering jerrquico si se agrupan dos observaciones no se podrn volver a separar.

Cabe destacar que la solucin ptima para el problema de agrupar observaciones minimizando la distancia entre-grupos es combinatorial al nmero de observaciones, ya que se requiere evaluar todas las agrupaciones posibles entre observaciones. Dada la naturaleza del problema, donde por lo general se cuenta con un nmero importante de registros, resolver el problema de forma ptima es inviable, y por ende se recurre a heursticas como las planteadas en esta seccin.

2.4. Interpretacin y evaluacin de los patrones minados Esta ltima etapa considera la evaluacin de los patrones minados, identificando su real potencial en la generacin de conocimiento, la interpretacin de estos patrones y la implementacin final del modelo.

IX Congreso Chileno de Investigacin Operativa, OPTIMA 2011 Universidad de La Frontera, Temuco Chile Octubre 26-29, 2011

3. RESULTADOS

La informacin disponible corresponde al perodo comprendido entre Septiembre de 2008 hasta Junio de 2009, considerando dos tipos de personas (naturales y empresas), incluyendo variables demogrficas y de trfico de datos de acuerdo a los planes de telefona mvil. A continuacin se presentan los resultados obtenidos en cada una de las etapas sealadas: Consolidacin y pre-procesamiento: Debido a que muchas variables presentaban un alto porcentaje de valores faltantes, muchas de stas fueron eliminadas a priori. Para las variables con informacin suficiente se considera eliminacin de observaciones con valores perdidos. Las variables de trfico mensual se transforman a variables descriptivas considerando el mnimo, el mximo y el promedio de los siete meses. Finalmente las variables numricas se escalan en un mismo rango, mientras que las categricas se llevan a variables dummies. Un total de 15 variables se consideran en esta etapa. La muestra considera un total de 8.618 clientes. Seleccin de Atributos: Considerando como variable objetivo el desempeo del usuario en los siete meses, se utilizan los test sealados para filtrar las variables que son independientes con la variable objetivo. De las 15 variables disponibles, slo seis pasan este filtro, donde se consideran variables demogrficas (regin metropolitana u otra regin), tipo de plan de voz (suscripcin o prepago), tipo de persona (natural o pyme), antigedad e indicadores de trfico (trfico promedio y trfico mnimo mensual en un lapso de siete meses). Segmentacin: En una primera etapa se utiliza clustering jerrquico divisivo para determinar el nmero de clsteres adecuado para el problema. El mtodo sugiere un total de cinco utilizando enlace promedio. La solucin encontrada se compara con la que se obtiene realizando K-medias sobre la base de cinco grupos utilizando medidas de distancia mixtas. Esta ltima solucin resulta ser mucho ms robusta en trminos de balance entre los clsteres, como se muestra en la figura 4:

Figura N4. Porcentaje de observaciones en cada clster, considerando clustering jerrquico (izquierda) y K-medias (derecha).

IX Congreso Chileno de Investigacin Operativa, OPTIMA 2011 Universidad de La Frontera, Temuco Chile Octubre 26-29, 2011

Interpretacin y Descripcin de clsteres: Considerando la solucin de K-medias, se estudia cada clster de acuerdo a sus caractersticas. Esto se realiza promediando cada atributo para cada clster, como se muestra en la Tabla 1. A partir de esta tabla se describir cada clster en la siguiente seccin.

Tabla N1. Promedio de los atributos desagregado por clster.

4. DISCUSIN

A partir de la Tabla 1 se describe cada clster de acuerdo a la relacin entre las variables y la media global. La Tabla 2 presenta las caractersticas principales de cada clster, donde se marca con una X la presencia del atributo (nominal), la ausencia de la caracterstica viene dada por un espacio y un guin indica que, para un clster dado, los clientes tienen una presencia promedio. Para las variables numricas, se describen mediante rangos de valor (bajo, medio o alto en relacin al promedio de la variable).

Tabla N2. Descripcin de los atributos desagregado por clster.

IX Congreso Chileno de Investigacin Operativa, OPTIMA 2011 Universidad de La Frontera, Temuco Chile Octubre 26-29, 2011

A modo de ejemplo, el Grupo 1 est conformado por clientes antiguos del tipo Pyme, de la Regin Metropolitana, con plan de suscripcin, con una utilizacin promedio en trminos de trfico de datos. Por otro lado, el Grupo 3 est conformado por clientes naturales antiguos, que no pertenecen a la Regin Metropolitana, con una alta utilizacin en trminos de trfico promedio, pero con un trfico mnimo (el menor durante los seis meses de estudio) bajo con respecto a la media, lo que muestra cierta irregularidad. Para finalizar, se describen los clsteres de acuerdo a su tamao y al porcentaje de clientes que se mantienen (variable objetivo), como se muestra en la Tabla 3.

Tabla N3. Descripcin de los clsteres.

A partir de la Tabla 3 se observa que el Grupo 1 presenta el menor porcentaje de churn (clientes que dejan la compaa), y por ende sus caractersticas son deseables el momento de captar nuevos clientes, mientras que el Grupo 3 presenta el mayor porcentaje de churn, por lo que sus caractersticas deben ser estudiadas con el fin de aplicar polticas de retencin de clientes.

5. CONCLUSIONES

Para la realizacin de un modelo de Minera de Datos, es primordial contar con una base de datos que posee variables relevantes para la creacin de algn modelo, es por esto que se realiz una seleccin de atributos para identificar la dependencia que se produce entre las variables. Los mtodos de agrupaciones jerrquicas son una buena herramienta para determinar nmero ptimo de clsteres para el estudio. De esta forma se evita imponer una cantidad arbitraria de grupos ante el desconocimiento de los datos. El mtodo K-medias, sin embargo, conlleva a mejores resultados en trminos de minimizacin de distancia y balance en los clsteres, por lo tanto se prefiere la solucin entregada por este mtodo frente a la obtenida utilizando mtodos jerrquicos.

IX Congreso Chileno de Investigacin Operativa, OPTIMA 2011 Universidad de La Frontera, Temuco Chile Octubre 26-29, 2011

Los resultados entregados por el modelo permiten concluir que los clientes poseen caractersticas y patrones de comportamiento capaces de ser aislados en grupos, y gracias a esto es posible tomar decisiones estratgicas a partir de los atributos que representan. Una de las estrategias que se puede utilizar es describir los grupos de acuerdo a las variables que los representan, pre-seleccionadas de acuerdo a su correlacin con una variable objetivo, en este caso la fuga de clientes de la compaa. Una de las conclusiones generales que se infieren en esta categorizacin, es que los clientes pertenecientes a Pymes son ms estables en trminos de pertenencia a la compaa que los clientes Personas. Este hecho tiene sentido para el servicio de transmisin de datos (caso de estudio), si se considera que los clientes Pymes normalmente contratan este servicio con el objetivo de ocuparlo en sus negocios y mantener comunicacin con sus clientes y proveedores de manear rpida y directa. Gracias a los resultados obtenidos se logran identificar los grupos de clientes de mayor riesgo, definidos como aquellos con mayor probabilidad de abandono del servicio en trminos agregados. Conociendo las caractersticas y patrones de conducta de estos grupos se focalizan estrategias de marketing de retencin, logrando de este modo reducir el nmero de migraciones. De la misma forma, analizando las caractersticas de los clientes de segmentos de bajo riesgo se disean estrategias de Marketing orientadas a captar nuevos clientes con baja probabilidad de retirarse de la compaa en los primeros meses. Como trabajo futuro se plantea la necesidad de considerar informacin ms detallada de cada cliente, considerando no slo el trfico de datos sino tambin informacin de pago de cuentas, de llamadas, ARPU e informacin sociodemogrfica adicional que permita construir perfiles ms completos. Otra tarea de anlisis de negocios interesantes es la elaboracin de modelos de clasificacin que permitan identificar de forma ms directa los clientes con mayor riesgo de churn, con el fin de implementar polticas de retencin de clientes con mayor informacin cuantitativa.

REFERENCIASChakravart, I. M., Laha, R. G., & Roy, J. (1967). Handbook of Methods of Applied Statistics, Wiley. Fayyad, U., Piatetsky-Shapiro, G. & Smyth P. (1996). The KDD process for extracting useful knowledge from volumes of data. Communications of the ACM, 39(11): 27-34. Hartigan, J. A. (1975). Clustering Algorithms. Wiley. Langley. P. (1994). Selection of relevant features in machine learning. In Proceedings of the AAAI Fall Symposium on Relevance, 140144, 1994. Maldonado, S., & Weber, R. (2009). A wrapper method for feature selection using Support Vector Machines. Information Sciences 179 (13), 2208-2217. Pyle. D. (1999). Data preparation for data mining. Morgan Kaufmann Publishers. Shmueli, G., Patel, N. R. & Bruce P.C. (2006). Data Mining for Business Intelligence. Wiley. Subsecretara de Telecomunicaciones (2009). Informe Anual del Sector Telecomunicaciones 2009.