Metodologia Para El Desarrrollo BI

24
1.32 Metodología para proyectos de Inteligencia de Negocio (BI). DCC. Dafne Rosso Pelayo La inteligencia de negocio en la empresa, sólo puede lograrse mediante la adopción de medidas para alcanzarla. En el artículo anterior platicamos sobre los riesgos involucrados en los proyectos de BI ocasionados por el desconocimiento de la tecnología y por emplear esquemas de desarrollos propios de sistemas tradicionales. En este artículo iniciaremos la construcción de un prototipo empleando una metodología para proyectos que emplean minería de datos y empleando una herramienta gratuita de BI. ¿Por dónde empezar? Como comentamos en el artículo anterior, es necesario controlar los cambios, los recursos, los costos, y las expectativas durante el desarrollo del proyecto. La construcción de un prototipo puede aclarar, resolver y ajustar el alcance y los objetivos que se pueden lograr con la tecnología de BI, si el resultado del prototipo es positivo, pude incurrir en la compra de una herramienta o el desarrollo del proyecto con alcances y objetivos más realistas. Para comenzar el prototipo presentaremos la metodología que emplearemos en su construcción: La metodología CRISP-DM (Cross Industry Standard Process for Data mining), propia de aquellos proyectos que emplean minería de datos o sistemas inteligentes en su desarrollo. CRISP-DM, incluye dentro de sus fases las fases típicas de un proyecto, las tareas relacionadas con cada fase y una explicación de las relaciones entre estas tareas. CRISP-DM puede ser usada como un modelo de referencia que ofrece una visión general del ciclo de vida de los proyecto que emplean sistemas inteligentes ya sean técnicas de minería de datos, aprendizaje o análisis avanzados. Algunas referencias las encuentran en http://www.spss.ch/upload/1107356429_CrispDM1.0.pdf, yhttp://crispdm.wordpress.com/

description

Metodologia de Inteligencia de Negocios

Transcript of Metodologia Para El Desarrrollo BI

1.32 Metodologa para proyectos de Inteligencia de Negocio (BI).DCC. Dafne Rosso PelayoLa inteligencia de negocio en la empresa, slo puede lograrse mediante la adopcin de medidas para alcanzarla.

En el artculo anterior platicamos sobre los riesgos involucrados en los proyectos de BI ocasionados por el desconocimiento de la tecnologa y por emplear esquemas de desarrollos propios de sistemas tradicionales.En este artculo iniciaremos la construccin de un prototipo empleando una metodologa para proyectos que emplean minera de datos y empleando una herramienta gratuita de BI.

Por dnde empezar?

Como comentamos en el artculo anterior, es necesario controlar los cambios, los recursos, los costos, ylas expectativas durante el desarrollo del proyecto. La construccin de un prototipo puede aclarar, resolver y ajustar el alcance y los objetivosque se pueden lograr con la tecnologa de BI, si el resultado del prototipo es positivo, pude incurrir en la compra de una herramienta o el desarrollo delproyecto con alcances y objetivos ms realistas.Para comenzar el prototipopresentaremos la metodologa que emplearemos en su construccin: La metodologaCRISP-DM (Cross Industry Standard Process for Data mining),propia de aquellos proyectos que emplean minera de datos o sistemas inteligentes en su desarrollo.CRISP-DM, incluye dentro de sus fases las fases tpicas de un proyecto, las tareas relacionadas con cada fase y una explicacin de las relaciones entre estas tareas. CRISP-DM puede ser usada como un modelo de referencia que ofrece una visin general del ciclo de vida de los proyecto que emplean sistemas inteligentes ya sean tcnicas deminera de datos, aprendizaje o anlisis avanzados.Algunas referenciaslas encuentran enhttp://www.spss.ch/upload/1107356429_CrispDM1.0.pdf, yhttp://crispdm.wordpress.com/

La siguiente figura muestra las fases que componen la metodologa.

El modelo consta de seis fases. La secuencia de las fases no es obligatoria ni rgida. La interaccin entre las fases se da de acuerdo a la naturaleza, ritmo y avancedel proyecto. La interaccin puede ser en cualquier sentido y el modelo es completamente adaptable al proyecto de BI.

Fases de CRISP-DM: Entendimiento del negocio

El entendimiento del negocio es la primera fase de la CRISP-DM y comprende los siguientes puntos:

1.Determinar los objetivos del negocioAntecedentesObjetivos del negocioCriterios de xito

2.Situacin ActualInventario de recursosRequerimientosSupuestos, restricciones, riesgos y contingenciasTerminologaCostos y beneficios

3.Determinar las metas de la minera de datosMetas de la minera de datosCriterio de xito de la minera de datos

4.Generar el plan de trabajoPlan del proyecto inicialInventario de tcnicas y herramientas

Esta fase es una de las ms importantes y requiere que todos los involucrados estn de acuerdo en los puntos que la conforman.

Aplicando la metodologa al piloto.

Las fases correspondientes al entendimiento del negocio y el entendimiento de los datos son las ms importantes en la preparacin del proyecto. Es posible regresar a ajustar detalles a estas fases de acuerdo a los resultados que se obtengan en la preparacin de datos.

Determinar los objetivos del negocio

AntecedentesPlanteamiento del contexto (las situaciones, problemtica etc.), tantoanterior como actual de la empresa. Incluyendo los eventos o situaciones que originan y justifican la necesidad de efectuar el proyecto.

Eje.(resumiendo) En el piloto: Las ventas no han sido las esperadas en los aos anteriores y el inventario no es ptimo.

Objetivos del negocioIncrementar las ventasIncrementar utilidadesOptimizar los inventarios

Criterios de xitoRealizar un entendimiento adecuado del negocio y de los datos.Contar con el patrocinio de los directores

Situacin Actual

Inventario de recursosNo hay software de BIUna desarrollador ( tcnico de TI)Gerente y personal de apoyoRed localInternet

RequerimientosSegmentar clientes,Incrementar ventas,Eliminar productos que no reditan un beneficio econmico,Permitir un seguimiento de las ventas.

Supuestos, restricciones, riesgos y contingenciasVer artculo anterior (art 30).

Terminologa

Costos y beneficiosPueden ser estimados despus del prototipo

Determinar las metas de la minera de datos

Metas de la minera de datosSegmentar clientes,comportamiento de venta,pronsticos de ventas a futuro

Criterio de xito de la minera de datosCalidad de los datosEntendimiento de los datos exitosoSupervisin de los resultados parciales

Generar el plan de trabajo

Plan del proyecto inicialPuede ser el plan de trabajo del prototipo

Inventario de tcnicas y herramientasEn mi opinin aqu hay que regresar una vez que se conoce la naturaleza de los datos.

En el siguiente artculo examinaremos la siguiente fase de CRISP- DM, acoplndola de igual manera al desarrollo de nuestro piloto.http://www.sistemasinteligentespyme.com/2012/06/132-metodologia-para-proyectos-de.html

1.33 Metodologa para proyectos de Inteligencia de Negocio (BI). Segunda ParteDra. Dafne Rosso PelayoLa inteligencia de negocio en la empresa, slo puede lograrse mediante la adopcin de medidas para alcanzarla.

En el artculo anterior iniciamos la construccin de un prototipo de BI empleandoCRISP-DM (Cross Industry Standard Process for Data mining)(1), una metodologa para proyectos que emplean minera de datos particularizando en la primera fase de la metodologa concerniente al entendimiento del negocio.En este artculo continuaremos describiendo la metodologa CRISP-DM, esta vez plantearemos su segunda fase relacionada con el entendimiento de los datos,permtanme nuevamente comentar la importancia que tienen las primeras dos fases para el xito del desarrollo de las soluciones de BI.

Entendiendo los datosComo comentamos en el artculo anterior, la metodologa que empleamos es una metodologa iterativa, dado que es necesario controlar los cambios, los recursos, los costos, ylas expectativas durante el desarrollo de cualquier proyecto de BI, el uso de una metodologa secuencial tradicional con iteraciones rgidas, aumenta el riesgo en eldesarrollo, el trmino y el xito del proyecto.Tanto la fase uno (Entendimiento del negocio) como las siguientes dos fases (Entendimiento de datos y Preparacin de datos) se encuentranen gran medida relacionadas, de manera que la iteracin entre ellas va a ser grande, esto es, por ejemplo,un cambio en el entendimiento de los datos puede propiciar un cambio de alcance.Al estar estas fases muy relacionadas es casi seguro que el desarrollo de la segundafase va a implicar que conforme se avance en su construccin (lo que significa que se va a profundizaren el entendimiento y acercamiento a los datos), deba regresar a la fase uno a realizar los ajustes pertinentes,lo mismo pasar en el desarrollo de la fase tres la cul es la preparacin de los datos.Para ubicarnos en que paso vamos, presentamos nuevamente la siguiente figura que muestra las fases integrantes de la metodologa.

Fases de CRISP-DM: Entendimiento de datosEl entendimiento de datoses la segunda fase de la CRISP-DM y comprende los siguientes puntos:

1.Recoleccin inicial de datos

2.Descripcin de datos

3.Exploracin de datos

4.Validacin de la calidad de datos

Esta fase es tambin al igual que la fase uno, una de las ms importantes y requiere que todos los involucrados estn de acuerdo en los puntos que la conforman.Aplicando la metodologa al piloto.Elaboremos ahora un esquemaque le permita darse una idea de que debe de hacer y a que debe de llegar en cada uno de estos pasos.

Pasos en el entendimiento de los datos

1.Recoleccin inicial de datos

En este paso se va a seleccionar el conjunto de datos sobre los cules se trabajar para alcanzar las metas, alcances y objetivos fijados en la fase uno.

No basta con determinar el conjunto de datos y hacer un listado de aquellos datos que son requeridos.Es necesario analizar estos datos y ver cmo estn conformados, su procedencia, cmo y a travs de qu mtodo se pondr el dato a disposicin de la solucin de BI, frecuencias, es decir cada cuando cambia o se obtiene el dato,reglas de negocio asociadas con el dato, por ejemplo el costo de mano de obra no puede rebasar el 20% del costo de produccin, trasformaciones que sufra o integracin con otros datos, dependencias o relaciones entre datos, y cualquier otro evento propio de la naturaleza de su negocio que afecte o se relacione con el dato en cuestin.

A continuacin, describimos y aplicamos al prototipo algunos de estos puntos

Catalogo/Listado de datosSeleccin del conjunto de datos que permitir cumplir los objetivos citados en la fase uno, es probable que esta seleccin modifique el alcance del proyecto.

Para nuestro piloto:Clientes, datos del cliente (sexo, edad, etc.)Productos ( Marcas, tipos, categoras , etc)Descriptivos de productos (Tallas , colores , costo, etc)Promociones (descuento, frecuencia, meses sin intereses, etc.)Tienda (sucursal, zona, etc.)Tipo de pago (efectivo, tarjeta, )

FuentesOrigen del dato para cada dato.

Para el piloto: en los datos la mayora en archivos XLS, y otros no existen hay que arar catlogos.

Reglas de negocio, trasformacionesPara cada dato realizar un entendimiento adecuado del negocio y de los datos.

Para el piloto:Los productos que sean nuevos no pueden tener descuento.Los productos de ciertas marcas solo entran a meses sin intereses.Se acepta pago con tarjeta a partir de cierta cantidad de dinero.Se solicita mercanca hasta agotar el 75 % de la existenciaEtc.

IntegracinVerificar si un dato es el resultado de la integracin de varios. Ej. la utilidad es la integracin de la utilidad de todas las sucursales.

MtodosPara cada dato verificar como va a llegar ese dato a la solucin.

Para el piloto: pasar el/los archivos xls a una base de datos diseada y modelada para la solucin de BI.

Supuestos, restriccionesVerificar si existen supuestos en la informacin y de preferencia solo tomar informacin existente, comprometida y real.

La informacin que se pretende conseguir muchas veces no es factible conseguirla, por lo tanto retrasa y desajusta alproyecto.

2.Descripcin de los datos

Para cada uno de los datos seleccionados es necesario describirlo en trminos delformato de los datos, la cantidad de datos (por ejemplo, el nmero de registros y campos en cada tabla), lasclavesde los campos.

Ej. ClienteTipo de dato: AlfanumricoNmero de registros(clientes registrados) : 5,000Clave de identificacin:nmero de clienteCampos relacionados : 15Identificacin de campos relacionados: nombre, nivel de cliente, direccin,

Exploracin de datos

Para el conjunto de datos es deseable verificar la existencia de relaciones y dependencias entre ellos determinadas por el negocio intrnsecas a la naturaleza de los datos, previo a la construccin de la solucin de BI.

Esta labor puede realizarse mediante la consulta, visualizacin yreportes. Es posible bajo un anlisis simple determinar las relaciones del atributo clave, resultados de agregaciones simples, y anlisis estadsticos bsicos.

Estos anlisis pueden abordar directamente los objetivos de minera de datos plasmados en la fase uno; y pueden contribuir a mejorar la descripcin de los datos, los informes de calidad, las necesidades de transformacin y otros pasos necesarios en la siguiente fase dela preparacin de datos.

Ej. Descuento en zapatos > 20%compras >2 pares por cliente.Color ms vendido, talla ms solicitada. Etc.

Validacin de la calidad de datos

La completes y congruencia de los datos son dos factores de xito en el desarrollo del proyecto. Las tcnicas y algoritmos de minera de datos permiten dar un tratamiento a la informacin faltante o incompleta. Es importante examinar la calidad de los datos en este sentido para tomar los criterios y decisiones sobre el tratamiento y resolucin tanto de las excepciones comode las anomalas que se presenten en la informacin.

1.34 Metodologa para proyectos de Inteligencia de Negocio (BI). Tercera ParteDra. Dafne Rosso PelayoLa inteligencia de negocio en la empresa, slo puede lograrse mediante la adopcin de medidas para alcanzarla.

En el artculo anterior abordamos la segunda fase deCRISP-DM (Cross Industry Standard Process for Data mining)(1)y continuamos con la construccin de un prototipo de BI.En este artculo continuaremos describiendo la metodologa CRISP-DM, esta vez plantearemos su tercera fase relacionada con la preparacin de los datos.

Preparandolos datosRepasando, CRISP-DM es una metodologa gil iterativa, las fases que maneja estnrelacionadas con su fase predecesora y/o sucesora de tal manera que el cambio se manejacon menores impactos en comparacin con las metodologas tradicionales.La tercera fase Preparacin de Datos est ampliamente relacionada con la fase dos Entendimiento de los datos, por lo tanto es altamente probable que al realizar la preparacin de los datos se deba regresar a la fase anterior a entender o definir nuevamente algn dato que fue mal interpretado o que se incorpora.La siguiente figura muestra las fases integrantes de la metodologa.

La preparacin de los datos es una parte crtica dentro del anlisis avanzado de informacin, ya sea que se trate de efectuar un anlisis estadstico, un anlisis de minera de datos o textos o bien para la construccin de un sistema de descubrimiento de conocimiento.En elartculo 7presentamos una diferencia importantsima entre los que es la minera de datos y un sistema de descubrimiento de conocimiento en las bases de datos. Un sistema de descubrimiento de conocimiento en las bases de datos incluye la preparacin de losdatos, la extraccin de patrones de los datos (minera de datos) y la preparacin de los modelos predictivos y/o de aprendizaje, mientras que la minera de datos se refiere slo a la extraccin de patrones en los datos.

Figura 2. Sistema de descubrimiento de conocimiento en las bases de datos

La fase de preparacin de datos es un actor de xito, sin ella no puede generarse satisfactoriamente ningn anlisis avanzado o sistema inteligente.La preparacin de los datos consta de: validacin, transformaciny seleccin.

Figura 3. Preparacin de los datos

Puede consultar elartculo 7para la definicin ycontenido de cada uno de estos pasos.En este artculo veremos la preparacin de los datos desde el punto de vista de CRISP-DM.

Fases de CRISP-DM: Preparacin de datosLa preparacin de datoses la tercera fase de la CRISP-DM y comprende los siguientes puntos:

1.Seleccin de datos2.Limpieza de datos3.Construccin de Datos4.Integracin de datos5.Formato de datos

Esta fase es tambin al igual que la fase uno y dos, esimportante y requiere que todos los involucrados estn de acuerdo en los puntos que la conforman.Aplicando la metodologa al piloto.Elaboremos ahora un esquemaque le permita darse una idea de que debe de hacer y a que debe de llegar en cada uno de estos pasos.

Pasos en la preparacin de los datos

1.Seleccin de datos

En este paso se van a seleccionar los conjunto de datos sobre los cules se aplicarn las tcnicas de anlisis avanzado para alcanzar las metas, alcances y objetivos fijados en la fase uno.

Es probable que se determinen no slo uno sino varios conjuntos de datos,a travs derealizar diferentescombinaciones de los atributos que fueron estudiados e incluidos en la fase dos.

A continuacin describimos y aplicamos al prototipo algunos de estos puntos

Ejemplo

Para nuestro piloto generaremos varios conjuntos de datos en los cuales est incluida: la marca, el precio y la tienda.Esto nos permitir realizar segmentos del mercado y detectar patrones de comportamiento solo para ciertos datos y no para todo el conjunto.

Segmentar clientesSeleccin del conjunto de datos que permitir cumplir los objetivos citados en la fase uno, es probable que esta seleccin modifique el alcance del proyecto.

Para nuestro piloto:Clientes, datos del cliente (sexo, edad, etc.)Productos (Marcas, tipos, categoras, etc.)

Crear nuevas promocionesPara nuestro piloto:Segmentos de Clientes generados.Productos (Marcas, tipos, categoras, etc.)Descriptivos de productos (Tallas, colores, costo, etc.)Promociones (descuento, frecuencia, meses sin intereses, etc.)Tienda (sucursal, zona, etc.)Tipo de pago (efectivo, tarjeta, )

Elasticidad en el precio de las promocionesDatos de ventasResultados anteriores,

Etc...Tantos grupos como sean necesarios segn sus metas.

2.Limpieza de datos

Es necesario negociar y determinar cul ser el tratamiento que se emplear para aquellos datos incompletos, omitidos, errneos, etc.

Es importante involucrar al dueo de los datos en las decisiones de limpieza para no generar criterios de remplazo errneos y que ocasionen desviaciones o mayor dispersin en los anlisis estadsticos.

En nuestro pilotoPara datos omitidos o errneos: sustituir las caractersticas del producto por aquellos que presenten el valor ms repetido (moda de la serie).No considerar al cliente si faltan ciertos datos personales.

Para datos numricos: Colocar el precio promedio del conjunto del mismo tipo en los valores omitidos.Etc.

3.Construccinde datos

En los anlisis estadsticos de minera de datos, para detectar tendencias, patrones de comportamiento, grupos, etc... , es frecuente que se incluyan datos que no fueron considerados en la seleccin inicial y que incluso pueden no formar parte del negocio. Se trata de incorporar datos (muchas veces del exterior) que proporcionen ms informacin o ayuden a afinar los anlisis. Por ejemplo. En elartculo 25platicamos sobre la venta de caf, la venta de caf tiene una fuerte correlacin con otras variables externas, una de ellas es la temperatura ambiente, mientras ms baje la temperaturamayor ser la venta de caf.

Para realizar un pronstico predictivo ms asertivo es indispensable aadir nuevos datos que aporten valor al anlisis.

Las reglas de negocio, las trasformaciones y variantes de los datos en el negocio deben de ser consideradas en esta parte.

Para el piloto:

Los productos que sean nuevos no pueden tener descuento. -> Nuevo (0 o 1)Los productos de ciertas marcas solo entran a meses sin intereses.-> TIPO_PROMO (1, 2,...,N)Se acepta pago con tarjeta a partir de cierta cantidad de dinero. ->TARJETA(0 /1)Etc.

En nuestro ejemploIncorporaremos varias variables, entre ellas,Da festivo:si se trata de un da festivo (0 , 1)

4. Integracin de datos

Los datos preparados en los pasos anteriores muchas veces sern integrados (unidos) para su anlisis en campos nuevos.

5. Formato de datos

De ser necesario hacer un reformateo a los datos. En trminos de anlisis para poder realizarlos es ms en algunos casos necesario asignar claves numricas a los datos nominales que procesar textos.

Por ejemplo, en lugar de femenino /masculino podemos usar1/0

1.35 Metodologa para proyectos de Inteligencia de Negocio (BI). Parte Final

Dra. Dafne Rosso PelayoLa inteligencia de negocio en la empresa, slo puede lograrse mediante la adopcin de medidas para alcanzarla.

En el artculo anterior abordamos la tercera fase deCRISP-DM (Cross Industry Standard Process for Data Mining)(1) y continuamos con la construccin de un prototipo de BI.En este artculo finalizaremos el ejercicio desarrollado con la metodologa CRISP-DM, plantearemos la cuarta, quinta y sexta fases relacionadas con la elaboracin del modelo analtico y la implementacin del mismo.

Fase de Preparacin de datosComo ya se mencion en el artculo anterior planteamos la tercera fase de CRISP-DM, Preparacin de Datos la cual est ampliamente relacionada con la fase dos Entendimiento de los datos, por lo tanto es altamente probable que al realizar la preparacin de los datos se deba regresar a la fase anterior a entender o definir nuevamente algn dato que fue mal interpretado o que se incorpora. El incremento o decremento de la dimensionalidad del conjunto de datos (esto es el incremento o decremento de atributos) tambin es factible de efectuarse en la fase de preparacin a fin de lograr explicar mejor el comportamiento de los datos y obtener modelos con resultados ms precisos.La siguiente figura muestra las fases integrantes de la metodologa.

Figura 1. Metodologa CRISP-DM(1)

Ahora estamos listos para efectuar el modelado de los datos, la fase anterior nos dio el conocimiento necesario para saber que tipo de algoritmo emplear en los datos, esto es si conocemos la estructura de los datos y sabemos que buscamos un resultado binario como puede ser pertenecer o no pertenecer a una clase o Target, por ejemplo spam o no spam, o un atributo especifico como resultado, o bien, la categora, tipo de especie, etc., deberemos usar un algoritmo de clasificacin.Si lo que queremos es encontrar que eventos suceden en conjunto en una transaccin, es decir necesitamos descubrir que cuando ocurre el evento A ocurre el evento B, entonces deberemos usar un algoritmo de asociacin.Si por el contrario no conocemos la estructura de los datos y lo que necesitamos es encontrar patrones naturales del comportamiento de nuestro conjunto datos, a fin de agrupar los comportamientos similares, es probable que estemos frente a una segmentacin, por los tanto emplearemos algoritmos de agrupamiento o clustering.

Si estamos frente a un set numrico y necesitamos la prediccin de los valores siguientes, es decir, valores a futuro (prediccin de ventas, gasto, demanda, etc..) o de los valores siguientes en el tiempo, usaremos algn algoritmo predictivo y si est asociado a una fecha probablemente emplearemos algoritmos que trabajen con series de tiempo.

Figura 2. Exploracin de datos

La fase de preparacin de datos es un factor de xito, sin ella no puede generarse satisfactoriamente ningn anlisis avanzado o sistema inteligente.El modelado puede efectuarse con una herramienta de uso libre como R, Weka, RapidMiner o con otra plataforma analtica como SPSS o SAS. Tambin es posible hacer la programacin de los modelos (siempre que el volumen de datos no sea excesivo) y conozca la manera en que funciona e itera el algoritmo que desea emplear por ejemplo: el algoritmo de clasificacin ID3 y el algoritmo Apriori son algoritmos no complicados de programar, sin embargo, el volumen de datos puede hacer de la programacin una solucin no factible.

Figura 3. Exploracin de Datos en la fase de Preparacin de los datos

Figura 4. Exploracin de Datos en la fase de Preparacin de los datos (Edad vs Tipo)

Fases de CRISP-DM: ModeladoEn la construccin del modelo, generaremos un modelo de minera de datos empleando un algoritmo de clasificacin, este ejercicio lo realizamos en el art 5 y 6, empleando un algoritmo ID3, en este articulo emplearemos un rbol de decisin C5 y esta vez utilizaremos la herramienta estadstica y de minera de datosR, para su construccin.Los algoritmos de clasificacin permiten encontrar los patrones de comportamiento en forma de reglas y/o rboles, que obedecen a un atributo (target) de nuestro inters; en nuestro caso, tratamos de encontrar los patrones de compra que obedecen a los tipos de producto, por lo tanto nuestro target es el atributo Tipo que de acuerdo a nuestro diccionario de datos generado en el art 32 contiene el tipo de producto.En el uso de herramientas de minera de datos los algoritmos requieren de un conjunto de datos de entrenamiento y un conjunto de datos prueba.El conjunto de datos de prueba permite realizar la validacin del modelo, para determinar la calidad de los resultados obtenidos.

Aplicando la metodologa al piloto.

Nuestro conjunto de datos se encuentra en Excel, la herramienta estadstica y de minera de datos R es de uso libre. R es ampliamente usada en la comunidad cientfica en la resolucin de problemas analticos. Actualmente las plataformas lderes en minera de datos como SPSS y SAS cuentan con interfaces a R.Aplicando en R el algoritmo de clasificacin C5 el cul maneja el concepto de entropa visto en el art xx. Tenemos el siguiente conjunto de reglas resultantes:

> treeModel treeModel

Call:C5.0.default(x = ventas[, -11], y = ventas$Tipo)

Classification TreeNumber of samples: 279Number of predictors: 10

Tree size: 7

Non-standard options: attempt to group attributes

> summary(treeModel)

Call:C5.0.default(x = ventas[, -11], y = ventas$Tipo)

C5.0 [Release 2.07 GPL Edition] Tue Apr 21 16:59:41 2015-------------------------------

Class specified by attribute `outcome'

Read 279 cases (11 attributes) from undefined.data

Decision tree:

Tipo = coches/barcos/aviones: coches/barcos/aviones (18)Tipo = construccion: construccion (63)Tipo = juego de mesa: juego de mesa (45)Tipo = montables: montables (27)Tipo = mueca/mueco: mueca/mueco (45)Tipo = mueca/mueco accion: mueca/mueco accion (45)Tipo = peluche: peluche (36)

Evaluation on training data (279 cases):

Decision Tree ---------------- Size Errors

7 0( 0.0%)