MINERIA DE DATOSjvillena/irc/practicas/03-04/20.mem.pdfEntre las técnicas que emplea WEKA podemos...

23
1 MINERIA DE DATOS WEKA Francisco Ferrero Mateos MªJesús Martínez Vega 5ºIngeniería Superior de Telecomunicación Universidad Carlos III

Transcript of MINERIA DE DATOSjvillena/irc/practicas/03-04/20.mem.pdfEntre las técnicas que emplea WEKA podemos...

  • 1

    MINERIA DE DATOS

    WEKA

    Francisco Ferrero Mateos MªJesús Martínez Vega

    5ºIngeniería Superior de Telecomunicación Universidad Carlos III

  • 2

    INDICE

    1.- INTRODUCCIÓN .................................................................................................................................3 2.- ALGORITMOS .....................................................................................................................................3

    2.1.- DATOS NOMINALES...................................................................................................................3 2.1.1.- OneR ........................................................................................................................................3 2.1.2.- J4.8 ...........................................................................................................................................4

    2.2.- DATOS NUMÉRICOS...................................................................................................................5 2.2.1.- ÁRBOL DE DECISIÓN DE UN NIVEL (Decision Stump)...................................................5 2.2.2.- M5' ...........................................................................................................................................5

    2.2.2.1.- Árboles de decisión vs árboles de regresión .....................................................................5 2.2.2.2.- Descripción M5' ................................................................................................................5

    3.- RESULTADOS......................................................................................................................................7 3.1.- CONCEPTOS PREVIOS................................................................................................................7

    3.1.1.- Qué es la validación cruzada (cross-validation). .....................................................................7 3.1.2.- Evaluación de esquemas de aprendizaje. .................................................................................7 3.1.3.- Datos nominales. ......................................................................................................................7 3.1.4.- Datos numércos........................................................................................................................8

    3.2.- DATOS NOMINALES...................................................................................................................9 3.2.1.- OneR. .......................................................................................................................................9 3.2.2 .- J4.8. .......................................................................................................................................13

    3.3.- DATOS NUMERICOS.................................................................................................................20 3.3.1.- Decision Stump. .....................................................................................................................20 3.3.2.- M5’.........................................................................................................................................22

  • 3

    1.- INTRODUCCIÓN En ésta, la conocida como sociedad de la información, estamos acostumbrados a manejar cada

    vez un mayor número de datos. Volúmenes gigantescos e inclasificados de datos fluyen como un manantial en los distintos puntos de acceso a la información que nos proporcionan las nuevas tecnologías. La minería de datos tiene como fin explotar todo ese enorme volumen de datos para descubrir información, catalogar descubrimientos y ayudar, mediante estos, a la toma de decisiones.

    La minería de datos nos proporciona toda una serie de técnicas para la selección, procesado, clasificación, evaluación e interpretación de la información, a fin de poder conseguir que, dado un gran volumen de datos (nicho) se consiga extraer un conocimiento. Mediante las diferentes etapas en que podríamos dividir el proceso de minería de datos (selección de datos, preprocesado, selección de características, extracción de conocimiento, interpretación y evaluación) conseguimos pasar de DATOS a un modelo de CONOCIMIENTO.

    Entre las técnicas que emplea WEKA podemos distinguir entre técnicas descriptivas y predictivas. Dentro de las primeras podemos trabajar con segmentación o "clustering" o bien con métodos de clasificación de datos. A su vez, dentro de los métodos de clasificación supervisada podemos hablar de clasificación basada en árboles de decisión en contraposición a la clasificación neuronal.

    Precisamente, el primero de los algoritmos que hemos seleccionado para obtener el modelo de clasificación del archivo de datos nominales es el C4.5 de J4.8, que es clasificación en base a árboles de decisión que explicaremos en el siguiente apartado. En contraposición a este método hemos escogido el más simple, OneR, , para hacer una comparativa de los resultados obtenidos con ambos sobre los datos nominales.

    En cuanto a los algoritmos que vamos a emplear para la elaboración del modelo de los datos numéricos, también vamos a tirar de clasificadores basados en árboles: M5' (basado en árboles de regresión) y Árboles de decisión de un nivel, siguiendo la tónica del análisis de los primeros datos, en donde comparamos el método más sencillo con otro más complejo.

    2.- ALGORITMOS Ahora vamos a hablar un poco sobre los métodos que hemos utilizado. En cuanto a los datos

    nominales hemos recurrido a los algoritmos J4.8 (implementación de C4.5) y OneR.

    2.1.- DATOS NOMINALES

    2.1.1.2.1.1.2.1.1.2.1.1.---- OneR OneR OneR OneR

    OneR es un algoritmo de clasificación simple y muy efectivo frecuentemente usado en aplicaciones de aprendizaje de máquinas. A pesar de que es difícil mejorar OneR debido a su sencillez puede lograrse utilizando mejores métodos para manejar algunas de las excepciones.

    OneR viene de One Rule, es un algoritmo de clasificación que genera un árbol de decisión de un único nivel. OneR es capaz de inferir reglas de clasificación a partir de un conjunto de instancias. El algoritmo crea una regla para cada atributo en los datos de entrenamiento, luego escoge la regla con la

  • 4

    tasa de error1 más pequeño como su "one rule". Para crear una regla para cada atributo debe determinarse la clase más frecuente para cada valor del atributo.

    El algoritmo OneR implementado en WEKA es muy efectivo deduciendo la "one rule" basado en un único atributo. Las desventajas que podemos advertir en este algoritmo son:

    i) El algoritmo trata todos los atributos numéricamente evaluados como continuos usa un método directo para dividir el rango de valores en intervalos disjuntos. Esto introduce un riesgo de "overfitting" en el caso de atributos evaluados de forma continua, por ejemplo: números de teléfono, etc… ii) El "overfitting" de atributos nominales con valores unicos tales como nombres de personas, direcciones de correo electrónico, etc… iii) Selección aleatoria de un atributo cuando las tasas de error son iguales. iv) Selección aleatoria de una clase cuando dos o más clases dan la misma tasa de error con un atributo.

    2.1.2.2.1.2.2.1.2.2.1.2.---- J4.8J4.8J4.8J4.8 Se trata de una implementación propia de WEKA para el algoritmo C4.5, un algoritmo basado en

    clasificación por árbol de decisión. El algoritmo ofrece la posibilidad de poder parar antes de alcanzar las hojas en cada subárbol; esto dará lugar a árboles menos refinados, por decirlo de alguna forma, y ayudará a evitar el "overfitting".

    Se pueden utilizar dos parámetros para parar el algoritmo. Por un lado tenemos el minNumObj (m): establece un límite inferior para del número de elementos que deben estar en un conjunto para que pueda ser particionado. Cuando un nodo contiene menos de m instancias no se le divide o reparte más. Por otro lado está el confidenceFactor: el algoritmo considerará que ha terminado para un subconjunto E si la tasa de desclasificados en ese subconjunto es menor un umbral especificado.

    Si aumentamos el valor de minNumObj y confidenceFactor normalmente reducimos la fiabilidad de los árboles de decisión resultantes y reglas como puede resultar el parar la construcción del árbol de decisión demasiado pronto.

    Existen otra serie de parámetros como son: reducedErrorPruning: poda el árbol para optimizar la realización en un conjunto provisional. Esta opción determina el tamaño del conjunto. Los datos son particionados equitativamente en un número de partes, por defecto 3, y el último es usado como el conjunto; numFolds: especifica el número de pliegues para la poda con error reducido; unPruned: esta opción puede usarse para determinar cuando podar un árbol o no, de hecho si esta opción está a true reducedErrorPruning no puede ponerse a true; BinarySplits: usa árboles binarios en lugar de uno con brazos multicamino para atributos nominales.

    Para que nos podamos hacer una idea de cómo funciona alguno de estos parámetros, podemos decir que si aumentamos minNumObj de 2 a 10, el porcentaje de instancias clasificadas correctamente decrece un 4% y el tamaño, consecuentemente, tabién disminuye. Si aumentamos el confidenceFactor de un 0.25 a un 0.75, la fiabilidad disminuye un 0.74%.

    A la pregunta de cómo elegir la repartición de datos para construir el arbol podemos pensar en la

    forma natural de hacerlo que sería favorecer a los atributos con más valores frente a aquellos con menos posiles valores, y aquel con mayor posibilidad o rango de valores se colocará como nodo raíz, pero esto conduce a árboles de decisión muy anchos, amplios, pero de escasa profundidad, profundidad uno. Como podemos apreciar, esto no resulta un predictor muy útil. Una forma de solucionar esta dificultad a la hora de separar los datos es seleccionar atributos de decisión basados en alguna otra medida. La medida radio de ganancia penaliza los atributos incorporandoles un término denominado "split 1 La tasa de error de una regla es el número de instancias de los datos de entrenamiento en los que la clase del valor de un atributo no concuerda con la asociación que la regla le da al valor de ese atributo.

  • 5

    information", que es sensible a cómo de amplia y uniformemente el atributo tiene repartidos los datos. Este término, desanima la selección de atributos con muchos valores distribuidos uniformemente. Y de esta forma, con los atributos penalizados de forma correspondiente, podremos realizar la elección de la repartición.

    2.2.- DATOS NUMÉRICOS

    2.2.12.2.12.2.12.2.1....---- ÁRBOL DE DECISIÓN DE UN NIVEL (DecÁRBOL DE DECISIÓN DE UN NIVEL (DecÁRBOL DE DECISIÓN DE UN NIVEL (DecÁRBOL DE DECISIÓN DE UN NIVEL (Decision Stump)ision Stump)ision Stump)ision Stump)

    El algoritmo que nos ocupa es el más sencillo de los que se disponía eneste apartado y por analogía a lo dicho en el apartado de datos nominales, se compararán las mejoras que supone la utilización de árboles de modelado en lugar de árboles de decisión clásica.

    Este algoritmo construye un simple árbol de decisión binaria de único nivel (se intuye pues que

    el error de predicción va a ser altísimo) dicho algoritmo se aplica indistintamente a conjuntos de datos nominales o numéricos. El manejo que realiza de los valores inclasificables consiste en la adición de una tercera rama unida al nodo raíz cuyo atributo es inclasificable (missing).

    Sólo cabe decir que este algoritmo no se suele utilizar por separado, sino en metaesquemas de aprendizaje combinándose con métodos.

    2.2.22.2.22.2.22.2.2....---- M5'M5'M5'M5' 2.2.2.1.- Árboles de decisión vs árboles de regresión

    Los árboles clásicos de decisión suelen emplearse para la clasificación de atributos discretizabes.

    En el caso de los árboles de regresión (model trees) son los atributos numéricos contínuos los que pueden ser clasificados. Para dicha clasificación se parte de un árbol de decisión de profundida uno en el que se aplican funciones de regresión a los nodos finales en lugar de colocar clases. Los resultados generados suelen ser mucho más fiables que los resultados obtenidos mediante los árboles e decisión clásicos.

    2.2.2.2.- Descripción M5' La construcción y uso de modelos de los árboles de regresión ("model trees") fueron escritos por

    Quinlan basados en el esquema M5. Sería conveiente explicar dos ideas principales a cerca de este tipo de árboles. La primera de ellas es que se implementa una regresión lineal sobre las hojas del arbol de decisión creado, las variables que intervienen en dicha regresión son todos aquellos atributos que participan en las decisiones del nodo del subárbol que fue podado. Si este paso es omitido y el objetivo es la media entre el valor de los ejemplos obtenidos en el entrenamiento en cada hoja, a este tipo de árboles se les denomina árboles de regresión. La segunda es qe primero se debe aplicar el modelo anterior para predecir un cierto valor, y después se debe filtrar dicho valor a lo largo del camino de regreso hacia el nodo raíz, combinandolo con el valor predicho en el modelo lineal para cada nodo por el que va pasando.

    El procedimiento consiste en lo siguiente. El proceso de entrenamiento consta de los siguientes pasos:

  • 6

    Se deben de obtener nuevos conjuntos de datos a partir de original para cada posible valor de una clase. Cada nuevo conjunto de datos contiene el mismo número e instancias que el original con el valor de clase puesto a uno si dicho conjunto se refiere a la clase apropiada.

    Sobre dichos conjuntos se debe aplicar el proceso inductivo del modelado de árboles para generar un modelo para cada subconjunto de datos. Para cada una de las instancias la salida de estos modelos constituye una aproximación a la probabiliad de que esa intancia pertenezca a una determinada clase, por lo tanto, todos los valores obtenidos son aproximaciones y sus suma no tiene por qué dar uno.

    En el procedimiento de testeo para una instancia determinada se quiere saber la clase a la que pertenece por lo que dicha instacia se procesa con cada uno de los valores obtenidos en el proceso de entrenamiento. El resultado será una aproximación a la probabilidad de que esa insancia pertenezca a una clase determinada. Por lo tanto, aquel modelo que de una probabilidad aproximada mayor será la clase predicha.

  • 7

    3.- RESULTADOS.

    3.1.- CONCEPTOS PREVIOS

    3.1.1.3.1.1.3.1.1.3.1.1.---- Qué Qué Qué Qué es la validación ces la validación ces la validación ces la validación crrrruzada (crossuzada (crossuzada (crossuzada (cross----validation).validation).validation).validation).

    El procedimiento que debemos seguir se basa en tres conjuntos fundamentales: datos de entrenamiento, datos de validación, datos de test. ¿Cómo hacer la división entre datos para entrenamiento y datos de test?. Nuestro deseo es el conjunto de datos más grande posible tanto de test como de entrenamiento y valoraremos en función de este deseo.

    Durante el desarrollo del análisis de datos hablaremos de la cross-validation. Esta evita el

    solapamiento de los conjuntos de test. En un primer paso los datos se dividen en k subconjuntos de igual tamaño. En un segundo paso esos subconjuntos se utilizan para testear el entrenamiento. Esto se conoce como k-pliegues validación cruzada.

    Si además dichos subconjuntos se alteran de forma aleatoria para conseguir que la aparición de

    una determinada clase en el test tenga la misma probabilidad se denomina validación cruzada estratificada (sólo válida para datos nominales).

    El método estándar es el de 10 pliegues, ¿por qué 10?, porque diversos estudios han demostrado

    que es el valor adecuado para conseguir una estimación fiable.

    3.1.2.3.1.2.3.1.2.3.1.2.---- Evaluación de esquemas de aprendizaje. Evaluación de esquemas de aprendizaje. Evaluación de esquemas de aprendizaje. Evaluación de esquemas de aprendizaje.

    El primer dato que del que nos tenemos que fijar es el coeficiente de correlación. Hay que distinguir si estos datos son nominales y si son numéricos. Si son nominales dicho coeficiente juega con la probabilidad de que un objeto pertenezca a una determinada clase. Si son datos numéricos dicho coeficiente juega con con el valor del atributo y su valor predicho por el clasificador.

    El resto de parémetros de error discuten el comportamiento del clasificador determinando en

    cuantas ocasiones la clasificación ha sido errónea.

    3.1.3.3.1.3.3.1.3.3.1.3.---- Datos nominales. Datos nominales. Datos nominales. Datos nominales.

    Para el trabajo con datos nominales se ha escogido el archivo wovel.arff que contiene los datos de 8 personas pronunciando un total de 11 vocales (que identificamos como clases ). Cada persona ha hecho 66 realizaciones (instancias) con lo que se tienen un total de 528 instancias (realizaciones de una vocal por una persona). En cada realización se tienen distintos valores de la vocal pronunciada (atributos) por esa persona, y de esas 66 realizaciones se repiten varias veces la misma vocal. Se han retirado del archivo todas las instancias cuyo objetivo era el procedimiento de testeo ya que para verificar la validez del esquema de aprendizaje se ha empleado la validación cruzada cuyo modo de operación se explica en este apartado.

  • 8

    El objetivo buscado con la realización de un clasificador es inducir a qué clase pertenece una instancia determinada a partir de los valores que la componen.

    3.1.4.3.1.4.3.1.4.3.1.4.---- Datos numércos. Datos numércos. Datos numércos. Datos numércos.

    Para el trabajo con datos numéricos se ha optado por el archivo pollution.arff, el cuál cuenta con 16 atributos sobre datos sobre la contaminación en diversos países (60 instancias) en el que se relacionan datos medioambientales y datos sociales para intentar deducir cuál es la tasa de mortalidad (clase) en función de la contaminación del aire.

    El objetivo buscado en el clasificador es inducir cuál es la tasa de mortalidad existente para una

    instancia determinada.

  • 9

    3.2.- DATOS NOMINALES.

    3.23.23.23.2.1..1..1..1.---- OneR. OneR. OneR. OneR. === Run information === Scheme: weka.classifiers.rules.OneR -B 6 Relation: vowel Instances: 528 Attributes: 14 Train or Test Speaker Number Sex Feature 0 Feature 1 Feature 2 Feature 3 Feature 4 Feature 5 Feature 6 Feature 7 Feature 8 Feature 9 Class Test mode: 10-fold cross-validation === Classifier model (full training set) === Feature 1: < -0.1235 -> hid < 0.522 -> hId < 1.046 -> hEd < 1.2654999999999998 -> had < 1.3900000000000001 -> hed < 1.4929999999999999 -> hAd < 1.609 -> had < 1.6524999999999999 -> hed < 1.852 -> hAd < 1.9725000000000001 -> had < 2.1675 -> hYd < 2.2794999999999996 -> hud < 2.393 -> hYd < 2.553 -> hud < 2.734 -> hOd < 2.84 -> hYd < 3.18 -> hOd < 3.87 -> hod < 4.2555 -> hUd < 4.7445 -> hod >= 4.7445 -> hud (244/528 instances correct)

    Time taken to build model: 0 seconds === Stratified cross-validation === === Summary === Correctly Classified Instances 187 35.4167 % Incorrectly Classified Instances 341 64.5833 %

  • 10

    Kappa statistic 0.2896 Mean absolute error 0.1174 Root mean squared error 0.3427 Relative absolute error 71.0417 % Root relative squared error 119.1987 % Total Number of Instances 528 === Detailed Accuracy By Class === TP Rate FP Rate Precision Recall F-Measure Class 0.563 0.021 0.73 0.563 0.635 hid 0.563 0.044 0.563 0.563 0.563 hId 0.75 0.079 0.486 0.75 0.59 hEd 0.271 0.088 0.236 0.271 0.252 hAd 0.167 0.106 0.136 0.167 0.15 hYd 0.271 0.106 0.203 0.271 0.232 had 0.354 0.077 0.315 0.354 0.333 hOd 0.563 0.048 0.54 0.563 0.551 hod 0.021 0.048 0.042 0.021 0.028 hUd 0.188 0.052 0.265 0.188 0.22 hud 0.188 0.042 0.31 0.188 0.234 hed === Confusion Matrix ===

    a b c d e f g h i j k

  • 11

    === Run information === Scheme: weka.classifiers.rules.OneR -B 12 Relation: vowel Instances: 528 Attributes: 14 Train or Test Speaker Number Sex Feature 0 Feature 1 Feature 2 Feature 3 Feature 4 Feature 5 Feature 6 Feature 7 Feature 8 Feature 9 Class Test mode: 10-fold cross-validation === Classifier model (full training set) === Feature 1: < -0.1235 -> hid < 0.5575000000000001 -> hId < 1.2785 -> hEd < 1.5095 -> hAd < 1.68 -> hed < 1.852 -> hAd < 2.035 -> had < 2.4335 -> hYd < 2.818 -> hud < 3.18 -> hOd < 3.9525 -> hod >= 3.9525 -> hud (231/528 instances correct)

    Time taken to build model: 0.03 seconds === Stratified cross-validation === === Summary === Correctly Classified Instances 195 36.9318 % Incorrectly Classified Instances 333 63.0682 % Kappa statistic 0.3063 Mean absolute error 0.1147 Root mean squared error 0.3386 Relative absolute error 69.375 % Root relative squared error 117.7922 % Total Number of Instances 528 === Detailed Accuracy By Class === TP Rate FP Rate Precision Recall F-Measure Class 0.479 0.008 0.852 0.479 0.613 hid 0.542 0.054 0.5 0.542 0.52 hId 0.563 0.077 0.422 0.563 0.482 hEd 0.417 0.115 0.267 0.417 0.325 hAd

  • 12

    0.396 0.088 0.311 0.396 0.349 hYd 0.208 0.056 0.27 0.208 0.235 had 0.417 0.092 0.313 0.417 0.357 hOd 0.583 0.058 0.5 0.583 0.538 hod 0.042 0.01 0.286 0.042 0.073 hUd 0.188 0.065 0.225 0.188 0.205 hud 0.229 0.071 0.244 0.229 0.237 hed === Confusion Matrix ===

    a b c d e f g h i j k

  • 13

    3.23.23.23.2.2 ..2 ..2 ..2 .---- J4.8. J4.8. J4.8. J4.8. === Run information === Scheme: weka.classifiers.trees.j48.J48 -C 0.25 -M 2 Relation: vowel Instances: 528 Attributes: 14 Train or Test Speaker Number Sex Feature 0 Feature 1 Feature 2 Feature 3 Feature 4 Feature 5 Feature 6 Feature 7 Feature 8 Feature 9 Class Test mode: 10-fold cross-validation === Classifier model (full training set) === J48 pruned tree ------------------ Feature 1 1.078

  • 14

    | Feature 0

  • 15

    | | | | | | Feature 0 > -4.384 | | | | | | | Feature 5 0.304 | | | | | | | | Feature 2 -1.313 | | | | | | | | | Feature 2 0.441: hud (3.0) | | | Feature 1 > 3.066 | | | | Feature 0 -4.65 | | | | | Feature 0 -3.689: hOd (5.0/1.0) | Feature 0 > -3.145 | | Feature 0

  • 16

    | | | | | | | Speaker Number = Jo: had (3.0) | | | | | | | Speaker Number = Kate | | | | | | | | Feature 0 -2.942: had (4.0) | | | | | | | Speaker Number = Penny: hed (5.0) | | | | | | | Speaker Number = Rose: hed (0.0) | | | | | | | Speaker Number = Mike: hed (0.0) | | | | | | | Speaker Number = Nick: hed (0.0) | | | | | | | Speaker Number = Rich: hed (0.0) | | | | | | | Speaker Number = Tim: hed (0.0) | | | | | | | Speaker Number = Sarah: hed (0.0) | | | | | | | Speaker Number = Sue: hed (0.0) | | | | | | | Speaker Number = Wendy: hed (0.0) | | | Feature 1 > 2.027 | | | | Feature 0 -3.012 | | | | | Feature 7 1.193: hOd (6.0) | | Feature 0 > -2.52 | | | Feature 4 -1.077 | | | | Feature 2 -0.469: had (18.0/2.0) Number of Leaves : 123 Size of the tree : 180

    Time taken to build model: 0.94 seconds === Stratified cross-validation === === Summary === Correctly Classified Instances 418 79.1667 % Incorrectly Classified Instances 110 20.8333 % Kappa statistic 0.7708 Mean absolute error 0.0424 Root mean squared error 0.1871 Relative absolute error 25.6237 % Root relative squared error 65.0786 % Total Number of Instances 528 === Detailed Accuracy By Class === TP Rate FP Rate Precision Recall F-Measure Class 0.958 0.002 0.979 0.958 0.968 hid 0.938 0.013 0.882 0.938 0.909 hId 0.813 0.008 0.907 0.813 0.857 hEd 0.875 0.023 0.792 0.875 0.832 hAd 0.833 0.019 0.816 0.833 0.825 hYd 0.688 0.04 0.635 0.688 0.66 had 0.667 0.021 0.762 0.667 0.711 hOd 0.896 0.017 0.843 0.896 0.869 hod 0.667 0.035 0.653 0.667 0.66 hUd 0.688 0.023 0.75 0.688 0.717 hud 0.688 0.029 0.702 0.688 0.695 hed

  • 17

    === Confusion Matrix ===

    a b c d e f g h i j k

  • 18

    Relative absolute error 31.7347 % Root relative squared error 67.8451 % Total Number of Instances 528

    === Confusion Matrix ===

    a b c d e f g h i j k

  • 19

  • 20

    3.3.- DATOS NUMERICOS.

    3.33.33.33.3.1..1..1..1.---- Decision Stump. Decision Stump. Decision Stump. Decision Stump. === Run information === Scheme: weka.classifiers.trees.DecisionStump Relation: pollution Instances: 60 Attributes: 16 PREC JANT JULT OVR65 POPN EDUC HOUS DENS NONW WWDRK POOR HC NOX SO@ HUMID MORT Test mode: 10-fold cross-validation === Classifier model (full training set) === Decision Stump Classifications NONW 7.949999999999999 : 971.7286857142849 NONW is missing : 940.3584333333332

    Time taken to build model: 0.02 seconds === Cross-validation === === Summary === Correlation coefficient 0.3568 Mean absolute error 49.7471 Root mean squared error 59.6498 Relative absolute error 100.1308 % Root relative squared error 96.6995 % Total Number of Instances 60

    En este caso no había ningún parámetro que modificar, por lo tanto sólo se pueden mostrar estos resultados. Como podemos observar el coeficiente de correlación es muy bajo lo que significa que este clasificador no es muy bueno. Al medir la correlación estadística entre los valores reales y los valores

  • 21

    predictos vemos que su valor no es muy alto lo que indica que gran parte de las veces no se clasifican correctamente los datos.

  • 22

    3.33.33.33.3.2..2..2..2.---- M5’. M5’. M5’. M5’. === Run information === Scheme: weka.classifiers.trees.m5.M5P -M 4.0 Relation: pollution Instances: 60 Attributes: 16 PREC JANT JULT OVR65 POPN EDUC HOUS DENS NONW WWDRK POOR HC NOX SO@ HUMID MORT Test mode: 10-fold cross-validation === Classifier model (full training set) === M5 pruned model tree: (using smoothed predictions) LM1 (60/61.139%) LM num: 1 Linear Regression Model MORT =

    1.8565 * PREC + -2.262 * JANT + -3.32 * JULT + -10.9205 * OVR65 + -137.3831 * POPN + -23.4211 * EDUC + 4.6623 * NONW + -0.9221 * HC + 1.871 * NOX + 1934.0539 Number of Rules : 1 Time taken to build model: 0.28 seconds === Cross-validation === === Summary === Correlation coefficient 0.7641 Mean absolute error 30.5184 Root mean squared error 39.9143 Relative absolute error 61.4274 % Root relative squared error 64.7059 % Total Number of Instances 60

  • 23

    Se puede observar en los resultados obtenidos que sólo se ha generado un modelo lineal que afecta al 61.139% de las instancias con las que se ha realizado la comprobación.

    Respecto al algoritmo anterior se han obtenido mejores resultados sin más que observar que el

    coeficiente de correlación es mucho más alto, y las medidas de error son mucho más bajas.