Data Mining Practical Machine Learning Tools and Techniques Traducido

81
¿De qué se trata? La fecundación humana in vitro consiste en recoger varios óvulos de los ovarios de una mujer, que, después de la fertilización con pareja o donante de esperma, producen varios embriones. Algunos de ellos son seleccionados y transferidos al útero de la mujer. El desafío es para seleccionar los "mejores" embriones para utilizar-los que tienen más probabilidades de sobrevivir. Selección se basa en alrededor de 60 características registradas de los embriones-caracterizando su morfología, ovocito, y el folículo, y la muestra de esperma. El número de características es lo suficientemente grande como para que sea difícil para un embriólogo para evaluar todos de forma simultánea y correlacionar los datos históricos con el resultado crucial de si ese embrión se produjo o no dar lugar a un niño vivo. En un proyecto de investigación en Inglaterra, la máquina de aprendizaje ha sido investigada como una técnica para hacer la selección, utilizando histórica registros de los embriones y su resultado como datos de entrenamiento. Cada año, los productores de leche en Nueva Zelanda tienen que tomar una decisión empresarial difícil: que las vacas para retener en su rebaño y que para vender a un matadero. Típicamente, una quinta parte de las vacas en un hato lechero son sacrificados cada año cerca del final del ordeño temporada como reserva de alimentación se reducen. La cría y la producción de leche La historia de cada vaca influye en esa decisión. Otros factores incluyen la edad (una vaca se acerca al final de su productiva vida a los ocho años), problemas de salud, antecedentes de un parto difícil, indeseable rasgos de temperamento (patadas o saltando vallas), y no estar embarazada con el becerro para la temporada siguiente. Cerca de 700 atributos para cada uno de varios millones de vacas tienen ha registrado en los últimos años. El aprendizaje automático se ha investigado como una forma de la determinación de lo que se tienen en cuenta los factores de éxito de los agricultores-no automatizar la decisión, pero para propagar sus conocimientos y experiencia a los demás. La vida y la muerte. De Europa a las Antípodas. La familia y los negocios. Máquina el aprendizaje es una nueva tecnología emergente para el

description

El libro de Data Mining Practical Machine Learning Tools and Techniques de Ian H. Witten - Eibe Frank - Mark A. Hall, Traducido al español

Transcript of Data Mining Practical Machine Learning Tools and Techniques Traducido

De qu se trata?

La fecundacin humana in vitro consiste en recoger varios vulos de los ovarios de una mujer, que, despus de la fertilizacin con pareja o donante de esperma, producen varios embriones. Algunos de ellos son seleccionados y transferidos al tero de la mujer. El desafo es para seleccionar los "mejores" embriones para utilizar-los que tienen ms probabilidades de sobrevivir. Seleccin se basa en alrededor de 60 caractersticas registradas de los embriones-caracterizando su morfologa, ovocito, y el folculo, y la muestra de esperma. El nmero de caractersticas es lo suficientemente grande como para que sea difcil para un embrilogo para evaluar todos de forma simultnea y correlacionar los datos histricos con el resultado crucial de si ese embrin se produjo o no dar lugar a un nio vivo. En un proyecto de investigacin en Inglaterra, la mquina de aprendizaje ha sido investigada como una tcnica para hacer la seleccin, utilizando histrica registros de los embriones y su resultado como datos de entrenamiento. Cada ao, los productores de leche en Nueva Zelanda tienen que tomar una decisin empresarial difcil: que las vacas para retener en su rebao y que para vender a un matadero. Tpicamente, una quinta parte de las vacas en un hato lechero son sacrificados cada ao cerca del final del ordeo temporada como reserva de alimentacin se reducen. La cra y la produccin de leche La historia de cada vaca influye en esa decisin. Otros factores incluyen la edad (una vaca se acerca al final de su productiva vida a los ocho aos), problemas de salud, antecedentes de un parto difcil, indeseable rasgos de temperamento (patadas o saltando vallas), y no estar embarazada con el becerro para la temporada siguiente. Cerca de 700 atributos para cada uno de varios millones de vacas tienen ha registrado en los ltimos aos. El aprendizaje automtico se ha investigado como una forma de la determinacin de lo que se tienen en cuenta los factores de xito de los agricultores-no automatizar la decisin, pero para propagar sus conocimientos y experiencia a los dems. La vida y la muerte. De Europa a las Antpodas. La familia y los negocios. Mquina el aprendizaje es una nueva tecnologa emergente para el conocimiento de la minera de datos, una tecnologa que mucha gente est empezando a tomar en serio.1.1 MINERA DE DATOS Y EL APRENDIZAJE DE LA MQUINA Estamos abrumados con datos. La cantidad de datos en el mundo y en nuestras vidas Parece cada vez ms-y no hay final a la vista. Computadoras omnipresentes hacen demasiado fcil para guardar cosas que antes nos hubiera papelera. discos econmicos y almacenamiento en lnea que sea muy fcil posponer las decisiones sobre qu hacer con todo esto-simplemente obtenemos ms memoria y guardamos todo. Electrnica ubicua grabar nuestras decisiones, nuestras opciones en el supermercado, nuestros hbitos financieros, nuestro idas y venidas. Acercamos nuestro camino a travs del mundo, cada golpetazo un registro en una base de datos. El (WWW) World Wide Web nos abruma con la informacin; Mientras tanto, cada eleccin que hacemos se graba. Y todas estas son opciones, slo personales que tienen un sinnmero de contrapartes en el mundo del comercio y la industria. Podramos todos dan testimonio de la creciente brecha entre la generacin de los datos y el conocimiento de la misma. Como el volumen de datos aumenta, inexorablemente, la proporcin de que la gente entender disminuye alarmantemente. Mentir escondido en todos estos datos es la informacin- potencialmente til la informacin-que rara vez se hace explcito o aprovechado. Este libro trata de buscar patrones en los datos. No hay nada nuevo en esto. La gente ha estado buscando patrones en los datos desde que comenz la vida humana. Los cazadores buscan patrones en el comportamiento de la migracin animal, los agricultores buscan patrones en el crecimiento de los cultivos, los polticos buscar patrones en opinin de los votantes, y los amantes buscan patrones en sus socios ' respuestas. El trabajo de un cientfico (como la de un beb) es de dar sentido a los datos, para descubrir la patrones que rigen la forma en que funciona el mundo fsico y los encapsula en las teoras que se puede utilizar para predecir lo que suceder en las nuevas situaciones. Del empresario trabajo es identificar las oportunidades-es decir, los patrones de comportamiento que se pueden convertir en un negocio rentable y explotarlos. En la minera de datos, los datos se almacenan electrnicamente y la bsqueda se automatiza-o al menos aumentada por ordenador. Incluso esto no es particularmente nueva. Economistas, estadsticos, los meteorlogos e ingenieros de la comunicacin han trabajado durante mucho tiempo con el idea de que los patrones en los datos se pueden buscar de forma automtica, identificadas, validadas y utilizadas para la prediccin. Lo que es nuevo es el espectacular aumento de las oportunidades para la bsqueda de patrones en los datos. El crecimiento desenfrenado de las bases de datos en los ltimos aos, las bases de datos para actividades tales cotidianos como las opciones del cliente, aporta la minera de datos a la vanguardia de la nuevas tecnologas empresariales. Se ha estimado que la cantidad de datos almacenados en las bases de datos del mundo se duplica cada 20 meses, y aunque seguramente sera difcil justificar esta cifra en un sentido cuantitativo, todos podemos relacionar con el ritmo de crecimiento cualitativamente. A medida que el flujo de datos se hincha y mquinas que pueden llevar a cabo la bsqueda convertido en algo comn, las oportunidades para el aumento de la minera de datos. Como el mundo crece en complejidad, abrumarnos con los datos que genera, datos la minera se convierte en nuestra nica esperanza para elucidar patrones ocultos. Inteligentemente analizado datos es un recurso valioso. Puede conducir a nuevos conocimientos, y, en los entornos comerciales, de ventajas competitivas. La minera de datos se trata de resolver los problemas mediante el anlisis de los datos ya presentes en bases de datos. Supongamos, para tomar un ejemplo muy usado, el problema es del cliente voluble lealtad en un mercado altamente competitivo. Una base de datos de opciones del cliente, a lo largo de con perfiles de clientes, es la clave para este problema. Los patrones de comportamiento de los ex los clientes pueden ser analizados para identificar las caractersticas distintivas de las que es probable para cambiar los productos y las que puedan permanecer fieles. Una vez que tales caractersticas son encontrados, se pueden poner a trabajar para identificar a los clientes actuales que tienen probabilidades de saltar nave. Este grupo puede ser objeto de un tratamiento especial, el tratamiento demasiado costoso para aplicar a la base de clientes en su conjunto. Ms positivamente, las mismas tcnicas se pueden utilizar para identificar clientes que podran ser atrados a otro servicio de la empresa ofrece, uno que no estn actualmente disfrutando, de dirigirse a ellos para las ofertas especiales que promover este servicio. En el actual altamente competitivo, centrado en el cliente, serviceoriented economa, los datos son la materia prima que alimenta el crecimiento del negocio, aunque slo se puede ser extrado. La minera de datos se define como el proceso de descubrimiento de patrones en los datos. El proceso debe ser automtico o (ms habitualmente) semiautomtica. Los patrones descubiertos deben sentido en que conducen a alguna ventaja, por lo general de carcter econmico. La datos es invariablemente presentes en cantidades sustanciales. Y cmo se expresan los patrones? Patrones tiles nos permiten hacer trivial predicciones sobre los nuevos datos. Hay dos extremos para la expresin de un patrn: como una caja de negro cuyas entraas son efectivamente incomprensible, y como transparente cuadro cuya construccin revela la estructura del patrn. Tanto, estamos asumiendo, hacer buenas predicciones. La diferencia es si los patrones que se extraen se representan en trminos de una estructura que puede ser examinada, razonada acerca, y utilizado para informar las decisiones futuras. Tales patrones que llamamos estructural porque capturar la estructura de decisin de manera explcita. En otras palabras, que ayudan a explicar algo acerca de los datos. Ahora, una vez ms, se puede decir lo que trata este libro: Se trata de tcnicas para la bsqueda de y describir los patrones estructurales en los datos. La mayora de las tcnicas que cubrimos tiene desarrollado dentro de un campo conocido como el aprendizaje de mquina. Pero primero echemos un vistazo a lo que patrones estructurales son.

Describiendo los Patrones EstructuralesQu se quiere decir con patrones estructurales? Cmo describes ellos? Y qu forma toma la entrada? Vamos a responder a estas preguntas a modo de ilustracin y no que por intentar definiciones formales, y en ltima instancia, estriles,. Habr un montn de ejemplos ms adelante en este captulo, pero vamos a examinar uno ahora mismo para hacerse una idea por lo que estamos hablando. Observe los datos de lentes de contacto en la Tabla 1.1. Se da las condiciones bajo las cuales un ptico podra querer prescribir lentes blandas de contacto, lentes de contacto duras, o no lentes de contacto en absoluto; diremos ms sobre cules son las caractersticas individuales significan ms tarde. Cada lnea de la tabla es uno de los ejemplos. Parte de una descripcin estructural de este informacin podra ser la siguiente:Va tablaSi la tasa de produccin de lgrimas = despus se redujo recomendacin = ningunoDe lo contrario, si la edad = joven y astigmtica = no despusrecomendacin = suaveIf tear production rate = reduced then recommendation = noneOtherwise, if age = young and astigmatic = no thenrecommendation = softDescripciones estructurales no necesitan necesariamente ser expresada como reglas de este tipo. Decisin rboles, que especifican las secuencias de decisiones que necesitan ser hecho junto con la recomendacin resultante, son otra forma popular de expresin. Este ejemplo es muy simplista. Para empezar, todas las combinaciones de posibles los valores estn representados en la tabla. Hay 24 filas, que representan tres posibles valores de edad y dos valores de cada uno para la prescripcin espectculo, el astigmatismo, y el desgaste tasa de produccin (3 2 2 2 = 24). Las reglas realmente no generalizar a partir de la datos; se limitan a resumir. En la mayora de situaciones de aprendizaje, teniendo en cuenta el conjunto de ejemplos como entrada est lejos de ser completa, y parte del trabajo consiste en generalizar a otros, nuevo ejemplos. Usted puede imaginar omitiendo algunas de las filas en la tabla para que la lgrima tasa de produccin se reduzca y sigue subiendo con la regla Si la tasa de produccin de lgrimas = despus se redujo recomendacin = ninguno If tear production rate = reduced then recommendation = noneEsto sera generalizar a las filas que faltan y rellenarlos correctamente. En segundo lugar, los valores se especifican para todas las caractersticas en todos los ejemplos. Conjuntos de datos de la vida real, invariablemente contener ejemplos en los que los valores de algunas de las caractersticas, por alguna razn u otra, Se desconocen, por ejemplo, las mediciones no se tomaron o se perdieron. En tercer lugar, la reglas anteriores se clasifican los ejemplos correctamente, mientras que a menudo, a causa de los errores o ruido en los datos, errores de clasificacin se producen incluso en los datos que se utiliza para crear la clasificador.Aprendizaje AutomticoAhora que tenemos una idea de las entradas y salidas, demos vuelta a la mquina de aprendizaje. Qu es el aprendizaje, de todos modos? Qu es el aprendizaje de las mquinas? Estos son filosficas preguntas, y no vamos a estar demasiado preocupado con la filosofa de este libro; nuestro nfasis est firmemente en la prctica. Sin embargo, vale la pena dedicar unos momentos desde el principio en las cuestiones fundamentales, slo para ver lo difcil que son, antes de rodar las mangas y mirando a la mquina de aprendizaje en la prctica.Nuestro diccionario define "a aprender" como Para obtener el conocimiento de algo por medio del estudio, la experiencia, o que se ensea. Tomar conciencia de la informacin o de la observacin Comprometer a la memoria Ser informado de o para determinar Para recibir una instruccinEstos significados tienen algunas deficiencias cuando se trata de hablar acerca de las computadoras. Para los dos primeros, es prcticamente imposible para probar si el aprendizaje se ha logrado o no. Cmo se sabe si una mquina tiene conocimiento de algo? Usted Probablemente no slo puede hacerle preguntas; incluso si pudiera, no estara probando su capacidad de aprender, pero su capacidad para responder a las preguntas. Cmo saber si tiene tomar conciencia de algo? Toda la cuestin de si las computadoras pueden ser consciente o consciente, es una cuestin filosfica en llamas. En cuanto a los ltimos tres significados, aunque podemos ver lo que denotan en humanos trminos, ms que aprender de memoria y recibir instruccin parece ser muy corto para de lo que podramos decir con aprendizaje automtico. Son demasiado pasivo, y sabemos que las computadoras se encuentran estas tareas triviales. En su lugar, estamos interesados en las mejoras en el rendimiento, o al menos en el potencial de rendimiento, en nuevas situaciones. Usted puede memorizar algo o ser informado de algo por el aprendizaje de memoria sin ser capaz de aplicar los nuevos conocimientos a nuevas situaciones. En otras palabras, puedes recibir instruccin sin beneficiarse de ella en absoluto. Anteriormente se ha definido la minera de datos operacional, como el proceso de descubrimiento de patrones, de forma automtica o semiautomtica, en grandes cantidades de datos-y los patrones debe ser til. Una definicin operacional se puede formular de la misma manera para el aprendizaje: Actividades aprenden cuando cambian su comportamiento de una manera que los hace un mejor desempeo en el futuro Esto vincula el aprendizaje con el rendimiento ms que el conocimiento. Usted puede probar el aprendizaje por observar el comportamiento actual y compararlo con el comportamiento pasado. Esta es una forma mucho ms tipo objetivo de definicin y parece ser mucho ms satisfactoria.Pero todava hay un problema. El aprendizaje es un concepto bastante resbaladiza. Un montn de cosas cambiar su comportamiento en formas que hacen a obtener mejores resultados en el futuro, sin embargo, no querra decir que, efectivamente, han aprendido. Un buen ejemplo es un confortable zapatilla. Se ha aprendido la forma de su pie? Sin duda, ha cambiado su comportamiento para que realice mejor como una zapatilla! Sin embargo, queremos apenas desee llamar este aprendizaje. En el lenguaje cotidiano, a menudo utilizamos la palabra para referirse a una formacin tipo sin sentido de aprendizaje. Formamos a los animales e incluso plantas, aunque sera estirando la palabra un poco para hablar de los objetos de formacin, tales como zapatillas, que no son en cualquier sentido vivo. Pero el aprendizaje es diferente. Aprendizaje implica pensamiento y propsito. Algo que aprende tiene que hacerlo intencionalmente. Es por eso que no diramos que una vida ha aprendido a crecer alrededor de un enrejado en un viedo-we'd decir que ha sido entrenado. Aprender sin finalidad es meramente entrenando. O, mejor dicho, en aprender el propsito es que el alumno de, mientras que en la formacin es el maestro de. Por lo tanto, en un examen ms la segunda definicin de aprendizaje, en funcionamiento, trminos orientados al rendimiento, tiene sus propios problemas cuando se trata de hablar de computadoras. Para decidir si algo ha aprendido en realidad, tiene que ver si se pretende que, si haba algn propsito en cuestin. Eso hace que el concepto discutible cuando se aplica a las mquinas, porque si los artefactos pueden comportarse a propsito no est claro. Las discusiones filosficas de lo que realmente se entiende por aprendizaje, como las discusiones sobre lo que realmente se quiere decir con la intencin o el propsito, estn cargadas de dificultad. Incluso los tribunales de justicia se encuentran intencin difcil de resolver.Data MiningAfortunadamente, el tipo de tcnicas de aprendizaje se explica en este libro no presentan estos problemas-que se llaman conceptuales aprendizaje automtico sin realmente presuponiendo cualquier posicin filosfica particular, acerca de lo que el aprendizaje es en realidad. Datos la minera es un tema que involucra el aprendizaje en un sentido prctico, no terico. Somos interesado en tcnicas para encontrar y describir patrones estructurales en los datos, como herramienta para ayudar a explicar que los datos y hacer predicciones a partir de ella. Los datos se llevar a la forma de un conjunto de ejemplos, tales como los clientes que han cambiado lealtades, para instancia o situaciones en las que ciertos tipos de lentes de contacto pueden ser prescritos. La salida toma la forma de predicciones sobre nuevos ejemplos-una prediccin de si un cliente en particular cambiar o una prediccin de qu tipo de lente prescribir, en determinadas circunstancias. Pero debido a que este libro es sobre la bsqueda y describir patrones en los datos, la salida tambin puede incluir una descripcin real de una estructura que se puede utilizar para clasificar ejemplos desconocidos. As como el rendimiento, es til para suministrar una representacin explcita del conocimiento que se adquiere. En esencia, esto refleja ambas definiciones de aprendizaje considerado anteriormente: la adquisicin de los conocimientos y la capacidad de utilizarlo. Muchas de las tcnicas de aprendizaje buscan descripciones estructurales de lo que se aprende- descripciones que pueden llegar a ser bastante complejo y se expresan normalmente como conjuntos de normas, tales como los descritos anteriormente o los rboles de decisin que se describen ms adelante en este captulo. Debido a que pueden ser entendidos por las personas, estas descripciones sirven para explicar lo que se ha aprendido en otras palabras, para explicar la base para nuevas predicciones. La experiencia demuestra que en muchas aplicaciones de aprendizaje automtico a los datos minera, las estructuras explcitas del conocimiento que se adquieren, las descripciones estructurales, son por lo menos tan importante como la capacidad de realizar bien en nuevos ejemplos. personas frecuente utilizar la minera de datos para obtener conocimiento, no slo predicciones. Obtener conocimiento a partir de datos ciertamente suena como una buena idea si usted puede hacerlo. Para averiguar cmo hacerlo, siga leyendo!1.2 Ejemplos sencillos: El tiempoY OTROS PROBLEMASVamos a utilizar una gran cantidad de ejemplos en este libro, que parece particularmente apropiado teniendo en cuenta que el libro se trata de aprender a partir de ejemplos! Hay varios conjuntos de datos estndar que vamos a volver a repetidamente. Diferentes conjuntos de datos tienden a exponer a nuevos problemas y desafos, y es interesante e instructivo tener en la mente una serie de problemas cuando se consideran los mtodos de aprendizaje. De hecho, la necesidad de trabajar con diferentes conjuntos de datos es tan importante que un corpus que contiene alrededor de 100 problemas de ejemplo se ha reunido de manera que diferentes algoritmos pueden ser probado y comparado con el mismo conjunto de problemas. El conjunto de problemas de esta seccin son todos irreales simple. Aplicacin Serious de la minera de datos consiste en miles, cientos de miles, o incluso millones de los casos individuales. Pero la hora de explicar lo que los algoritmos hacen y cmo funcionan, necesitamos ejemplos simples que capturan la esencia del problema, pero somos pequeos lo suficiente como para ser comprensible por todos los detalles. Vamos a trabajar con las bases de datos en esta seccin a lo largo del libro, y que estn destinados a ser "acadmico" en el sentido de que nos ayudarn a entender lo que est pasando. Algunos real con campos aplicaciones de las tcnicas de aprendizaje se discuten en la Seccin 1.3, y muchos ms se tratan en los libros mencionados en la Seccin 1.7, Lectura adicional, al final del el captulo. Otro problema con los datos reales de la vida real es que a menudo son propietarios. Nadie va a compartir su base de datos de la eleccin del cliente y el producto con usted para que se pueden entender los detalles de su aplicacin de minera de datos y cmo funciona. Los datos de las empresas es un activo valioso, cuyo valor ha aumentado enormemente con el desarrollo de tcnicas de minera de datos, tales como los que se describen en este libro. Sin embargo, nos preocupa aqu con la comprensin de cmo los mtodos utilizados para los datos minar el trabajo, y la comprensin de los detalles de estos mtodos para que podamos rastrear su funcionamiento en los datos reales. Es por eso que nuestros conjuntos de datos ilustrativos son los simples. Pero ellos no son simplistas: Presentan las caractersticas de los conjuntos de datos reales.El problema del tiempo El problema del tiempo es un pequeo conjunto de datos que vamos a utilizar varias veces para ilustrar mtodos de aprendizaje automtico. Totalmente ficticios, que supuestamente se refiere a las condiciones que son adecuados para jugar algn juego no especificado. En general, los casos en un conjunto de datos se caracterizan por los valores de caractersticas o atributos, que miden diferentes aspectos de la instancia. En este caso hay cuatro atributos: la perspectiva, la temperatura, humedad y viento. El resultado es si jugar o no. En su forma ms simple, que se muestra en la Tabla 1.2, los cuatro atributos tienen valores que son categoras simblicas en lugar de nmeros. Outlook puede ser soleado, nublado o lluvioso; la emperatura puede ser caliente, templado, o fro; La humedad puede ser alta o normal; y ventoso puede ser verdadera o falsa. Esto crea 36 combinaciones posibles (3 3 2 2 = 36), de cuales 14 estn presentes en el conjunto de ejemplos de entrada. Un conjunto de reglas aprendidas de esta informacin, no necesariamente uno muy bueno- podra tener este aspecto:Va tablaSi perspectivas = soleado y humedad = Alta luego jugar = noSi perspectivas = lluvioso y ventoso = true entonces juegan = noSi perspectivas = encapotado luego jugar = sSi la humedad = normal luego jugar = sSi nada de lo anterior y luego jugar = sIf outlook = sunny and humidity = high then play = noIf outlook = rainy and windy = true then play = noIf outlook = overcast then play = yesIf humidity = normal then play = yesIf none of the above then play = yesEstas reglas son para ser interpretados en orden: La primera de ellas; a continuacin, si no lo hace aplicar, el segundo; y as sucesivamente. Un conjunto de reglas que se tiene que interpretar en secuencia se llama una lista de decisiones. Se interpreta como una lista de decisiones, las reglas correctamente clasificar todos los ejemplos de la tabla, mientras que tomados individualmente, fuera de contexto, algunas de las reglas son incorrectas. Por ejemplo, la regla si la humedad = normal luego jugar = Si se pone uno de los ejemplos incorrecto (compruebe cul). El significado de un conjunto de normas depende de cmo se interprete-como era de esperar! En la forma ligeramente ms complejo se muestra en la Tabla 1.3, dos de los atributos- temperatura y humedad-tienen valores numricos. Esto significa que cualquier aprendizaje rgimen debe crear desigualdades que implican estos atributos en lugar de simples pruebas de igualdad como en el caso anterior. Esto se llama un atributo numrico de problemas en este caso, un problema-atributo mezclado ya que no todos los atributos son numricos. Ahora, la primera regla dada anteriormente puede tomar la forma Si perspectivas = soleado y humedad> 83 entonces el juego = no Se requiere un proceso un poco ms complejo para llegar a normas que implican pruebas numricas. Las reglas que hemos visto hasta ahora son las reglas de clasificacin: Predicen la clasificacin del ejemplo en trminos de si jugar o no. Es igualmente posible caso omiso de la clasificacin y slo tiene que buscar cualquier regla que se asocian fuertemente diferente valores de los atributos. Estos se llaman reglas de asociacin. Muchas reglas de asociacin pueden ser derivada de los datos meteorolgicos de la Tabla 1.2. Algunos buenos son Si la temperatura = fra luego Humedad = normal Si la humedad = normal y con viento = false entonces el juego = s Si perspectivas = soleado y jugar = no, entonces la humedad = Alta Si ventoso = false y el juego = no, entonces las perspectivas = soleado y Humedad = Alta If temperature = cool then humidity = normalIf humidity = normal and windy = false then play = yesIf outlook = sunny and play = no then humidity = highIf windy = false and play = no then outlook = sunny andhumidity = highTodas estas reglas son 100% correcto de los datos dado; que no hacen predicciones falsas. Las dos primeras se aplican a los cuatro ejemplos en el conjunto de datos, el tercero a tres ejemplos, y el cuarto a dos ejemplos. Y hay muchas otras reglas. De hecho, casi el 60 por reglas de asociacin se puede encontrar lo que corresponda a dos o ms ejemplos de que el clima datos y son completamente correctas en estos datos. Y si nos fijamos en las normas que sean menos de 100% correcto, entonces usted va a encontrar muchos ms. Hay tantos, ya que, a diferencia de reglas de clasificacin, reglas de asociacin pueden "predecir" cualquiera de los atributos, no slo un clase especificada, y puede incluso predecir ms de una cosa. Por ejemplo, la cuarta regla predice tanto que la perspectiva ser soleado y que la humedad ser alta. Lentes de contacto: Un Problema idealizadoLos datos de la lente de contacto introducidas anteriormente le indica el tipo de lentes de contacto para prescribir, dada cierta informacin sobre un paciente. Tenga en cuenta que este ejemplo est destinado a ilustracin solamente: Se simplifica enormemente el problema y ciertamente no debera ser utilizado para propsitos de diagnstico! La primera columna de la Tabla 1.1 da la edad del paciente. En caso de que usted se est preguntando, la presbicia es una forma de hipermetropa que acompaa a la aparicin de la mitad edad. El segundo da la receta espectculo: miope significa miope y hipermtrope significa longsighted. La tercera muestra si el paciente es astigmtico, mientras que la cuarta se refiere a la tasa de la produccin de lgrimas, que es importante en este contexto porque las lgrimas lubrican las lentes de contacto. La ltima columna muestra qu tipo de las lentes de prescribir, ya sea duro, blando, o ninguno. Todas las posibles combinaciones de los valores de los atributos estn representadas en la tabla. Un conjunto de muestras de las reglas aprendidas de esta informacin se muestra en la Figura 1.1. Este es un lugar amplio conjunto de reglas, pero no clasifican correctamente todos los ejemplos. Estos reglas son completas y determinista: Le dan una receta nica para cada ejemplo concebible. Generalmente, este no es el caso. A veces hay situaciones en el que no se aplica ninguna regla; otras veces ms de una regla puede aplicarse, lo que resulta en Si la tasa de produccin de lgrimas = despus se redujo la recomendacin = ninguno. Si la edad = joven y astigmtica = no y tasa de produccin de lgrimas = normal entonces la recomendacin = suave Si la edad = pre-presbicia y astigmatismo = no y la produccin de lgrimas = tasa recomendacin de lo normal = suave Si la edad = prescripcin presbicia y el espectculo = miope y astigmtica = no, entonces la recomendacin = ninguno Si la prescripcin espectculo = hipermtrope y astigmtica = no y romper la velocidad de produccin = recomendacin de lo normal = suave Si la prescripcin espectculo = miope y astigmtica = s y tasa de produccin de lgrimas = recomendacin de lo normal = duro Si la edad = joven y astigmtica = s y desgaste tasa de produccin = normal entonces la recomendacin = duro Si la edad = y prescripcin espectculo pre-presbicia = hipermtrope y astigmtica = s, entonces la recomendacin = ninguno Si la edad = prescripcin presbicia y el espectculo = hipermtrope y astigmtica = s, entonces la recomendacin = ningunoIf tear production rate = reduced then recommendation = none.If age = young and astigmatic = no and tear production rate = normalthen recommendation = softIf age = pre-presbyopic and astigmatic = no and tear productionrate = normal then recommendation = softIf age = presbyopic and spectacle prescription = myope andastigmatic = no then recommendation = noneIf spectacle prescription = hypermetrope and astigmatic = no andtear production rate = normal then recommendation = softIf spectacle prescription = myope and astigmatic = yes andtear production rate = normal then recommendation = hardIf age = young and astigmatic = yes and tear production rate = normalthen recommendation = hardIf age = pre-presbyopic and spectacle prescription = hypermetropeand astigmatic = yes then recommendation = noneIf age = presbyopic and spectacle prescription = hypermetropeand astigmatic = yes then recommendation = nonerecomendaciones contradictorias. A veces las probabilidades o pesos pueden estar asociados con las propias reglas para indicar que algunos son ms importantes, o bien ms fiables, que otros. Tal vez se pregunte si hay un conjunto de reglas ms pequea que funciona tan bien. Si es as, sera mejor usar el conjunto de reglas ms pequeo, y si es as, por qu? Estos son exactamente el tipo de preguntas que nos ocuparn en este libro. Debido a que los ejemplos forman un conjunto completo para el espacio del problema, las normas no hacen ms que resumir todo la informacin que se le da, expresando de una manera diferente y ms concisa. Incluso aunque se trata de ninguna generalizacin, esto es a menudo una cosa muy til que hacer! Personas con frecuencia el uso de tcnicas de aprendizaje automtico que permite conocer mejor la estructura de su datos en lugar de hacer predicciones para los nuevos casos. De hecho, un prominente y exitoso lnea de investigacin en el aprendizaje de mquina comenz como un intento de comprimir una gran base de datos de posibles finales de juego de ajedrez y sus resultados en una estructura de datos de tamao razonable. La estructura de datos elegida para esta empresa no era un conjunto de reglas pero un rbol de decisin. La Figura 1.2 muestra una descripcin estructural de los datos de la lente de contacto en el formulario de un rbol de decisiones, lo que para muchos propsitos es una representacin ms conciso y perspicaz de las normas y tiene la ventaja de que puede ser visualizado ms fcilmente. (Sin embargo, este rbol de decisiones, en contraste con el conjunto de reglas dado en la Figura 1.1, clasifica dos ejemplos incorrectamente.) El rbol de llama primero para una prueba de la tasa de la produccin de lgrimas, y las dos primeras ramas corresponden a los dos resultados posibles. Si el desgarro tasa de produccin se reduce (la rama de la izquierda), el resultado es ninguno. Si es normal (La rama derecha), se hace una segunda prueba, esta vez sobre el astigmatismo. Eventualmente, cualquiera que sea el resultado de las pruebas, se llega a una hoja del rbol que dicta el recomendacin de lentes de contacto para ese caso. La cuestin de cul es la ms natural y de fcil comprensin para el formato la salida de una mquina de aprendizaje esquema es el que vamos a volver en las recomendaciones del Captulo 3.conflicting. A veces las probabilidades o pesos pueden estar asociados con las propias reglas para indicar que algunos son ms importantes, o bien ms fiables, que otros.Tal vez se pregunte si hay un conjunto de reglas ms pequea que funciona tan bien. Si es as, sera mejor usar el conjunto de reglas ms pequeo, y si es as, por qu? Estos son exactamente el tipo de preguntas que nos ocuparn en este libro. Debido a que los ejemplos forman un conjunto completo para el espacio del problema, las normas no hacen ms que resumir todo la informacin que se le da, expresando de una manera diferente y ms concisa. Incluso aunque se trata de ninguna generalizacin, esto es a menudo una cosa muy til que hacer! Personas con frecuencia el uso de tcnicas de aprendizaje automtico que permite conocer mejor la estructura de su datos en lugar de hacer predicciones para los nuevos casos. De hecho, un prominente y exitoso lnea de investigacin en el aprendizaje de mquina comenz como un intento de comprimir una gran base de datos de posibles finales de juego de ajedrez y sus resultados en una estructura de datos de tamao razonable. La estructura de datos elegida para esta empresa no era un conjunto de reglas pero un rbol de decisin. La Figura 1.2 muestra una descripcin estructural de los datos de la lente de contacto en el formulario de un rbol de decisiones, lo que para muchos propsitos es una representacin ms conciso y perspicaz de las normas y tiene la ventaja de que puede ser visualizado ms fcilmente. (Sin embargo, este rbol de decisiones, en contraste con el conjunto de reglas dado en la Figura 1.1, clasifica dos ejemplos incorrectamente.) El rbol de llama primero para una prueba de la tasa de la produccin de lgrimas, y las dos primeras ramas corresponden a los dos resultados posibles. Si el desgarro tasa de produccin se reduce (la rama de la izquierda), el resultado es ninguno. Si es normal (La rama derecha), se hace una segunda prueba, esta vez sobre el astigmatismo. Eventualmente, cualquiera que sea el resultado de las pruebas, se llega a una hoja del rbol que dicta el recomendacin de lentes de contacto para ese caso. La cuestin de cul es la ms natural y de fcil comprensin para el formato la salida de una mquina de aprendizaje esquema es el que vamos a volver en el captulo 3.Iris: A Classic Conjunto de datos numricos El conjunto de datos del iris, que se remonta al trabajo seminal por el eminente estadstico R. A. Fisher en el mid- 1930 y es sin duda el ms famoso conjunto de datos utilizados en la minera de datos, contiene 50 ejemplos de cada uno de tres tipos de plantas: Iris setosa, Iris versicolor, e Iris virginica. Esto es un extracto en la Tabla 1.4. hay cuatro atributos: longitud spalo, anchura del spalo, ptalo de longitud, y la anchura de ptalos (todo medido en centmetros). desemejante los conjuntos de datos anteriores, todos los atributos tienen valores que son numrico. El siguiente conjunto de reglas podra aprender de este conjunto de datos:Si la longitud de ptalos