mineria-datos-arte.pdf

download mineria-datos-arte.pdf

of 45

Transcript of mineria-datos-arte.pdf

  • 8/12/2019 mineria-datos-arte.pdf

    1/45

    Profesor:

    Ivn Turmero

    MINERIA DEDATOSEl arte de sacar conocimiento de grandes

    volmenes de datos

    Puerto Ordaz, marzo del 2011.

    Elaborado Por:

    Centeno, Hender

    Doffourt, Gineska

    Garcia, Nathaly

    Gmez, Giselle

    Gonzlez, Eduardo

    Granado, Luis

    Loyo, Sara

    Prez, Astrid

    Prez, Daliani

  • 8/12/2019 mineria-datos-arte.pdf

    2/45

    NDICE

    CONCEPTOS ASOCIADOS ..................................................................................................................... 6

    Datos ........................................................................................................................................... 7

    Informacin ................................................................................................................................. 8

    Conocimiento .............................................................................................................................. 9

    Sabidura .................................................................................................................................... 11

    IMPORTANCIA DE LA DATA MINING ................................................................................................. 12

    DESCUBRIMIENTO DE CONOCIMIENTO Y MINERA DE DATOS ......................................................... 13

    Historia del KDD ............................................................................................................................ 14

    Metas............................................................................................................................................. 15

    Relacin con otras disciplinas ....................................................................................................... 15

    El proceso de KDD ......................................................................................................................... 15

    DATA MINING .................................................................................................................................... 16

    Grupos de tcnicas principales ..................................................................................................... 19

    Visualizacin. ............................................................................................................................. 19

    Verificacin. ............................................................................................................................... 20

    Descubrimiento. ........................................................................................................................ 21

    TAREAS DE LA MINERA DE DATOS ................................................................................................... 22

    Descripcin de clases .................................................................................................................... 22

    Encontrar Asociaciones ................................................................................................................. 23

    Clasificacin y Prediccin .............................................................................................................. 24

    Regresion ....................................................................................................................................... 26

    Series de tiempo............................................................................................................................ 26

    Agrupacion .................................................................................................................................... 27

    Similaridad ..................................................................................................................................... 27

    ETAPAS DE LA MINERA DE DATOS ................................................................................................... 28

    Carga de trabajo en las fases de un proyecto de datamining ....................................................... 28

    APLICACIONES DE LA MINERA DE DATOS ........................................................................................ 30

    Ejemplos de Usos .............................................................................................................................. 31

    En el gobierno ............................................................................................................................... 31

    En la empresa ................................................................................................................................ 31

  • 8/12/2019 mineria-datos-arte.pdf

    3/45

    Prediciendo el tamao de las audiencias televisivas. ................................................................... 32

    En la universidad ........................................................................................................................... 32

    En investigaciones espaciales ........................................................................................................ 33

    En los clubes deportivos ................................................................................................................ 33

    Negocios ........................................................................................................................................ 34

    Patrones de fuga ........................................................................................................................... 35

    Fraudes .......................................................................................................................................... 35

    Recursos humanos ........................................................................................................................ 36

    Comportamiento en Internet ........................................................................................................ 36

    Terrorismo ..................................................................................................................................... 36

    Ciencia e Ingeniera ....................................................................................................................... 37

    Minera de datos y otras disciplinas anlogas ............................................................................... 38De la estadstica ........................................................................................................................ 38

    De la informtica ....................................................................................................................... 39

    HERRAMIENTAS DE SOFTWARE ........................................................................................................ 40

    Software DTM - Minera de Datos y Textos (Lebart) ................................................................ 41

    CONCLUSIONES ................................................................................................................................. 43

    FUENTES CONSULTADAS ................................................................................................................... 44

  • 8/12/2019 mineria-datos-arte.pdf

    4/45

    INTRODUCCIN

    Las empresas suelen generar grandes cantidades de informacin sobre sus procesos

    productivos, desempeo operacional, mercados y clientes. Pero el xito de los

    negocios depende por lo general de la habilidad para ver nuevas tendencias o cambiosen las tendencias. Las aplicaciones de data mining pueden identificar tendencias y

    comportamientos, no slo para extraer informacin, sino tambin para descubrir las

    relaciones en bases de datos que pueden identificar comportamientos que no muy

    evidentes.

    Cada da generamos una gran cantidad de informacin, algunas veces conscientes de

    que lo hacemos y otras veces inconscientes de ello porque lo desconocemos. Nos

    damos cuenta de que generamos informacin cuando registramos nuestra entrada en

    el trabajo, cuando entramos en un servidor para ver nuestro correo, cuando pagamos

    con una tarjeta de crdito o cuando reservamos un billete de avin. Otras veces no nos

    damos cuenta de que generamos informacin, como cuando conducimos por una va

    donde estn contabilizando el nmero de automviles que pasan por minuto, cuando

    se sigue nuestra navegacin por Internet o cuando nos sacan una fotografa del rostro

    al haber pasado cerca de una oficina gubernamental.

    Con qu finalidad queremos generar informacin? Son muchos los motivos que nos

    llevan a generar informacin, ya que nos pueden ayudar a controlar, optimizar,

    administrar, examinar, investigar, planificar, predecir, someter, negociar o tomar

    decisiones de cualquier mbito segn el dominio en que nos desarrollemos. Lainformacin por s misma est considerada un bien patrimonial. De esta forma, si una

    empresa tiene una prdida total o parcial de informacin provoca bastantes

    perjuicios. Es evidente que la informacin debe ser protegida, pero tambin explotada.

    Qu nos ha permitido poder generar tanta informacin? En los ltimos aos, debido

    al desarrollo tecnolgico a niveles exponenciales tanto en el rea de cmputo como en

    la de transmisin de datos, ha sido posible que se gestionen de una mejor manera el

    manejo y almacenamiento de la informacin. Sin duda existen cuatro factores

    importantes que nos han llevado a este suceso:

    1. El abaratamiento de los sistemas de almacenamiento tanto temporal comopermanente.

    2. El incremento de las velocidades de cmputo en los procesadores.3. Las mejoras en la confiabilidad y aumento de la velocidad en la transmisin de

    datos.

  • 8/12/2019 mineria-datos-arte.pdf

    5/45

    4. El desarrollo de sistemas administradores de bases de datos ms poderosos.Actualmente todas estas ventajas nos han llevado a abusar del almacenamiento de la

    informacin en las bases de datos. Podemos decir que algunas empresas almacenan

    un cierto tipo de datos al que hemos denominado dato-escritura, ya que slo se guarda

    (o escribe) en el disco duro, pero nunca se hace uso de l. Generalmente, todas lasempresas usan un dato llamado dato-escritura-lectura, que utilizan para hacer

    consultas dirigidas. Un nuevo tipo de dato al cual hemos denominado dato-escritura-

    lectura-anlisises el que proporciona en conjunto un verdadero conocimiento y nos

    apoya en las tomas de decisiones. Es necesario contar con tecnologas que nos ayuden

    a explotar el potencial de este tipo de datos.

    La cantidad de informacin que nos llega cada da es tan inmensa que nos resulta

    difcil asimilarla. Basta con ir al buscador Google y solicitar la palabra informacin

    para ver que existen 171.769.416 sitios donde nos pueden decir algo al respecto.

    Suponiendo que nos tomemos un minuto para ver el contenido de cada pgina,

    tardaramos entonces 326 aos en visitarlas todas. Esto es imposible, y, por lo tanto,

    existe una clara necesidad de disponer de tecnologas que nos ayuden en nuestros

    procesos de bsqueda y, an ms, de tecnologas que nos ayuden a comprender su

    contenido.

    El data mining surge como una tecnologa que intenta ayudar a comprender el

    contenido de una base de datos. De forma general, los datos son la materia prima

    bruta. En el momento que el usuario les atribuye algn significado especial pasan a

    convertirse en informacin. Cuando los especialistas elaboran o encuentran un

    modelo, haciendo que la interpretacin del confronto entre la informacin y ese

    modelo represente un valor agregado, entonces nos referimos al conocimiento

    [Molina, 2002].

    La tcnica usada para realizar estas operaciones en data mining se denomina

    modelado y es, simplemente, el acto de construir un modelo en una situacin donde

    usted conoce la respuesta y luego la aplica en otra situacin de la cual desconoce la

    respuesta. Principal diferencia: los algoritmos estn adaptados para poder trabajar

    sobre grandes bases de datos El data mining es un conjunto de actividades utilizadas

    para encontrar en los datos contextos nuevos, ocultos o inesperados. Utilizando

    informacin contenida en un data warehouse (o depsito de datos), el data mining

    puede responder a preguntas que un decisor no hubiera formulado de no contar con

    estas herramientas. Usando una combinacin de tcnicas que incluyen el anlisis

    estadstico, la lgica neuronal, la lgica difusa, el anlisis multidimensional, la

    visualizacin de datos y los agentes inteligentes, puede descubrir patrones tiles para

  • 8/12/2019 mineria-datos-arte.pdf

    6/45

    desarrollar modelos predictivos de conductas o de consecuencias, en una amplia

    variedad de dominios del conocimiento.

    Nuestra capacidad para almacenar datos ha crecido en los ltimos aos a velocidades

    exponenciales. En contrapartida, nuestra capacidad para procesarlos y utilizarlos noha ido a la par. Por este motivo, la data mining se presenta como una tecnologa de

    apoyo para explorar, analizar, comprender y aplicar el conocimiento obtenido usando

    grandes volmenes de datos. Descubrir nuevos caminos que nos ayuden en la

    identificacin de interesantes estructuras en los datos es una de las tareas

    fundamentales en el data mining [Molina, 2002].

  • 8/12/2019 mineria-datos-arte.pdf

    7/45

    CONCEPTOS ASOCIADOS

    Datos: son hechos, medidas u observaciones, que pueden presentarse (o no) en uncontexto dado. Datos sin contexto son 60, 62, 66, 72. Los mismos datos, ahora con

    contexto, podran representar el peso en kilogramos de Laura, Ana, Juan y Pedro,respectivamente. La validez y la efectividad de los datos vienen determinadas

    principalmente por su exactitud.

    Informacin: Son los datos organizados de cierta manera, de forma tal que sean deutilidad y relevancia para quien tiene que resolver un problema de decisin. El

    criterio clave para evaluar la informacin es su utilidad.

    Conocimiento: Es una combinacin de instintos, ideas, reglas, procesos einformacin que un decisor aplica para guiar sus acciones y decisiones. Elconocimiento es una interpretacin realizada por la mente, que ser vlida

    cuando pueda explicar las interacciones de un problema con su contexto.

    De lo anterior, se infieren dos puntos. El primero es que la informacin es personal; el

    segundo, que el conocimiento no es esttico: es ms, debe cambiar cuando cambia el

    entorno de decisin. En la figura 1 se ilustra la jerarqua que existe en una base de

    datos entre dato, informacin y conocimiento.

    Figura 1. Pirmide Informacional

  • 8/12/2019 mineria-datos-arte.pdf

    8/45

    El data mining trabaja en el nivel superior buscando patrones, comportamientos,

    agrupaciones, secuencias, tendencias o asociaciones que puedan generar algn

    modelo que nos permita comprender mejor el dominio para ayudar en una posible

    toma de decisin. La pirmide informacional explica el proceso de transformacin

    asociado a la generacin del conocimiento. En esta se indica que el nivel ms bajo de

    los hechos conocidos son los datos. Los datos no tienen un significado por s mismos,

    ya que deben ser ordenados, agrupados, analizados e interpretados para entender

    potencialmente lo que por s slo nos quieren indicar. [Camargo, 2006] Cuando los

    datos son procesados de esta manera, se convierten en informacin. La informacin

    tiene una esencia y un propsito. Cuando la informacin es utilizada y puesta en el

    contexto o marco de referencia de una persona junto con su percepcin personal se

    transforma en conocimiento. El conocimiento es la combinacin de informacin,

    contexto y experiencia. El conocimiento resumido, una vez validado y orientado hacia

    un objetivo genera inteligencia (sabidura), la cual pretende ser una representacin de

    la realidad. Estos factores estn gobernados por dos criterios: Cantidad y Calidad.

    Re caracterizando entonces, los trminos previamente conceptualizados:

    DatosSon un conjunto discreto de hechos objetivos acerca de eventos. Cuando un cliente va

    a un cajero automtico y hace un retiro, la operacin puede ser descrita parcialmente

    por los datos: cundo retir, cunto retir, de que cuenta retir, etc.; pero no nos

    informa de las razones por las que retir, ni puede predecir cundo volver. Las

    organizaciones precisan almacenar y manipular datos y son fuertemente

    dependientes de ellos. El registro de los datos y la gestin efectiva de los mismos es

    fundamental para el xito. Pero no siempre mayor cantidad de datos es mejor,

    primero porque demasiados datos hace ms difcil extraer el sentido de los mismos y

    segundo, porque describen parcialmente lo que sucede y no dan juicios ni

    interpretaciones, ni permiten la toma de decisiones. Los datos por supuesto son

    importantes porque son la materia prima de la informacin. [Camargo, 2006] Por s

    solos son irrelevantes como apoyo a la toma de decisiones. Tambin se pueden ver

    como un conjunto discreto de valores, que no dicen nada sobre el por qu de las cosas

    y no son orientativos para la accin. Los datos pueden ser una coleccin de hechosalmacenados en algn lugar fsico como un papel, un dispositivo electrnico (CD, DVD,

    disco duro...), o la mente de una persona. En este sentido las tecnologas de la

    informacin han aportado mucho a recopilacin de datos. Como cabe suponer, los

    datos pueden provenir de fuentes externas o internas, pudiendo ser de carcter

    objetivo o subjetivo, o de tipo cualitativo o cuantitativo, etc.

  • 8/12/2019 mineria-datos-arte.pdf

    9/45

    InformacinLa informacin puede definirse como un mensaje significativo que se transmite de la

    fuente a los usuarios, es la expresin material del conocimiento con fines de uso. Un

    conocimiento que no se utiliza Minera de Datos no se convierte en informacin, una

    informacin que no se asimile nunca se convierte en conocimiento. Es la forma social

    de existencia del conocimiento consolidada en una fuente determinada. La

    informacin son "datos dotados de relevancia y propsito". Para muchos

    investigadores la informacin es mensaje, normalmente en forma de documento o de

    combinacin visible o audible. Cualquier mensaje requiere un emisor y un receptor. La

    informacin persigue cambiar la forma en que el receptor percibe algo, influir sobre

    su juicio y su comportamiento. As pues, el mensaje debe informar (originalmente dar

    forma a), es decir modelar a quien recibe el mismo. Es el receptor el que da categora

    de informacin al mensaje. [Camargo, 2006] La informacin se puede definir como un

    conjunto de datos procesados y que tienen un significado (relevancia, propsito y

    contexto), y que por lo tanto son de utilidad para quin debe tomar decisiones, aldisminuir su incertidumbre. Est destinada a resolver determinados problemas. Debe

    estar disponible pblicamente y servir para al desarrollo individual y corporativo. Se

    encuentra presente en todos los niveles de actividad y en todas las ramas de la

    economa, la poltica y la sociedad. La informacin de hoy puede que maana no lo

    sea, y lo que para unos es informacin para otros no tiene por qu serlo. La

    informacin para que sea utilizable debe tener tres caractersticas bsicas: completa,

    confiable y oportuna. Una informacin completa debe contar con los elementos

    necesarios para que pueda ser analizada y procesada; confiable, debe provenir de una

    fuente veraz y creble; oportuna, debe llegar a tiempo para su empleo. [Camargo,

    2006]

    Lo que realmente se debera preguntar acerca de la informacin que se recibe es: Nos

    aporta nuevas perspectivas?, Ayuda a que la situacin tenga ms sentido?,

    Contribuye a la toma de decisiones o a la solucin del problema?. A diferencia de los

    datos, la informacin tiene sentido y en si misma tiene forma, est organizada con

    algn propsito. Los datos se convierten en informacin cuando se les aade sentido a

    travs de (5 C):

    Contextualizados: Se sabe en qu contexto y para qu propsito se generaron. Categorizados: Se conocen sus componentes claves, las unidades de medida que

    ayudan a interpretarlos

    Calculados: Han sido analizados matemtica o estadsticamente. Corregidos: Se han eliminado errores e inconsistencias de los datos. Condensados: Han sido resumidos, son ms concisos (agregacin).

  • 8/12/2019 mineria-datos-arte.pdf

    10/45

    Por tanto, la informacin es la comunicacin de conocimientos o inteligencia, y es

    capaz de cambiar la forma en que el receptor percibe algo, impactando sobre sus

    juicios de valor y sus comportamientos.

    Informacin = Datos + Contexto (aadir valor) + Utilidad (disminuir la incertidumbre)

    La informacin tambin puede evaluarse segn diferentes parmetros:

    Accesibilidad (informacin de accesibilidad x) Comprensividad (informacin de comprensividad igual a x) Precisin (informacin precisa, o de precisin igual a x) Relevancia (informacin relevante "vs" informacin superflua) Puntualidad (informacin de alta/baja puntualidad) Claridad (informacin de alta/baja ambigedad) Flexibilidad (informacin altamente compartible o de x nivel de compartibilidad) Verificabilidad (informacin de alta o baja verificabilidad) Cuantificabilidad (informacin cuantificable "vs" informacin no cuantificable).

    ConocimientoEl conocimiento es "una verdad justificada". El conocimiento surge cuando una

    persona considera, interpreta y utiliza la informacin de manera combinada con su

    propia experiencia y capacidad. Por esta razn podemos decir que el conocimiento

    est condicionado por la interpretacin que las personas efectan de la informacin

    disponible, condicionada por el contexto en que se desenvuelven y la experiencia que

    tienen. [Camargo, 2006]

    "El conocimiento es una mezcla fluida de experiencias, valores, informacin

    contextual y apreciaciones expertas (know-how) que proporcionan un marco para su

    evaluacin e incorporacin de nuevas experiencias e informacin, y es til para la

    accin. Se origina y aplica en las mentes de los conocedores. En las organizaciones

    est, a menudo, embebido no slo en los documentos y bases de datos, sino tambin

    en las rutinas organizacionales, en los procesos, prcticas y normas".

    El conocimiento debera tener cuatro particulares:

    1. Es tcito: porque los conceptos cambian o se adaptan a la luz de las experiencias de

    los individuos.

    2. Es orientado a la accin: porque posee la cualidad dinmica de generar nuevos

    conocimientos y superar los antiguos.

  • 8/12/2019 mineria-datos-arte.pdf

    11/45

    3. Est sustentado por reglas: porque la creacin de patrones en el cerebro, con el

    paso del tiempo, permiten actuar con rapidez y eficacia, de forma automtica, en

    situaciones inconcebibles.

    4. Est en constante cambio: porque el conocimiento puede ser distribuido, criticado y

    aumentado.

    El conocimiento deriva de la informacin como esta deriva de los datos, aunque son

    los humanos los que hacen todo el trabajo para que esta transformacin tenga lugar,

    mediante las siguientes acciones (4 C):

    Comparacin con otros elementos: Cmo se ajusta la informacin en la situacin

    dada, comparada con otras situaciones ya conocidas? Prediccin de Consecuencias:

    Qu implicaciones tiene la informacin para la toma de decisiones y la accin?

    Bsqueda de Conexiones: Cmo se relaciona este fragmento de conocimiento con

    otros fragmentos? Conversacin con otros portadores de conocimiento: Qu piensanotras personas acerca de esta informacin?

    Caractersticas del Conocimiento

    El conocimiento es personal, en el sentido de que se origina y reside en las personas,

    que lo asimilan como resultado de su propia experiencia (es decir, de su propio

    "hacer", ya sea fsico o intelectual) y lo incorporan a su acervo personal estando

    "convencidas" de su significado e implicaciones, articulndolo como un todoorganizado que da estructura y significado a sus distintas "piezas". Su utilizacin, que

    puede repetirse sin que el conocimiento "se consuma" como ocurre con otros bienes

    fsicos, permite "entender" los fenmenos que las personas perciben (cada una "a su

    manera", de acuerdo precisamente con lo que su conocimiento implica en un

    momento determinado), y tambin "evaluarlos", en el sentido de juzgar la bondad o

    conveniencia de los mismos para cada una en cada momento. Sirve de gua para la

    accin de las personas, en el sentido de decidir qu hacer en cada momento porque

    esa accin tiene en general por objetivo mejorar las consecuencias, para cada

    individuo, de los fenmenos percibidos (incluso cambindolos si es posible). Estascaractersticas convierten al conocimiento, en un cimiento slido para el desarrollo de

    ventajas competitivas. En efecto, en la medida en que es el resultado de la

    acumulacin de experiencias de personas, su imitacin es complicada a menos que

    existan representaciones precisas que permitan su transmisin a otras personas

    efectiva y eficientemente.

  • 8/12/2019 mineria-datos-arte.pdf

    12/45

    SabiduraEl saber es definido como la capacidad de comprender los principios, como

    contraposicin al conocimiento, que comprende patrones, y la informacin, que

    comprende relaciones y cuya acumulacin puede dar lugar, en trminos ms

    prcticos, al capital intelectual. El saber, como estadio superior al conocimiento, tiene

    que ver con los principios, la introspeccin, la moral, los arquetipos, tratando de dar

    respuesta al por qu de las cosas, en tanto que el conocimiento se asocia al cmo,

    incluyendo estrategias, prcticas, mtodos y enfoques y, ms abajo, la informacin que

    se asocia a las descripciones, definiciones y perspectivas: qu, quin, cundo, dnde. A

    los datos, exentos de significado por s mismos, ni siquiera se le asignan atributos

    diferenciados. [Camargo, 2006]

    Por ltimo, vale la pena sealar la distincin que Gene Meieran (Intel) hace entre

    saber y conocimiento:

    "El saber nos permite tomar decisiones sobre el futuro, mientras que los

    conocimientos se refieren a las decisiones sobre el presente". Adems agrega: "El

    saber se alcanza, buscando las relaciones entre las cosas e intentando comprenderlas

    y basando todo juicio sobre la pericia y la experiencia". Niel Fleming presenta un

    diagrama que asocia el nivel de independencia del contexto y el nivel de

    entendimiento en torno a los elementos de la cadena informacional: los datos, la

    informacin, el conocimiento, la sabidura y la verdad.

    Figura 2. Cadena Informacional

  • 8/12/2019 mineria-datos-arte.pdf

    13/45

    Dnde:

    Dato: Es un punto en el espacio y en el tiempo el cual no cuenta con referencias

    espaciales y temporales.

    Informacin: Una coleccin de datos no es informacin. Las piezas de datosrepresentan informacin de acuerdo a la medida de asociacin existente entre ellos, lo

    cual permite generar discernimiento en torno a ellas. Representa el cul, el quin, el

    cundo y el dnde.

    Conocimiento: Una coleccin de informacin no es conocimiento. Mientras que la

    informacin entrega las asociaciones necesarias para entender los datos, el

    conocimiento provee el fundamento de cmo cambian (en el caso que lo hagan). Esto

    claramente puede ser visto como patrones de comportamiento contextuados, es decir

    una relacin de relaciones. Representa el cmo.

    Sabidura: La sabidura abarca los principios fundacionales responsables de los

    patrones que representan el conocimiento. Representa el porqu.

    Verdad: La totalidad de los factores de sabidura y sus relaciones. Representa el ser.

    IMPORTANCIA DE LA DATA MINING

    En el mbito comercial, resulta interesante encontrar patrones ocultos de consumo de

    los clientes para poder explorar nuevos horizontes. Saber por ejemplo, que un

    vehculo deportivo corre un riesgo de accidente casi igual al de un vehculo normal

    cuando su dueo tiene un segundo vehculo en casa ayuda a crear nuevas estrategias

    comerciales para ese grupo de clientes. Asimismo, predecir el comportamiento de un

    futuro cliente, basndose en los datos histricos de clientes que presentaron el mismo

    perfil, ayuda a poder retenerlo durante el mayor tiempo posible.

    Vivimos permanentemente bombardeados por informes sobre la importancia del

    conocimiento y la informacin para obtener ventajas competitivas en un mundo

    globalizado. Las actividades de vigilancia e inteligencia, en el contexto de la "sociedad

    de la Informacin", se considera como "la transformacin de la informacin en

    conocimiento, y del conocimiento en accin". Es por esto la importancia del "anlisis

    de la informacin" en el seno de todas las actividades en donde se trata de

    transformar los datos brutos con el fin de extraer los conocimientos que puedan ser

    explotados y tiles en un determinado campo de accin.

  • 8/12/2019 mineria-datos-arte.pdf

    14/45

    DESCUBRIMIENTO DE CONOCIMIENTO Y MINERA DEDATOS

    El trmino descubrimiento de conocimiento en bases de datos (knowledge discoveryin databases, KDD para abreviar) se refiere al amplio proceso de bsqueda de

    conocimiento en bases de datos, y para enfatizar la aplicacin a alto nivel de

    mtodos especficos de minera de datos. En general, el descubrimiento es un tipo de

    induccin de conocimiento, no supervisado, que implica dos procesos:

    - bsqueda de regularidades interesantes entre los datos de partida,

    - formulacin de leyes que las describan.

    Proceso KDD

    1. Pre-procesamiento de Datos: Limpieza, integracin y transformacin.

    2. Minera de Datos: Uso de mtodos inteligentes para extraer conocimiento

    (bsqueda de oro) .

    3. Evaluacin de patrones encontrados y presentacin

    Los principales pasos dentro del proceso interactivo e iterativo del KDD pueden verse

    en la figura 3

    Figura 3.

  • 8/12/2019 mineria-datos-arte.pdf

    15/45

    Historia del KDDEn los ltimos aos, ha existido un gran crecimiento en nuestras capacidades de

    generar y colectar datos, debido bsicamente al gran poder de procesamiento de las

    mquinas como a su bajo costo de almacenamiento. Sin embargo, dentro de estas

    enormes masas de datos existe una gran cantidad de informacin oculta, de gran

    importancia estratgica, a la que no se puede acceder por las tcnicas clsicas de

    recuperacin de la informacin. El descubrimiento de esta informacin oculta es

    posible gracias a la Minera de Datos (DataMining), que entre otras sofisticadas

    tcnicas aplica la inteligencia artificial para encontrar patrones y relaciones dentro de

    los datos permitiendo la creacin de modelos, es decir, representaciones abstractas de

    la realidad, pero es el descubrimiento del conocimiento (KDD, por sus siglas en ingls)

    que se encarga de la preparacin de los datos y la interpretacin de los resultados

    obtenidos, los cuales dan un significado a estos patrones encontrados. As el valor real

    de los datos reside en la informacin que se puede extraer de ellos, informacin que

    ayude a tomar decisiones o mejorar nuestra comprensin de los fenmenos que nosrodean. Hoy, ms que nunca, los mtodos analticos avanzados son el arma secreta de

    muchos negocios exitosos. Empleando mtodos analticos avanzados para la

    explotacin de datos, los negocios incrementan sus ganancias, maximizan la eficiencia

    operativa, reducen costos y mejoran la satisfaccin del cliente.

    En la figura 4 se ilustra la jerarqua que existe en una base de datos entre datos,

    informacin y conocimiento. Se observa igualmente el volumen que presenta en cada

    nivel y el valor que los responsables de las decisiones le dan en esa jerarqua. El rea

    interna dentro del tringulo representa los objetivos que se han propuesto. Laseparacin del tringulo representa la estrecha unin entre dato e informacin, no as

    elntre la informacin y el conocimiento.

    Figura 4: Jerarqua del Conocimiento. Relacin entre dato, informacin yconocimiento (Molina, 1998).

  • 8/12/2019 mineria-datos-arte.pdf

    16/45

    MetasLas metas del KDD son:

    Procesar automticamente grandes cantidades de datos crudos.

    Identificar los patrones ms significativos y relevantes. Presentarlos como conocimiento apropiado para satisfacer las metas del usuario.

    Relacin con otras disciplinas KDD nace como interfaz y se nutre de diferentes disciplinas:

    Sistemas de informacin / bases de datos: tecnologas de bases de datos y bodegas

    de datos, maneras eficientes de almacenar, accesar y manipular datos.

    Estadstica, aprendizaje automtico / IA (redes neuronales, lgica difusa, algoritmos

    genticos, razonamiento probabilstico): desarrollo de tcnicas para extraer

    conocimiento a partir de datos.

    Reconocimiento de patrones: desarrollo de herramientas de clasificacin.

    Visualizacin de datos: interfaz entre humanos y datos, y entre humanos y patrones.

    Computacin paralela / distribuida: cmputo de alto desempeo, mejora de

    desempeo de algoritmos debido asu complejidad y a la cantidad de datos.

    Interfaces de lenguaje natural a bases de datos.

    El proceso de KDDEl proceso de KDD consiste en usar mtodos de minera de datos (algoritmos) para

    extraer (identificar) lo que se considera como conocimiento de acuerdo a la

    especificacin de ciertos parmetros usando una base de datos junto con

    preprocesamientos y post-procesamientos. En la figura 3. se ilustra el proceso de KDD.

    Se estima que la extraccin de patrones (minera) de los datos ocupa solo el 15% -

    20% del esfuerzo total del proceso de KDD. El proceso de descubrimiento de

    conocimiento en bases de datos involucra varios pasos:

    Determinar las fuentes de informacin: que pueden ser tiles y dnde conseguirlas.

    Disear el esquema de un almacn de datos (Data Warehouse): que consiga unificar

    de manera operativa toda la informacin recogida. Implantacin del almacn de datos: que permita la navegacin y visualizacin previa

    de sus datos, para discernir qu aspectos puede interesar que sean estudiados. Esta es

    la etapa que puede llegar a consumir el mayor tiempo.

    Seleccin, limpieza y transformacin de los datos que se van a analizar: la seleccin

    incluye tanto una criba o fusin horizontal (filas) como vertical (atributos).La limpieza

    y prepocesamiento de datos se logra diseando una estrategia adecuada para manejar

  • 8/12/2019 mineria-datos-arte.pdf

    17/45

    ruido, valores incompletos, secuencias de tiempo, casos extremos (si es necesario),

    etc.

    Seleccionar y aplicar el mtodo de minera de datos apropiado: esto incluye la

    seleccin de la tarea de descubrimiento a realizar, por ejemplo, clasificacin,

    agrupamiento o clustering, regresin, etc. La seleccin de l o de los algoritmos a

    utilizar. La transformacin de los datos al formato requerido por el algoritmo

    especfico de minera de datos. Y llevar a cabo el proceso de minera de datos, se

    buscan patrones que puedan expresarse como un modelo o simplemente que

    expresen dependencias de los datos, el modelo encontrado depende de su funcin

    (clasificacin) y de su forma de representarlo (rboles de decisin, reglas, etc.), se

    tiene que especificar un criterio de preferencia para seleccionar un modelo dentro de

    un conjunto posible de modelos, se tiene que especificar la estrategia de bsqueda a

    utilizar (normalmente est predeterminada en el algoritmo de minera)

    Evaluacin, interpretacin, transformacin y representacin de los patrones

    extrados:Interpretar los resultados y posiblemente regresar a los pasos anteriores. Esto puede

    involucrar repetir el proceso, quizs con otros datos, otros algoritmos, otras metas y

    otras estrategias. Este es un paso crucial en donde se requiere tener conocimiento del

    dominio. La interpretacin puede beneficiarse de procesos de visualizacin, y sirve

    tambin para borrar patrones redundantes irrelevantes.

    Difusin y uso del nuevo conocimiento. Incorporar el conocimiento descubierto al

    sistema (normalmente para mejorarlo) lo cual puede incluir resolver conflictos

    potenciales con el conocimiento existente. El conocimiento se obtiene para realizar

    acciones, ya sea incorporndolo dentro de un sistema de desempeo o simplemente

    para almacenarlo y reportarlo a las personas interesadas. En este sentido, KDD

    implica un proceso interactivo e iterativo involucrando la aplicacin de varios

    algoritmos de minera de datos.

    DATA MINING

    Aunque desde un punto de vista acadmico el trmino data mining es una etapa

    dentro de un proceso mayor llamado extraccin de conocimiento en bases de datos(Knowledge Discovery in Databases o KDD) en el entorno comercial, ambos trminos

    se usan de manera indistinta. Lo que en verdad hace el data mining es reunir las

    ventajas de varias reas como la Estadstica, la Inteligencia Artificial, la Computacin

    Grfica, las Bases de Datos y el Procesamiento Masivo, principalmente usando como

    materia prima las bases de datos. Una definicin tradicional es la siguiente: "la

    integracin de un conjunto de reas que tienen como propsito la identificacin de un

  • 8/12/2019 mineria-datos-arte.pdf

    18/45

    conocimiento obtenido a partir de las bases de datos que aporten un sesgo hacia la

    toma de decisin" [Molina, 2002].

    La idea de data mining no es nueva. Ya desde los aos sesenta los estadsticos

    manejaban trminos como data fishing, data mining o data archaeology con la idea de

    encontrar correlaciones sin una hiptesis previa en bases de datos con ruido. A

    principios de los aos ochenta, Rakesh Agrawal, Gio Wiederhold, Robert Blum y

    Gregory Piatetsky-Shapiro, entre otros, empezaron a consolidar los trminos de data

    mining y KDD. A finales de los aos ochenta slo existan un par de empresas

    dedicadas a esta tecnologa; en 2002 existen ms de 100 empresas en el mundo que

    ofrecen alrededor de 300 soluciones. Las listas de discusin sobre este tema las

    forman investigadores de ms de ochenta pases. Esta tecnologa ha sido un buen

    punto de encuentro entre personas pertenecientes al mbito acadmico y al de los

    negocios.

    El data mining es una tecnologa compuesta por etapas que integra varias reas y que

    no se debe confundir con un gran software. Durante el desarrollo de un proyecto de

    este tipo se usan diferentes aplicaciones software en cada etapa que pueden ser

    estadsticas, de visualizacin de datos o de inteligencia artificial, principalmente.

    Actualmente existen aplicaciones o herramientas comerciales de data mining muy

    poderosas que contienen un sinfn de utileras que facilitan el desarrollo de un

    proyecto. Sin embargo, casi siempre acaban complementndose con otra herramienta.

    La data mining es la etapa de descubrimiento en el proceso de KDD: Paso consistente

    en el uso de algoritmos concretos que generan una enumeracin de patrones a partir

    de los datos preprocesados (Fayyad et al., 1996) Aunque se suelen usar

    indistintamente los trminos KDD y Minera de Datos.

    Los proyectos de Data Mining tienen por objetivo extraer informacin til a partir de

    grandes cantidades de datos y se aplican a todos los sectores y en todos los campos.

    As existen proyectos de este tipo en sectores tan dispares como el comercio

    electrnico, la banca, las empresas industriales o la exploracin petrolfera. La

    extraccin de esta informacin til es un proceso complejo, que requiere la aplicacin

    de una metodologa estructurada para la utilizacin ordenada y eficiente de las

    tcnicas y herramientas disponibles [Rodrguez, 2005].

    La minera de datos (DM, Data Mining) consiste en la extraccin no trivial de

    informacin que reside de manera implcita en los datos. Dicha informacin era

    previamente desconocida y podr resultar til para algn proceso. En otras palabras,

    http://es.wikipedia.org/wiki/Informaci%C3%B3nhttp://es.wikipedia.org/wiki/Datohttp://es.wikipedia.org/wiki/Datohttp://es.wikipedia.org/wiki/Informaci%C3%B3n
  • 8/12/2019 mineria-datos-arte.pdf

    19/45

    la minera de datos prepara, sondea y explora los datos para sacar la informacin

    oculta en ellos.

    Bajo el nombre de minera de datos se engloba todo un conjunto de tcnicas

    encaminadas a la extraccin de conocimiento procesable, implcito en las bases de

    datos. Est fuertemente ligado con la supervisin de procesos industriales ya que

    resulta muy til para aprovechar los datos almacenados en las bases de datos.

    Las bases de la minera de datos se encuentran en la inteligencia artificial y en el

    anlisisestadstico.Mediante losmodelos extrados utilizando tcnicas de minera de

    datos se aborda la solucin a problemas deprediccin,clasificacin ysegmentacin.

    Las categoras bsicas de las tcnicas de minera de datos actualmente en uso sepueden clasificar en: clasificacin, asociacin, secuencia y cluster.

    Clasificacin: incluye los procesos de minera de datos que buscan reglas paradefinir si un tem o un evento pertenecen a un subsetparticular o a una clase de

    datos. Esta tcnica, probablemente la ms utilizada, incluye dos subprocesos: la

    construccin de un modelo y la prediccin.

    En trminos generales, los mtodos de clasificacin desarrollan un modelo

    compuesto por reglas IF-THEN y se aplican perfectamente, por ejemplo, para

    encontrar patrones de compra en las bases de datos de los clientes y construirmapas que vinculan los atributos de los clientes con los productos comprados. Con

    un conjunto apropiado de atributos predictivos, el modelo puede identificar los

    clientes con mayor propensin a realizar una determinada compra durante el

    prximo mes. Un caso tpico de clasificacin es el de dividir una base de datos de

    compaas en grupos homogneos respecto a variables como "posibilidades de

    crdito" con valores tales como"bueno" y "malo".

    Asociacin: incluye tcnicas conocidas como linkage analysis, utilizadas parabuscar patrones que tienen una probabilidad alta de repeticin, como ocurre alanalizar una canasta en la bsqueda de productos afines.

    Se desarrolla un algoritmo asociativo que incluye las reglas que van a

    correlacionar un conjunto de eventos con otro. Por ejemplo, un supermercado

    podra necesitar informacin sobre los hbitos de compra de sus clientes, para

    http://es.wikipedia.org/wiki/Base_de_datoshttp://es.wikipedia.org/wiki/Base_de_datoshttp://es.wikipedia.org/wiki/Inteligencia_artificialhttp://es.wikipedia.org/wiki/Estad%C3%ADsticahttp://es.wikipedia.org/wiki/Modelohttp://es.wikipedia.org/wiki/Predicci%C3%B3nhttp://es.wikipedia.org/wiki/Clasificaci%C3%B3nhttp://es.wikipedia.org/wiki/Segmentaci%C3%B3nhttp://es.wikipedia.org/wiki/Segmentaci%C3%B3nhttp://es.wikipedia.org/wiki/Clasificaci%C3%B3nhttp://es.wikipedia.org/wiki/Predicci%C3%B3nhttp://es.wikipedia.org/wiki/Modelohttp://es.wikipedia.org/wiki/Estad%C3%ADsticahttp://es.wikipedia.org/wiki/Inteligencia_artificialhttp://es.wikipedia.org/wiki/Base_de_datoshttp://es.wikipedia.org/wiki/Base_de_datos
  • 8/12/2019 mineria-datos-arte.pdf

    20/45

    reubicar los productos que se suelen comprar juntos, para localizar los productos

    nuevos en el mejor lugar, o para ofrecer promociones.

    Secuencia: los mtodos de analisis de series de tiempo son usados para relacionarlos eventos con el tiempo.

    A ttulo ilustrativo: como resultado de este tipo de modelo se puede aprender que

    las personas que alquilan una pelcula de video tienden a adquirir los productos

    promocionales durante las siguientes dos semanas; o bien, que la adquisicin de

    un horno de microondas se produce frecuentemente luego de determinadas

    compras previas.

    Cluster: Muchas veces resulta difcil o imposible definir los parmetros de unaclase de datos. En ese caso, los mtodos de clustering pueden usarse para crear

    particiones, de forma tal que los miembros de cada una de ellas resulten similaresentre s, segn alguna mtrica o conjunto de mtricas.

    El anlisis de clusters podra utilizarse, entre otras aplicaciones, al estudiar las

    compras con tarjetas de crdito, para descubrirdigamosque los alimentos

    comprados con una tarjeta dorada de uso empresarial son adquiridos durante los

    das de semana y tienen un valor promedio de ticket de 152 pesos, mientras que el

    mismo tipo de compra, pero realizado con una tarjeta platino personal, ocurre

    predominantemente durante los fines de semana, por un valor menor, pero

    incluye una botella de vino ms del 65 % de las veces.

    Como puede verse, en el mundo de la data mining las preguntas que se pueden hacer y

    responder son infinitas y las metodologas utilizadas para responderlas son diversas y

    cada vez ms variadas. As como existen muchas tcnicas para dar soporte al proceso

    de decidir con la minera de datos, existen variadas tecnologas para construir los

    modelos

    Grupos de tcnicas principales

    Visualizacin. Ayudas para el descubrimiento manual de informacin.

    Se muestran tendencias, agrupamientos de datos, etc.

    Funcionamiento semi-automtico.

  • 8/12/2019 mineria-datos-arte.pdf

    21/45

    Verificacin. Se conoce de antemano un modelo y se desea saber si los datos disponibles se

    ajustan a l.

    Se establecen medidas de ajuste al modelo.

  • 8/12/2019 mineria-datos-arte.pdf

    22/45

    Descubrimiento. Se busca un modelo desconocido de antemano.

    Descubrimiento descriptivo: se busca modelo legible.

    Descubrimiento predictivo: no importa que el modelo no sea legible.

    Sea como sea la presentacin del problema, una de las caractersticas presente en

    cualquier tipo de aprendizaje y en cualquier tipo de tcnica de Minera de Datos es su

    carcter hipottico, es decir, lo aprendido puede, en cualquier momento, ser refutado

    por evidencia futura.

    En muchos casos, los modelos no aspiran a ser modelos perfectos, sino modelos

    aproximados. En cualquier caso, al estar trabajando con hiptesis, es necesario

    realizar una evaluacin de los patrones obtenidos, con el objetivo de estimar su

    validez y poder compararlos con otros. Por tanto, la Minera de Datos, ms que

    verificar patrones hipotticos, usa los datos para encontrar estos patrones. Por lo

    tanto, es un proceso inductivo.

    Pueden emplearse diferentes criterios para clasificar los sistemas de minera de datos

    y, en general, los sistemas de aprendizaje inductivo en ordenadores:

  • 8/12/2019 mineria-datos-arte.pdf

    23/45

    DEPENDIENDO DEL OBJETIVO para el que se realiza el aprendizaje, pueden

    distinguirse sistemas para: clasificacin (clasificar datos en clases predefinidas),

    regresin (funcin que convierte datos en valores de una funcin de prediccin),

    agrupamiento de conceptos (bsqueda de conjuntos en los que agrupar los datos),

    compactacin (bsqueda de descripciones ms compactas de los datos), modelado de

    dependencias (dependencias entre las variables de los datos), deteccin de

    desviaciones (bsqueda de desviaciones importantes de los datos respecto de valores

    anteriores o medios), etc.

    DEPENDIENDO DE LA TENDENCIA con que se aborde el problema, se pueden

    distinguir tres gran- des lneas de investigacin o paradigmas: sistemas conexionistas

    (redes neuronales), sistemas evolucionistas (algoritmos genticos) y sistemas

    simblicos.

    DEPENDIENDO DEL LENGUAJE utilizado para representar del conocimiento, se

    pueden distinguir: representaciones basadas en la lgica de proposiciones,

    representaciones basadas en lgica de predicados de primer orden, representaciones

    estructuradas, representaciones a travs de ejemplos y representaciones no

    simblicas como las redes neuronales.

    TAREAS DE LA MINERA DE DATOS

    Descripcin de clasesSumarizacion/ caracterizacin de la coleccin de datos

    - Tendencias

    - Reportes

  • 8/12/2019 mineria-datos-arte.pdf

    24/45

    Aplicaciones:

    - Supermercados (Canasta de mercado)

    - Contratos de Mantenimiento (Que debe hacer el almacn para potenciar las ventas

    de contratos de mantenimiento) 98% de lagente que compra llantas y accesorios de

    autos tambin obtiene servicios de mantenimiento

    - Recomendaciones de pginas Web (URL1 & URL3 -> URL5) 60% de usuarios de la

    Web quien visita la Pgina A y B compra el tem T1

    Encontrar AsociacionesDescubrir asociaciones, relaciones / correlaciones entre un conjunto de tems

    Asociaciones, relaciones / correlaciones en forma de reglas: X Y

    (registros en BD que satisfacen X, tambin satisfacen Y)

    Aplicaciones:

    - Aprobacin de crditos

  • 8/12/2019 mineria-datos-arte.pdf

    25/45

    - Diagnstico mdico

    - Clasificacin de documentos de texto (text mining)

    - Recomendacin de pginas Web automticamente

    - Seguridad

    Clasificacin y PrediccinClasificacin: Construir un modelo por cada clase de dato etiquetado usado en el

    entrenamiento del modelo.

    Basado en sus caractersticas y usado para clasificar futuros datos

    Prediccin: Predecir valores posibles de datos/atributos basados en similar

    objetos.

  • 8/12/2019 mineria-datos-arte.pdf

    26/45

  • 8/12/2019 mineria-datos-arte.pdf

    27/45

    Aplicaciones:

    - Procesamiento de Imgenes (segmentar imgenes a color en regiones)

    - Indexamiento de texto e imgenes

    - WWW

    Clasificacin de paginas Web (usados por motores de bsqueda -Google)

    Agrupar web log para descubrir grupos de patrones de acceso similares (web usage

    profiles)- Seguridad: Descubriendo patrones de acceso a redes(Deteccin de intrusos)

    RegresionPrediccin de una variable real (no categrica )

    - Variable real -> regresin

    - Variable categrica -> clasificacin

    Series de tiempoPredecir valores futuros de acuerdo al tiempo

  • 8/12/2019 mineria-datos-arte.pdf

    28/45

    AgrupacionDividir datos sin etiqueta en grupos (clusters) de tal forma que datos que

    pertenecen al mismo grupo son similares, y datos que pertenecen a diferentes gruposson diferentes

    SimilaridadMedidas de similaridad/distancia. Dependen de los tipos de datos

    Numricos:

    Distancia Euclidean

    Binarios

    Jaccard

    Cosine

  • 8/12/2019 mineria-datos-arte.pdf

    29/45

    ETAPAS DE LA MINERA DE DATOS

    Aunque en datamining cada caso concreto puede ser radicalmente distinto al anterior,

    el proceso comn a todos ellos se suele componer de cuatro etapas principales:

    Determinacin de los objetivos. Trata de la delimitacin de los objetivos que elcliente desea bajo la orientacin del especialista en data mining.

    Preprocesamiento de los datos. Se refiere a la seleccin, la limpieza, elenriquecimiento, la reduccin y la transformacin de las bases de datos. Esta etapa

    consume generalmente alrededor del setenta por ciento del tiempo total de un

    proyecto de data mining.

    Determinacin del modelo. Se comienza realizando unos anlisis estadsticos delos datos, y despus se lleva a cabo una visualizacin grfica de los mismos para

    tener una primera aproximacin. Segn los objetivos planteados y la tarea que

    debe llevarse a cabo, pueden utilizarse algoritmos desarrollados en diferentes

    reas de la Inteligencia Artificial.

    Anlisis de los resultados. Verifica si los resultados obtenidos son coherentes y loscoteja con los obtenidos por los anlisis estadsticos y de visualizacin grfica. El

    cliente determina si son novedosos y si le aportan un nuevo conocimiento que le

    permita considerar sus decisiones.

    Carga de trabajo en las fases de un proyecto de datamining

    Un proceso tpico de minera de datos consta de los siguientes pasos generales:

    1. Seleccin del conjunto de datos, tanto en lo que se refiere a las variables

    objetivo (aquellas que se quiere predecir, calcular o inferir), como a las variables

    independientes (las que sirven para hacer el clculo o proceso), como posiblemente al

    muestreo de los registros disponibles.

    2. Anlisis de las propiedades de los datos, en especial los histogramas, diagramas

    de dispersin, presencia de valores atpicos y ausencia de datos (valores nulos).

    3. Transformacin del conjunto de datos de entrada, se realizar de diversas

    formas en funcin del anlisis previo, con el objetivo de prepararlo para aplicar la

    tcnica de minera de datos que mejor se adapte a los datos y al problema, a este paso

    tambin se le conoce como preprocesamiento de los datos.

  • 8/12/2019 mineria-datos-arte.pdf

    30/45

    4. Seleccionar y aplicar la tcnica de minera de datos, se construye el modelo

    predictivo, de clasificacin o segmentacin.

    5. Extraccin de conocimiento, mediante una tcnica de minera de datos, se

    obtiene un modelo de conocimiento, que representa patrones de comportamiento

    observados en los valores de las variables del problema o relaciones de asociacinentre dichas variables. Tambin pueden usarse varias tcnicas a la vez para generar

    distintos modelos, aunque generalmente cada tcnica obliga a un preprocesado

    diferente de los datos.

    6. Interpretacin y evaluacin de datos, una vez obtenido el modelo, se debe

    proceder a su validacin comprobando que las conclusiones que arroja son vlidas y

    suficientemente satisfactorias. En el caso de haber obtenido varios modelos mediante

    el uso de distintas tcnicas, se deben comparar los modelos en busca de aquel que se

    ajuste mejor al problema. Si ninguno de los modelos alcanza los resultados esperados,

    debe alterarse alguno de los pasos anteriores para generar nuevos modelos.

    Si el modelo final no superara esta evaluacin el proceso se podra repetir desde el

    principio o, si el experto lo considera oportuno, a partir de cualquiera de los pasos

    anteriores. Esta retroalimentacin se podr repetir cuantas veces se considere

    necesario hasta obtener un modelo vlido.

    Una vez validado el modelo, si resulta ser aceptable (proporciona salidas adecuadas

    y/o con mrgenes de error admisibles) ste ya est listo para su explotacin. Los

    modelos obtenidos por tcnicas de minera de datos se aplican incorporndolos en los

    sistemas de anlisis de informacin de las organizaciones, e incluso, en los sistemastransaccionales. En este sentido cabe destacar los esfuerzos del Data Mining Group,

    que est estandarizando el lenguaje PMML (Predictive Model Markup Language), de

    manera que los modelos de minera de datos sean interoperables en distintas

    plataformas, con independencia del sistema con el que han sido construidos. Los

    principales fabricantes de sistemas de bases de datos y programas de anlisis de la

    informacin hacen uso de este estndar.

    Tradicionalmente, las tcnicas de minera de datos se aplicaban sobre informacin

    contenida en almacenes de datos. De hecho, muchas grandes empresas e instituciones

    han creado y alimentan bases de datos especialmente diseadas para proyectos de

    minera de datos en las que centralizan informacin potencialmente til de todas sus

    reas de negocio. No obstante, actualmente est cobrando una importancia cada vez

    mayor la minera de datos desestructurados como informacin contenida en ficheros

    de texto, en Internet, etc.

  • 8/12/2019 mineria-datos-arte.pdf

    31/45

    APLICACIONES DE LA MINERA DE DATOS

    Cada ao, en los diferentes congresos, simposios y talleres que se realizan en el

    mundo se renen investigadores con aplicaciones muy diversas. Sobre todo en los

    Estados Unidos, el data mining se ha ido incorporando a la vida de empresas,

    gobiernos, universidades, hospitales y diversas organizaciones que estn interesadas

    en explorar sus bases de datos. Podemos decir que "en data mining cada caso es un

    caso". [Molina, 2002]

    Sin embargo, en trminos generales, el proceso se compone de cuatro etapas

    principales:

    1. Determinacin de los objetivos.Trata de la delimitacin de los objetivos que elcliente desea bajo la orientacin del especialista en data mining.

    2. Preprocesamiento de los datos. Se refiere a la seleccin, la limpieza, elenriquecimiento, la reduccin y la transformacin de las bases de datos. Esta etapa

    consume generalmente alrededor del setenta por ciento del tiempo total de un

    proyecto de data mining.

    3. Determinacin del modelo.Se comienza realizando unos anlisis estadsticos delos datos, y despus se lleva a cabo una visualizacin grfica de los mismos para tener

    una primera aproximacin. Segn los objetivos planteados y la tarea que debe llevarse

    a cabo, pueden utilizarse algoritmos desarrollados en diferentes reas de la

    Inteligencia Artificial.

    4.Anlisis de los resultados. Verifica si los resultados obtenidos son coherentes y loscoteja con los obtenidos por los anlisis estadsticos y de visualizacin grfica. El

    cliente determina si son novedosos y si le aportan un nuevo conocimiento que le

    permita considerar sus decisiones.

    Las principales metodologas utilizadas por los analistas para la realizacin de

    proyectos de Data Mining son: CRISP-DM y SEMMA. Estas metodologas comparten la

    misma esencia estructurando el proyecto de Data Mining en fases que se encuentran

    interrelacionadas entre s, convirtiendo el proceso de Data Mining en un proceso

    iterativo e interactivo.

  • 8/12/2019 mineria-datos-arte.pdf

    32/45

    Ejemplos de Usos

    A continuacin se describen varios ejemplos donde se ha visto involucrado el data

    mining. Se han seleccionado de diversos dominios y con diversos objetivos para

    observar su potencial. Respecto a los modelos inteligentes, se ha comprobado que en

    ellos se utilizan principalmente rboles y reglas de decisin, reglas de asociacin,

    redes neuronales, redes bayesianas, conjuntos aproximados (rough sets), algoritmos

    de agrupacin (clustering), mquinas de soporte vectorial, algoritmos genticos y

    lgica difusa.

    En el gobiernoPara el FBI analizar las bases de datos comerciales para detectar terroristas.

    Departamento de Justicia debe introducirse en la vasta cantidad de datos comercialesreferentes a los hbitos y preferencias de compra de los consumidores, con el fin de

    descubrir potenciales terroristas antes de que ejecuten una accin. Algunos expertos

    aseguran que, con esta informacin, el FBI unira todas las bases de datos y permitir

    saber si una persona fuma, qu talla y tipo de ropa usa, su registro de arrestos, su

    salario, las revistas a las que est suscrito, su altura y peso, sus contribuciones a la

    Iglesia, grupos polticos u organizaciones no gubernamentales, sus enfermedades

    crnicas (como diabetes o asma), los libros que lee, los productos de supermercado

    que compra, si tom clases de vuelo o si tiene cuentas de banco abiertas, entre otros.

    En la empresaDeteccin de fraudes en las tarjetas de crdito.

    Examinar transacciones, propietarios de tarjetas y datos financieros para detectar y

    mitigar fraudes. En un principio para detectar fraudes en tarjetas de crdito, luego

    incorporar las tarjetas comerciales, de combustibles y de dbito.

    Descubriendo el porqu de la desercin de clientes de una compaa operadora de

    telefona mvil. Este estudio fue desarrollado en una operadora espaola que

    bsicamente situ sus objetivos en dos puntos: el anlisis del perfil de los clientes que

    se dan de baja y la prediccin del comportamiento de sus nuevos clientes. Se

    analizaron los diferentes histricos de clientes que haban abandonado la operadora y

    de clientes que continuaban con su servicio. Tambin se analizaron las variables

    personales de cada cliente (estado civil, edad, sexo, nacionalidad, etc.). De igual forma

    se estudiaron, para cada cliente, la morosidad, la frecuencia y el horario de uso del

    servicio, los descuentos y el porcentaje de llamadas locales, interprovinciales,

  • 8/12/2019 mineria-datos-arte.pdf

    33/45

    internacionales y gratuitas. Al contrario de lo que se podra pensar, los clientes que

    abandonaban la operadora generaban ganancias para la empresa; sin embargo, una

    de las conclusiones ms importantes radic en el hecho de que los clientes que se

    daban de baja reciban pocas promociones y registraban un mayor nmero de

    incidencias respecto a la media. De esta forma se recomend a la operadora hacer un

    estudio sobre sus ofertas y analizar profundamente las incidencias recibidas por esos

    clientes. Al descubrir el perfil que presentaban, la operadora tuvo que disear un trato

    ms personalizado para sus clientes actuales con esas caractersticas. Para poder

    predecir el comportamiento de sus nuevos clientes se dise un sistema de prediccin

    basado en la cantidad de datos que se poda obtener de los nuevos clientes

    comparados con el comportamiento de clientes anteriores.

    Prediciendo el tamao de las audiencias televisivas.

    La British Broadcasting Corporation (BBC) del Reino Unido emplea un sistema parapredecir el tamao de las audiencias televisivas para un programa propuesto, as

    como el tiempo ptimo de exhibicin [Brachman y otros, 1996]. El sistema utiliza

    redes neuronales y rboles de decisin aplicados a datos histricos de la cadena para

    determinar los criterios que participan segn el programa que hay que presentar. La

    versin final se desempea tan bien como un experto humano con la ventaja de que se

    adapta ms fcilmente a los cambios porque es constantemente reentrenada con

    datos actuales.

    En la universidadConociendo si los recien titulados de una universidad llevan a cabo actividades

    profesionales relacionadas con sus estudios. Se hizo un estudio sobre los recin

    titulados de la carrera de Ingeniera en Sistemas Computacionales del Instituto

    Tecnolgico de Chihuahua II, [1] en Mjico [Rodas, 2001]. Se quera observar si sus

    recin titulados se insertaban en actividades profesionales relacionadas con sus

    estudios y, en caso negativo, se buscaba saber el perfil que caracteriz a los exalumnos

    durante su estancia en la universidad. El objetivo era saber si con los planes de

    estudio de la universidad y el aprovechamiento del alumno se haca una buena

    insercin laboral o si existan otras variables que participaban en el proceso. Dentrode la informacin considerada estaba el sexo, la edad, la escuela de procedencia, el

    desempeo acadmico, la zona econmica donde tena su vivienda y la actividad

    profesional, entre otras variables. Mediante la aplicacin de conjuntos aproximados se

    descubri que existan cuatro variables que determinaban la adecuada insercin

    laboral, que son citadas de acuerdo con su importancia: zona econmica donde

    habitaba el estudiante, colegio de dnde provena, nota al ingresar y promedio final al

  • 8/12/2019 mineria-datos-arte.pdf

    34/45

    salir de la carrera. A partir de estos resultados, la universidad tendr que hacer un

    estudio socioeconmico sobre grupos de alumnos que pertenecan a las clases

    econmicas bajas para dar posibles soluciones, debido a que tres de las cuatro

    variables no dependan de la universidad.

    En investigaciones espacialesProyecto SKYCAT.

    Durante seis aos, el Second Palomar Observatory Sky Survey (POSS-II) coleccion

    tres terabytes de imgenes que contenan aproximadamente dos millones de objetos

    en el cielo. Tres mil fotografas fueron digitalizadas a una resolucin de 16 bits por

    pxel con 23.040 x 23.040 pxeles por imagen. El objetivo era formar un catlogo de

    todos esos objetos.

    El sistema Sky Image Cataloguing and Analysis Tool (SKYCAT) se basa en tcnicas de

    agrupacin (clustering) y rboles de decisin para poder clasificar los objetos enestrellas, planetas, sistemas, galaxias, etc. con una alta confiabilidad [Fayyad y otros,

    1996]. Los resultados han ayudado a los astrnomos a descubrir diecisis nuevos

    qusars con corrimiento hacia el rojo que los incluye entre los objetos ms lejanos del

    universo y, por consiguiente, ms antiguos. Estos qusars son difciles de encontrar y

    permiten saber ms acerca de los orgenes del universo.

    En los clubes deportivosEl AC de Milan utiliza un sistema inteligente para prevenir lesiones.

    Esta temporada el club comenzar a usar redes neuronales para prevenir lesiones yoptimizar el acondicionamiento de cada atleta. Esto ayudar a seleccionar el fichaje de

    un posible jugador o a alertar al mdico del equipo de una posible lesin. El sistema,

    creado por Computer Associates International, es alimentado por datos de cada

    jugador, relacionados con su rendimiento, alimentacin y respuesta a estmulos

    externos, que se obtienen y analizan cada quince das. El jugador lleva a cabo

    determinadas actividades que son monitoreadas por veinticuatro sensores

    conectados al cuerpo y que transmiten seales de radio que posteriormente son

    almacenadas en una base de datos. Actualmente el sistema dispone de 5.000 casos

    registrados que permiten predecir alguna posible lesin. Con ello, el club intenta

    ahorrar dinero evitando comprar jugadores que presenten una alta probabilidad de

    lesin, lo que hara incluso renegociar su contrato. Por otra parte, el sistema pretende

    encontrar las diferencias entre las lesiones de atletas de ambos sexos, as como saber

    si una determinada lesin se relaciona con el estilo de juego de un pas concreto

    donde se practica el ftbol.

  • 8/12/2019 mineria-datos-arte.pdf

    35/45

    Los equipos de la NBA utilizan aplicaciones inteligentes para apoyar a su cuerpo de

    entrenadores.

    El Advanced Scout es un software que emplea tcnicas de data mining y que han

    desarrollado investigadores de IBM para detectar patrones estadsticos y eventos

    raros. Tiene una interfaz grfica muy amigable orientada a un objetivo muy especfico:

    analizar el juego de los equipos de la National Basketball Association (NBA). El

    software utiliza todos los registros guardados de cada evento en cada juego: pases,

    encestes, rebotes y doble marcaje (doubl team) a un jugador por el equipo contrario,

    entre otros. El objetivo es ayudar a los entrenadores a aislar eventos que no detectan

    cuando observan el juego en vivo o en pelcula. Un resultado interesante fue uno hasta

    entonces no observado por los entrenadores de los Knicks de Nueva York. El doble

    marcaje a un jugador puede generalmente dar la oportunidad a otro jugador de

    encestar ms fcilmente. Sin embargo, cuando los Bulls de Chicago jugaban contra los

    Knicks, se encontr que el porcentaje de encestes despus de que al centro de los

    Knicks, Patrick Ewing, le hicieran doble marcaje era extremadamente bajo, indicandoque los Knicks no reaccionaban correctamente a los dobles marcajes.

    Para saber el porqu, el cuerpo de entrenadores estudi cuidadosamente todas las

    pelculas de juegos contra Chicago. Observaron que los jugadores de Chicago rompan

    su doble marcaje muy rpido de tal forma que podan tapar al encestador libre de los

    Knicks antes de prepararse para efectuar su tiro. Con este conocimiento, los

    entrenadores crearon estrategias alternativas para tratar con el doble marcaje. La

    temporada pasada, IBM ofreci el Advanced Scout a la NBA, que se convirti as en un

    patrocinador corporativo. La NBA dio a sus veintinueve equipos la oportunidad de

    aplicarlo. Dieciocho equipos lo estn haciendo hasta el momento obteniendo

    descubrimientos interesantes.

    NegociosLa minera de datos puede contribuir significativamente en las aplicaciones de

    administracin empresarial basada en la relacin con el cliente. En lugar de contactar

    con el cliente de forma indiscriminada a travs de un centro de llamadas o enviandocartas, slo se contactar con aquellos que se perciba que tienen una mayor

    probabilidad de responder positivamente a una determinada oferta o promocin.

    Por lo general, las empresas que emplean minera de datos ven rpidamente el

    retorno de la inversin, pero tambin reconocen que el nmero de modelos

    predictivos desarrollados puede crecer muy rpidamente.

  • 8/12/2019 mineria-datos-arte.pdf

    36/45

    En lugar de crear modelos para predecir qu clientes pueden cambiar, la empresa

    podra construir modelos separados para cada regin y/o para cada tipo de cliente.

    Tambin puede querer determinar qu clientes van a ser rentables durante una

    ventana de tiempo (una quincena, un mes, ...) y slo enviar las ofertas a las personas

    que es probable que sean rentables. Para mantener esta cantidad de modelos, es

    necesario gestionar las versiones de cada modelo y pasar a una minera de datos lo

    ms automatizada posible.

    Hbitos de compra en supermercados

    El ejemplo clsico de aplicacin de la minera de datos tiene que ver con la deteccin

    de hbitos de compra en supermercados. Un estudio muy citado detect que los

    viernes haba una cantidad inusualmente elevada de clientes que adquiran a la vez

    paales y cerveza. Se detect que se deba a que dicho da solan acudir al

    supermercado padres jvenes cuya perspectiva para el fin de semana consista en

    quedarse en casa cuidando de su hijo y viendo la televisin con una cerveza en la

    mano. El supermercado pudo incrementar sus ventas de cerveza colocndolas

    prximas a los paales para fomentar las ventas compulsivas.

    Patrones de fugaUn ejemplo ms habitual es el de la deteccin de patrones de fuga. En muchas

    industrias como la banca, las telecomunicaciones, etc. existe un comprensible

    inters en detectar cuanto antes aquellos clientes que puedan estar pensando en

    rescindir sus contratos para, posiblemente, pasarse a la competencia. A estos clientesy en funcin de su valor se les podran hacer ofertas personalizadas, ofrecer

    promociones especiales, etc., con el objetivo ltimo de retenerlos. La minera de datos

    ayuda a determinar qu clientes son los ms proclives a darse de baja estudiando sus

    patrones de comportamiento y comparndolos con muestras de clientes que,

    efectivamente, se dieron de baja en el pasado.

    Fraudes

    Un caso anlogo es el de la deteccin de transacciones de blanqueo de dinero o defraude en el uso de tarjetas de crdito o de servicios de telefona mvil e, incluso, en la

    relacin de los contribuyentes con el fisco. Generalmente, estas operaciones

    fraudulentas o ilegales suelen seguir patrones caractersticos que permiten, con cierto

    grado de probabilidad, distinguirlas de las legtimas y desarrollar as mecanismos

    para tomar medidas rpidas frente a ellas.

  • 8/12/2019 mineria-datos-arte.pdf

    37/45

    Recursos humanosLa minera de datos tambin puede ser til para los departamentos de recursos

    humanos en la identificacin de las caractersticas de sus empleados de mayor xito.

    La informacin obtenida puede ayudar a la contratacin de personal, centrndose en

    los esfuerzos de sus empleados y los resultados obtenidos por stos. Adems, la ayuda

    ofrecida por las aplicaciones para Direccin estratgica en una empresa se traducen

    en la obtencin de ventajas a nivel corporativo, tales como mejorar el margen de

    beneficios o compartir objetivos; y en la mejora de las decisiones operativas, tales

    como desarrollo de planes de produccin o gestin de mano de obra.

    Comportamiento en InternetTambin es un rea en boga el del anlisis del comportamiento de los visitantes

    sobre todo, cuando son clientes potenciales en una pgina de Internet. O la

    utilizacin de la informacin obtenida por medios ms o menos legtimos sobre

    ellos para ofrecerles propaganda adaptada especficamente a su perfil. O para, una vez

    que adquieren un determinado producto, saber inmediatamente qu otro ofrecerle

    teniendo en cuenta la informacin histrica disponible acerca de los clientes que han

    comprado el primero.

    TerrorismoLa minera de datos ha sido citada como el mtodo por el cual la unidad Able Danger

    del Ejrcito de los EE. UU. haba identificado al lder de los atentados del 11 de

    septiembre de 2001, Mohammed Atta, y a otros tres secuestradores del "11-S" como

    posibles miembros de una clula de Al Qaeda que operan en los EE. UU. ms de un ao

    antes del ataque. Se ha sugerido que tanto la Agencia Central de Inteligencia y sus

    homloga canadiense, Servicio de Inteligencia y Seguridad Canadiense, tambin han

    empleado este mtodo.1

    Juegos

    Desde comienzos de la dcada de 1960, con la disponibilidad de orculos para

    determinados juegos combinacionales, tambin llamados finales de juego de tablero

    (por ejemplo, para las tres en raya o en finales de ajedrez) con cualquier configuracin

    de inicio, se ha abierto una nueva rea en la minera de datos que consiste en la

    extraccin de estrategias utilizadas por personas para estos orculos. Los

    planteamientos actuales sobre reconocimiento de patrones, no parecen poder

    aplicarse con xito al funcionamiento de estos orculos. En su lugar, la produccin de

    patrones perspicaces se basa en una amplia experimentacin con bases de datos sobre

  • 8/12/2019 mineria-datos-arte.pdf

    38/45

    esos finales de juego, combinado con un estudio intensivo de los propios finales de

    juego en problemas bien diseados y con conocimiento de la tcnica (datos previos

    sobre el final del juego). Ejemplos notables de investigadores que trabajan en este

    campo son Berlekamp en el juego de puntos-y-cajas (o Timbiriche) y John Nunn en

    finales de ajedrez.

    Ciencia e IngenieraEn los ltimos aos la minera de datos se est utilizando ampliamente en diversas

    reas relacionadas con la ciencia y la ingeniera. Algunos ejemplos de aplicacin en

    estos campos son:

    Gentica

    En el estudio de la gentica humana, el objetivo principal es entender la relacin

    cartogrfica entre las partes y la variacin individual en las secuencias del ADN

    humano y la variabilidad en la susceptibilidad a las enfermedades. En trminos ms

    llanos, se trata de saber cmo los cambios en la secuencia de ADN de un individuo

    afectan al riesgo de desarrollar enfermedades comunes (como por ejemplo el cncer).

    Esto es muy importante para ayudar a mejorar el diagnstico, prevencin y

    tratamiento de las enfermedades. La tcnica de minera de datos que se utiliza para

    realizar esta tarea se conoce como "reduccin de dimensionalidad multifactorial".2

    Ingeniera elctrica

    En el mbito de la ingeniera elctrica, las tcnicas minera de datos han sido

    ampliamente utilizadas para monitorizar las condiciones de las instalaciones de alta

    tensin. La finalidad de esta monitorizacin es obtener informacin valiosa sobre el

    estado del aislamiento de los equipos. Para la vigilancia de las vibraciones o el anlisis

    de los cambios de carga en transformadores se utilizan ciertas tcnicas para

    agrupacin de datos (clustering) tales como los Mapas Auto-Organizativos (SOM, Self-

    organizing map). Estos mapas sirven para detectar condiciones anormales y para

    estimar la naturaleza de dichas anomalas.3

    Anlisis de gases

    Tambin se han aplicado tcnicas de minera de datos para el anlisis de gases

    disueltos (DGA, Dissolved gas analysis) en transformadores elctricos. El anlisis de

    gases disueltos se conoce desde hace mucho tiempo como herramienta para

    diagnosticar transformadores. Los Mapas Auto-Organizativos (SOM) se utilizan para

    analizar datos y determinar tendencias que podran pasarse por alto utilizando las

    tcnicas clsicas DGA.

  • 8/12/2019 mineria-datos-arte.pdf

    39/45

    Minera de datos y otras disciplinas anlogas

    Suscita cierta polmica el definir las fronteras existentes entre la minera de datos y

    disciplinas anlogas, como pueden serlo la estadstica, la inteligencia artificial, etc. Hay

    quienes sostienen que la minera de datos no es sino estadstica envuelta en una jergade negocios que la conviertan en un producto vendible. Otros, en cambio, encuentran

    en ella una serie de problemas y mtodos especficos que la hacen distinta de otras

    disciplinas.

    El hecho es, que en la prctica la totalidad de los modelos y algoritmos de uso general

    en minera de datos redes neuronales, rboles de regresin y clasificacin, modelos

    logsticos, anlisis de componentes principales, etc. gozan de una tradicin

    relativamente larga en otros campos.

    De la estadsticaCiertamente, la minera de datos bebe de la estadstica, de la que toma las siguientes

    tcnicas:

    Anlisis de varianza, mediante el cual se evala la existencia de diferencias

    significativas entre las medias de una o ms variables continas en poblaciones

    distintas.

    Regresin: define la relacin entre una o ms variables y un conjunto de

    variables predictoras de las primeras.

    Prueba chi-cuadrado: por medio de la cual se realiza el contraste la hiptesis de

    dependencia entre variables.

    Anlisis de agrupamiento o clustering: permite la clasificacin de una

    poblacin de individuos caracterizados por mltiples atributos (binarios, cualitativos

    o cuantitativos) en un nmero determinado de grupos, con base en las semejanzas o

    diferencias de los individuos.

    Anlisis discriminante: permite la clasificacin de individuos en grupos que

    previamente se han establecido, permite encontrar la regla de clasificacin de los

    elementos de estos grupos, y por tanto una mejor identificacin de cules son lasvariables que definan la pertenencia al grupo.

    Series de tiempo: permite el estudio de la evolucin de una variable a travs del

    tiempo para poder realizar predicciones, a partir de ese conocimiento y bajo el

    supuesto de que no van a producirse cambios estructurales.

  • 8/12/2019 mineria-datos-arte.pdf

    40/45

    De la informtica

    De la informtica toma las siguientes tcnicas:

    Algoritmos genticos: Son mtodos numricos de optimizacin, en los queaquella variable o variables que se pretenden optimizar junto con las variables de

    estudio constituyen un segmento de informacin. Aquellas configuraciones de las

    variables de anlisis que obtengan mejores valores para la variable de respuesta,

    correspondern a segmentos con mayor capacidad reproductiva. A travs de la

    reproduccin, los mejores segmentos perduran y su proporcin crece de generacin

    en generacin. Se puede adems introducir elementos aleatorios para la modificacin

    de las variables (mutaciones). Al cabo de cierto nmero de iteraciones, la poblacin

    estar constituida por buenas soluciones al problema de optimizacin, pues las malas

    soluciones han ido descartndose, iteracin tras iteracin.

    Inteligencia Artificial: Mediante un sistema informtico que simula un sistema

    inteligente, se procede al anlisis de los datos disponibles. Entre los sistemas de

    Inteligencia Artificial se encuadraran los Sistemas Expertos y las Redes Neuronales.

    Sistemas Expertos: Son sistemas que han sido creados a partir de reglas

    prcticas extradas del conocimiento de expertos. Principalmente a base de

    inferencias o de causa-efecto.

    Sistemas Inteligentes: Son similares a los sistemas expertos, pero con mayor

    ventaja ante nuevas situaciones desconocidas para el experto.

    Redes neuronales: Genricamente, son mtodos de proceso numrico en

    paralelo, en el que las variables interactan mediante transformaciones lineales o no

    lineales, hasta obtener unas salidas. Estas salidas se contrastan con los que tenan que

    haber salido, basndose en unos datos de prueba, dando lugar a un proceso de

    retroalimentacin mediante el cual la red se reconfigura, hasta obtener un modelo

    adecuado.

  • 8/12/2019 mineria-datos-arte.pdf

    41/45

    HERRAMIENTAS DE SOFTWARE

    Existen muchas herramientas de software para el desarrollo de modelos de minera

    de datos tanto libres como comerciales como, por ejemplo:

    Dynamic Data Web

    KXEN

    KNIME

    Orange

    RapidMiner

    SPSS Clementine

    El data mining es una de las principales herramientas que se utilizan dentro de los

    programas de gestin del conocimiento como soporte a la toma de decisiones.

    El fin es la extraccin de informacin oculta o anlisis de datos mediante tcnicas

    estadsticas de grandes bases de datos.

    Las herramientas de data mining o minera de datos pueden responder a preguntas de

    negocios empresariales a priori no planteadas o que pueden consumir demasiado

    tiempo para ser resueltas.

    Los programas de gestin del conocimiento se complementan con distintas

    herramientas adems del data mining, como puede ser el data warehousing o el

    groupware. El data mining, como herramienta de bsqueda de informacin, se utiliza

    como sistema de apoyo a la toma de decisiones de las altas direcciones de las

    empresas.

    Las tcnicas de data mining se centran en analizar el gran volumen de datos, que en

    una primera seleccin pueden ser pertinentes, pero que la aplicacin de tcnicas de

    seleccin ceida a unas determinada demanda, reduce el tamao de los datos

    eligiendo las variables ms influyentes en el problema.

    En definitiva, la minera de datos es una tecnologa usada para descubrir informacin

    oculta y desconocida, pero potencialmente til, a partir de las fuentes de informacin

    de la propia empresa. Obtiene un conocimiento de un negocio, utilizando tcnicas declustering, redes neuronales, rboles de decisin y reglas de asociacin etc.

    En resumen, el datamining se presenta como una tecnologa emergente, con varias

    ventajas: por un lado, resulta un buen punto de encuentro entre los investigadores y

    las personas de negocios; por otro, ahorra grandes cantidades de dinero a una

    empresa y abre nuevas oportunidades de negocios. Adems, no hay duda de que

  • 8/12/2019 mineria-datos-arte.pdf

    42/45

    trabajar con esta tecnologa implica cuidar un sinnmero de detalles debido a que el

    producto final involucra "toma de decisiones".

    En el artculo Data Mining: Torturando a los datos hasta que confiesen, Luis Carlos

    Molina proporciona una visin muy clarificadora sobre la minera de datos,

    incluyendo interesantes ejemplos de aplicaciones de la misma. Recomendamos sulectura.

    Si no est familiarizado con el concepto de Datamining, puede resultarle til, adems,

    examinar las siguientes definiciones:

    Datamart

    Datawarehouse

    Cuadro de Mando Integral

    Sistemas de Soporte a la Decisin (DSS)

    Sistemas de Informacin Ejecutiva (EIS)

    Software DTM - Minera de Datos y Textos (Lebart)Estadstica Exploratoria Multidimensional para datos complejos que incluyen datos

    numricos y textuales.

    Software bastante completo en los primeros mtodos de tratamiento de dato

    (estadstica multivariada). Tambin incluye anlisis estadstico de texto. Weka

    implementa redes neuronales, rboles y bayes.

    Aspectos especficos:

    Complementariedad de las tcnicas de visualizacin(Anlisis de componentesprincipales, Anlisis de correspondencias simple y mltiple) y la clasificacin

    automtica (mtodo mixto que combina clasificacin jerrquica [criterio de

    Ward] y centros mviles [k-means]; mapas autoorganizados de Kohonen

    [redes neuronales SOM).

    Validacin de las tcnicas de visualizacin: Re-muestreo (bootstrap, bootstrapparcial, bootstrap total, bootstrap sobre variables). Tres opciones para el

    bootstrap total: Tipo 1: simple correccin de seal para los ejes. Tipo 2: como

  • 8/12/2019 mineria-datos-arte.pdf

    43/45

    tipo 1, + correccin de la rotacin de ejes. Tipo 3 rotaciones procrustennes

    para acercar a los rplicaciones de la muestra inicial.

    Anlisis de asociacin y mtodos vecinos. Mapas de Kohonen(SOM).Limitaciones de esta versin: 22.500 filas (individuos, lneas), 1.000 variables(numricas o nominales), 100.000 caracteres para las respuestas de un individuo a

    cuestiones abiertas (textos).

    Fuente:http://ses.telecom-paristech.fr/lebart/

    Otros softwares

    Weka:Magnfica suite de minera de datos de libre distribucin. MLC++:Conjunto de libreras y utilidades de minera de datos. Xelopes:Librera con licencia pblica GNU para el desarrollo de aplicaciones de minera de

    datos. C4.5:Sistema clsico de aprendizaje de rboles de decisin. FOIL:Software que permite el aprendizaje de modelos relacionales.

    http://ses.telecom-paristech.fr/lebart/http://www.cs.waikato.ac.nz/ml/weka/http://www.sgi.com/tech/mlc/http://www.prudsys.com/Produkte/Algorithmen/Xelopes/http://www.cse.unsw.edu.au/~quinlan/http://www.cse.unsw.edu.au/~quinlan/http://www.cse.unsw.edu.au/~quinlan/http://www.cse.unsw.edu.au/~quinlan/http://www.prudsys.com/Produkte/Algorithmen/Xelopes/http://www.sgi.com/tech/mlc/http://www.cs.waikato.ac.nz/ml/weka/http://ses.telecom-paristech.fr/lebart/
  • 8/12/2019 mineria-datos-arte.pdf

    44/45

    CONCLUSIONES

    Nuestra capacidad para almacenar datos ha crecido en los ltimos aos a velocidades

    exponenciales. En contrapartida, nuestra capacidad para procesarlos y utilizarlos no

    ha ido a la par. Por este motivo, el data miningse presenta como una tecnologa deapoyo para explorar, analizar, comprender y aplicar el conocimiento obtenido usando

    grandes volmenes de datos. Descubrir nuevos caminos que nos ayuden en la

    identificacin de interesantes estructuras en los datos es una de las tareas

    fundamentales en el data mining.

    En el mbito comercial, resulta interesante encontrar patrones ocultos de consumo de

    los clientes para poder explorar nuevos horizontes. Saber que un vehculo deportivo

    corre un riesgo de accidente casi igual al de un vehculo normal cuando su dueo tiene

    un segundo vehculo en casa ayuda a crear nuevas estrategias comerciales para ese

    grupo de clientes. Asimismo, predecir el comportamiento de un futuro cliente,

    basndose en los datos histricos de clientes que presentaron el mismo perfil, ayuda a

    poder retenerlo durante el mayor tiempo posible.

    Las herramientas comerciales de data miningque existen actualmente en el mercado

    son variadas y excelentes. Las hay orientadas al estudio del web o al anlisis de

    documentos o de clientes de supermercado, mientras que otras son de uso ms

    general. Su correcta eleccin depende de la necesidad de la empresa y de los objetivos

    a corto y largo plazo que pretenda alcanzar. La decisin de seleccionar una solucin de

    data miningno es una tarea simple. Es necesario consultar a expertos en el rea convista a seleccionar la ms adecuada para el problema de la empresa.

    Como se ha visto a lo largo del este artculo, son muchas las reas, tcnicas,

    estrategias, tipos de bases de datos y personas que intervienen en un proceso de data

    mining. Los negocios requieren que las soluciones tengan una integracin

    transparente en un ambiente operativo. Esto nos lleva a la necesidad de establecer

    estndares para hacer un ambiente interoperable, eficiente y efectivo. Esfuerzos en

    este sentid