MINERIA DE DATOS

10
MINERÍA DE DATOS INTRODUCCION Es curioso, en la era del acceso a la información, en la que podemos enterarnos de todo en forma rápida y efectiva, los datos forman una pared abigarrada y confusa. La materia prima para tomar decisiones acertadas no es tan asequible como parece. Es necesario salir a la búsqueda de aquella que nos resulte relevante. A pesar de lo que se piensa, no es tan sencillo obtener información que nos lleve a conclusiones en forma sustentada. Es preciso extraer los datos en forma selectiva para obtener de ellos un beneficio económico. A esto se le conoce como minería de datos. Así como los enanos de Blanca Nieves salían de casa a trabajar para obtener las mejores piedras preciosas, hay que tomar los picos y palos correctos para conseguir información.

description

MINERIA DE DATOS introduccion, concepto, fases, etc

Transcript of MINERIA DE DATOS

MINERA DE DATOSINTRODUCCIONEs curioso, en la era del acceso a la informacin, en la que podemos enterarnos de todo en forma rpida y efectiva, los datos forman una pared abigarrada y confusa. La materia prima para tomar decisiones acertadas no es tan asequible como parece. Es necesario salir a la bsqueda de aquella que nos resulte relevante. A pesar de lo que se piensa, no es tan sencillo obtener informacin que nos lleve a conclusiones en forma sustentada. Es preciso extraer los datos en forma selectiva para obtener de ellos un benefcio econmico. A esto se le conoce como minera de datos. As como los enanos de !lanca "ieves salan de casa a traba#ar para obtener las me#ores piedras preciosas, $ayque tomar los picos y palos correctos para conseguir informacin.CONCEPTOLa minera de datos es el proceso de detectar la informacin procesabledeloscon#untosgrandesdedatos. Esunm%todocuyafnalidadesdescubrirpatronesengrandesvolmenesdedatos. &tili'ael anlisismatemtico para deducir las tendencias queexisten. "ormalmente,estos patrones no se pueden detectar mediante la exploracinsuperfcial porque las relaciones son demasiado comple#as o porque $aydemasiadosdatos. Lospicosypalosdelosminerosdedatossonlainteligencia artifcial, el aprendi'a#e automtico, la estadstica y lossistemas de bases de datos.El ob#etivo general de la minera de datos consiste en extraerinformacin de un con#unto de datos, traba#arla, pulirla y transformarlaen una estructura comprensible para su uso posterior. (gual que como untraba#ador de minas lo $ara con un peda'o de carbn para convertirloenunbrillante, as setraba#aparaconvertir cifras, caractersticasytendencias en informacin relevante. Es traba#ar en darle formato y usoadecuado a lo que queremos saber para atender mercadosdeterminados sin dar palos de ciego. La minera de datos puedecontribuir signifcativamente en las aplicaciones de gestin empresarialbasada en la relacin con el cliente.DATAWAREHOUSEEs unat%cnicaparaconsolidar yadministrar datos desdevariadasfuentes con elpropsito deresponder preguntas de negocios y tomardecisiones. El proceso de )ata *are$ousing debeproveer+ , la informacin correcta, , a la persona indicada, , en el formato adecuado, , y en el tiempo preciso.CLAUSTERINGEs una coleccin de m%todos estadsticos que permiten agrupar casossobre los cuales se miden diferentes variables o caractersticas. &no delosproblemasdel anlisisdeclsteresquenoexisteunadefnicinprecisa de clster. Lo cual $a originado el desarrollo de una grancantidad de m%todos, es as que los dos grandes grupos de m%todos declustering son+ los #errquicos y los no #errquicos o particionales. En losprimeros la pertenencia a un grupo o clster en un nivel de la #erarquacondiciona la pertenencia a grupos de un nivel superior. Losm%todosparticionalesobtienenunanicaparticindelosdatosmediante la optimi'acin de alguna funcin adecuada. Estos m%todos tambi%n son conocidos como m%todos de optimi'acin,adems otro problema que estudia el anlisis de clsters es laclasifcacin de variables. Los m%todos particionales utili'an la matri' dedatos mientras que los #errquicos parten de una matri' de distancias osimilaridades. ANLISIS DE ASOCIACIONES)etectaelementosenunatransaccinqueimplicanlapresenciadeotros elementos en %sta -isma.Expresa las afnidades entre elementos en forma de reglas deasociacin, facilitando una .erie de m%tricas como el soporte y confan'a. Red Neuronal)etectadeformaautomticalatopologams adecuadaparacadaproblema, aunque permiteespecifcar una concreta/eali'a un anlisis de sensibilidad para detectar las variables mssignifcativas para cadatopologaFASES 1) Sele!"n.eleccionar los datos adecuados al problema inicial.#) F!l$rado de Da$o%En muc$os casos el formato de los datos fuente no son adecuadamenteligeros para ser tratados en estos procesos, por tal motivo el ob#etivo enesta fase, es fltrar los datos de tal manera que se eliminen todos losvalores incorrectos, todos los valores no vlidos y desconocidos,reduciendoas el nmerode valoresposiblespara sertratadosen un proceso como lo es el proceso de )ata -ining. &) Sele!"n de 'ar!a(le%)0ara reducir el tama1o delos datos elegidos, sedebenestablecerlas caractersticas correspondientesynecesariasparaser aplicadasala seleccincorrectadelos datos. As tenerlasvariablesquein2uyencon mas fuer'a en el problema a solucionar3 los m%todos utili'ados parala seleccin de las caractersticas son los siguientes+Aquellos basados en la eleccin de los me#ores atributos del problema.Aquellos quebuscanvariables independientes mediantepruebas desensibilidad, algoritmos de distancia. *) E+$ra!"n de Cono!,!en$o4-edianteunat%cnicademineradedatos,seobtieneunmodelodeconocimiento, 5ue representa patrones de comportamiento observadosen los valores de las variables del problema o relaciones de asociacinentre dic$as variables4.-) In$er.re$a!"n / E0alua!"nLuegodeobtener el modelofnal, sedebevalidar las conclusionesobtenidas al fnali'ar el proceso de extraccin. .e debe comprobar quelas conclusiones arro#adas son vlidas, sufcientes y satisfactorias. 0odemostener el caso, enel quenosresultendosomsmodelos,utili'ando distintas t%cnicas de extraccin. En estos casos secomprobaran los modelos en busca del que solucione me#or el problemayencasoenqueningunodelosmodelosobtenidosdelasolucinadecuada al problema, se debe alterar uno de los anteriores pasos.COMPRENSI1N DE LOS DATOS)6oda la informacin necesaria para reali'ar la investigacin se encuentraenla !asede)atos A7A)E-8.porloquenofuenecesariointegrarvariosorgenesdedatos. Losatributosseleccionadosparareali'arelproyecto de -inera correspondiente a los datos personales de losestudiantes se encontraban en varias vistas dentro de la !ase de )atos.9on el ob#etivo de asociar en una sola tabla los datos personales de losestudiantes3 en el (ntegration .ervices utili'ando el componente &nionAlll se obtuvo la tabla Datos Histricos a partir de las : vistas ;o#a dematricula? corridas oiteracionesdondeencada unasecombinanEmuestras paraobteneruna muestra de experimento y se de#a una como muestra de prueba. )eesta forma todas las muestras son utili'adas como experimento y comoprueba. Alfnal se selecciona el experimento sobre el cual se realicenme#ores predicciones, o sea donde el error sea menor.Enlasiguientefgurasemuestrael 2u#ode control del paquetedepruebas del (ntegration .ervices, utili'ando validacin cru'ada.Conlu%!on;ay muc$as reas de aplicacin para este tipo de anlisis deinformacin+ la medicina, el control y prevencin de fraudes, lacontratacin de personal, investigacin de actos vinculados conterrorismo, gen%tica, ingeniera el%ctrica. Los detractores de la mineradedatos dicenquesetratadeestadsticaadere'adacon#ergadenegocios. .usdefensoressostienenquelosm%todosespecfcosqueutili'a y la serie de problemas que enfrenta y resuelve la $acenrelevante y nica.Lo cierto es que si tenemos una $erramienta que nos puede ayudar aafnar la puntera para llegar al cliente adecuado, si con ella de#aremosde estar caminando a ciegas y nos da garantas de ver un rpido retornode la inversin, pronto todos estaremos usando estas palas y picos quenos permitan extraerdatosparaconvertirlos eninformacin precisayrelevante.