``Análisis Inteligente de Datos: Introducción''cvalle/INF-390/Introduccion.pdf · Carlos Valle...

36
“AID: Introducci ´ on” Carlos Valle Vidal Introducci ´ on “An ´ alisis Inteligente de Datos: Introducci ´ on” Carlos Valle Vidal [email protected] Departamento de Inform ´ atica - Universidad T ´ ecnica Federico Santa Mar´ ıa Santiago, Marzo 2009

Transcript of ``Análisis Inteligente de Datos: Introducción''cvalle/INF-390/Introduccion.pdf · Carlos Valle...

Page 1: ``Análisis Inteligente de Datos: Introducción''cvalle/INF-390/Introduccion.pdf · Carlos Valle Vidal Introducci´on ... Capacidad del computador para aprender de la experiencia

“AID:Introduccion”

Carlos ValleVidal

Introduccion

“Analisis Inteligente de Datos: Introduccion”

Carlos Valle [email protected]

Departamento de Informatica -Universidad Tecnica Federico Santa Marıa

Santiago, Marzo 2009

Page 2: ``Análisis Inteligente de Datos: Introducción''cvalle/INF-390/Introduccion.pdf · Carlos Valle Vidal Introducci´on ... Capacidad del computador para aprender de la experiencia

“AID:Introduccion”

Carlos ValleVidal

Introduccion

Temario

1 Introduccion

Page 3: ``Análisis Inteligente de Datos: Introducción''cvalle/INF-390/Introduccion.pdf · Carlos Valle Vidal Introducci´on ... Capacidad del computador para aprender de la experiencia

“AID:Introduccion”

Carlos ValleVidal

Introduccion

Temario

1 Introduccion

Page 4: ``Análisis Inteligente de Datos: Introducción''cvalle/INF-390/Introduccion.pdf · Carlos Valle Vidal Introducci´on ... Capacidad del computador para aprender de la experiencia

“AID:Introduccion”

Carlos ValleVidal

Introduccion

Preguntas Relevantes

¿Por que analisis inteligente datos?

¿Existe alguna estructura en los datos?

¿Existen datos anomalos? (Outliers, Leverage Points)

¿Se pueden fusionar (sintetizar) los datos de otra maneramas conveniente?

¿Se pueden desagregar los datos de otra manera masconveniente?

¿Es este grupo diferente al otro?

¿Es este atributo dinamico? (cambia con el tiempo)

¿Se puede predecir el valor de este atributo basado en lasmediciones de otros valores?

Page 5: ``Análisis Inteligente de Datos: Introducción''cvalle/INF-390/Introduccion.pdf · Carlos Valle Vidal Introducci´on ... Capacidad del computador para aprender de la experiencia

“AID:Introduccion”

Carlos ValleVidal

Introduccion

¿Que es el analisis inteligente de datos?

Area dedicada al estudio sistematico de los datosTransforma datos en informacionContribuye al descubrimiento de nuevo conocimiento (KDD)Ayuda al reconocimiento de Patron (PR)

Papel de las maquinas de aprendizajeMetodos para aprender de los datosDesarrollo de metodos de aprendizajesautomaticos/semiautomaticos

Page 6: ``Análisis Inteligente de Datos: Introducción''cvalle/INF-390/Introduccion.pdf · Carlos Valle Vidal Introducci´on ... Capacidad del computador para aprender de la experiencia

“AID:Introduccion”

Carlos ValleVidal

Introduccion

Tiempo de Respuesta una variable crıtica

Page 7: ``Análisis Inteligente de Datos: Introducción''cvalle/INF-390/Introduccion.pdf · Carlos Valle Vidal Introducci´on ... Capacidad del computador para aprender de la experiencia

“AID:Introduccion”

Carlos ValleVidal

Introduccion

¿Que es un dato?

Dato puede ser:un numeroun vectorun nombre una direccionuna cualidad, etc

Pero tambien podrıa seruna imagenuna fotoun sımbolo un jeroglıficouna senal acusticaun electrocardiogramaun documentoun librouna funcionuna matriz, etc.

Page 8: ``Análisis Inteligente de Datos: Introducción''cvalle/INF-390/Introduccion.pdf · Carlos Valle Vidal Introducci´on ... Capacidad del computador para aprender de la experiencia

“AID:Introduccion”

Carlos ValleVidal

Introduccion

Tipos de Datos

EstructuradosCuantitativosCualitativosSimbolicosOrdenados jerarquicamente

Bloques de datos binariosImagenesSonido

No EstructuradosTextos

Page 9: ``Análisis Inteligente de Datos: Introducción''cvalle/INF-390/Introduccion.pdf · Carlos Valle Vidal Introducci´on ... Capacidad del computador para aprender de la experiencia

“AID:Introduccion”

Carlos ValleVidal

Introduccion

Aplicaciones del analisis de datos

Problemas que estan relacionados con AIDAIdentificar un rostro en una imagenConvertir un texto hablado en uno escritoEstablecer un diagnostico medico a partir de un ECG

En cada uno de ellos se tienen propositos especıficos.

Estos propositos determinan la forma en que los datos debenser procesados.

Esto implica que todo proceso de datos esta precedido porun proceso de modelado del problema que necesitamosresolver.

Page 10: ``Análisis Inteligente de Datos: Introducción''cvalle/INF-390/Introduccion.pdf · Carlos Valle Vidal Introducci´on ... Capacidad del computador para aprender de la experiencia

“AID:Introduccion”

Carlos ValleVidal

Introduccion

AIDA: Aplicaciones

Pronostico de magnitudes de terremotos

Pronostico de perspectiva de yacimientos minerales

Pronosticos de tormentas ionosfericas

Regionalizacion sısmica

Diagnostico diferencial de enfermedades

Evaluacion de pacientes

Clasificacion automatica de hongos (bio-lixiviacion)

Clasificacion automatica de clientes

Identificacion de huellas dactilares

Identificacion de las preferencias de los clientes en sitios web.

Identificacion de rostros

Identificacion de objetos mediante sonidos (aviones,vehıculos)

Page 11: ``Análisis Inteligente de Datos: Introducción''cvalle/INF-390/Introduccion.pdf · Carlos Valle Vidal Introducci´on ... Capacidad del computador para aprender de la experiencia

“AID:Introduccion”

Carlos ValleVidal

Introduccion

AIDA: (2)

Identificacion de objetos mediante rastros (balıstica, marcasde zapatillas)

Reconocimiento de placas de vehıculos

Caracterizacion socio-polıtica de colectivos sociales

Pronostico de surgimiento de fenomenos sociales

Caracterizacion del modus operandis de un terrorista /delincuente

Analisis de causas de fenomenos sociales (delincuenciajuvenil)

Evolucion de especies a traves del estudio de genes.

Page 12: ``Análisis Inteligente de Datos: Introducción''cvalle/INF-390/Introduccion.pdf · Carlos Valle Vidal Introducci´on ... Capacidad del computador para aprender de la experiencia

“AID:Introduccion”

Carlos ValleVidal

Introduccion

AIDA: Problematica

Casi siempre los datos no vienen puros, es decir, vienen demanera difusa.

En el caso particular del AIDA, aunque no haya una divisionexacta en el procesamiento desde los datos difusos por unlado hasta las conclusiones por el otro, un modelo util deAIDA ser dividido en cuatro etapas.

Page 13: ``Análisis Inteligente de Datos: Introducción''cvalle/INF-390/Introduccion.pdf · Carlos Valle Vidal Introducci´on ... Capacidad del computador para aprender de la experiencia

“AID:Introduccion”

Carlos ValleVidal

Introduccion

AIDA: Etapas

Etapas del procesamiento de Datos:

Adquisicion

Preprocesamiento

Representacion-descripcion de objetos

Analisis de datos

Page 14: ``Análisis Inteligente de Datos: Introducción''cvalle/INF-390/Introduccion.pdf · Carlos Valle Vidal Introducci´on ... Capacidad del computador para aprender de la experiencia

“AID:Introduccion”

Carlos ValleVidal

Introduccion

Adquisicion

Este proceso se caracteriza por el hecho que la entradaesta constituida por los datos originales, tomados de lasfuentes originales y la salida son los datos difusos, de loscuales podemos extraer informacion.

Puede ser tan simple como tomar los datos sin ruido yprocesarlos directamente.

Observemos que en la entrada tenemos una fuente, porejemplo, un electrocardiografo, a partir del cual se obtiene lasenal, ECG del paciente.

La senal puede venir con ruidos por lo que no siempre esposible la lectura de lo que queremos extraer sin errores

Page 15: ``Análisis Inteligente de Datos: Introducción''cvalle/INF-390/Introduccion.pdf · Carlos Valle Vidal Introducci´on ... Capacidad del computador para aprender de la experiencia

“AID:Introduccion”

Carlos ValleVidal

Introduccion

Preprocesamiento

Esta etapa se caracteriza porque tanto entrada como salidason datos de la misma naturaleza

Por ejemplo, ambas son senales, imagenes, matrices, etc.

Ejemplos de pre-procesamiento: Filtrado de senales oimagenes, aumentar el contraste de una imagen, restaurarla,eliminarle ruido

Validar datos, escalarlos , transformarlos

Page 16: ``Análisis Inteligente de Datos: Introducción''cvalle/INF-390/Introduccion.pdf · Carlos Valle Vidal Introducci´on ... Capacidad del computador para aprender de la experiencia

“AID:Introduccion”

Carlos ValleVidal

Introduccion

Representacion

En esta etapa los datos pre-procesados son transformadosen una nueva forma que es la adecuada para elprocesamiento posterior.

La entrada y las salidas son diferentes al menos en susignificado.Ejemplos:

Segmentacion de imagenesSeleccion de caracterısticasRepresentacion de una imagen mediante waveletsRepresentacion de una imagen mediante una matriz digitalRepresentacion de la voz, mediante una senal de audio

Page 17: ``Análisis Inteligente de Datos: Introducción''cvalle/INF-390/Introduccion.pdf · Carlos Valle Vidal Introducci´on ... Capacidad del computador para aprender de la experiencia

“AID:Introduccion”

Carlos ValleVidal

Introduccion

Analisis

Proceso en el cual encontramos el significado de los datosoriginales, o al menos una parte de ellos

Podemos reconocer la ocurrencia de cierta informacionpreviamente almacenada y podemos tomar una conclusion.

Page 18: ``Análisis Inteligente de Datos: Introducción''cvalle/INF-390/Introduccion.pdf · Carlos Valle Vidal Introducci´on ... Capacidad del computador para aprender de la experiencia

“AID:Introduccion”

Carlos ValleVidal

Introduccion

Etapas

Page 19: ``Análisis Inteligente de Datos: Introducción''cvalle/INF-390/Introduccion.pdf · Carlos Valle Vidal Introducci´on ... Capacidad del computador para aprender de la experiencia

“AID:Introduccion”

Carlos ValleVidal

Introduccion

Ejemplos

Problemas de

Asociacion, correlacion o causalidad

Interpretacion

Caracterizacion

Clasificacion

Clusterizacion

Reconocimiento

Pronostico

Page 20: ``Análisis Inteligente de Datos: Introducción''cvalle/INF-390/Introduccion.pdf · Carlos Valle Vidal Introducci´on ... Capacidad del computador para aprender de la experiencia

“AID:Introduccion”

Carlos ValleVidal

Introduccion

Ejemplos (2)

En el caso de la senal ECG podemos determinar lanormalidad del paciente desde el punto de vista del estadode su sistema cardiovascular, si nosotros tenemos elsuficiente conocimiento de Cardiologıa.

En el caso de una fotografıa podemos identificar personasexaminando sus rostros, incluso si tenemos suficienteconocimiento previo podrıamos identificar a cada una deesas personas.

Page 21: ``Análisis Inteligente de Datos: Introducción''cvalle/INF-390/Introduccion.pdf · Carlos Valle Vidal Introducci´on ... Capacidad del computador para aprender de la experiencia

“AID:Introduccion”

Carlos ValleVidal

Introduccion

Disciplina Aplicada

AIDA es una disciplina con un marcado caracter interdisciplinario,que tiene que ver con la Ingenierıa, la Estadıstica y la Ciencia dela Computacion para el procesamiento de datos acerca de losobjetos fısicos o abstractos, con el proposito de mediantealgoritmos obtener la informacion relevante y no evidente que nospermita establecer propiedades de ciertos subconjuntos no vacıosde objetos.

Page 22: ``Análisis Inteligente de Datos: Introducción''cvalle/INF-390/Introduccion.pdf · Carlos Valle Vidal Introducci´on ... Capacidad del computador para aprender de la experiencia

“AID:Introduccion”

Carlos ValleVidal

Introduccion

Esquema constituyente de AIDA

Estadıstica

Ciencias de la Computacion

Procesamiento de Senales

Vision por Computacional

Maquinas de Aprendizaje

Redes Neuronales artificiales

Maquinas de soporte vectorial

Morfologıa Matematica

Reconocimiento de patrones, etc

Page 23: ``Análisis Inteligente de Datos: Introducción''cvalle/INF-390/Introduccion.pdf · Carlos Valle Vidal Introducci´on ... Capacidad del computador para aprender de la experiencia

“AID:Introduccion”

Carlos ValleVidal

Introduccion

Convergencia de multiples Disciplinas

Page 24: ``Análisis Inteligente de Datos: Introducción''cvalle/INF-390/Introduccion.pdf · Carlos Valle Vidal Introducci´on ... Capacidad del computador para aprender de la experiencia

“AID:Introduccion”

Carlos ValleVidal

Introduccion

Convergencia de multiples Disciplinas (2)

Page 25: ``Análisis Inteligente de Datos: Introducción''cvalle/INF-390/Introduccion.pdf · Carlos Valle Vidal Introducci´on ... Capacidad del computador para aprender de la experiencia

“AID:Introduccion”

Carlos ValleVidal

Introduccion

Como interactuan las disciplinas

EstadısticaComo develar y optimizar la informacion extraıda de los datosComo recolectar los datos para maximizar la informacionComo hacer inferencias de los datos para obtener nuevoconocimiento.

Ciencias de la Computacion, Maquinas de AprendizajeComo calcular y procesar de manera optima los datosComo medir el costo asociado al procesamiento de lainformacionComo la informacion y el conocimiento pueden ser utilmenterepresentadosComo comprender los lımites de lo que se puede computar.

Page 26: ``Análisis Inteligente de Datos: Introducción''cvalle/INF-390/Introduccion.pdf · Carlos Valle Vidal Introducci´on ... Capacidad del computador para aprender de la experiencia

“AID:Introduccion”

Carlos ValleVidal

Introduccion

Maquinas de Aprendizaje

Capacidad del computador para aprender de la experiencia(Oxford English Dictionary)

Proceso que causa que el sistema mejore con la experiencia(Mitchell 1997)

Uso de los algoritmos computacionales para aprender de losdatos (Hutchinson 1995)

Programa de computacion que puede aprender de laexperiencia respecto a algun tipo de tarea y medida dedesempeno (Mitchell 1997)

Page 27: ``Análisis Inteligente de Datos: Introducción''cvalle/INF-390/Introduccion.pdf · Carlos Valle Vidal Introducci´on ... Capacidad del computador para aprender de la experiencia

“AID:Introduccion”

Carlos ValleVidal

Introduccion

Aprendizaje

Consiste en inducir funciones generales de un conjuntoespecıfico de formas denominado patrones deentrenamiento.Tipos de Aprendizaje

Aprendizaje SupervisadoAprendizaje ReforzadoAprendizaje No-supervisadoAprendizaje Semi-supervisado.

Page 28: ``Análisis Inteligente de Datos: Introducción''cvalle/INF-390/Introduccion.pdf · Carlos Valle Vidal Introducci´on ... Capacidad del computador para aprender de la experiencia

“AID:Introduccion”

Carlos ValleVidal

Introduccion

Data Mining

Etapa de reconocimiento de patrones mediante algoritmosautomaticos o semiautomaticos de grandes bases de datos,con el objetivo de apoyar la toma de decisiones dentro deuna organizacion

Es el descubrimiento eficiente de informacion valiosa (nuevoshechos y relaciones) no evidentes desde una gran base dedatos. (Bigus 1996)

Page 29: ``Análisis Inteligente de Datos: Introducción''cvalle/INF-390/Introduccion.pdf · Carlos Valle Vidal Introducci´on ... Capacidad del computador para aprender de la experiencia

“AID:Introduccion”

Carlos ValleVidal

Introduccion

Machine Learning

Page 30: ``Análisis Inteligente de Datos: Introducción''cvalle/INF-390/Introduccion.pdf · Carlos Valle Vidal Introducci´on ... Capacidad del computador para aprender de la experiencia

“AID:Introduccion”

Carlos ValleVidal

Introduccion

Estadıstica v/s Maquinas de aprendizaje

Estadıstica Moderna =⇒ Modelo

Maquinas de Aprendizaje =⇒ AlgoritmosModelo:

Estructura propuesta, o una estructura de la cual seobtuvieron los datosLos modelos pueden ser:

Modelos Empıricos buscan relaciones sin basarlas en algunateorıa subyacente.Modelos Mecanicistas: Se construyen en base a algunmecanismo supuesto del proceso de generacion de los datos.

Page 31: ``Análisis Inteligente de Datos: Introducción''cvalle/INF-390/Introduccion.pdf · Carlos Valle Vidal Introducci´on ... Capacidad del computador para aprender de la experiencia

“AID:Introduccion”

Carlos ValleVidal

Introduccion

Modelos y Patrones

Modelo: Consiste en una estructura en gran escala queresume las relaciones sobre muchos casos

Patron:Consiste en una estructura local satisfecha poralgunos pocos casos o una pequena region del espacio delos datos.

Page 32: ``Análisis Inteligente de Datos: Introducción''cvalle/INF-390/Introduccion.pdf · Carlos Valle Vidal Introducci´on ... Capacidad del computador para aprender de la experiencia

“AID:Introduccion”

Carlos ValleVidal

Introduccion

Analisis de Datos

Es el proceso de calcular varios resumenes y valoresderivados a partir de una coleccion de datosLa falsedad de la receta de cocina (cookbook)

Las herramientas del analisis de datos poseen relacionescomplejas.Rara vez unas pregunta de investigacion es estipulada demanera precisa, de manera tal que una aplicacion simple yunica de algun metodo sera suficiente.

El analisis de datos es un proceso iterativoLos datos se estudian, se analizan utilizando algunaherramienta analıtica, se decide observarla de otra manera,quizas modificandola, se repite el proceso.

Page 33: ``Análisis Inteligente de Datos: Introducción''cvalle/INF-390/Introduccion.pdf · Carlos Valle Vidal Introducci´on ... Capacidad del computador para aprender de la experiencia

“AID:Introduccion”

Carlos ValleVidal

Introduccion

¿Por que inteligente?

Para extraer la estructura subyacente a los datos hay queentender lo que esta sucediendo, Aplicar en forma reiteradadiversos metodos, refinar las preguntas que el investigadortrata de responder requiere de mucho cuidado e inteligencia.

El analisis inteligente de datos no es un metodo pocosistematico de aplicacion de las herramientas Estadısticas yde Data Mining, no es un paseo aleatorio a traves del espaciode las tecnicas analıticas, sino que un procesocuidadosamente planeado para decidir lo que sera mas util yrevelador.

Page 34: ``Análisis Inteligente de Datos: Introducción''cvalle/INF-390/Introduccion.pdf · Carlos Valle Vidal Introducci´on ... Capacidad del computador para aprender de la experiencia

“AID:Introduccion”

Carlos ValleVidal

Introduccion

Herramientas Modernas de Analisis de Datos

Durante el curso se analizaran una serie de tecnicas modernas

Modelos Bayesianos

Metodos de Kernel y maquinas de vectores de soporte

Series Temporales

Reglas de Induccion

Redes Neuronales Artificiales

Ensamblado de maquinas

Page 35: ``Análisis Inteligente de Datos: Introducción''cvalle/INF-390/Introduccion.pdf · Carlos Valle Vidal Introducci´on ... Capacidad del computador para aprender de la experiencia

“AID:Introduccion”

Carlos ValleVidal

Introduccion

Herramientas Modernas de Analisis de Datos

Durante el curso se analizaran una serie de tecnicas modernas

Modelos Bayesianos

Metodos de Kernel y maquinas de vectores de soporte

Series Temporales

Reglas de Induccion

Redes Neuronales Artificiales

Ensamblado de maquinas

Page 36: ``Análisis Inteligente de Datos: Introducción''cvalle/INF-390/Introduccion.pdf · Carlos Valle Vidal Introducci´on ... Capacidad del computador para aprender de la experiencia

“AID:Introduccion”

Carlos ValleVidal

Introduccion

Consultas y Comentarios