``Análisis Inteligente de Datos: Introducción''cvalle/INF-390/Introduccion.pdf · Carlos Valle...

Post on 30-Nov-2018

222 views 0 download

Transcript of ``Análisis Inteligente de Datos: Introducción''cvalle/INF-390/Introduccion.pdf · Carlos Valle...

“AID:Introduccion”

Carlos ValleVidal

Introduccion

“Analisis Inteligente de Datos: Introduccion”

Carlos Valle Vidalcvalle@inf.utfsm.cl

Departamento de Informatica -Universidad Tecnica Federico Santa Marıa

Santiago, Marzo 2009

“AID:Introduccion”

Carlos ValleVidal

Introduccion

Temario

1 Introduccion

“AID:Introduccion”

Carlos ValleVidal

Introduccion

Temario

1 Introduccion

“AID:Introduccion”

Carlos ValleVidal

Introduccion

Preguntas Relevantes

¿Por que analisis inteligente datos?

¿Existe alguna estructura en los datos?

¿Existen datos anomalos? (Outliers, Leverage Points)

¿Se pueden fusionar (sintetizar) los datos de otra maneramas conveniente?

¿Se pueden desagregar los datos de otra manera masconveniente?

¿Es este grupo diferente al otro?

¿Es este atributo dinamico? (cambia con el tiempo)

¿Se puede predecir el valor de este atributo basado en lasmediciones de otros valores?

“AID:Introduccion”

Carlos ValleVidal

Introduccion

¿Que es el analisis inteligente de datos?

Area dedicada al estudio sistematico de los datosTransforma datos en informacionContribuye al descubrimiento de nuevo conocimiento (KDD)Ayuda al reconocimiento de Patron (PR)

Papel de las maquinas de aprendizajeMetodos para aprender de los datosDesarrollo de metodos de aprendizajesautomaticos/semiautomaticos

“AID:Introduccion”

Carlos ValleVidal

Introduccion

Tiempo de Respuesta una variable crıtica

“AID:Introduccion”

Carlos ValleVidal

Introduccion

¿Que es un dato?

Dato puede ser:un numeroun vectorun nombre una direccionuna cualidad, etc

Pero tambien podrıa seruna imagenuna fotoun sımbolo un jeroglıficouna senal acusticaun electrocardiogramaun documentoun librouna funcionuna matriz, etc.

“AID:Introduccion”

Carlos ValleVidal

Introduccion

Tipos de Datos

EstructuradosCuantitativosCualitativosSimbolicosOrdenados jerarquicamente

Bloques de datos binariosImagenesSonido

No EstructuradosTextos

“AID:Introduccion”

Carlos ValleVidal

Introduccion

Aplicaciones del analisis de datos

Problemas que estan relacionados con AIDAIdentificar un rostro en una imagenConvertir un texto hablado en uno escritoEstablecer un diagnostico medico a partir de un ECG

En cada uno de ellos se tienen propositos especıficos.

Estos propositos determinan la forma en que los datos debenser procesados.

Esto implica que todo proceso de datos esta precedido porun proceso de modelado del problema que necesitamosresolver.

“AID:Introduccion”

Carlos ValleVidal

Introduccion

AIDA: Aplicaciones

Pronostico de magnitudes de terremotos

Pronostico de perspectiva de yacimientos minerales

Pronosticos de tormentas ionosfericas

Regionalizacion sısmica

Diagnostico diferencial de enfermedades

Evaluacion de pacientes

Clasificacion automatica de hongos (bio-lixiviacion)

Clasificacion automatica de clientes

Identificacion de huellas dactilares

Identificacion de las preferencias de los clientes en sitios web.

Identificacion de rostros

Identificacion de objetos mediante sonidos (aviones,vehıculos)

“AID:Introduccion”

Carlos ValleVidal

Introduccion

AIDA: (2)

Identificacion de objetos mediante rastros (balıstica, marcasde zapatillas)

Reconocimiento de placas de vehıculos

Caracterizacion socio-polıtica de colectivos sociales

Pronostico de surgimiento de fenomenos sociales

Caracterizacion del modus operandis de un terrorista /delincuente

Analisis de causas de fenomenos sociales (delincuenciajuvenil)

Evolucion de especies a traves del estudio de genes.

“AID:Introduccion”

Carlos ValleVidal

Introduccion

AIDA: Problematica

Casi siempre los datos no vienen puros, es decir, vienen demanera difusa.

En el caso particular del AIDA, aunque no haya una divisionexacta en el procesamiento desde los datos difusos por unlado hasta las conclusiones por el otro, un modelo util deAIDA ser dividido en cuatro etapas.

“AID:Introduccion”

Carlos ValleVidal

Introduccion

AIDA: Etapas

Etapas del procesamiento de Datos:

Adquisicion

Preprocesamiento

Representacion-descripcion de objetos

Analisis de datos

“AID:Introduccion”

Carlos ValleVidal

Introduccion

Adquisicion

Este proceso se caracteriza por el hecho que la entradaesta constituida por los datos originales, tomados de lasfuentes originales y la salida son los datos difusos, de loscuales podemos extraer informacion.

Puede ser tan simple como tomar los datos sin ruido yprocesarlos directamente.

Observemos que en la entrada tenemos una fuente, porejemplo, un electrocardiografo, a partir del cual se obtiene lasenal, ECG del paciente.

La senal puede venir con ruidos por lo que no siempre esposible la lectura de lo que queremos extraer sin errores

“AID:Introduccion”

Carlos ValleVidal

Introduccion

Preprocesamiento

Esta etapa se caracteriza porque tanto entrada como salidason datos de la misma naturaleza

Por ejemplo, ambas son senales, imagenes, matrices, etc.

Ejemplos de pre-procesamiento: Filtrado de senales oimagenes, aumentar el contraste de una imagen, restaurarla,eliminarle ruido

Validar datos, escalarlos , transformarlos

“AID:Introduccion”

Carlos ValleVidal

Introduccion

Representacion

En esta etapa los datos pre-procesados son transformadosen una nueva forma que es la adecuada para elprocesamiento posterior.

La entrada y las salidas son diferentes al menos en susignificado.Ejemplos:

Segmentacion de imagenesSeleccion de caracterısticasRepresentacion de una imagen mediante waveletsRepresentacion de una imagen mediante una matriz digitalRepresentacion de la voz, mediante una senal de audio

“AID:Introduccion”

Carlos ValleVidal

Introduccion

Analisis

Proceso en el cual encontramos el significado de los datosoriginales, o al menos una parte de ellos

Podemos reconocer la ocurrencia de cierta informacionpreviamente almacenada y podemos tomar una conclusion.

“AID:Introduccion”

Carlos ValleVidal

Introduccion

Etapas

“AID:Introduccion”

Carlos ValleVidal

Introduccion

Ejemplos

Problemas de

Asociacion, correlacion o causalidad

Interpretacion

Caracterizacion

Clasificacion

Clusterizacion

Reconocimiento

Pronostico

“AID:Introduccion”

Carlos ValleVidal

Introduccion

Ejemplos (2)

En el caso de la senal ECG podemos determinar lanormalidad del paciente desde el punto de vista del estadode su sistema cardiovascular, si nosotros tenemos elsuficiente conocimiento de Cardiologıa.

En el caso de una fotografıa podemos identificar personasexaminando sus rostros, incluso si tenemos suficienteconocimiento previo podrıamos identificar a cada una deesas personas.

“AID:Introduccion”

Carlos ValleVidal

Introduccion

Disciplina Aplicada

AIDA es una disciplina con un marcado caracter interdisciplinario,que tiene que ver con la Ingenierıa, la Estadıstica y la Ciencia dela Computacion para el procesamiento de datos acerca de losobjetos fısicos o abstractos, con el proposito de mediantealgoritmos obtener la informacion relevante y no evidente que nospermita establecer propiedades de ciertos subconjuntos no vacıosde objetos.

“AID:Introduccion”

Carlos ValleVidal

Introduccion

Esquema constituyente de AIDA

Estadıstica

Ciencias de la Computacion

Procesamiento de Senales

Vision por Computacional

Maquinas de Aprendizaje

Redes Neuronales artificiales

Maquinas de soporte vectorial

Morfologıa Matematica

Reconocimiento de patrones, etc

“AID:Introduccion”

Carlos ValleVidal

Introduccion

Convergencia de multiples Disciplinas

“AID:Introduccion”

Carlos ValleVidal

Introduccion

Convergencia de multiples Disciplinas (2)

“AID:Introduccion”

Carlos ValleVidal

Introduccion

Como interactuan las disciplinas

EstadısticaComo develar y optimizar la informacion extraıda de los datosComo recolectar los datos para maximizar la informacionComo hacer inferencias de los datos para obtener nuevoconocimiento.

Ciencias de la Computacion, Maquinas de AprendizajeComo calcular y procesar de manera optima los datosComo medir el costo asociado al procesamiento de lainformacionComo la informacion y el conocimiento pueden ser utilmenterepresentadosComo comprender los lımites de lo que se puede computar.

“AID:Introduccion”

Carlos ValleVidal

Introduccion

Maquinas de Aprendizaje

Capacidad del computador para aprender de la experiencia(Oxford English Dictionary)

Proceso que causa que el sistema mejore con la experiencia(Mitchell 1997)

Uso de los algoritmos computacionales para aprender de losdatos (Hutchinson 1995)

Programa de computacion que puede aprender de laexperiencia respecto a algun tipo de tarea y medida dedesempeno (Mitchell 1997)

“AID:Introduccion”

Carlos ValleVidal

Introduccion

Aprendizaje

Consiste en inducir funciones generales de un conjuntoespecıfico de formas denominado patrones deentrenamiento.Tipos de Aprendizaje

Aprendizaje SupervisadoAprendizaje ReforzadoAprendizaje No-supervisadoAprendizaje Semi-supervisado.

“AID:Introduccion”

Carlos ValleVidal

Introduccion

Data Mining

Etapa de reconocimiento de patrones mediante algoritmosautomaticos o semiautomaticos de grandes bases de datos,con el objetivo de apoyar la toma de decisiones dentro deuna organizacion

Es el descubrimiento eficiente de informacion valiosa (nuevoshechos y relaciones) no evidentes desde una gran base dedatos. (Bigus 1996)

“AID:Introduccion”

Carlos ValleVidal

Introduccion

Machine Learning

“AID:Introduccion”

Carlos ValleVidal

Introduccion

Estadıstica v/s Maquinas de aprendizaje

Estadıstica Moderna =⇒ Modelo

Maquinas de Aprendizaje =⇒ AlgoritmosModelo:

Estructura propuesta, o una estructura de la cual seobtuvieron los datosLos modelos pueden ser:

Modelos Empıricos buscan relaciones sin basarlas en algunateorıa subyacente.Modelos Mecanicistas: Se construyen en base a algunmecanismo supuesto del proceso de generacion de los datos.

“AID:Introduccion”

Carlos ValleVidal

Introduccion

Modelos y Patrones

Modelo: Consiste en una estructura en gran escala queresume las relaciones sobre muchos casos

Patron:Consiste en una estructura local satisfecha poralgunos pocos casos o una pequena region del espacio delos datos.

“AID:Introduccion”

Carlos ValleVidal

Introduccion

Analisis de Datos

Es el proceso de calcular varios resumenes y valoresderivados a partir de una coleccion de datosLa falsedad de la receta de cocina (cookbook)

Las herramientas del analisis de datos poseen relacionescomplejas.Rara vez unas pregunta de investigacion es estipulada demanera precisa, de manera tal que una aplicacion simple yunica de algun metodo sera suficiente.

El analisis de datos es un proceso iterativoLos datos se estudian, se analizan utilizando algunaherramienta analıtica, se decide observarla de otra manera,quizas modificandola, se repite el proceso.

“AID:Introduccion”

Carlos ValleVidal

Introduccion

¿Por que inteligente?

Para extraer la estructura subyacente a los datos hay queentender lo que esta sucediendo, Aplicar en forma reiteradadiversos metodos, refinar las preguntas que el investigadortrata de responder requiere de mucho cuidado e inteligencia.

El analisis inteligente de datos no es un metodo pocosistematico de aplicacion de las herramientas Estadısticas yde Data Mining, no es un paseo aleatorio a traves del espaciode las tecnicas analıticas, sino que un procesocuidadosamente planeado para decidir lo que sera mas util yrevelador.

“AID:Introduccion”

Carlos ValleVidal

Introduccion

Herramientas Modernas de Analisis de Datos

Durante el curso se analizaran una serie de tecnicas modernas

Modelos Bayesianos

Metodos de Kernel y maquinas de vectores de soporte

Series Temporales

Reglas de Induccion

Redes Neuronales Artificiales

Ensamblado de maquinas

“AID:Introduccion”

Carlos ValleVidal

Introduccion

Herramientas Modernas de Analisis de Datos

Durante el curso se analizaran una serie de tecnicas modernas

Modelos Bayesianos

Metodos de Kernel y maquinas de vectores de soporte

Series Temporales

Reglas de Induccion

Redes Neuronales Artificiales

Ensamblado de maquinas

“AID:Introduccion”

Carlos ValleVidal

Introduccion

Consultas y Comentarios