Aprendizaje no Supervisado: Clustering Norberto Díaz Díaz Bioinformatics Group of Seville (BIGS)...

16
Aprendizaje no Supervisado: Clustering Norberto Díaz Díaz Bioinformatics Group of Seville (BIGS) Dpto. de Lenguajes y Sistemas Informaticos Universidad de Sevilla

Transcript of Aprendizaje no Supervisado: Clustering Norberto Díaz Díaz Bioinformatics Group of Seville (BIGS)...

Page 1: Aprendizaje no Supervisado: Clustering Norberto Díaz Díaz Bioinformatics Group of Seville (BIGS) Dpto. de Lenguajes y Sistemas Informaticos Universidad.

Aprendizaje no Supervisado: Clustering

Norberto Díaz DíazBioinformatics Group of Seville (BIGS)

Dpto. de Lenguajes y Sistemas InformaticosUniversidad de Sevilla

Page 2: Aprendizaje no Supervisado: Clustering Norberto Díaz Díaz Bioinformatics Group of Seville (BIGS) Dpto. de Lenguajes y Sistemas Informaticos Universidad.

Tabla de Contenidos

Introducción

Clustering

Jerárquico: CobWeb, FarthestFirst

Basado en Particiones: K-means

Algoritmo EM

Page 3: Aprendizaje no Supervisado: Clustering Norberto Díaz Díaz Bioinformatics Group of Seville (BIGS) Dpto. de Lenguajes y Sistemas Informaticos Universidad.

Aprendizaje Supervisado (Clasificación)El conjunto de datos contiene un atributo que “guía” el aprendizaje (clase).

Clasificadores: K-NN (IBk), C4.5 (J48)…

Introducción

Aprendizaje No Supervisado (Clustering-Biclustering)No existe atributo clase.

Aprendizaje Semi-Supervisado Algunos ejemplos tienen clase y otros no.

Page 4: Aprendizaje no Supervisado: Clustering Norberto Díaz Díaz Bioinformatics Group of Seville (BIGS) Dpto. de Lenguajes y Sistemas Informaticos Universidad.

CLUSTERING

Objetivo: crear conjunto de elementos los cuales tengan alguna característica común.

El clustering solo actua bajo una dimensión.

Crear conjuntos de genes según su expresión bajo condiciones experimentales.

Crear conjuntos de condiciones según la expresión de los genes de un genoma.

filas

columnas

Page 5: Aprendizaje no Supervisado: Clustering Norberto Díaz Díaz Bioinformatics Group of Seville (BIGS) Dpto. de Lenguajes y Sistemas Informaticos Universidad.

Clustering Jerárquico - Algoritmo

Se basa en descomponer jerárquicamente el conjunto de datos de entrada

Page 6: Aprendizaje no Supervisado: Clustering Norberto Díaz Díaz Bioinformatics Group of Seville (BIGS) Dpto. de Lenguajes y Sistemas Informaticos Universidad.

clustering

clustering

clustering

clustering

clustering

Clustering Jerárquico - Ejemplo

Partición recursiva de los datos

Page 7: Aprendizaje no Supervisado: Clustering Norberto Díaz Díaz Bioinformatics Group of Seville (BIGS) Dpto. de Lenguajes y Sistemas Informaticos Universidad.

Clustering Jerárquico – CobWeb (en Weka)

Page 8: Aprendizaje no Supervisado: Clustering Norberto Díaz Díaz Bioinformatics Group of Seville (BIGS) Dpto. de Lenguajes y Sistemas Informaticos Universidad.

Clustering Jerárquico – FarthestFirst (en Weka)

Page 9: Aprendizaje no Supervisado: Clustering Norberto Díaz Díaz Bioinformatics Group of Seville (BIGS) Dpto. de Lenguajes y Sistemas Informaticos Universidad.

Clustering Basado en particiones: K-Medias

Consiste en minimizar las distancias de los elementos de la partición y

el centroide de ésta.

Page 10: Aprendizaje no Supervisado: Clustering Norberto Díaz Díaz Bioinformatics Group of Seville (BIGS) Dpto. de Lenguajes y Sistemas Informaticos Universidad.

K-Medias: Ejemplo 1

Page 12: Aprendizaje no Supervisado: Clustering Norberto Díaz Díaz Bioinformatics Group of Seville (BIGS) Dpto. de Lenguajes y Sistemas Informaticos Universidad.

Kmedias – SimpleKMeans (en Weka)

Page 13: Aprendizaje no Supervisado: Clustering Norberto Díaz Díaz Bioinformatics Group of Seville (BIGS) Dpto. de Lenguajes y Sistemas Informaticos Universidad.

Clustering EM (Expectation Maximization)

Se basa en el modelo estadístico de Gauss:

Estima parámetros por máxima verosimilitud

Imputación de datos inexistentes

El proceso es similar a K-meansLos parámetros son recalculados hasta que los valores convergen

Suele utilizarse para estimar la distribución de los datos a prioriEsto puede verse en el algoritmo de clustering CLICK

Page 14: Aprendizaje no Supervisado: Clustering Norberto Díaz Díaz Bioinformatics Group of Seville (BIGS) Dpto. de Lenguajes y Sistemas Informaticos Universidad.

Clustering EM - Weka

Page 15: Aprendizaje no Supervisado: Clustering Norberto Díaz Díaz Bioinformatics Group of Seville (BIGS) Dpto. de Lenguajes y Sistemas Informaticos Universidad.

Ejercicio – Supervisado vs NoSupervisado

¿Quién consigue el mejor resultado para la base de datos “zoo.arf”, usando supervisado y no-Supervisado?

Page 16: Aprendizaje no Supervisado: Clustering Norberto Díaz Díaz Bioinformatics Group of Seville (BIGS) Dpto. de Lenguajes y Sistemas Informaticos Universidad.

FIN