Aprendizaje Mecánico Supervisado y...

51
Aprendizaje Mecánico Supervisado y Clasificación

Transcript of Aprendizaje Mecánico Supervisado y...

Page 1: Aprendizaje Mecánico Supervisado y Clasificacióncs.uns.edu.ar/~agm/mineriaweb/downloads/Slides/clase13y14-slides.pdf · clasificación de dígitos manuscritos. aprendizaje mecánico

Aprendizaje Mecánico Supervisado y Clasificación

Page 2: Aprendizaje Mecánico Supervisado y Clasificacióncs.uns.edu.ar/~agm/mineriaweb/downloads/Slides/clase13y14-slides.pdf · clasificación de dígitos manuscritos. aprendizaje mecánico

aprendizajemecánico y

clasificación

MINERIAMINERIADE LADE LA

WEBWEB

aprendizaje mecánico supervisado

Técnica para generar funciones a partir de ejemplos de entrenamientoDependiendo del output

variables continuas (regresión)etiquetas de clases (clasificación)

Page 3: Aprendizaje Mecánico Supervisado y Clasificacióncs.uns.edu.ar/~agm/mineriaweb/downloads/Slides/clase13y14-slides.pdf · clasificación de dígitos manuscritos. aprendizaje mecánico

aprendizajemecánico y

clasificación

MINERIAMINERIADE LADE LA

WEBWEB

pasos para aprendizaje mecánico supervisado

determinar el tipo de ejemplostipo de datos a utilizar

compilar un conjunto de ejemploscaracterización del uso real de la función

seleccionar características (features) que describan al objeto

curse of dimensionalityruido

determinar la estructura de la funciónredes neuronalesárboles de decisión

ajuste de parámetros

Page 4: Aprendizaje Mecánico Supervisado y Clasificacióncs.uns.edu.ar/~agm/mineriaweb/downloads/Slides/clase13y14-slides.pdf · clasificación de dígitos manuscritos. aprendizaje mecánico

aprendizajemecánico y

clasificación

MINERIAMINERIADE LADE LA

WEBWEB

clasificación de dígitos manuscritos

Page 5: Aprendizaje Mecánico Supervisado y Clasificacióncs.uns.edu.ar/~agm/mineriaweb/downloads/Slides/clase13y14-slides.pdf · clasificación de dígitos manuscritos. aprendizaje mecánico

aprendizajemecánico y

clasificación

MINERIAMINERIADE LADE LA

WEBWEB

reconocimiento de expresiones faciales

fuente

Page 6: Aprendizaje Mecánico Supervisado y Clasificacióncs.uns.edu.ar/~agm/mineriaweb/downloads/Slides/clase13y14-slides.pdf · clasificación de dígitos manuscritos. aprendizaje mecánico

aprendizajemecánico y

clasificación

MINERIAMINERIADE LADE LA

WEBWEB

spam

Page 7: Aprendizaje Mecánico Supervisado y Clasificacióncs.uns.edu.ar/~agm/mineriaweb/downloads/Slides/clase13y14-slides.pdf · clasificación de dígitos manuscritos. aprendizaje mecánico

aprendizajemecánico y

clasificación

MINERIAMINERIADE LADE LA

WEBWEB

clasificación de documentos

Asignar un documento a una o más categorías basándose en su contenido Clasificadores

redes neuronalessupport vector machineprogramación genéticaclasificadores bayesianos

Page 8: Aprendizaje Mecánico Supervisado y Clasificacióncs.uns.edu.ar/~agm/mineriaweb/downloads/Slides/clase13y14-slides.pdf · clasificación de dígitos manuscritos. aprendizaje mecánico

aprendizajemecánico y

clasificación

MINERIAMINERIADE LADE LA

WEBWEB

clasificación

Page 9: Aprendizaje Mecánico Supervisado y Clasificacióncs.uns.edu.ar/~agm/mineriaweb/downloads/Slides/clase13y14-slides.pdf · clasificación de dígitos manuscritos. aprendizaje mecánico

aprendizajemecánico y

clasificación

MINERIAMINERIADE LADE LA

WEBWEB

DadoUn conjunto de instancias XUn concepto a aprender

c: X → {0,1}Ejemplos de entrenamiento

D = ⟨⟨x1,c(x1) ⟩…⟨xm,c(xm)⟩⟩Conjunto de posibles hipótesis H

Tareagenerar hipótesis o estimar c, i.e., encontrar h∈H tal que h(x)=c(x) ∀x ∈ X

aprendizaje de conceptos

Page 10: Aprendizaje Mecánico Supervisado y Clasificacióncs.uns.edu.ar/~agm/mineriaweb/downloads/Slides/clase13y14-slides.pdf · clasificación de dígitos manuscritos. aprendizaje mecánico

aprendizajemecánico y

clasificación

MINERIAMINERIADE LADE LA

WEBWEB

Cada ejemplo observado puede aumentar o disminuir la probabilidad estimada sobre la correctitud de la hipótesisConocimiento previo

1. Cada candidato a hipótesis 2. Distribución probabilística de cada hipótesis

sobre los datos observados

Las predicciones son probabilísticasLas predicciones de múltiples hipótesis pueden ser combinadas

aprendizaje bayesiano

Page 11: Aprendizaje Mecánico Supervisado y Clasificacióncs.uns.edu.ar/~agm/mineriaweb/downloads/Slides/clase13y14-slides.pdf · clasificación de dígitos manuscritos. aprendizaje mecánico

aprendizajemecánico y

clasificación

MINERIAMINERIADE LADE LA

WEBWEB

¿Cuál es la hipótesis más probable dado el conjunto de entrenamiento?

Teorema de Bayes y aprendizaje mecánico de conceptosAlgoritmos consistentes de aprendizaje mecánico

¿Cuál es la clasificación más probable de una nueva instancia dado el conjunto de entrenamiento?

Clasificador de Bayes óptimo Algoritmo de GibbsAprendizaje Bayesiano Naïve Ejemplo: aprendiendo a clasificar texto

Redes de creencia bayesianas

aprendizaje bayesiano: panorama general

Page 12: Aprendizaje Mecánico Supervisado y Clasificacióncs.uns.edu.ar/~agm/mineriaweb/downloads/Slides/clase13y14-slides.pdf · clasificación de dígitos manuscritos. aprendizaje mecánico

aprendizajemecánico y

clasificación

MINERIAMINERIADE LADE LA

WEBWEB

Se arroja un dado para determinar de donde sacar una galleta

Si se obtiene un 1 o un 2, la galleta se toma de la caja A, de lo contrario se toma de la caja B

teorema de Bayes: ejemplo

A B

Page 13: Aprendizaje Mecánico Supervisado y Clasificacióncs.uns.edu.ar/~agm/mineriaweb/downloads/Slides/clase13y14-slides.pdf · clasificación de dígitos manuscritos. aprendizaje mecánico

aprendizajemecánico y

clasificación

MINERIAMINERIADE LADE LA

WEBWEB)(

)()|()|(DP

hPhDPDhP =

P(h|D) = probabilidad a posteriori de hP(h) = probabilidad a priori de hP(D|h) = probabilidad de observar D

dado que vale h P(D) = probabilidad de observar D

teorema de Bayes

donde

Page 14: Aprendizaje Mecánico Supervisado y Clasificacióncs.uns.edu.ar/~agm/mineriaweb/downloads/Slides/clase13y14-slides.pdf · clasificación de dígitos manuscritos. aprendizaje mecánico

aprendizajemecánico y

clasificación

MINERIAMINERIADE LADE LA

WEBWEB

BuscamosP(Caja A|Chocolate)

SabemosP(Caja A)= 1/3P(Chocolate|Caja A) = 3/5P(Chocolate) = 4/9

4/15/4

3/1*5/3)|( ==ChocolateACajaP

teorema de bayes: ejempl

Si obtenemos una galleta de chocolate, ¿cuál es la probabilidad de que provenga de la caja A?

A B

Page 15: Aprendizaje Mecánico Supervisado y Clasificacióncs.uns.edu.ar/~agm/mineriaweb/downloads/Slides/clase13y14-slides.pdf · clasificación de dígitos manuscritos. aprendizaje mecánico

aprendizajemecánico y

clasificación

MINERIAMINERIADE LADE LA

WEBWEB

teorema de Bayes: otro ejemplo

Page 16: Aprendizaje Mecánico Supervisado y Clasificacióncs.uns.edu.ar/~agm/mineriaweb/downloads/Slides/clase13y14-slides.pdf · clasificación de dígitos manuscritos. aprendizaje mecánico

aprendizajemecánico y

clasificación

MINERIAMINERIADE LADE LA

WEBWEB

)|(argmax DhPhHh

MAP∈

)()()|(argmax

DPhPhDPh

HhMAP

∈=

Probabilidad Máxima a Posteriori (MAP)

Page 17: Aprendizaje Mecánico Supervisado y Clasificacióncs.uns.edu.ar/~agm/mineriaweb/downloads/Slides/clase13y14-slides.pdf · clasificación de dígitos manuscritos. aprendizaje mecánico

aprendizajemecánico y

clasificación

MINERIAMINERIADE LADE LA

WEBWEB

1. Para cada hipótesis h en H, calcularla probabilidad a posteriori

2. Devolver la hipótesis hMAP con mayor probabilidad a posteriori

)|(argmax DhPhHh

MAP∈

)()()|()|(

DPhPhDPDhP =

búsqueda de hMAP por fuerza bruta

Page 18: Aprendizaje Mecánico Supervisado y Clasificacióncs.uns.edu.ar/~agm/mineriaweb/downloads/Slides/clase13y14-slides.pdf · clasificación de dígitos manuscritos. aprendizaje mecánico

aprendizajemecánico y

clasificación

MINERIAMINERIADE LADE LA

WEBWEBH

|H|1)( ∈∀= hhP

⎩⎨⎧ ∈∀=

=nosi0

si|

)(1)(

DhhDP iii dxd

especificación de probabilidades

Page 19: Aprendizaje Mecánico Supervisado y Clasificacióncs.uns.edu.ar/~agm/mineriaweb/downloads/Slides/clase13y14-slides.pdf · clasificación de dígitos manuscritos. aprendizaje mecánico

aprendizajemecánico y

clasificación

MINERIAMINERIADE LADE LA

WEBWEBH

|H|1)( ∈∀= hhP

⎩⎨⎧ ∈∀=

=nosi0

si|

)(1)(

DhhDP iii dxd

|H|

||)( ,DHVS

DP =

⎪⎩

⎪⎨

⎧∈∀=

=

nosi0

si||

1|

)()( ,

DhDhP

iiiDH

dxdVS

especificación de probabilidades

Page 20: Aprendizaje Mecánico Supervisado y Clasificacióncs.uns.edu.ar/~agm/mineriaweb/downloads/Slides/clase13y14-slides.pdf · clasificación de dígitos manuscritos. aprendizaje mecánico

aprendizajemecánico y

clasificación

MINERIAMINERIADE LADE LA

WEBWEB)|(argmax DhPh

HhMAP

∈≡

)()()|(argmax

DPhPhDPh

HhMAP

∈=

)()|(argmax hPhDPhHh

MAP∈

=

Probabilidad Máxima a Posteriori (MAP)

)|(argmax hDPhHh

ML∈

Page 21: Aprendizaje Mecánico Supervisado y Clasificacióncs.uns.edu.ar/~agm/mineriaweb/downloads/Slides/clase13y14-slides.pdf · clasificación de dígitos manuscritos. aprendizaje mecánico

aprendizajemecánico y

clasificación

MINERIAMINERIADE LADE LA

WEBWEB

toda hipótesis consistente con D es una hipótesis MAP

evolución de probabilidades a posteriori

Page 22: Aprendizaje Mecánico Supervisado y Clasificacióncs.uns.edu.ar/~agm/mineriaweb/downloads/Slides/clase13y14-slides.pdf · clasificación de dígitos manuscritos. aprendizaje mecánico

aprendizajemecánico y

clasificación

MINERIAMINERIADE LADE LA

WEBWEBUn algoritmo de aprendizaje mecánico es consistente si devuelve una hipótesis que no comente error alguno sobre los ejemplos de entrenamientoTodo algoritmo de aprendizaje consistente devuelve una hipótesis MAP si se cumple:

distribución uniforme sobre Hdatos de entrenamiento deterministas y libres de ruido

algoritmo consistente de aprendizaje mecánico

Page 23: Aprendizaje Mecánico Supervisado y Clasificacióncs.uns.edu.ar/~agm/mineriaweb/downloads/Slides/clase13y14-slides.pdf · clasificación de dígitos manuscritos. aprendizaje mecánico

aprendizajemecánico y

clasificación

MINERIAMINERIADE LADE LA

WEBWEB

Suposición:la clasificación más probable de una nueva instancia se obtiene combinando la predicción de todas las hipótesis, ajustadas por su probabilidad a posteriori

)|()|(argmax DhPhvPv iHh

ijVv

ij

∑∈∈

=

dónde V es un conjunto de clasificaciones posibles

clasificador de Bayes óptimo

Page 24: Aprendizaje Mecánico Supervisado y Clasificacióncs.uns.edu.ar/~agm/mineriaweb/downloads/Slides/clase13y14-slides.pdf · clasificación de dígitos manuscritos. aprendizaje mecánico

aprendizajemecánico y

clasificación

MINERIAMINERIADE LADE LA

WEBWEBConsideremos tres hipótesis:

h1,h2 y h3.

3.0)|( 3.0)|( 4.0)|( 321 === DhPDhPDhP

Una nueva instancia x es clasificada positiva mediante h1 y negativa mediante h2 y h3.

0)|( 0)|( 1)|( 321 =+=+=+ hPhPhP

1)|( 1)|( 0)|( 321 =−=−=− hPhPhP

clasificador de Bayes óptimo: ejemplo

Page 25: Aprendizaje Mecánico Supervisado y Clasificacióncs.uns.edu.ar/~agm/mineriaweb/downloads/Slides/clase13y14-slides.pdf · clasificación de dígitos manuscritos. aprendizaje mecánico

aprendizajemecánico y

clasificación

MINERIAMINERIADE LADE LA

WEBWEBDe acuerdo al clasificador de Bayes óptimo

)|()|(argmax DhPhvPv iHh

ijVv

ij

∑∈∈

=

4.0)|()|( =+∑∈

DhPhP iHh

ii

6.0)|()|( =−∑∈

DhPhP iHh

ii

donde

−=∑∈−+∈

)|()|(argmax},{

DhPhvP iHh

ijv

ij

por lo tanto

clasificador de Bayes óptimo: ejemplo (cntd)

Page 26: Aprendizaje Mecánico Supervisado y Clasificacióncs.uns.edu.ar/~agm/mineriaweb/downloads/Slides/clase13y14-slides.pdf · clasificación de dígitos manuscritos. aprendizaje mecánico

aprendizajemecánico y

clasificación

MINERIAMINERIADE LADE LA

WEBWEB

1. Elegir una hipótesis h de manera aleatoria de acuerdo a la distribución a posteriori sobre H

2. Usar h para predecir la clasificación de la próxima instancia de x

algoritmo de Gibbs

Page 27: Aprendizaje Mecánico Supervisado y Clasificacióncs.uns.edu.ar/~agm/mineriaweb/downloads/Slides/clase13y14-slides.pdf · clasificación de dígitos manuscritos. aprendizaje mecánico

aprendizajemecánico y

clasificación

MINERIAMINERIADE LADE LA

WEBWEBClasificar una nueva instancia descripta mediante la tupla de atributos con los siguientes valores

naaa K21,

),|(argmax 21 njVv

MAP aaavPvj

K∈

=

),()()|,(

argmax21

21

n

jjn

VvMAP aaaP

vPvaaaPv

j K

K

∈=

)()|,(argmax 21 jjnVv

MAP vPvaaaPvj

K∈

=

clasificador bayesiano naïve

Page 28: Aprendizaje Mecánico Supervisado y Clasificacióncs.uns.edu.ar/~agm/mineriaweb/downloads/Slides/clase13y14-slides.pdf · clasificación de dígitos manuscritos. aprendizaje mecánico

aprendizajemecánico y

clasificación

MINERIAMINERIADE LADE LA

WEBWEB

Propiedades• Las probabilidades pueden ser

fácilmente estimadas• Idéntica a la clasificación MAP si vale la

suposición de independencia condicional• No debe realizarse una búsqueda

explícita sobre el espacio de posibles hipótesis

∏∈

=i

jijVv

NB vaPvPvj

)|()(argmax

Si los valores de los atributos son condicionalmente independientes, entonces

clasificador bayesiano naïve

Page 29: Aprendizaje Mecánico Supervisado y Clasificacióncs.uns.edu.ar/~agm/mineriaweb/downloads/Slides/clase13y14-slides.pdf · clasificación de dígitos manuscritos. aprendizaje mecánico

aprendizajemecánico y

clasificación

MINERIAMINERIADE LADE LA

WEBWEB nn

vavvaP c==

| valedonde ejemplos|| oconteniend valedonde ejemplos|)|(

mnmpnc

++ p = estimación a priori de la

probabilidad a ser calculadam = tamaño de muestra equivalente

estimación de probabilidades

ProblemaCuando un atributo aparece muy pocas veces, es posible tener nc =0.

Solución: usar una m-estimación

Page 30: Aprendizaje Mecánico Supervisado y Clasificacióncs.uns.edu.ar/~agm/mineriaweb/downloads/Slides/clase13y14-slides.pdf · clasificación de dígitos manuscritos. aprendizaje mecánico

aprendizajemecánico y

clasificación

MINERIAMINERIADE LADE LA

WEBWEB

aprendiendo a clasificar texto

X todos los posibles documentos de textoejemplos de entrenamiento provenientes de una función objetivo f f toma valores del subconjunto V de Xy los mapea a positivo o negativo(ejemplo: documentos interesantes/no interesantes)Objetivo: aprender a partir de estos ejemplo para predecir nuevos casos

Page 31: Aprendizaje Mecánico Supervisado y Clasificacióncs.uns.edu.ar/~agm/mineriaweb/downloads/Slides/clase13y14-slides.pdf · clasificación de dígitos manuscritos. aprendizaje mecánico

aprendizajemecánico y

clasificación

MINERIAMINERIADE LADE LA

WEBWEB

aprendiendo a clasificar texto

Cuestiones de diseño:representación de un documento de texto como valores de atributoobtención de probabilidades para aplicar el clasificador bayesiano

naaa K21,

∏∈

=i

jijVv

NB vaPvPvj

)|()(argmax

∏i

ji vaP )|(

Page 32: Aprendizaje Mecánico Supervisado y Clasificacióncs.uns.edu.ar/~agm/mineriaweb/downloads/Slides/clase13y14-slides.pdf · clasificación de dígitos manuscritos. aprendizaje mecánico

aprendizajemecánico y

clasificación

MINERIAMINERIADE LADE LA

WEBWEB

aprendiendo a clasificar texto

Representación del texto de un documento arbitrario en término de sus valores de atributo

atributos: posiciones en el texto valores: palabras.

a1=“representación”a2=“del”a3=“texto”....

Page 33: Aprendizaje Mecánico Supervisado y Clasificacióncs.uns.edu.ar/~agm/mineriaweb/downloads/Slides/clase13y14-slides.pdf · clasificación de dígitos manuscritos. aprendizaje mecánico

aprendizajemecánico y

clasificación

MINERIAMINERIADE LADE LA

WEBWEB

)|zzz""()|aaa""()(argmax

)|()(argmax

1v

v

j

j

jnjjV

ijij

VNB

vaPvaPvP

vaPvPv

===

=

∈∏

L

aprendiendo a clasificar texto

Clasificación bayesiana de texto

Problemas:suposición de independenciaposición de la palabra en el texto

Page 34: Aprendizaje Mecánico Supervisado y Clasificacióncs.uns.edu.ar/~agm/mineriaweb/downloads/Slides/clase13y14-slides.pdf · clasificación de dígitos manuscritos. aprendizaje mecánico

aprendizajemecánico y

clasificación

MINERIAMINERIADE LADE LA

WEBWEB

• Extraer Vocabulario a partir de todos los documentos• Calcular P(vj) y P(wk | vj)

– Para cada vj en V• docsj ← documentos con clase vj•

• Textj ← documento individual con docsj• n ← núm. total posiciones de palabras en Textj• por cada wk en Vocabulario

– nk ← número de apariciones de wk enTextj

–||

1)|(oVocabularin

nvwP kjk +

+←

||||

)(Ejemplos

docsvP j

j ←

aprendizaje de texto

Page 35: Aprendizaje Mecánico Supervisado y Clasificacióncs.uns.edu.ar/~agm/mineriaweb/downloads/Slides/clase13y14-slides.pdf · clasificación de dígitos manuscritos. aprendizaje mecánico

aprendizajemecánico y

clasificación

MINERIAMINERIADE LADE LA

WEBWEB• posiciones ← todas las posiciones de palabras en el

documento actual que se encuentran en Vocabulario

• Devolver vNB, donde

∏∈∈

=posicionesi

jijV

NB vaPvPv )|()(argmaxjv

clasificación de texto

Page 36: Aprendizaje Mecánico Supervisado y Clasificacióncs.uns.edu.ar/~agm/mineriaweb/downloads/Slides/clase13y14-slides.pdf · clasificación de dígitos manuscritos. aprendizaje mecánico

aprendizajemecánico y

clasificación

MINERIAMINERIADE LADE LA

WEBWEB

Nearest Neighbor classifiers

Intuición:documentos similares deberían asignarse a la misma clase.

t1

t2

t3

1d

2d

||||||||)cos(),(

21

2121

dd

dddd⋅

⋅== ασ

α

modelo de espacio vectorialsimilaridad por coseno

Page 37: Aprendizaje Mecánico Supervisado y Clasificacióncs.uns.edu.ar/~agm/mineriaweb/downloads/Slides/clase13y14-slides.pdf · clasificación de dígitos manuscritos. aprendizaje mecánico

aprendizajemecánico y

clasificación

MINERIAMINERIADE LADE LA

WEBWEB

Nearest Neighbor classifiers

Entrenamientorepresentar cada documento como un vector recordar su clase

ClasificadorRecuperar documentos con un ángulo especifico

la clase con mayor número de documentos gana

Recuperar los “k” documentos más similares al documento nuevo

la clase con mayor número de documentos gana

Alternativa: pesar los documentos para decidir

Page 38: Aprendizaje Mecánico Supervisado y Clasificacióncs.uns.edu.ar/~agm/mineriaweb/downloads/Slides/clase13y14-slides.pdf · clasificación de dígitos manuscritos. aprendizaje mecánico

aprendizajemecánico y

clasificación

MINERIAMINERIADE LADE LA

WEBWEB

clasificador basado en ángulo

α

?

{ })cos(),(| ασ ≥∈ ikjk ddclased

=),(: αα ij dClaseA

Page 39: Aprendizaje Mecánico Supervisado y Clasificacióncs.uns.edu.ar/~agm/mineriaweb/downloads/Slides/clase13y14-slides.pdf · clasificación de dígitos manuscritos. aprendizaje mecánico

aprendizajemecánico y

clasificación

MINERIAMINERIADE LADE LA

WEBWEB

clasificador basado en k vecinos más próximos

5

3

1

7

2

4

6

9

8

?

{ }iljl dapróximosmásvecinosklosentredclased |∈

=),(: kdClaseA ijk

Page 40: Aprendizaje Mecánico Supervisado y Clasificacióncs.uns.edu.ar/~agm/mineriaweb/downloads/Slides/clase13y14-slides.pdf · clasificación de dígitos manuscritos. aprendizaje mecánico

aprendizajemecánico y

clasificación

MINERIAMINERIADE LADE LA

WEBWEB

clasificador basado en pesos

?

||||

),()(:

j

clasedik

ijWV clase

ddpClaseA jk

∑∈

=

σ

Page 41: Aprendizaje Mecánico Supervisado y Clasificacióncs.uns.edu.ar/~agm/mineriaweb/downloads/Slides/clase13y14-slides.pdf · clasificación de dígitos manuscritos. aprendizaje mecánico

aprendizajemecánico y

clasificación

MINERIAMINERIADE LADE LA

WEBWEB

selección de características relevantes

Recordando TFIDF

j

ij

freqfreq

fmax

=

ii n

Nidf log=

iijij idffw ×=

freqij es la frecuencia del término ki en el documento djf es la frecuencia normalizada del término ki en el documento dj (el máximo se obtiene sobre los términos del documento), N es el total de documentos de una colección, ni son los documentos en los que aparece el término ki. idf es la frecuencia de documento inversa

Page 42: Aprendizaje Mecánico Supervisado y Clasificacióncs.uns.edu.ar/~agm/mineriaweb/downloads/Slides/clase13y14-slides.pdf · clasificación de dígitos manuscritos. aprendizaje mecánico

aprendizajemecánico y

clasificación

MINERIAMINERIADE LADE LA

WEBWEB

selección de características relevantes

Problemas con TF-IDFrealizado para el corpus completono se consideran correlaciones y frecuencias a través de clases los términos que aparecen con mayor frecuencia relativa en ciertas clases deberían tener mayor importancia poca frecuencia a través del corpus completo no es tan importante.

Page 43: Aprendizaje Mecánico Supervisado y Clasificacióncs.uns.edu.ar/~agm/mineriaweb/downloads/Slides/clase13y14-slides.pdf · clasificación de dígitos manuscritos. aprendizaje mecánico

aprendizajemecánico y

clasificación

MINERIAMINERIADE LADE LA

WEBWEB

selección de características relevantes

selección perfectadirigida a la metaelegir todos los posibles subconjuntos de característicaspor cada subconjunto entrenar y evaluar al clasificadorquedarse con el mejor subconjuntocomputacionalmente intratable!

Page 44: Aprendizaje Mecánico Supervisado y Clasificacióncs.uns.edu.ar/~agm/mineriaweb/downloads/Slides/clase13y14-slides.pdf · clasificación de dígitos manuscritos. aprendizaje mecánico

aprendizajemecánico y

clasificación

MINERIAMINERIADE LADE LA

WEBWEB

selección de características: algoritmo Greedy

1. Por cada término computar una medida de discriminación entre clases.

2. Ordenar términos en orden decreciente basados en tal medida.

3. Conservar los mejores términos (características) para ser usados por el clasificador.

Page 45: Aprendizaje Mecánico Supervisado y Clasificacióncs.uns.edu.ar/~agm/mineriaweb/downloads/Slides/clase13y14-slides.pdf · clasificación de dígitos manuscritos. aprendizaje mecánico

aprendizajemecánico y

clasificación

MINERIAMINERIADE LADE LA

WEBWEB

medidas de discriminación

Depende demodelo de documentosvelocidad para entrenamientofacilidad de actualización

EjemplosTestInformación mutuaÍndice de discriminación de Fisher

(ver Chakrabarti 5.5)

Page 46: Aprendizaje Mecánico Supervisado y Clasificacióncs.uns.edu.ar/~agm/mineriaweb/downloads/Slides/clase13y14-slides.pdf · clasificación de dígitos manuscritos. aprendizaje mecánico

aprendizajemecánico y

clasificación

MINERIAMINERIADE LADE LA

WEBWEB

validación

Heurística de búsqueda simple:agregar características (una a la vez) hasta que ya no se observen mejoras

Page 47: Aprendizaje Mecánico Supervisado y Clasificacióncs.uns.edu.ar/~agm/mineriaweb/downloads/Slides/clase13y14-slides.pdf · clasificación de dígitos manuscritos. aprendizaje mecánico

aprendizajemecánico y

clasificación

MINERIAMINERIADE LADE LA

WEBWEB

Evaluación de clasificadores

Reuters10700 documentos etiquetados 10% con etiquetas múltiples

OHSUMED348566 abstracts sobre revistas de medicina

20NG18800 mensajes de USENET etiquetados20 clases a nivel de hoja, 5 a nivel de raíz

WebKB8300 en 7 categorías.

Industry10000 páginas de 105 sectores industriales

Page 48: Aprendizaje Mecánico Supervisado y Clasificacióncs.uns.edu.ar/~agm/mineriaweb/downloads/Slides/clase13y14-slides.pdf · clasificación de dígitos manuscritos. aprendizaje mecánico

aprendizajemecánico y

clasificación

MINERIAMINERIADE LADE LA

WEBWEB

evaluación

Posibles casosCada documento está asociado con exactamente una clase.Cada documento está asociado con un subconjunto de clases.

Matriz de confusión (M)Apta para más de dos clasesM[i; j] : número de documentos de prueba pertenecientes a la clase i que fueron asignados a la clase jClasificador perfecto:

M[i;j] > 0 sssi i=j

Page 49: Aprendizaje Mecánico Supervisado y Clasificacióncs.uns.edu.ar/~agm/mineriaweb/downloads/Slides/clase13y14-slides.pdf · clasificación de dígitos manuscritos. aprendizaje mecánico

aprendizajemecánico y

clasificación

MINERIAMINERIADE LADE LA

WEBWEB

evaluación

Por cada documento, crear un conjunto de clases positivas y negativas (ejemplo “deportes” y “no deportes”)Precisión y cobertura

matriz de contingencia para cada par (d,c)

|} c devuelve noor clasificady C c {| [1,1]M|} c devuelveor clasificady C c {| [1,0]M

|} c devuelve noor clasificady C {c| [0,1]M|} c devuelveor clasificady C c {| [0,0]M

dcd,

dcd,

dcd,

dcd,

∉=

∉=

∈=

∈=

)( dC )( dC

Page 50: Aprendizaje Mecánico Supervisado y Clasificacióncs.uns.edu.ar/~agm/mineriaweb/downloads/Slides/clase13y14-slides.pdf · clasificación de dígitos manuscritos. aprendizaje mecánico

aprendizajemecánico y

clasificación

MINERIAMINERIADE LADE LA

WEBWEB

evaluación basadas en la matriz de contingencia

micro promediada

macro promediada

precisión y cobertura (micro promediado)

precisión y cobertura (macro promediado)

∑=cd

cdMM,

]0,1[]0,0[]0,0[

)(μμ

μμ MM

MprecisionM

+=

]1,0[]0,0[]0,0[

)(μμ

μμ MM

MrecallM

+=

∑∑=c d

dcc MC

M ,||1

]0,1[]0,0[]0,0[)(cc

cc MM

MprecisionM+

=]1,0[]0,0[

]0,0[)(cc

cc MM

MrecallM+

=

Page 51: Aprendizaje Mecánico Supervisado y Clasificacióncs.uns.edu.ar/~agm/mineriaweb/downloads/Slides/clase13y14-slides.pdf · clasificación de dígitos manuscritos. aprendizaje mecánico

aprendizajemecánico y

clasificación

MINERIAMINERIADE LADE LA

WEBWEB

evaluación del clasificador

Trade-off precisión coberturaGraficar precisión vs. recall: cuanto mejor el clasificador, más alta la curvamedia armónica : descartar clasificadores que sacrifiquen una medida para favorecer otra

precisión coberturaprecisióncobertura2 F1 +

××=