Basic Svm

Conceptos matemticos

1

Hay l observaciones y cada una consiste en un par de

datos:

un vector

una etiqueta

,...,1, iRx ni

}1,1{ iy

Supngase que se tiene un hiperplano que separa

las muestras positivas (+1) de las negativas (-1).

Los puntos xi que estn en el hiperplano satisfacen

wx+b=0.

2Idea inicial de separacin

+1

-1


3

w es es normal al hiperplano.

es la distancia perpendicular del hiperplano al origen.

es la norma eucldea de w

w

b

w

Lo que se quiere es separar los puntos de acuerdo al

valor de su etiqueta yi en dos hiperplanos diferentes:

wxi+b +1 para yi=+1. (hiperplano positivo)

wxi+b -1 para yi =-1 (hiperplano negativo)

Simplificando: yi(wxi+b) +1

Idea inicial de separacin

4

+1

-1

hiperplano positivo: wx+b = +1

hiperplano negativo: wx+b = -1


5

Sea d+ (d-) la distancia ms corta entre el hiperplano positivo

(negativo) y el punto positivo (negativo) ms cercano.

Sea el margen la distancia entre los hiperplanos positivo

y negativo. El margen es igual a:

La idea es encontrar un hiperplano con el mximo

margen. Esto es un problema de optimizacin:

w

2

maximizar: sujeto a : yi(wxi+b) +1w

2


6

El problema su puede expresar as:

minimizar:2

w sujeto a : yi(wxi+b) +1

Pero el problema se puede transformar para que quede

ms fcil de manejar! Se usan multiplicadores de

Lagrange (ai).

ll

11

2

21

i

i

i

iiiP byL aa xww


7

Reemplazando en Lp se obtiene el problema dual:

ll

1,11

ji

jijiji

i

iD yyL xxaaa

Haciendo que los gradientes de Lp respecto a w y b sean

cero, se obtienen las siguientes condiciones:

011

ll

i

ii

i

iii yy aa xw

Hay penalizacin por error de clasificacin


8

ll

1,11

ji

jijiji

i

iD yyL xxaaa

La forma para optimizar es:

011

ll

i

ii

i

iii yy aa xw

maximizar:

sujeto a :


9

Cuando los datos no se pueden separar linealmente se

hace un cambio de espacio mediante una funcin que

transforme los datos de manera que se puedan separar

linealmente. Tal funcin se llama Kernel.

Tambin hay mtodos para separar los datos (xi,yi)

directamente an no siendo separables linealmente,

mediante funciones polinmicas y otro tipo de

funciones, las Funciones de Base Radial (RBF).


10

+1

-1

?


11

Algunos problemas con las SVM:

Overtraining:se han aprendido muy bien los datos deentrenamiento pero no se pueden clasificar bien ejemplosno vistos antes. Ej.: un botnico que conoce mucho.

La porcin n de los datos no conocidos que ser malcalificada, est limitada por:

ntoentrenamie de ejemplos de No.

soporte de vectoresNo.n

Se aplica el principio de Ockham.


12

Algunos problemas con las SVM:

Overfitting: no se ha aprendido muy bien lacaracterstica de los datos de entrenamiento, por lo que sehace una mala clasificacin. Ej.: el hermano del botnico.

13

cmo clasificar estos

datos?

+1

-1

14


datos?

+1

-1

15


datos?

+1

-1

16


datos?

+1

-1

17

Cualquiera puede ser

buena, pero cul es la

mejor?

+1

-1

18

Definimos el hiperplano

wx+b=0+1

-1

19

Definimos el margen

Interpretacin geomtrica

+1

-1

20

La idea es maximizar el

margen.

+1

-1

21

El hiperplano que tenga

el mayor margen es el

mejor clasificador de los

datos.

Esta es la clase ms

simple de SVM, la

LSVM.

+1

-1

22

Los vectores de soporte

son los puntos que tocan

el lmite del margen.

+1

-1

23

Veamos los hiperplanos

positivo y negativo

+1

-1

24

hiperplano positivo: wx+b +1

hiperplano negativo: wx+b -1

+1

-1

Basic Svm

Documents

Transcript of Basic Svm