Basic Svm

24
Conceptos matemáticos 1 Hay l observaciones y cada una consiste en un par de datos: un vector una etiqueta ,..., 1 , i R x n i } 1 , 1 { i y Supóngase que se tiene un hiperplano que separa las muestras positivas (+1) de las negativas (-1). Los puntos x i que están en el hiperplano satisfacen w·x+b=0.

description

Breve explicación de Support Vector Machines.

Transcript of Basic Svm

  • Conceptos matemticos

    1

    Hay l observaciones y cada una consiste en un par de

    datos:

    un vector

    una etiqueta

    ,...,1, iRx ni

    }1,1{ iy

    Supngase que se tiene un hiperplano que separa

    las muestras positivas (+1) de las negativas (-1).

    Los puntos xi que estn en el hiperplano satisfacen

    wx+b=0.

  • 2Idea inicial de separacin

    +1

    -1

  • Conceptos matemticos

    3

    w es es normal al hiperplano.

    es la distancia perpendicular del hiperplano al origen.

    es la norma eucldea de w

    w

    b

    w

    Lo que se quiere es separar los puntos de acuerdo al

    valor de su etiqueta yi en dos hiperplanos diferentes:

    wxi+b +1 para yi=+1. (hiperplano positivo)

    wxi+b -1 para yi =-1 (hiperplano negativo)

    Simplificando: yi(wxi+b) +1

  • Idea inicial de separacin

    4

    +1

    -1

    hiperplano positivo: wx+b = +1

    hiperplano negativo: wx+b = -1

  • Conceptos matemticos

    5

    Sea d+ (d-) la distancia ms corta entre el hiperplano positivo

    (negativo) y el punto positivo (negativo) ms cercano.

    Sea el margen la distancia entre los hiperplanos positivo

    y negativo. El margen es igual a:

    La idea es encontrar un hiperplano con el mximo

    margen. Esto es un problema de optimizacin:

    w

    2

    maximizar: sujeto a : yi(wxi+b) +1w

    2

  • Conceptos matemticos

    6

    El problema su puede expresar as:

    minimizar:2

    w sujeto a : yi(wxi+b) +1

    Pero el problema se puede transformar para que quede

    ms fcil de manejar! Se usan multiplicadores de

    Lagrange (ai).

    ll

    11

    2

    21

    i

    i

    i

    iiiP byL aa xww

  • Conceptos matemticos

    7

    Reemplazando en Lp se obtiene el problema dual:

    ll

    1,11

    ji

    jijiji

    i

    iD yyL xxaaa

    Haciendo que los gradientes de Lp respecto a w y b sean

    cero, se obtienen las siguientes condiciones:

    011

    ll

    i

    ii

    i

    iii yy aa xw

    Hay penalizacin por error de clasificacin

  • Conceptos matemticos

    8

    ll

    1,11

    ji

    jijiji

    i

    iD yyL xxaaa

    La forma para optimizar es:

    011

    ll

    i

    ii

    i

    iii yy aa xw

    maximizar:

    sujeto a :

  • Conceptos matemticos

    9

    Cuando los datos no se pueden separar linealmente se

    hace un cambio de espacio mediante una funcin que

    transforme los datos de manera que se puedan separar

    linealmente. Tal funcin se llama Kernel.

    Tambin hay mtodos para separar los datos (xi,yi)

    directamente an no siendo separables linealmente,

    mediante funciones polinmicas y otro tipo de

    funciones, las Funciones de Base Radial (RBF).

  • Conceptos matemticos

    10

    +1

    -1

    ?

  • Conceptos matemticos

    11

    Algunos problemas con las SVM:

    Overtraining:se han aprendido muy bien los datos deentrenamiento pero no se pueden clasificar bien ejemplosno vistos antes. Ej.: un botnico que conoce mucho.

    La porcin n de los datos no conocidos que ser malcalificada, est limitada por:

    ntoentrenamie de ejemplos de No.

    soporte de vectoresNo.n

    Se aplica el principio de Ockham.

  • Conceptos matemticos

    12

    Algunos problemas con las SVM:

    Overfitting: no se ha aprendido muy bien lacaracterstica de los datos de entrenamiento, por lo que sehace una mala clasificacin. Ej.: el hermano del botnico.

  • 13

    cmo clasificar estos

    datos?

    +1

    -1

  • 14

    cmo clasificar estos

    datos?

    +1

    -1

  • 15

    cmo clasificar estos

    datos?

    +1

    -1

  • 16

    cmo clasificar estos

    datos?

    +1

    -1

  • 17

    Cualquiera puede ser

    buena, pero cul es la

    mejor?

    +1

    -1

  • 18

    Definimos el hiperplano

    wx+b=0+1

    -1

  • 19

    Definimos el margen

    Interpretacin geomtrica

    +1

    -1

  • 20

    La idea es maximizar el

    margen.

    +1

    -1

  • 21

    El hiperplano que tenga

    el mayor margen es el

    mejor clasificador de los

    datos.

    Esta es la clase ms

    simple de SVM, la

    LSVM.

    +1

    -1

  • 22

    Los vectores de soporte

    son los puntos que tocan

    el lmite del margen.

    +1

    -1

  • 23

    Veamos los hiperplanos

    positivo y negativo

    +1

    -1

  • 24

    hiperplano positivo: wx+b +1

    hiperplano negativo: wx+b -1

    +1

    -1