CLP Teoria 2.2 ML Tar2015

download CLP Teoria 2.2 ML Tar2015

of 22

Transcript of CLP Teoria 2.2 ML Tar2015

  • 7/21/2019 CLP Teoria 2.2 ML Tar2015

    1/22

    1

    INDICE

    2.1 Decisin Bayesiana (MAP)2.2. Estimacin de mxima verosimilitud (ML) y

    estimacin Bayesiana de parmetros

    2.2.1 Introduccin

    2.2.2 Estimacin ML2.2.3 Estimacin Bayesiana

    2.2.4 Conclusiones

  • 7/21/2019 CLP Teoria 2.2 ML Tar2015

    2/22

    2

    2.2.1 INTRODUCCIN

    La clasificacin bayesiana precisa del conocimiento defx(x |i) yde Pr(i). Para el clculo de estas magnitudes se requiere:

    - Disponer de una serie de datos previamenteclasificados de forma fiable.

    - Disponer de un estimador de esas probabilidades.

    La estimacin de fx(x |i) requiere muchos datos a menos quepodamos definir una funcin que dependa de unos pocosparmetros i.

    Caso gaussiano: icontiene la media y la matriz de covarianza

    ( )( ) ( )11/ 2/ 2

    1 1( | , ) exp

    22

    T

    i i i i id

    i

    f

    =

    x x x C x C

  • 7/21/2019 CLP Teoria 2.2 ML Tar2015

    3/22

    3

    Existen dos alternativas:

    1. Estimacin de mxima verosimilidud (ML): Losparmetros a estimar se consideran deterministas(aunque desconocidos).

    2. Estimacin bayesiana: Los parmetros son variablesde las que se tiene un conocimiento a priori(relacionado con el concepto de creencia y asociadoa una funcin de densidad de probabilidad). La

    definicin del estimador bayesiano permite mejorarfcilmente la estimacin defx(x|i) cuando se disponede nuevos datos.

  • 7/21/2019 CLP Teoria 2.2 ML Tar2015

    4/22

    4

    Suponemos que disponemos de una base de datos etiquetada (unconjunto de vectores de caractersticas clasificados por categoras).

    A partir de una particin aleatoria de sta (base de datos deentrenamiento) hemos de determinarfx(x|i):

    { }1

    1 1,1 2,1 ,1, ,...,c

    ND = x x x

    { }22 1,2 2,2 ,2, ,..., cND = x x x { }33 1,3 2,3 ,3, ,..., cND = x x x

    1 1:c

    2 2:c 3 3:c

    El resto de vectores se usar para evaluar las prestaciones del

    clasificador (base de datos de test).

  • 7/21/2019 CLP Teoria 2.2 ML Tar2015

    5/22

    5

    2.2.2 ESTIMACIN DE MXIMA VEROSIMILITUD (ML)

    Si en cada clase i los datos xk,iDi observados sonindependientes:

    ( ) ,1

    | ( | )ci

    N

    i i k i i

    k

    f D f=

    = x x

    es la funcin de verosimilitud. El estimador ML maximiza estafuncin (o su logaritmo):

    ( ) ( ), arg max | arg max ln |i i

    i ML i i i if D f D= =

    Un conjunto de condiciones necesarias para obtener elestimador vienen dadas por:

    ( )ln |i i i

    f D = 0

  • 7/21/2019 CLP Teoria 2.2 ML Tar2015

    6/22

    6

    xk,iDi

    Funcionesfx(xk,i|i)asociadas a cada uno

    de los vectores deDi

    f(Di|i)

    ( ) ( ),1

    | |ciN

    i i k i i

    k

    f D f =

    = x x

    lnf(Di|i)

    ML

  • 7/21/2019 CLP Teoria 2.2 ML Tar2015

    7/22

    7

    Caracterizacin de un estimador

    Un estimador es una funcin que aplica sobre los vectores decaractersticas xk,iseleccionados de la base de datos para entrenar elclasificador. Si la seleccin se hace de forma aleatoria, los valoresproporcionados por el estimador sern tambin aleatorios: para cadaposible particin l de la base de datos obtenemos una estimacindistinta .

    1. Sesgo: diferencia entre el valor verdadero del parmetro y elpromedio de los valores sobre las posibles particiones aleatorias dela base de datos de entrenamiento. Mide si el estimador comete unerror sistemtico.

    ,

    l i

    { }, ,1

    1 L

    l i l i

    l

    BL

    =

    =

  • 7/21/2019 CLP Teoria 2.2 ML Tar2015

    8/22

    8

    2. Varianza: desviacin de los valores aleatorios proporcionados por elestimador respecto a un valor medio. Mide si el resultado delestimador depende mucho o poco de la seleccin concreta devectores.

    { }2

    , , ,

    1 1

    1 1 varL L

    l i l i s i

    l sL L

    = =

    =

  • 7/21/2019 CLP Teoria 2.2 ML Tar2015

    9/22

    9

    Propiedades del estimador ML:

    1. Es asintticamente insesgado (en muchos casos esinsesgado aunque N sea pequeo)

    2. Es asintticamente eficiente (cuando N es grande, suvarianza es la de Crmer-Rao)

    Sin embargo

    1. No tiene porqu ser el que proporcione menor error declasificacin cuando utilicemos

    2. Si la pdf asumida es muy distinta de la real lasestimaciones pueden ser de poca calidad.

    ,( | , )i i MLf x x

  • 7/21/2019 CLP Teoria 2.2 ML Tar2015

    10/22

    10

    Ejemplo 1:

    Estimador ML de la media isi la matriz de covarianza Ciesconocida, en el caso gausiano multivariable. Demostrad que:

    ,

    1

    1

    ci

    i

    N

    i ML k

    kcN =

    = x

    ,

    1

    1

    ci

    i

    N

    i ML k

    kcN =

    = x ( )( ), , ,1

    1

    ci

    i

    NT

    i ML k i ML k i ML

    kcN =

    = x x C

    Ejemplo 2:

    Estimador ML de la media iy la matriz de covarianza Cien elcaso gausiano multivariable. Demostrad que:

  • 7/21/2019 CLP Teoria 2.2 ML Tar2015

    11/22

    11

    Ejemplo 3:

    Estimador ML de la probabilidad pkde aparicin de 1 paracada una de las componentes del vector de datos binarios

    x{0,1}d:

    [ ]

    , ,1

    1 1

    1

    ( | , ) (1 )

    ,...,

    i

    k j k j

    N dx x

    k k

    j k

    d

    f D p p

    p p

    = =

    =

    =

    x p

    p

  • 7/21/2019 CLP Teoria 2.2 ML Tar2015

    12/22

  • 7/21/2019 CLP Teoria 2.2 ML Tar2015

    13/22

    13

    ESTIMACIN BAYESIANA y ESTIMACIN ML

    Comparacin:

    La funcin tendr un pico tanto ms abrupto alrededorde cuanto mayor sea Ni.

    Si f(

    i

    ) no es cero y no vara mucho cerca de entonces

    ( | )i i

    f D

    i i=

    i i

    =

    ( | ) ( )( | )

    ( )i i i

    i i

    i

    f D ff D

    f D=

    tambien tiene un pico en y los estimadores obtenidos por

    Bayes y mediante ML coinciden.

    En la prctica, si el nmero de vectores de Di es pequeo, esmejor la estimacin bayesiana. Cuando se tienen muchasmuestras, ambos estimadores coinciden

    i i

    =

  • 7/21/2019 CLP Teoria 2.2 ML Tar2015

    14/22

    14

    1.4 1.6 1.8 2 2.2 2.4 2.6 2.8 3 3.20

    0.1

    0.2

    0.3

    0.4

    0.5

    0.6

    0.7

    0.8

    0.9

    15 muestras35 muestras200 muestras

    1.4 1.6 1.8 2 2.2 2.4 2.6 2.8 3 3.20

    0.1

    0.2

    0.3

    0.4

    0.5

    0.6

    0.7

    0.8

    0.9

    1

    5 muestras35 muestras200 muestras

    f(D|)

    f()

    Ejemplo 5:

    Estimacin ML de la media(0=2) sobre un nmerovariable de muestrasGaussianas.

    La fdp a priori de es

    Gaussiana.

    Estimacin Bayesianade lamedia (0=2) sobre unnmero variable demuestras Gaussianas.

    La fdp a priori de esGaussiana.

    f()

    f(D|)f()

  • 7/21/2019 CLP Teoria 2.2 ML Tar2015

    15/22

    15

    1.4 1.6 1.8 2 2.2 2.4 2.6 2.8 3 3.20

    0.1

    0.2

    0.3

    0.4

    0.5

    0.6

    0.7

    0.8

    0.9

    15 muestras35 muestras200 muestras

    Estimacin Bayesianade la

    media (0=2) sobre unnmero variable demuestras Gaussianas.

    La fdp a priori de esuniforme.

    f()

    f(D|)f()

  • 7/21/2019 CLP Teoria 2.2 ML Tar2015

    16/22

    16

    Queremos determinar la probabilidad a posteriori a partir de lasobservaciones en Di , y supondremos que:

    - La forma defx(x|i)es conocida pero no el parmetro i

    - Nuestro conocimiento a priori de i est enf(i)

    - El resto de nuestro conocimiento sobre iviene dado porlos datos en Di

    Suposiciones

    2. Estimar directamente las probabilidades a posteriori Pr(i|x)

  • 7/21/2019 CLP Teoria 2.2 ML Tar2015

    17/22

    17

    ( | ) ( | ) ( | ) ( | )i i i i i if f D f f D d = x xx x x

    Procedimiento:

    1. Promediar la forma conocida para la funcin de verosimilitudrespecto a la probabilidad a posteriori del parmetro:

    2. Calculamos la probabilidad a posteriori del parmetro como

    ( | ) ( )( | ) ( | ) ( )

    ( | ) ( )

    i i i

    i i i i i

    i i i i

    f D ff D f D f

    f D f d=

    3. Suponiendo independencia de los datos en Di

    ,

    1

    ( | ) ( | )iN

    i i k i i

    k

    f D f=

    = x

  • 7/21/2019 CLP Teoria 2.2 ML Tar2015

    18/22

    18

    Ejemplo 4:

    Estimador bayesiano defx(x|D)si

    ( ) ( )0 0( | ) , ( ) ,f N f Nx x C C

    donde se suponen conocidas 0, C0y C, y se dispone de los

    datos observadosD= {x1,, xN}

    A partir de 2 y3podemos escribir:

    ( )

    1

    1 1 1 10 0 0

    1

    ( ) ( | ) ( )

    1exp 2

    2

    N

    kk

    N

    T T

    k

    k

    f D f f

    N x

    =

    =

    = =

    = + + +

    x x

    C C C C

  • 7/21/2019 CLP Teoria 2.2 ML Tar2015

    19/22

    19

    La ecuacin puede escribirse tambin como:

    Igualando ambas expresiones:

    ( ) ( )11( ) exp2

    TN N N

    f D =

    C

    ( )1 1 1 1 1 1

    0 0 012 2

    N

    T T T T

    k N N N kN x K

    =

    + + = +

    C C C C C C

    1 1 10N N

    = +C C C

    Comparando los trminos lineales en :

    donde los trminos que no dependen de y otras constantesquedan asimilados en K. Comparando el termino cuadrtico en :

    1 1 10 0

    1

    N

    N N k

    k

    x

    =

    = +C C C

    (1)

    (2)

  • 7/21/2019 CLP Teoria 2.2 ML Tar2015

    20/22

    20

    A partir de (1) y usando la igualdad: ( ) ( )1 11 1

    + = +A B A A B B

    ( ) 10 0N N = +C C C C C

    Teniendo en cuenta que si A y B son invertibles

    podemos usar (3) en (2) para obtener

    ( ) ( )

    1 1 + = +

    A A B B B A B A

    1 1

    0 0 0 0

    1 1 1

    N NN N N

    = + + +

    C C C m C C C

    1

    1 N

    N k

    kN == m x

    (3)

  • 7/21/2019 CLP Teoria 2.2 ML Tar2015

    21/22

    21

    Ntese que la media es una combinacin lineal del

    conocimiento a priori de la media 0y la informacin aportadapor los datos mN. Integrando la ecuacin 1:

    ( )( | ) ( | ) ( | ) ( | ) ,N Nf f D f f D d N = +x xx x x C C

    CuandoN la estimacion de a partir de f(|D)tiende aser ML

    1

    N N NN

    = = m C C

  • 7/21/2019 CLP Teoria 2.2 ML Tar2015

    22/22

    22

    2.2.3 CONCLUSIONES

    Si se puede suponer una forma paramtrica para fx(x|i)entonces la fase de entrenamiento del clasificador sereduce a la estimacin de los parmetros

    Pueden utilizarse dos soluciones para la estimacin deparmetros: ML (ms simple computacionalmente) obayesiana (si se dispone de conocimiento a priori sobre losparmetros)