PFC- HMM y Algoritmo EM

download PFC- HMM y Algoritmo EM

of 132

Transcript of PFC- HMM y Algoritmo EM

ndicedecontenido1.Introduccin....................................................... ................................41.1Reconocimientodehablaaislada................................................ ....41.2MotivacinyObjetivos........................................................... .........51.3Estructuradelproyecto.................................................................. .52.Clasificacinestadstica..................................................................72.1Introduccin.................................................................................. ...72.2Elproblemadelaclasificacin.......................................................72.3LaregladedecisindeBayes............................................. ............92.4Funcionesdiscriminantes............................................. ............112.5EstimadoresyMtodosdeaprendizaje........................................132.6Mtodossupervisados...................................................................142.6.1EstimacindeMximaVerosimilitud(MLE).......................142.6.2EstimacindeMximaprobabilidadAPosteriori................142.6.3MtodosDiscriminativos.......................................................152.7Mtodosnosupervisados..............................................................172.7.1Cuantizacinvectorial...........................................................172.7.2Algoritmokmeans.......................................................... ......192.7.3ElalgoritmoEM............................................................... ......212.8.2AlgoritmoEM.Simulacin2.................................................353.IntroduccinalosmodelosocultosdeMarkov......................363.1ProcesosdeMarkov............................................................... ........363.2CadenasdeMarkov................................................................ .......373.2.1Introduccin................................................................... .........373.2.2Lamatrizestocstica........................................ .....................393.2.3Tiempomediodepermanenciaenunestado........................403.2.4Probabilidadesdetransicindeordensuperior..................413.2.5Probabilidadesasociadasalosestadoslmite......................423.2.6Verosimilituddeunaobservacin.........................................452.3.7Estimacindelosparmetrosdelmodelo.............................473.3CadenasomodelosocultosdeMarkov.........................................4713.3.1Definicin.................................................................... ............473.3.2Unejemploclsico............................................................... ...483.3.3Parmetrosdelmodelo..........................................................513.3.4Lostresproblemasfundamentales.......................................524.Clculodelaverosimilitudrespectoaunmodelo...................544.1Planteamiento................................................. ..............................544.2Aproximacindirecta........................................ ............................544.3ProcedimientoBackwardForward..............................................564.3.1Fundamentos...................................................................... ....564.3.2Variablehaciadelante(Forwardvariable)...........................564.3.3Variablehaciadetrs(Backwardvariable)..........................594.3.4Notasdeimplementacin:escalado......................................624.3.5Simulaciones..........................................................................645.Clculodelcaminoptimo............................................................775.1Criteriosdeoptimalidad...............................................................775.2Secuenciadeestadosptimos.......................................................775.3Secuenciaptimadeestados........................................................805.4Simulacin................................................................... ..................816.Reestimacindeparmetros........................................................876.1Introduccin................................................................................. ..876.2BaumWelch................................................ ..................................876.2.1Generalidades.............................................................. ...........876.2.2Exposicin......................................................................... ......886.2.3Resumendelalgoritmo..........................................................966.3Demostracin............................................................................. ....976.3.1Motivacin........................................................ ......................976.3.2AlgoritmoEMaplicadoaunHMM.......................................986.3.3OptimizacindelafuncindeBaum....................................986.4Simulaciones.......................................................................... ......1027.Aplicacinalreconocimientodehabla....................................1097.1Introduccin............................................................................... ..10927.2Modelodeltractovocal.......................................................... ......1107.3Extraccindecaractersticas......................................................1127.3.1Cepstrum........................................................... ...................1127.3.2CoeficientescepstrumenescalaMel...................................1167.4Prenfasis................................................... .................................1197.5UsodelaIDCT....................................................... .....................1197.6Unalgoritmo......................................................................... .......1208.Conclusionesylineasfuturas........................................ .............1238.1Conclusiones............................................................... .................1238.2Lneasfuturas.......................................... ...................................123ApendiceA.Aplicacinprctica....................................................125A.1Objetivos.......................................................................... ............125A.2Aplicacindesarrollada..............................................................125A.2.1Nucleoestadstico..................................................... ...........125A.2.2ComunicacinconMatlab...................................................127A.2.3FrontEnd.............................................................................. 127ApndiceB.................................................................................. .........128B.1Notacin....................................................... ...............................128B.2Acrnimos.............................................................................. ......130Bibliografa................................................. ........................................13131.Introduccin1.1ReconocimientodehablaaisladaElreconocimientodelhablaesunproblemaquehasidoestudiadodeformaintensivadurantelosltimoscuarentaaos,tiempoenelcualsehandesarrolladodiferentesestrategiasdeaproximacinalmismo.Haciamediadosdeladcadadelossesentaselasprimerastentativasponandemanifiesto laaltavariabilidaddelospatrones,inclusoparaunamismapalabrapronunciadaporunamismapersona.Laclasificacinestadsticausandomodelosclsicos,representadospordensidadesdeprobabilidadestticas,sedemostraronincapacesdealcanzartasasdeerrorrazonable.Coneltiemposedifundierontcnicasderivadasdelaprogramacindinmicaylacuantizacinvectorial, comoelDinamic Time Warping, que permitan contrastar contra un mismopatrnsecuenciasdedistintaslongitudesyquepresentabandistintasvelocidadesdevariacinrespectoadistintaspartesdelpatrndereferencia.Paralelamente,estudiosbiolgicosypsicolgicosabranunabanicodemejorasparaelmodeladodelafuentedevozylaextraccindecaractersticasrelevantesdelaseal.LosmodelosocultosdeMarkovirrumpieronenelcampodelreconocimientodehablaenlosaosochenta,yseerigieronenprotagonistasenpocotiempo.Enlazabanporunaparteconlomejordelaprogramacindinmica,enelsentidodequeaportabanunmarcodemodelodeestadosquetenaencuentadeunmodoinherenteelcarctertemporalsecuencialdelasobservacionesysuvariabilidad,cubriendoaslascarenciasquepresentabanlosmtodospuramenteestadsticos.Porotraparte,estosmodelosestnentroncadosenelmbitodelaestadstica,enelsenodelcualexistenmtodosdeoptimizacincomoel4algoritmoEMquepermitenreestimardeformaconsistentelosparmetros del modelo para adecuarlo a las observaciones. Inicialmenteutilizadosenelcontextodelhablaaislada,prontoseempezaronautilizartambinenelreconocimientodehablacontinua,dondeanhoydamantienenciertavigencia.Peroesenelprimerproblema,elreconocimientodehablaaisladadondeseponendemanifiestodeunmodomssimplesuscaractersticasdefinitorias,yesportantoelenfoqueadoptadoenelproyecto.1.2MotivacinyObjetivosUnavezplanteadoelproblema,elpresenteproyectopersigueponerdemanifiestoelfuncionamientodelosmodelosocultosdeMarkov,ymostrarlosensulugarenrelacinconlaclasificacinestadstica.SepersiguetambinponerdemanifiestoenelcampodeestosmodeloslaimportanciadelalgoritmoEM,yrealizarunacercamientoordenadoysuficientealassolucionesdelacasusticaquerodeaelusodelosmodelosdeMarkovcomoclasificadores,todoellorespaldadoporunaimplementacindelosalgoritmosquepuedaserrealmenteutilizada.1.3EstructuradelproyectoElproyectoseestructurabsicamenteentresbloquesprincipales:unaaproximacinalaclasificacinestadstica,teoradelosmodelosdemarkovysufuncionamientoyfinalmenteaplicacinavoz.Estosbloquesdecontenidosedistribuyenenlossietecaptulossubsiguientes Enelcapitulodosharemosunaaproximacinalaclasificacinestadsticayalaconstruccindeclasificadors.Daremosunrepasoaloscriteriosdeoptimizacinmsconocidosparaentrenamientosupervisadoynosupervisado,yenelcontextodeesteltimopresentaremoselalgoritmoEM. EnelcaptulotresexponemoslosmodelosocultosdeMarkovapartirdeunaexplicacinpreviadelascadenasdeMarkov.Enestemar5copreviosedaresolucinaproblemascomolaestimacindeparmetros o el clculo de la verosimilitud que sern ms complejoscuandorefieranamodelosocultosdeMarkov. Elcaptulocuatrosecentraenlaresolucindelprimeroymssencillodelosproblemas,elclculodelaverosimilituddeunasecuenciade muestras respecto al modelo, y se introducen las piezas claveparaeltrabajoconmodelosocultosdemarkov,lasvaribalehaciadelanteyhaciaatrs. Enelcaptulocincoresolvemoselproblemadelcalculodelcaminoptimo,lasecuenciadeestadosporlaqueconmsprobabilidadpasaunmodeloparagenerarunaobservacindada Enelcaptuloseispresentamoselltimoymsimportantedelosproblemas,lareestimacindeparmetros,yentroncamosconelalgoritmoEMexpuestoenelcaptulodos. Elcaptulossieteexplicalaproblemticapropiadelreconocimientodehabla,ycmolosmodelosdemarkovenlazanconlamisma. Finalmenteelcaptulooctavomuestraalgunasconclusionesyposibleslineasfuturas.Lassimulacionesestnalfinaldecadacaptulo,ysedesarrollansegnlohacelateorapoderobtenerunamejorcomprensin.62.Clasificacinestadstica2.1IntroduccinEnestecaptuloexpondremoslasbasesdelaTeoradelaDecisin,yharemosunrecorridoporlosmtodosmsimportantesparalaconstruccindeestimadores.Expondremosenprimerlugarcmoobtenerclasificadoresusandomtodosdeentrenamiento supervisado,querequierendelainformacindeclaseasociadaacadamuestradelapoblacin.Enestecontextoencontraremoslosestimadoresdemximaverosimulitud(MLE,Maximum Likelyhood Estimator), mxima probabilidad a posteriori(MAP, Maximum A Posteriori) y los de mxima informacin mutua(MMIE,MaximumMutualInformationEstimator). Ensegundolugarnosacercaremosalosmtodosdenominadosdeaprendizajenosupervisado,comoelalgoritmoKmeansparacuantizacinvectorial,entrelosqueseencuentraelalgoritmoEM(Expectation Maximization). Veremos como el algoritmo EM es fundamentalparaelmodeladodef.d.pmultimodales,ysentaremoslasbasesqueencaptulos posteriores nos permitirn reestimar los parmetros de losmodelosocultosdeMarkov.2.2ElproblemadelaclasificacinLa clasificacin es el acto de separar observaciones unas deotras,asignndolasadistintosgruposoclases,enbaseaunconjuntodecriterios.Laclasificacinsebasaenlacreenciadequeexistenpatrones diferenciadosydiscerniblesdentrodeunconjuntodeobservaciones,ysuobjetivoesencontrarculesson,yconculsecorrespondecadamuestra.Laclasificacintieneporpilaresfundamentalesdosideasfundamentales:7i. existenpatrones,loquecristalizaenelconceptodeclase.ii. sepuedendistinguirunasobservacionesdeotras,quedalugaralconceptodediscriminador.Engenerallasclasesyloscriteriosdeclasificacinestnmuyrelacionados.Cuandoconocemosalaperfeccinlasclasesesqueyahemosclasificadotodoelespacio.Cuandoclasificamosmuestrassegnuncriteriocreamosclases.La clasificacin estadstica permite trabajar cmodamente conlos conceptos de clase y discriminador, separndolos en cierto modo.La clasificacin estadstica define una clase como una distribucin odensidaddeprobabilidadsobreelespaciodeobservaciones.Losdiscriminadoressebasarnencantidadesdelcampoprobabilstico,comolaverosimilitud,lainformacinmutua,etc...Laclasificacinestadsticaseadaptabienaungrannmerodesituaciones reales. No en todos los problemas de clasificacin que senospresentadisponemosdelamismacantidaddeinformacinacercadelprocesoquegeneralasalidaqueobservamos. Sinosatenemosaestebaremo dedesconocimiento, laclasificacinestadsticaocupaunampliorangodondesuaplicacinesposibleyoacertada.Vamosapresentarlosconceptosbsicosdelaclasificacinestadstica.Supongamosquetenemosunaeobservacinx,quepertenecenecesariamenteaalgunaclasedelconjunto o=o1... oN .Definimos:i. p( x /oi) Verosimilitud.Probabilidaddequelaclaseigenereunaobservacinx.Noessino elvalorquetomaparax ladensidadodistribucindeprobabilidadasociadaaesaclase.8ii. p(oi) Probabilidadaprior.Eslaprobabilidaddequeunaclasegenerelaobservacin,antesdesabercualserelvalordelaobservacingenerada.iii. p(oi/ x) Probabilidadaposteriori.Eslaprobabilidaddequeunaclasehayageneradounaobservacinxconocida.iv. p( x ) Probabilidaddeobservarx.Comolamuestratienequeperteneceraalgunadelasclases,sepuedeescribircomo(2.1)LascuatroserelacionanatravsdelteoremadeBayes(2.2)2.3LaregladedecisindeBayes.LaTeoradelaDecisindeBayesescentralenelcampodelaclasificacinestadstica.Sebasaenlapremisadequeelproblemadeladecisinpuedetratarseentrminosestadsticos,yenquetodoslosparmetrosrelevantesasociadosalasclasessonconocidos.Estosignificaqueporelmomentononosvamosapreocupardecmohemosconseguido estimar los parmetros de las clases. Dicho esto traemos denuevoacolacinlaexpresindelaprobabilidadaposteriori(2.2).Laprobabilidadapriorideunaclase p(oi) nonosdicegrancosa.Siintentamosadivinaraquclaseperteneceunaobservacinantesdeconocerdichaobservacin, lanicaeleccinsensataespensarque,probablemente,laobservacinperteneceraaquellaclaseconmayor probabilidad a priori. Esta eleccin siempre se decantar por lamisma clase, para cualquier observacin, lo cual nos dice que no esmuytil.Parecemslgicobasarlasposiblesreglasdedecisinenelvalordelaprobabilidadaposteriori,laprobabilidaddequeunaobser9p(oi/ x) =p( x /oi) p(oi)p( x)p( x) = kp( x / ok) p(ok)vacinpertenezcaaunaclase,unavezqueconocemosdichaobservacin!Elsentidocomnnosdicequelamejorreglabasadaen p(oi/ x)serlaqueentronecomoelegidaalaclaseconmayorprobabilidadaposterioridehabergeneradolamuestra.formalmente(2.3)6( x) esporlotantounaregladedecisinqueacadaobservacinleasignaelndicedeunaclase,enconcretoladeaquellaparalacuallaprobabilidadaposterioriesmxima.Comodurantelafasedeclasificacinlasdistribucionesasociadasalasclases,ascomolasprobabilidadesapriori,novaran1 podemosconsiderarlaprobabilidad de p(x)comoconstante.Entoncespodemossimplificarlaregladedecisin,expresndolaenfuncindelaverosimilitudydelaprobabilidadapriori.Formalmentep( x) = kp( x / ok) p(ok) cte(2.4)Elsentidocomnnoseequivocaenestaocasin,yaquepodemosdemostrarqueestaregladedecisinminimizaelriesgoenlaeleccin.Parademostrarlo,vamosasuponerquetenemosunconjuntodeclaseso=o1o1...oN ,porloqueelespaciodesalidadelaregladedecisinsedefinecomo 6( x) |1, N .Vamosadefinircomo l (6( x)=k /oi)lafuncindeprdidas,querepresentalasprdidasquesederivandeelegircomocorrectalaclasekcuandorealmentelamuestrapertenecaalaclasei.Porlotanto,elriesgocondicionadoseexpresacomor (6( x)=k / x) = il (6( x)=k /oi) p(oi/ x)1 Esto es cierto durante la fase de clasificacin. Si consideramos p(x) tal como aparece enlaexpresin (2.1), tenemos que aceptar que durante la fase de entrenamiento este valor podracambiar.106( x) = argmaxip(oi/ x)6( x) = argmaxip( x / oi) p(oi)Elriesgocondicionadorepresentaelriesgoquesecorrealasignarunaobservacinxaunaclasek,siguiendounaregladedecisin 6( x) sobreunconjunto odeclases.ElriesgototalvendrdadoporR = kr (6( x)=k / x) p( x) dxElriesgototalrepresentaelriesgoesperadoalaplicarunaregladedecisindada.Llegadosaestepunto,trataremosdeminimizaresteriesgototal.Elriesgototalpuedeseroptimizadooptimizandoelriesgocondicionado r (6( x)=k / x) paratodovalordex. Siescogemosunafuncindeprdidastalquel (6( x)=k / oi) =0 k=i1 kiEsta funcinde prdidasasigna la mismaprdidaacualquiererrordeclasificacin:todoscuestanlomismo.Seconocecomofuncindeprdidassimtricaocerouno.Usandoestafuncindeprdidas,elriesgocondicionadotomalaformar (6( x)=k / i ) = il (6( x)=k / oi) p(oi/ x) = i kp(oi/ x) = 1 p(ok/ x)Porlotantoparaminimizarelriesgocondicionadotenemosqueescogercomo vlidaaquella clase k para lacuallaprobabilidadaposteriorip(ok/ x ) seamxima,queesprecisamenteelcriterioquesiguelaregladedecisindeBayes.112.4FuncionesdiscriminantesUnaformadeverlatareadeclasificadineslasiguiente.Tenemosunaseriedeobservacionesaclasificar,yunconjuntodeNclasesenlasqueclasificarlas.Podemosrepresentarlaclasificacincomounproceso en el cual usamos N funciones discriminantes di( x) . Unafunciondiscriminanteasociadaaunaclasecalculaelparecidodeunamuestraconlamisma.Entonceslaeleccindeclasesereduceaescogerlaclaseasociadaalafuncindiscriminanteconmayorvalorparalamuestrax.formalmente(2.5)Paraelcasodeunclasificadorbayesiano,laregladedecisinestalqueminimizaelriesgocondicional.Comoenelcasodelafuncindiscriminanteloquebuscamosesqueseamximaparalaclasecorrecta, definimos la funcin discriminante para asociada a clasificadoresbayesianoscomodk( x) = r (6( x)=k / x)Queesequivalenteentrminosdemximosymnimosa(2.6)12dk( x)>di( x) i kdk( x) = p(ok/ x)2.5EstimadoresyMtodosdeaprendizaje.Lasdistribucionesquerepresentanclaseshan tenidoque salirdealgnsitio.Engenerallasdistribucionesseobtienendelasmismasobservaciones(odeunsubconjuntodeellas, llamadoconjuntodeentrenamiento)usandoestimadores.Las distribuciones pueden ser paramtricas (por ejemplo unagaussianatienedosparmetros,mediayvarianza)onoparamtricas(seconstruyenporfrecuenciarelativadeaparicindevalores).Enrealidadestasltimastienentantosparmetroscomomuestrascontengaelconjuntodeentrenamiento.Los mtodos de aprendizaje sedividen en dos grandes grupos:supervisadosynosupervisados.Lossupervisadossonaquellosenque,almenosparaunconjuntodeobservaciones,disponemosinformacinsobreaquclasepertenecen.Formalmente, disponemosdemuestrasetiquetadas | x , ok .Enlosnosupervisados,podemosprescindirdeesa informacin. No es necesario saber a qu clase pertenecen lasmuestras.13Ilustracin2.1Diagramadebloquesdeunclasificadorbasadoenfuncionesdiscriminantes.d1dNd2MAXx6( x)2.6Mtodossupervisados2.6.1EstimacindeMximaVerosimilitud(MLE)Esun mtodo deestimacin supervisado, esdecir, requiere demuestrasetiquetadasparapoderseraplicado.MLE(MaximumLikelihoodEstimation)eselmtodomsusadoparaestimardistribucionesporsugraneficienciaysueleutilizarsecondistribucionesparametrizadas.Sumeta esencontrarelconjuntodeparmetrosquemaximizanlaprobabilidadunaclasedehabergeneradolosdatosquelesonpropios,esdecir,laverosimilituddelasobservacionesquepertenezcanaunaclase p( x /ok) .Sea x=x1x2... xT un conjunto de observaciones estadsticamenteindependientesquesabemospertenecenalaclasek. Si llamamos 0k alconjuntodeparmetrosquedeterminanladistribucinasociadaalaclasek,laMLEvienedadapor(2.7)Para aplicarlo a una distribucin concreta slo hay que sustituirp( x / 0k) porsuvaloryderivarrespectoaalgnparmetro.2.6.2EstimacindeMximaprobabilidadAPosterioriMtodosupervisadoigualqueMLE,permitehacerestimacionesrazonablesdelosparmetroscuandoelconjuntodeentrenamientoestanlimitadoquenoessuficienteparaunaestimacindirectademximaverosimilitud.Acambioesnecesariorealizarsuposicionesacertadasotenerconocimientospreviossobrelosparmetrosinicialesdeladistribucin,esdecir,hayqueasignarunaprobabilidadapriorialvectorde parmetros. Poreso se llamaaposteriori,porqueloquerealmentevamosaoptimizarparacadaclasees140MLEk= argmax0ktp( xt/ 0k) = argmax0ktln p( xt/ 0k)p(0k/ x) =p( x /0k) p(0k)p( x)Supuestoquelaprobabilidaddexnodependedelosparmetrosdeladistribucindeesaclase,elestimadorquedacomo(2.8)Podemosobservarquecuandodisponemosdemuchasmuestras(paravaloresaltosdeT)laestimacinMAP(MaximumaPosteriori)convergeaunaestimacinMLE.2.6.3MtodosDiscriminativosHastaahoralosmtodosexpuestotratandeadecuarhacerquelosparmetrosdecadaclase reflejenlomejorposibleladistribucinquesiguenlasobservacionesquepertenecenaesaclase.Estamospreocupndonosdequeladistribucinasociadaacadaclaseseadecuebienalosdatosdeesaclase,perocmoseadecuaalosdatosdeotrasclases?Podradarseelcasodequedatosquepertenecenaotraclasearrojaranvaloresdeverosimilitudmayoresquedatosdelapropiaclase,conloqueestaramosdandopieaerroresdeclasificacin.Losmtodosdiscriminativosutilizandatosetiquetadospertenecientesatodas lasclasesparaentrenarcadaclase,consiguiendoasunamximadiscriminacinentremodelos2 paramejorarelrendimientoenelreconocimientodepatrones.Haydistintosmtodosqueserigenporesteobjetivo,entreelloselMMIEylasredesneuronales.2 Es ms que posible que los modelo as estimados arrojen, de facto, valores de verosimilitudrespecto a las muestras que les son propias menoresque los que se obtendran con modelosestimados segn MLEo MAP. Y,an as, clasificarn con menor error las observaciones.150MAPk= argmax0k|p(0k/ x) = argmax0k|ln p(0k)+tp( xt/ 0k)2.6.3.1EstimacindeMximaInformacinMutua(MMIE)PartimosdelaregladeBayes,eintentaremosencontrarparmetrostalquemaximicen p(oi/ x) .Estonosllevaaunaestimacindenominadacomodemximaverosimilitudcondicionada(CMLE,ConditionalMaximumLikelyhoodEstimation)(2.9)Ntesequeahoranonoscentramosenencontrarlosparmetros0kde una clase en concreto, sino de todas las clases (0 ). Cabepreguntarporqusedenominademximainformacinmutua.Comolasprobabilidadesaprioriparacadaclasenodependendelosparmetrosdequeintentamosestimar,podemosobviarlasaloptimizar,conloquemaximizar p(oi/ x) serequivalenteamaximizarlainformacinmutuainstantneaentrexy oi.p(oi/ x) =p( x / oi) p(oi)p( x) I ( x , oi) = ln(p( x , oi)p( x) p(oi))si p(oi/ 0)=cte i argmax0p(oi/ x) = argmax0I ( x , oi) = 0MMIESitenemosencuentaquep(x)yanosepuedeconsiderarconstante(yaquepuedeescribirsedemaneraquedependadelosparmetrosquebuscamosestimar),laexpresinaoptimizaresp(oi/ x) =p( x /oi) p(oi)p( x)=p( x)=kp( x / ok) p(ok) ==p( x / oi) p(oi)p( x / oi) p(oi) + kip( x /ok) =11 + kip( x / ok)p( x /oi) p(oi)160CMLE = argmax0p(oi/ x)Demodoquemaximizar p(oi/ x) esequivalentea0MMIE = argmax0|p(oi/ x) = argmin0| kip( x /ok)p( x /oi) p(oi)Dondelaminimizacinseresuelvepormtodosdegradiente.2.7MtodosnosupervisadosHastaahorahemosdadounrepasogeneralalosconceptosbsicosdeclasificacinestadsticayhemosvistolosmtodosmsimportantesdeaprendizajesupervisado. Losmtodosnosupervisadostienenquelidiarcondatosincompletos,yaquelainformacindeclaseesdesconocida.Losmsimportantessonlacuantizacinvectorial(VQ)yelalgoritmoEM.2.7.1CuantizacinvectorialLacuantizacineselprocesodeaproximarsealesdeamplitudcontinuaporsmbolosdiscretos.Sicuantizamosunasolaseal,hablamosde cuantizacinescalar. Sicuantizamos variasseales a la vez,trataremosentoncesdecuantizacinvectorial.Alconjuntodesmbolosqueusamosparaaproximarlaseallollamamoslibrodeclaves(codebook), y a cada smbolo palabra clave (codeword). Cualquier tipo decuantizacinllevaasociadaunadistorsin,queeselerrorcometidoalaproximarlosvaloresporsmbolos.Porlotantolospilaresfundamentalesdelprocesodecuantizacinvectorialserni. Unamedidadeladistorsin,parapoderevaluarlayminimizarla.ii. Unmtodoparagenerarcadapalabraclavedellibro.17Denominamos q( x) lafuncindecuantizacin,quemapeaunvectordevalorescontnuosxenunodelosvectoresprototipoopalabraclave z Z=z1z2... zM ,dondeZesellibrodeclavesdetamaoM.Sidefinimosunafuncindistancia d ( x , zk) entonceslaregladedecisinaseguirserlaqueminimiceladistorsin,esdecirq( x)=zksi y solo si k=argmini|d ( x , zi)Lamedidadedistorsinodistanciapuedeserdemuchostipos:cuadrtica, de Mahalanobis, perceptual, etc... dependiendo de la aplicacin.Usandounadistorsinyunaregladedecisin,elespacioquedadivididoenregionesoclulascuyospuntoscumplen xCip( x)=zi.18figura 2.2 Divisin de un espacio bidimensional mediante cuantizacin vectorialusando como mtrica la distancia euclidea.zkCk2.7.2AlgoritmokmeansEstealgoritmoseaplicaencuantizacinvectorialypersigueminimizarladistorsinglobal,buscandoportantounlibrodeclavesqueseaptimoenesesentido.Lologrardemanerarecursiva.LadistorsinmediapuedeexpresarsecomoD = E | d ( x , z) = ip( xCi) E |d ( x , zi)/ xCiParaoptimizarestafuncinloharemosendospasos.Primero,usandouncodebookinicial,calcularemosqueregionesdelespacioocupacadaclula(oenotraspalabras,usaremosellibrodeclavesinicialparadeterminarapartirdep(x)quepalabraclaveasignamoscadavalordeentrada).Aparecenporlotantodoscondicionesnecesariasparaalcanzarunptimo.Despusintentaremoshallarunosnuevosvectoresprototipostalqueminimicenladistorsindelasobservacionesquepertenecenacadaunadelasmuestras.Yas,repetidasveces,hastaqueladistorsinseestabilice.Para que el primer paso permita que vayamos optimizando ladistorsin, lareglaparadecidirqueclaveseleasignaaunvectordeentradax(oloqueeslomismo,aquclulapertenece)hadesertalque minimiceladistorsin d ( x , z) (algoqueyavenamoshaciendoporsentidocomn).Paraescogerlosnuevoscentroidesovectoresprototipos,losescogeremostalqueminimicenladistorsindentrodelaclulacorrespondiente.Ladistorsinmedia Dienlaclula CivienedadaporDi =1T 1Td ( xt, zi)19Elmnimodeestaexpresindependedeltipodefuncindistancia. Para una funcin de distancia cuadrticad ( x , z) = ( xz)t( xz) elmnimoseaparecepara zi =1Kikxkdonde Kieselnmerodeobservacionesdentrodelalaclula Ci,yx=x1x2... xKi 202.7.3ElalgoritmoEM2.7.3.1IntroduccinElalgoritmoEM(ExpectationMaximization)seenglobadentrodelosmtodosdeaprendizajenosupervisados.Estoquieredecirquelosdatosqueposeemossoninsuficientespararealizarunaestimacindirectadeverosimilitud,usandoMLE,yaquedesconocemosaqueclasepertenececadadato.Loquehaceestealgoritmoesdividirendospasos el proceso. En primer lugar, partiendo de un nmero de clasesdado,cadaunaconsusvaloresparalosparmetros,calculamoslaverosimilituddelasobservacionesrespectoacadaclase.Ensegundolugar,usandoelvalordeesaverosimilitudparaponderarlapertenenciaacadaclasedelasobservaciones,reestimamoslosparmetrosdelasclasessegnMLE.Yvueltaaempezar,hastaquelaverosimilituddejedevariar.Puedeverseenciertaformasimilaralalgoritmokmeans,usadoparaVQ.Enelalgoritmokmeansescogemosunoscentroidesrazonablesiniciales,ymediantealgntipodedisttanciaasignamoscadaobservacinalsmbolomscercano,paraluegorecalcularloscentroidesconlasobservacionesquehansidoclasificadascomopertenecientesaunsmbolo,obteniendounnuevocodebook.ElalgoritmoEMessimilar,salvoquelamedidadedistanciaeslaverosimilitud p( x /oi) ydependeportantodeladistribucinusadaparamodelarcadaclase,ylaasignacindelasobservacionesalasdistintasclasesesblanda,nodeltipotodoonadaqueseutilizaenkmeans.212.7.3.2DemostracinyexposicinElalgoritmoEMpersiguemaximizarlaverosimilituddelasobservacionesrespectoalosparmetrosdelmodelo.Podemosdefinimosportantocomofuncinaminimizarrespectoalosparmetros0laverosimilitudlogaritmicanegativa.(2.10)Unavisindistintaalenfoqueclsicoexpuestoen[1]delademostracindealgoritmoeslasiguiente. Paraexplicarlaoptimizacindelaverosimilitud nos basaremos en el concepto de funcin mayorizante(majorizingfunction).FuncinmayorizanteUnafuncinsedicemayorizantedeotrasicumpledoscondicio22f (0) = ln p( y/ 0)figura 2.3 Particin de un espacio bidimensional con nueve f.d.p gaussianasjknes.Laprimeradeellasconsisteenqueambasfuncionestomenelmismovalorenunpuntodado.Lasegundaqueenelrestodelospuntos,elvalordelafuncinmayorizanteestporencimadeldelaoriginal.Sidenotamoscomo f (0) lafuncinoriginalycomo g (0) lafuncinmayorizante,staltimahadecumplir(2.11)(2.12)Elcumplirestasdoscondicionesconllevaquesisomoscapacesdehallarunnuevovalorparalosparmetrostalqueminimizenlafuncinmayorizante, estaremosforzandolaminimizacindelafuncinoriginal,yque,dealgunmodo,estamosbajandoeltecho.0i+1=argmin0gi(0)(2.13)Elquiddelacuestinresideenquelafuncinmayorizanteseamsfcildeoptimizarquelafuncinoriginal.23gi(0i) = f (0i)gi(0) f (0)f (0i+1) gi(0i+1) gi(0i) = f (0i)BuscandounafuncinmayorizanteparalaverosimilitudBuscaremosahoraunafuncinmayorizantequeloseadelaverosimilitud.Enprincipiopodrapensarsequebuscarunafuncinmayorizantenoestareafcil,perounpardeideasnosayudarnaencauzarlabsqueda.EnadelantedenotaremoscomoEzlaesperanzarespectoaladistribucinasociadaaunvectoraleatorioz.EncasodequeladistribucindezestcondicionadaaotrovectoraleatorioyescribiremosEz/ y.Parahacerpatenteladependenciarespectoalosparmetrosdelmodelo,se usarlaexpresinEz/ y , 0,queincluyeexplcitamente 0 .24figura 2.4 La funcin mayorizante siempre es mayor o igual que la funcin objetivo, por loque si encontramos un valor de los parmetros que disminuya el valor de la funcinmayorizante, estaremos disminuyendo el valor de la funcin originalgi(0)fi(0)0i00i+1La desigualdad de Jensen afirma que para cualquier funcincncavah(x),siendoxunvectoraleatorio,secumpleque(2.14)Lademostracinsebasaenquesillamamosd(x)alplanotangentealacurva h(x) enelpuntoE{x},porserh(x) cncavayportantomenoroigualqued(x)secumplequeh( E x) =d ( E x) =Ed ( x) E h( x)Conlosconceptosanterioresenmente,podemosdefinirunafuncintalquegi(0) =f (0i) Ez/ y , 0iln|p( y , z/ 0)p( y , z/ 0i)Donde z es un vectoraleatorio tal que su densidad de probabilidadcondicionadarespectoaydependeexclusivamentedelosparmetros0delmodelo.Veamossiestafuncinesmayorizantedelaverosimilitudlogartmica.Sinmsquesustituirlos 0 por 0i,vemosqueenesepuntoellogaritmoseanulayportantosecumplelaigualdad(2.11)gi(0i) =f (0i) Ez/ y , 0iln| p( y , z/ 0i)p( y , z/ 0i)

1_0 =f (0i)25E h( x) h( Ex)Quedademostrarqueparatodoslosdemspuntos,lafuncinmayorizanteescogidaestporencimadelaoriginal.UtilizandoenprimerlugarladesigualdaddeJensen(2.14)araizdelaconcavidaddelafuncinlogaritmo,yposteriormenteteoremadeBayes(2.2)sesiguequegi(0) f (0i) ln|Ez/ y , 0i p( y , z/ 0)p( y , z/ 0i) == f (0i) ln|Ez/ y , 0ip( y , z/ 0)p( z/ y , 0i) p( y/0i)= f (0i) ln|1p( y/ 0i) p( y , z/ 0) dz_p( y/0)= ln p( y/ 0i) ln|p( y/ 0)p( y/ 0i)= ln p( y/ 0) = f (0)Cumpliendoporendelafuncinescogidaladesigualdadquelefaltaba(2.12)paraserconsideradafuncinmayorizantedelaverosimilitud.Demostradoqueoptimizando gi(0) optimizamos f (0) ,slonosinteresalapartedelafuncinmayorizantequevareconlosparmetros 0 delmodelo.Estaparteoptimizablelallamaremos gi(0) ,yenelcasodelalgoritmoEMtomaelvalor gi(0) =Ez / y , 0i ln p( y , z/ 0)Serestafuncinmsfcildeoptimizarquelaoriginal?Qurepresentaz?Comoyadijimos,zesunvectoraleatoriotalquesudensidaddeprobabilidadcondicionadarespectoay dependeexclusivamentedelosparmetros0delmodelo.Estosignificaqueznodependedelasalida,sinomsbienalcontrario:lasalidadependedez.zestilporque26explicitaunadependenciadey,porqueponedemanifiestoqueexistenresultadosintermediosquesonunescalnprevioalahorade queelmodelogenereunasalida.Enelcasodeunamezcladegaussianas,estepuntointermedioseralaeleccindequegaussianagenerarlasalida;enelcasodeunmodeloocultodeMarkov,serelcaminodeestadosquesigueelmodeloparagenerarlasalida.ElelegirqurepresentazesdeterminanteparaadecuarelalgoritmoEM a un problema concreto. Parece probable quesiempre queestaeleccinevoqueaunresultadointermedio,reflejeunprocesoocultoperonecesarioparagenerarlasalida,seconseguirqueelclculodelafuncinmayorizanteseamssimplequeeldelaoriginal.2.7.3.3ResumendelalgoritmoDetodoloexpuestosesiguequeelalgoritmoEMreducirmonotnicamentelaverosimilitudlogaritmicanegativaencadaiteracin:27i. Inicializacin00=dadoii. Recursin Paso de Promediado (Expectation Step)gi(0) =Ez / y , 0i ln p( y , z/ 0) Paso de Maximizacin (Maximization Step)0i+1=argmin0 gi(0)2.7.3.4ElalgoritmoEMaplicadoaunamezcladeGaussianas.Loveremosmsclaroconunejemplo.Supongamosquelassalidas y=y1y2.. yT que observamos proceden de una mezcla de Ngaussianascondensidad N ( x , jk, ck) .Cadavezquelamezclageneraunasalida,sucedeendospasos:i. Unavariablemultinomialquedeterminaquegaussianagenerarlasalidaconprobabilidades c1c2... ck... cN ii. Lagaussianaescogidagenerarunamuestrasegnsudensidaddeprobabilidad N ( x , jk, ck) =1.2nckexp(12(xjkck)2)28figura 2.5 Densidad de probabilidad de una mezcla de tres gaussianas. Las f.d.p delas gaussianas componentes de la mezcla aparecen en trazo discontnuo.Veamos.Enestecasolosparmetros 0 delmodeloseranlasprobabilidades c1c2.. cN ,ascomolasmediasyvarianzasdelasvariablesdelamezcla.Siasignamoszalavariableocultaquenosdicequcomponentehasidoelegida,escribiremos gi(0) =Ez / y , 0i ln p( y , z /0) = tkln p( yt , z=k /0) p( z=k / yt , 0i)Estaeslaexpresinaoptimizar.Paraquenosseamssencillo,descompondremosusandoBayeseltrminoquedependedelosnuevosparmetros.Conestoconseguiremossepararlaecuacinendostrminoscadaunodeloscualesdependeexclusivamentedeunsubconjuntodelosparmetros.tkln p( yt, z=k / 0) p( z=k / yt, 0i) =tkln( p( yt/ z=k , 0) p( z=k / 0)) p( z=k / yt, 0i) =tkln p( yt/ z=k , 0) p( z=k / yt, 0i) + tkln p( z=k /0) p( z=k / yt, 0i) Llegadosaestepunto, empezaremospor optimizarrespecto aloscoeficientesdelamezcla, ck.Claramenteelprimertrminonodependedeestosparmetros(puestoqueesunadistribucincondicionada precisamente los mismos), por lo que desaparecer al derivar.Dadoquelaprobabilidaddeobtenerunzdadorespectoalosparmetrosesfijaeigualaloscoeficientesdelamezclap( z=k / 0) = ck29Siderivsemos gi(0) eigualramosacerodirectamenteobtendramosqueelptimosealcanzapara ck=0 k . gi(0)ck= tln p( z=k / 0)ckp( z=k / yt, 0i) = t1ckp( z=k / yt, 0i) = 0Hayquecomplementarlaecuacinoriginalconuntrminolagrangianoqueasegurequeloscoeficientessumanlaunidad.haciendoestoobtenemosp( z=k / 0) = ckck ( gi(0) + \|kp( z=k / 0) 1) =ck (tkln p( z=k / 0) p( z=k / yt, 0i)) + \ ck |kp( z=k / 0) 1 =t1ckp( z=k / yt, 0i) + \ = 0Sisumamosparatodoslosvaloresdek, obtenemos \=T ,porloqueelptimoseobtieneparack =1T tp( z=k / yt, 0i)Elsiguientepasoesoptimizarrespectoalosparmetrosdelasgaussianas. En estecasoelnicotrminoquecambiaeselprimero.Notandoque p( yt/ z=k , 0i) noessinolaverosimilitudde ytrespectoalaksimagaussiana.p( yt/ z=k , 0i) = N ( yt, jk, ck)30Derivandoconrespectoalasmedias gi(0)jk=jk (tkln p( yt/ z=k , 0) p( z=k / yt, 0i)) == jk (tk |lnck ( ytjk)22ck2+ cp( z=k / yt, 0i)) == t |ytjkck2p( z=k / yt, 0i) = 0jk = tp( z=k / yt, 0i) yttp( z=k / yt, 0i)Derivandoconrespectoalasvarianzas gi(0)ck2=ck2(tkln p( yt/ z=k , 0) p( z=k / yt, 0i)) == ck2(tk |0.5lnck2 ( ytjk)22ck2+ cp( z=k / yt, 0i)) == t | 12ck2 + ( ytjk)22ck2p( z=k / yt, 0i) = 0ck2= tp( z=k / yt, 0i)( ytjk)2tp( z=k / yt, 0i)31Elnicotrminoquenecesitamoscalcularparautilizarestasexpresioneseslaprobabilidadaposteriori p( z=k / yt, 0i) .PorelteoremadeBayes(2.2)resolvemosp( z=k / yt, 0) =p( yt/ z=k , 0i) p( z=k / 0i)p( yt/ 0i)=p( yt/ z=k , 0i) p( z=k / 0i) jp( yt/ z=j , 0i) p( z=j / 0i)322.7.3.5SimulacionesSimulacin1ParalassimulacinesdelalgoritmoEMhemosusadocomofuenteunamezcladetresgaussianas.Losparmetrosdelamezclaqueseusanparagenerarlasobservacionessonc = 0.2 0.3 0.5j1=1j2=4j3=2c12=0.25c22=1c32=16UsandoestafuentesehageneradounasecuenciadeobservacionesdelongitudN=1000,conlaqueseentrenarunsegundomodeloutilizandoelalgoritmoEM.Estesegundomodelotienetodossusparmetros(inclusoelnmerodecomponentesdelamezcla)escogidosalazardentrodeunrangorazonable.Esdenotarquecomoelalgoritmoalcanzaptimoslocaleselpuntoinicialesimportantedecaraalograrunbuenresultado(veremosuncontraejemploenlasiguientesimulacin).33figura 2.6 Densidad de probabilidad real de la fuente, una mezcla de tres gaussianas.34Figura2.7 Histograma de las observaciones generadas por la fuente (N=1000)Figura 2.8 Arriba, mezcla de cuatro gaussianas a entrenar, con sus parmetrosiniciales. Debajo, resultado del entrenamiento tras 20 iteraciones. Ntesecomo ladensidad de probabilidad ha convergido a la original, alcanzando el mximo global.2.8.2AlgoritmoEM.Simulacin2Enestecaso,acausadelaeleccindelosparmetrosiniciales,slosealcanzaunmximolocal.35figura2.9 Verosimilitud logartmica de las observaciones respecto al segundo modelo duranteel entrenamiento. Podemos observar como para cada iteracin, el valor es cada vez mejor(monotnicamente creciente).figura 2.10 Parmetros iniciales del modelo de la segunda simulacin, con cuatro gaussianas.3.IntroduccinalosmodelosocultosdeMarkov3.1ProcesosdeMarkovUnprocesodemarkovdeordennseraquelprocesoestocsticoenque,unavezconocidasnsalidasconsecutivasdelproceso,ladistribucines delas siguientes salidas quedancompletamentedeterminadas.As,unprocesoaleatorioserunprocesodeMarkovdeprimerordensiladistribucinde xn,dadosupasadoinfinito,slodependededelamuestraprecedente,xn1.UnejemplodeprocesodeMarkovdeprimerordenseraeldescritoporlasecuacionesxn = j xn1+wndonde wnseraunasecuenciadegausianas,demediacero,independienteseidnticamentedistribuidascondensidadfw( w) =1.( 2 n c02)exp(w2/ 2c02)Ladensidadcondicionalde xndado xn1vendradadapor fxn/ xn1( xn/ xn1) =1.2 n c02 exp(( xnj xn1)22c02)Dondepodemoscomprobarquelaprobabilidadcondicionadarspectoaunasecuenciadeobservacionespasadas, slodependedelaobservacininmediatamenteanterior.(3.1)36fxn/ xn1, xn2, ...( xn/ xn1, xn2, ...) = fxn/ xn1( xn/ xn1)Elresultadomsimportantequesederivadeladefinicinesladequeladensidadconjuntadecualquierconjuntodemuestrasdeunprocesodemarkovdeprimerorden,quedacompletamentedeterminadaporlasdensidadesdeprimerordenfxn ylasdensidadescondicionalesfxn/ xn1 .Paradejarpatenteestehecho,considreseelconjuntodemuestras x0,x1,... xn .Paracualquierprocesoestocsticopodemosescribir(omitiendolosargumentosparasimplificarlanotacin)que:SielprocesodeMarkovlaexpresinsereducea(3.2)ladensidadconjuntaparalasmuestrasapartirdeuninstantedadon,dependerde xn peronolohardeningnvalordelasecuenciaprevioan.3.2CadenasdeMarkov3.2.1IntroduccinCuandounlasalidadeunprocesodeMarkovtomaslounconjuntodevaloresdiscretos,hablamosdecadenasdeMarkov.Basndonos en las definiciones dadas hasta ahora, un proceso aleatorio quetomeslovaloresdiscretosserunacadenadeMarkovsisatisfacep( xn=Si/ xn1=S j, xn2=Sk , ...) =p( xn=Si/ xn1=S j)37fx0, x1,... xn= fxn/ xn1, ... x0 fxn1/ xn2... x0 ... fx1/ x0 fx0fx0,x1,... xn= fxn/ xn1 fxn1/ xn2 ... fx1/ x0 fx0Hayciertaterminologaqueseasociacomunmentealadescripcin de cadenas de Markov. Cuando xn=Si se dice que la cadena deMarkovestenelestadoi.Enadelante,denotaremosestosinstantesenqueseproduceelcambiodeestadoconelndicet(enlugarden),yelestadoparauninstantetdeterminadocomo qt (enlugarde xn ).Asdeacuerdoconlanuevanotacinescribiramos:p(qt=j / qt 1=i , qt 2=k , ...) =p(qt=j / qt 1=i )eslaprobabilidadconcretadequeseproduzcaunatransicindesdeelestadoi(enelqueelsistemaestabaenelinstantet1)haciaelestadoj(enelinstantet).Esdecir,laprobabilidadcondicionadadequelasalidadelprocesotomeelvalorjdadoquelaanteriormuestratomelvalori.38figura 3.1 Diagrama de estados que muestra la dependencia de la probabilidad de permanenciaen un estado respecto a los estados anteriores en una cadena de Markov.ijkNijkNijkNt1 t t2ijkNijkNt1 t=3.2.2LamatrizestocsticaSi consideramos aquellas cadenas de primer orden en que lasprobabilidades de transicin entre estados son independientes deltiempo,podemosdefinirunamatrizA constantequecontengadichasprobabilidades.SiendoN elnmerodeestadosenlacadenadeMarkov,loselementosdeAsedefinencomo(3.3)Loscoeficientesde lamatrizcumplenpordefinicinlas restriccionesestocsticasai j 0j=1Nai j =1Estamatrizseconocecomomatrizestocstica.Permiteutilizarcmodamentelarepresentacinentrminosdeestados,ampliamentedifundidayesmuytilyaqueponedemanifiestodeformaintuitivalaspropiedadesdelproceso.Lamatrizdeestocsticanospermiteobtenerfacilmentelasprobabilidadesdealcanzarunsegundoestadodesdeunprimero,sinmsquemultiplicar.ParaexponermsclaramentelaspropiedadesdeA loharemosconunejemplo.Supongamosquevamosamodelarelclimadeunaciudad.Enprimerlugarasociaremosunestadoacadacaractersticameteorolgica.Estado Situacinmeteorolgica1 Despejado2 Nublado3 LluviosoLamatrizdetransicinnosdarlaprobabilidaddepasardeunasituacinaotra.ParasercoherentesharemosqueseaalgomsfcilalcanzarunestadoLluviosopasandoporNubladoquedirectamentedesde39ai j =p(qt=j / qt 1=i) , 1 i , j NDespejado,yviceversa.EntoncesApodraseralgocomoA =|0.8 0.15 0.050.2 0.6 0.20.1 0.2 0.7 Demaneramatricialpodemoscalcularlaprobabilidaddeacabarenunestado,dadasunasprobabilidadesinicialesdeocupacindeestadoenelinstanteanteriorusandolaexpresin(3.4)Ennuestroejemplosiundaestnublado, qt =| 0 1 0T.Laprobabilidadparacadaunodelosestadosclimatolgicosaldasiguienteseobtieneaplicando(3.4).qt +1 =AT qt =| 0.8 0.2 0.10.15 0.6 0.20.05 0.2 0.7|010 =|0.20.60.23.2.3TiempomediodepermanenciaenunestadoLaprobabilidaddecambioparaunestadoidadosedescribemediante una variable de Bernouilli con probabilidad de xito40figura 3.2 Un ejemplo de cadena de markov para modelarel clima1230.80.150.050.10.70.60.20.20.2qt +1=AT qtp= jiai j.As,eltiempomediodepermanenciaenunestadooduracinmediadelestadocoincidirconlamediadeladistribucingeomtricaasociadaalaanterior.Aestacantidadhabraqueaadirleennuestrocasounaunidad,yaquepartimosdeunestadoinicialidado,yparaesohayqueestareneseestadoduracion mediaobservada =1+jgeom =1+(1p)p=1p =1 j iai jCuandoladuracinpromediodeunfenmenopuedeestimarse,seconvierteenunaayudavaliosaalahoradeacotarlosparmetrosdediseodelmodelo,yaquenosdeterminaraladiagonaldelamatrizestocstica.Aplicadoanuestroejemplo,elnmeromediodedasconsecutivosenqueeltiempopermanecenublado,lluviosoosoleadosecorrespondeconSituacinatmosfricaProbabilidaddecambiodeestadoNmediodediasconsecutivosSoleado 0.2 5Nublado 0.4 2.5Lluvioso 0.3 3.333...3.2.4ProbabilidadesdetransicindeordensuperiorYlasprobabilidadesNdasdespus?Enocasionesesnecesarioconocerlasprobabilidadesdetransicindeordenk.Estasprobabilidadessedefinencomopi jk=p(qt=j / qt k=i )ysonfcilmentecomputablesenbasealasdeprimerorden.Enprincipiopodramospensarenhallartodoslasposiblessecuenciasdeestadosqueuniesenelestadoinicialconelfinalenkpasosysumarsusrespec41tivasprobabilidadesdeocurrencia.Elcalculoconlamatrizdetransicinnosahorratrabajo. Si llamamos qt al vector que contiene lasprobabilidadesdeencontrarseenlosdistintosestadosparauninstantetdado,tenemosqueqt +1 = Hqtqt +2 = Hqt +1 = H(Hqt)qt +k = Hkqtdondesehaintroducidolamatrizdetransicin H =AT.Lasprobabilidadesdetransicindeordenksernportantolascomponentesdelamatriz Hk.3.2.5ProbabilidadesasociadasalosestadoslmiteAunquenoserdeespecialintersenposterioresdesarrolloshacer notar que bajo ciertas condiciones, aparece un comportamientoasintticodelasprobabilidadesdeocupacindeestados.Siestosucedelasmismassedenominanasociadasalosestadoslmite.(3.5)Estas probabilidades lmite, si existen, se usan normalmentecomocondicininicialdelsistema,equivaliendoalsupuestodequestellevamuchotiempofuncionando.AlcanzadoesteestadoestablesecumplequeHn = n ( HI )n =0Comolascolumnasde HI sumancero,sudeterminantesernuloyelsistematienesolucin.Luegosiempre existirunautovectorasociado al autovalor uno. Puede demostrarse (aunque no es trivial)42n =limk - pk =limk -Hk k0pk0quelamatrizdetransicintienetodossusautovalores(quepuedensercomplejos)conmdulomenoroigualqueuno.Paraqueexistaunnicovectorlmiteindependientedelascondicionesiniciales,sernecesarioque:i. No tenga autovalores complejos con mdulo uno, ya que rotaransiempresinalcanzarnuncaunvalorestable.ii. Noexistamsdeunautovalorconvaloruno,yaqueentonceselvectorlmitedependeradelascondicionesiniciales.Ennuestroejemplosecumplenlascondiciones,yexistenesosestadoslmite.autovalores(H) = | 1 0.6823 0.4117 autovectores (H) =|0.7326 0.7651 0.28520.5037 0.1355 0.80520.4579 0.6295 0.5199n =| 0.4324 0.2973 0.2703tLos valores obtenidos se pueden hallar tambien iterando, aumentndoelvalordekparaacercarnosallmite(3.5).Siexistenestadoslmite, todaslascolumnasde Hk convergena n ,independizandoaselvectorpkdelascondicionesinicialesdelsistemap0.Lassimulacionessiguientesmuestranlaconvergenciaparalosvaloresdenuestroejemplo.4344Figura 3.3 Probabilidades de transicin desde soleado (arriba) y nublado (abajo) a todo los estados,respecto al numero de transiciones. Cuando el orden de las transiciones aumenta, las probabilidadesde pasar a otros estados tienden a un lmite. Si las mismas probabilidades lmite rigen para todos losestados, no importa que clima haga hoy: la probabilidad de que dentro de un periodo largo de diasllueva es la misma.0 5 10 15 20 25 3000.10.20.30.40.50.60.70.8Estado Soleadointervalo de la prediccin (dias)Probabilidad de permanecerProbabilidad de pasar a NubladoProbabilidad de pasar a Lluvioso0 5 10 15 20 25 300.20.250.30.350.40.450.50.550.60.65Estado Nubladointervalo de la prediccin (dias)Probabilidad de pasar a SoleadoProbabilidad de permanecerProbabilidad de pasar a Lluvioso3.2.6Verosimilituddeunaobservacin DeacuerdoconladefinicindeAycon(3.1)podemoscalcularlasinmayordificultadlaprobabilidaddequeunasecuenciadeobservacionesdadahayasidogeneradapornuestromodelo.Enlosucesivorepresentaremos por o=o1,o2,... , oT la secuencia observada, y por\(0) almodelo,donde 0 representalosparmetrosdelmodeloencuestin(enelcasoquenosocupa,lamatrizestocsticaA).Esderesearquecadasecuenciadeobservacionestieneunayslounasecuenciade estados asociada q=q1,q2,... , qT . Supongamos una primera secuenciadeobservacionesparanuestroejemploo= S , S , S , S , S , N , N , L , L , L , L , N , S Dondeporclaridadsehansustituidolosndicesdelestadoporlasinicialesdelclimaasociado.Comolaprobabilidaddepasardeunestadoaotrovienedadaporlamatrizdetransicin,ylasecuenciadeestadosesconocida,laverosimilituddelaobservacinrespectoanuestromodelo45Figura3.4Probabilidad de transicin desde el estado Lluvioso a los dems estados, frente al ordende la transicion.0 5 10 15 20 25 300.10.20.30.40.50.60.70.8intervalo de la prediccin (dias)Estado LluviosoProbabilidad de pasar a SoleadoProbabilidad de pasar a NubladoProbabilidad de permanecervendrdadaporo= S , S , S , S , S , N , N , L , L , L , L , N , S p(o/\) =p(q/ \) = nq1t =1T 1aqtqt +1= n1 a11 a11 a11 a11 a12 a22 a23 a33 a33 a32 a22 a21 4.4 105SienlugardemodelarelproblemaconunacadenadeMarkovnoshubiramosceidoslamentealaprobabilidaddeaparicindelossmbolos(probabilidaddelosestadoslmite),ignorandocompletamentelasprobabilidadesdetransicintendramoso= S , S , S , S , S , N , N , L , L , L , L , N , S p(o/ n) =p(q/ n) = t =1Tnqt= (n1)6(n2)3(n3)49.2 107Unaverosimilitudunparderdenesdemagnitudmenor.Pareceportanto que la primea secuencia propuesta le era bastante "propia" anuestromodelo(esbastanteprobablequehayasidogeneradaporalgoparecidoa nuestro modelo). Probemosconunasegunda secuenciadeobservaciones.o= S , L , S , L , S , L , S , L , S , N , N , N , S p(o/\) =p(q/ \) = nq1t =1T 1aqtqt +1= n1 a13 a31 a13 a31 a13 a31 a13 a31 a12 a22 a22 a23 2.9 108Anapareciendocadaestadoelmismonmerodevecesqueenlaprimera,tenemosunadiferenciadecuatrordenesdemagnituden46laprobabilidaddelasecuencia.Normalizandorespectoalalongitud,unacomparacindelaprimerarespectoalasegundanosdejaunfactorde1.75(paralaprobabilidadmediaporsmbolo).Estasdiferenciasnotablessondebidasalanouniformidaddelasprobabilidadesdetransicinentreestados,alaestructurainternadelafuente.EnestosejemplosquedapatentelaimportanciadeloqueconstituyelaesenciadelascadenasdeMarkov,lasprobabilidadesdetransicin,ycomonecesariamenteimprontanlassalidasdelmodelo.2.3.7EstimacindelosparmetrosdelmodeloSiqueremosestimarlosparmetrosdeunacadenadeMarkovparaqueseajustenlosmsfielmenteposibleaunconjuntodesecuenciasdeobservacionesdeentrenamiento0=argmax0 p(o/\(0))Laestimacinsereduceaunaestimacindemximaverosimilitud.Nohaymsquecontardirectamenteelnmerodetransiciones.As,laprobabilidaddetransicindesdeihaciajseharcorresponderconlafrecuenciaobservadadetaltransicinenelcuerpodeentrenamiento.3.3CadenasomodelosocultosdeMarkov3.3.1DefinicinEnlosmodelosvistoshastaahora,lasalidadelprocesoencadainstanteestconstituidaporunvalorunvocamenteasociadoalestado.Lasalidaquedadeterminadacompletamenteporelestadodelsistema,ysesabeenquestadoestelsistemasinmsqueobservarlasalida.Lasecuenciadeestadosqueserecorrees,porlotanto, directamenteobservable,ylasprobabilidadesqueestnasociadasaestasecuencia,fcilmentecomputables.47EnunacadenaocultaomodeloocultodeMarkov(HiddenMarkovModel,HMMenadelante)estonosucede.UnejemploclarodeunHMM de valores contnuosse muestra enla figura 3.5. En ella, dossistemasoprocesosestocsticoscualesquierageneransusrespectivassecuencias.Untercersistema,elconmutador,alternaentreellosparacrearlasalida.Elestadodeestetercersistemanodeterminalosvaloresquetomarlasalida,perosquotroprocesosemanifestarenlamisma.AsenunHMM,lasalidaasociadaaunestadonoesunvalor,sinolasalidaddeunprocesoestocsticoounavariablealeatoria.PoresodicequeunHMMesdoblementeestocstico.EstotieneimplicacionesalahoradetratarconlosdosproblemasyadescritosparacadenasdeMarkov,yaquelasecuenciadeestadosquesigueelsistemanoesdirectamenteobservableenlasalida.3.3.2UnejemploclsicoUnescenarioclasicoparaponerdemanifiestounocultodemarkov devalores discretos esel queplanteael siguiente experimento.Imaginemosquealguientrasunascortinasoscurasalguientieneva48figura 3.5 Ejemplo que ilustra la relacin entre estado y observacin en los modelo oculto demarkovriasurnasiguales,llenasendistintaproporcindeunamezcladebolasrojas,azulesyamarillas.Elejecutorsededicaasacarunaboladelaurnaynoslaenseatmidamenteporlarajadelacortina,paraluegodevolverlaasuurnadeorigen.Elejecutorescogelaurnausandoundadoy(quizs)alguntipodereglaparalaeleccinbasadaenlaltimaurnaescogida.PorejemplopodradecirsihesacadodelaurnaA,vuelvoasacardeAsieneldadosaledeunoacuatro,sacodeBsisalecincooseis,yenningncasosacodeC.Ytodoloquenosotrospodremosobservaresunasecuencia debolasrojas, azules,amarillas... perono sabemosdequurnalaestnsacando,nisegnqucriterios.Podemosformularunmodeloenelqueacadaurnalecorrespondeunestadodelsistema.Entonces,lasalidaencadaestadoestaragobernadaporunadistribucinmultinomial,sobrelasbolasrojas,azulesyamarillas.LamatrizestocsticaAseencargarademodelarelsistemadeeleccindeurnas,tantoeldadocomolasposiblesreglas.HayquehacernotarqueelHMMpropuestoserintuitivamente"mejor"sielnmerodeestadoscoincideconeldeurnas,lasprobabili49figura 3.6Tres urnas con distinta proporcinde bolas se irn seleccionando para generar la salida,que consiste en la extraccin de una bola de la urna escogida.Urna A Urna B Urna C00,050,10,150,20,250,30,350,40,450,50,55Distribucion de las bolasA B Cdadesdetransicinmodelanloscriteriosdetransicinylasmultinomialessonfielesalasproporcionesdecadaurna.Todasestasconsideracionessepondrndemanifiestoensucesivoscaptulos.Implcitamenteenelenunciadoestamosdesvelandogranpartedelmisterio,yconocemosmuchascosas:existenvariasurnas,existeundado que escoge entre ellas y las bolas quenosotros vemos salen dealgunadeesasurnas.ConestaspistassabemosqueunHMMpuedemodelaralaperfeccinlasituacin.As,podemosescogerporejemplounmodelocondosestadosyunosvaloresinicialesparalasvariablesasociadasaelloseintentarqueseasemejelomsposiblealoobservado(msadelanteveremoscmosehaceesto).Sinoestamosssatisfechospodemosprobarconotronumerodeestados(cinco,porejemplo)yotrosvaloresiniciales,conlaesperanzadeque,muyprobablemente,enalgunodelosintentosconseguiremosunmodelotanbuenoquenossirvaparaloqueseaquequeremoshacerconl.Hastaaqutodoescorrecto.Perosupongamosquenosabiamosesascosas,oquerealmentenosabemosqueesloqueocurredetrsdelacortina.Lasbolaspodranestarsiendoescogidasdeunauotraurnasegncriteriosqueimplicaranelcolordelabolaanterior,oporelcaprichodeunnio,opodranrepresentarunaimagentelevisada, digitalizaday transmitidasobreuna linea con una modulacin ternaria. En estos casos no importacuntoprobemos: puede quenuestromodelojams reflejelosprocesossubyacenteslobastantebien,porquepuedequeestemoscometiendounerroralmodelarloscomoHMMs.Enelmundoreal,estaspistasprovienenengeneraldedisciplinascomplementariasodelconocimientoobtenidoenotrasreas.As,sabemosquelavozpuedesermodeladausandounmodeloocultodeMarkovporquesabemosqueenelprocesodehablalosorganosfonadoresadoptanconfiguracionesestablesdurantecortosperiodosdetiempo,queestenumerodeconfiguracionesesfinitodentrodeunalenguayquelaejecucinde cualquierpalabra tratarde seguir uncamino atravsdeesaconstelacion.503.3.3ParmetrosdelmodeloLosparmetrosdeunHMMincluyenallosquehemosvistoquedefinanelcomportamientodelascadenasdeMarkov.Lasprobabilidadesdetrenasicinyprobabilidadesinicialessiguenestandopresentes,peroahora,enlugardeunsmbolo,tenemosasociadaunavariablealeatoriaacadaestadosdelmodelo.CualquierHMMvendrespecificadopor:i. A Lamatriz estocstica.Determina laprobabilidad detransicinentreestados,igualqueenlascadenasdeMarkov. SiendoNelnumerodeestadosdelmodelotenemosquej =1Naij=1 1i Nii. n Probabilidadesiniciales.Apesardesulanomenclaturanotienenporqucoincidirconlasprobabilidadesddelosestadoslmite.Tambienhandecumplirlarestriccinestocstica.iii. bj Distribucin de probabilidad o densidad deprobabilidad(enelcasocontnuo)asociadaalestadoj.Sidenominamos como ot elvalorobservado para un instantettenemosque... Caso discreto. M=numero de simbolos del alfabetov1, v2, ... vk... , vM desalidabj( vk)=p(ot=vk/ qt=j ) 1jN , 1kM Casocontnuobj(ot) = fx / qt=j(ot)51dondefx / qt=j( x )esunadistribucincontnua,porejemplounagaussianaounamezcladegaussianas.As,unavezescogidoelnumerodeestadosquetendr,elHMMquedadefinidopor\=( A, B , n)Enadelante,cuandonosrefiramosalosparmetrosdeunHMMensuconjunto usaremos la letra griega 0 = A, B , n, por loque si nosencontramoscon \(0) estaremosponiendodemanifiestoladependenciadelmodeloconrespectoasusparmetros.3.3.4LostresproblemasfundamentalesTrabajarconHMMsplanteatresproblemasbase.Estosproblemas,queerantrivialescuandotrabajamosconcadenasdeMarkov,sevuelvenmscomplicadosahoraquelasecuenciadeestadosestmsdbilmenteunidaconlasalidaobservable.i. ElprimerproblemaproblemalollamaremosClculodelaverosimilitudrespectoaunmodelo.Consisteen,conocidaunasecuenciadeobservaciones O =O1, O2... OT ,determinarconquprobabilidadpodra haber sido generada por un modelo \=( A, B , n) dado. Elclculodeestacantidadesnecesariocuando,teniendounconjuntodemodelosenmutuacompeticin,intentamosdeterminaracualdeellos esmsprobablequepertenezca lasecuenciadesimbolosobservada.Demaneraformal,lopodemosexpresarcomo p(O\) .ii. ElsegundoproblemalollamaremosClculodelcaminoptimo.Conocidaunasecuenciadeobservaciones O =O1, O2... OT yunmo52delo \=( A, B , n) , consiste en encontrar la secuencia de estadosQ=q1,q2,... , qT porlaquedebepasarelmodeloquepuedaserconsideradaptima,enelsentidodequesealaquemejorexplicaquesehaya producidoesa observacin. El problemaemerge delhecho dequelasecuenciadeestadosyanoesobservableydequeengeneralhabrunamiriadadecaminosquepuedandarpiealamismasecuenciadeobservacin.Formalmentebuscamos argmaxQ p(O/Q, \)iii.EltercerproblemalollamaremosReestimacindeparmetros. ConocidaunaomltiplessecuenciasdeobservacionesO,cmovariarlosparmetrosdenuestromodelo\=( A, B , n)demodoquemaximicenlaprobabilidaddequelasecuenciaosecuenciaspertenezcananuestromodelo.Esteproblemaseplanteacuandointentamosentrenarunmodelo usandoun conjuntodeobsevacionesdeentrenamiento,yesdelejoselmsdificildelostres.Formalmenteintentaremosencontrarargmax0 p(O/\(0))Cadaunodeestosproblemasfundamentalessernresueltosdeunoenunoenlossiguientescaptulos.534.Clculodelaverosimilitudrespectoaunmodelo4.1PlanteamientoEsteproblemasenosplanteacuandotenemosquedecidir,dadaunaobservacin,cualdenuestrosmodelosesconmayorprobabilidadelquelahagenerado,enculdenuestrosmodeloscuadramejorlaobservacin.4.2AproximacindirectaUnaformasencilladeenfocarelproblemaconsisteenconsiderarquealgenerarunaobservacindelongitudT,elsistemarecorrenecesariamentealgunasecuenciadeestadosq=q1...qT. Siqueremoscalcularlaprobabilidaddequeunasecuenciasecorrespondaconunaobservacin,tenemosquerecurriraladensidaddeprobabilidad(oalasprobabilidadesdesmboloenelcasodiscreto)decadaunodelosestadosqueatravesemos encadainstante.Formalmente,laprobabilidaddequeunasecuenciaconcretadeestadosdelugaraunaobservacindadaseexpresacomop(o/ q , \) = t=1Tp(ot/ qt , \) =bq1(o1) bq2(o2) bqT(oT)Dondesehaasumidoquelasobservacionessonestadsticamenteindependientes. Ahorabien, tambin necesitamosconocerla probabilidadde queel sistemapase por esasecuencia de estadosen concreto. Laprobabilidaddependerdeloscoeficientesdelamatrizdetransicin,yvienedadaporlaexpresinp(q/\) = nq1aq1q2aq2q3 aqT 1qT54Conestosdatosenlamanoyapodemosaveriguarlaprobabilidaddequelaobservacinhallasidogeneradaporelmodeloydequeademselmodelorecorralasecuenciadeestadosqueestamosconsiderando.AplicandoBayestenemosp(o , q/ \) =p(o/ q , \) p(q/ \)AlbuscarlaprobabilidaddeobtenerOdesdenuestromodeloestamosbuscandosinolasumadelaprobabilidadconjuntasobretodoslosposiblescaminos.Sinmsquetomarlamarginaldelaprobabilidadconjuntaobtenemoslasolucinquebuscbamos.p(o/\) = qp(o/ q , \) p(q/\) = qnq1bq1(o1) aq1q2bq2(o2) aqT 1qTbqT(oT)Una manera de calcular la expresin anterior es la siguiente:empezamosent=1computandolaprobabilidaddequeelmodeloseencuentreenelestadoq1.Multiplicamosporlaprobabilidaddeque,estandoenese estado, generela observacino1 correspondiente; elsiguienteproductoimplicalaprobabilidaddequeseproduzcaelsaltodesdeq1aq2,yasvamosrecorriendoelsenderoatravsdelespaciodeestados.Yrepetimoslaoperacinparatodoslosposiblescaminos.Siyahemosresueltoelproblema,porquhaymslneaspordebajodeesta?Estaaproximacindirectaes,sencillamente,computacionalmenteinviable:deuninstantealsiguientenacenNnuevoscaminos,luegoentotalexistirn NT caminosdistintos.Yparacadacaminonecesitamosalrededorde2Toperaciones(2operacionesdemultiplicacinporestado).Parahallarlaverosimilituddeunaobservacinconcienmuestrasrespectoaunmodeloquetengacincoestadosnecesitaramosalrededorde2 T NT=2 100 51001072554.3ProcedimientoBackwardForward4.3.1FundamentosElalgoritmomostradoenelacercamientodirectoalproblemaesdeordenexponencial,debidoalasbifurcaciones(Nfurcacionesenrealidad)delsenderodeestados.Podemosconseguiralgomejorsinosdamos cuenta de que los mltiples caminos no slo se dividen en cadapaso,sinoquetambinencadapasoconfluyen.EstaideaseformalizaenelprocedimientoAdelanteAtrs(BackwardForward)Sebasaendoshechos:i. Sloexisteunnumerofinitodeestados:todosloscaminosdiscurren,ydesembocannecesariamenteacadapasoenunestadodelosposibles.ii. Elverdaderointersresideenobtenerlasumadelaprobabilidaddetodosloscaminos,ynoenlaprobabilidaddeuncaminoenconcreto.Estonospermitirolvidarelcaminorecorridohastaunpuntodado.4.3.2Variablehaciadelante(Forwardvariable)Lavariablehaciadelantenosayudaracalcularlasumadelasprobabilidadesdetodosloscaminos.Sedefinecomolaprobabilidaddequeelmodelogenerelasalidahastat =t0yqueent0estenelestadoi.Formalmente,(4.1)Su misma definicin parece prometer que podremos calcularlaiterativamente.Supongamosquetenemosunmodeloconsolodosestados.Deunmodointuitivo,sienelinstantetllegamosaalestadoj,he56ot( i )=p(o1o2... ot , qt=i \) 1t Tmosllegadoahporquevenimosdealgnotroestadoenelinstanteanterior(t1).Cmohayamosllegadoaeseestadoanteriornosimportapoco,siempreycuandoconozcamoslaprobabilidaddehaberocupadoelestadoanteriorhaceuninstante.Laprobabilidaddehaberestadoenunestadocualquieraienelinstantet1(dadaslasobservacionespasadas)esprecisamenteot 1(i ).Luegolaprobabilidaddellegaralestadojenel instantet+1vendrdeterminadapor estasprobabilidades y lamatrizdetransicin:p(o1o2 ot 1, qt=j \) = iot 1(i) aijAhoraqueconocemoslaprobabilidaddeestarenelestadojenelinstantet(dadaslasobservacionespasadas),podemoscalcularlaprobabilidaddeestarenelestadojenelinstantetyademsestarobservandoot.p(o1o2 ot , qt=j \) =bj(ot)iot 1(i ) aij = ot( j )Queespordefinicin ot( j ) ,pudiendoportantocalcularlaparatodoinstantedemanerarecursiva.57Sicalculamoslavariablehaciadelante,encadaiteracin tendremosquehacerN*Nproductos(probabilidadesdetransicin),N*NsumasyNproductos(probabilidaddegenerarlaobservacin)Luegoelnuevoalgoritmorequiereslo 2N(N1)Toperaciones,eslinealconeltiempoycuadrticoconelnmerodeestados.Paraelmismoejemploanterior,calcular oT(i ) i dadaunaobservacinconcienmuestrasrespectoaunmodeloquetengacincoestadosnecesitaramosentornoa104operaciones.Cmoserelacionalaverosimilitudconlavariablehaciadelante?Pordefinicinlavariablehaciadelanteeslaprobabilidaddequedadalaobservacioneshastat=t,nosencontremoseneseinstanteenelestadoj.Sielinstanteconsideradoeselltimo,laverosimilituddelasecuanciacompletadeobservacionesrespectoalmodelosereducealasumaparatodoslosestadosposiblesde oT( j ) .p(o/\) = jp(o1o2 oT , qT=j \) = joT( j )Conlo cual hemos resuelto el problema de un modo factible. Resumiendoelprocedimientohaciadelantequedacomo:58Figura4.1Diagramaquerepresentaunaiteracinenelclculorecursivodelavariablehaciadelantea1 1a1 2a2 1a2 2ot 1(1)b1(Ot)b2(Ot)ot 1( 2)ot(1)ot(2)t-1t4.3.3Variablehaciadetrs(Backwardvariable).Lavariablehaciadetrseslacontrapartidadelavariablehaciadelante.Nospermiteigualquelaanteriorcalcularlaverosimilitudrespecto a un modelo, aunque en este casola aproximacin es distinta.Presentamoslavariablehaciaatrsnopararesolverelproblemaquenosocupa(paraelcualbastaralavariablehaciadelante),sinoporquesernecesarialautilizacindeambasenlaresolucindelosproblemasporvenir.Lavariablehaciasedefinecomolaprobabilidaddequelasobservacionesparaparainstantesposterioresathayansidogeneradasporelmodelo, si elmodeloestabaenelestadoienelinstantet. Formalmente,(4.2)59i. Inicializacino1(i)=nibi(o1) 1iNii. Induccinot+1( j )=|i=1Not(i ) aijbj(ot +1) 1t T 11jNiii.Terminacinp(o/\)=i=1NoT(i )t( i )=p(oT , oT 1 ot +1/ qt=i, \) 1t T 1Aligualqueenelcasodela o ,podremosutilizarunalgoritmorecursivoydebajocosteparacalcularla.Supongamosqueestamosenelinstantetenunestadoi,eintentamoscalcularlaprobabilidaddeque el modelo, en el futuro, genere una secuencia de muestraso=ot+1... oT .Esanoessinoladefinicindelavariablehaciadelante.Podemosplantearloendospartes:Primerocalculamoslaprobabilidaddellegaraunestadocualquieraienelinstanteposterior(t+1),quenoesotraque aij.Formalmentep(qt +1=j / qt=i, \) =aijUnavezenelestadoj,laprobabilidaddeobservar ot +1... oT podemosdescomponerlaendospartes:p(oT , oT 1 ot +1/ qt +1=j , \) ==p(oT , oT 1 ot+2/ qt+1=j , \) p(ot+1/ qt +1=j , \)= t +1( j ) bj( ot +1)Siunimoslasdosexpresionespodemoscalcularlaprobabilidaddeque,estandoenelestadoienelinstantet,nosencontremosenunestadojenelsiguienteyenelfuturoelmodelogenerelasobservaciones ot +1... oT .stavienedadaporp(oT, oT 1 ot+1, qt +1=j / qt=i , \) == p(oT, oT 1 ot +1/ qt+1=j , \) p(qt+1=j / qt=i , \)= aijbj( ot +1) t+1( j )60Paraobtener t(i ) slotenemosquetomarlamarginaldeestaprobabilidadconjunta,oenotraspalabras,sumarlaexpresinparatodoslosposiblesestadosj.t(i )= jaijbj(ot +1) t +1( j )Estaexpresineslaformarecursivadecalcularlavariablehaciadetrs.Paraquealiniciodelalgoritmo(enelinstantet=T1)laexpresindevuelvaunvalorcorrecto,hadeutilizarse T(i )=1 i .Larepresentacingrficadeunpasodelalgoritmoparaunmodelocondosestadoseslamostradaenlafigura4.2.ElclculodebetadenuevorequieredelordendeN2Toperaciones,ytambinconellasepuedecalcularlaverosimilitud p(o/\)atravsdelaexpresin p(o/\)=inibi(o1) 1(i)61figura 4.2 Diagrama que representa el clculo iterativo de la variable hacia atrsa1 1a1 2a2 1a2 2t(1)b1(Ot)b2(Ot)t(2)t +1(1)t +1(2)tt+1Resumiendoelalgoritmo...4.3.4Notasdeimplementacin:escaladoLosalgoritmosexpuestoshanconseguidoreducirdrsticamenteelnmerodeoperacionesnecesariasparacalcularlaverosimilitud.Estandoporesaparteresueltoslosproblemas,esnecesariaencualquiercasootramodificacin.Enquerangodevaloressemuevelaverosimilitud?Sinosfijamos,encadaiteracin,yasea paraelclculodealfaobeta,estamosmultiplicandoporunpardecoeficientes:loscoeficientesdetransicinaij(siempremenoresquelaunidad)ylaprobabilidaddelaobservacindadoelestado bj(ot) (conunrangoamplsimo,dependiendodelafuncindensidad).Cuandolalongituddelasecuenciaobservadacrecelarealidadesqueelrangodinmicodelasvariablessehaceinsostenible.Paraevitarestacontrariedad,seutilizansiemprelosquesede62i. InicializacinT(i )=1 1iNii. Induccint(i )=j=1Naijbj(ot+1) t +1( j ) 1t T1jNiii.Terminacinp(o/\) = j=1Nnj1( j )nominanvariablesescaladas.Lasalfasescaladassecalculanigualquelasnormales,conlasalvedaddequeenlugardeutilizarparaelclculoiterativo ot1,utilizan ot1 normalizada, quedenotaremoscomoot 1.Formalmente ot +1( j ) = |i =1Not(i ) aijbj(ot +1)(4.3a4.3b)Dondelasot( j ) sonlasvariablesnormalizadas(sumanuno),ysehaaadidouncircunflejoparadenotaralasalfasescaladas.Elclculodelaverosimilitudtotalsevealteradoperoesinmediatoalnotarqueelcoeficientedeescaladopuedesacarsefueradelafrmula,demodoquelaequivalenciaentrelavariableoriginalylaescaladaesdirecta ot+1( j ) = |i =1Not(i ) aijbj( ot+1) = ct|i =1N ot(i ) aijbj(ot +1)ot +1( j ) = ot +1( j )(k=1t1ck)(4.4)Elmismoprocesosesigueconlavariablehaciadetrs.Enesecasoloscoeficientesdeescalado cttomanunvalordistintoaldelosdelavariablehaciadelante,perosuelenserdelmismoordendemagnitud,porloqueenrealidadpuedeusarseeldeunadelasvariablesparalasdos(estotendrutilidadencaptulosposteriores).63ct =1 j ot( j )ot = ct otp(o/\) = joT( j ) = j oT( j )(k=1T 11ck) = k=1T1ck4.3.5SimulacionesSimulacin4.ALaprimerasimulacinconsisteenelclculomediantelavariablehaciadelanteyhaciaatrsdelaverosimilituddeunaobservacinrespectoadosmodelos.Paradarleuntrasfondoreal,podemossuponerquelasobservacionesqueserecogenprovienendeunsnarqueseutilizaenflotaspesqueras.Traslareconstruccindelasealprocedentedeunbancodepeces,supondremosquelospecessemuevenenunespaciobidimensional.Paracaracterizarelbancotomaremoscomoparmetrosdeentradaelmdulodelavelocidaddelcentrodelbancoyalgoquereflejelaformadelbanco,comoporejemploelradiomayoryelcocienteentreradiomayorymenor.Comohemossupuestoqueelbancosedistribuyeyevolucionaendoscoordenadasespaciales,enelinstantettendremosunaentradadetrescomponentesdeltipoot = ( v rmaxrmaxrmin)Los distintosmodelos demarkov representarn distintas especiesdepez,ycadaestadopuedepensarsecomocorrespondienteaunaactividadqueelanimalrealice,comoalimentarse,desplazarseohuir.Paraesteejemplovamosasuponerquelonicoquehacenestospecesescomer(estadouno)yhuir(estadodos).Ycontrastaremosdosespeciesdecomportamientosantagnicos,digamosquelapusilnimesardina(modeloa,depococomerymuchohuir) yelatemperadoboquern(modelob,comensalcasiimperturbable).ModeloaAa= |0.6 0.40.2 0.8na=| 0.33 0.6764b1(ot) =N (ot , j1,U1); j1a=| 0.1 7 1.3 U1a=|0.5 0 00 1.1 00 0 0.2b2(ot) =N (ot, j2,U 2); j2a=| 2.2 13 5.2 U 2a=|1.9 0 00 5 00 0 1.6ModelobAb= |0.75 0.250.45 0.55nb=| 0.6429 0.3571b1(ot) =N (ot, j1,U1); j1b=| 0.4 9 1.4 U1b=|0.6 0 00 2 00 0 0.3b2(ot) =N (ot , j2,U 2); j2b=| 1.7 12 3.4 U 2b=|1.2 0 00 2 00 0 2La sardinaes, enpromedio,algoms rpidahuyendo(2.2m/s)que el atn (1.7m/s), suele desplazarse ms lentamente mientras sealimenta(0.1m/sfrentea0.4m/s)ysusbancossonalgomenores(~7mderadiofrentealos~9mdelbancodeboquerones3).Losvaloressernlo bastante distintos (vistas las varianzas) como para evitar que lasprobabilidadesdetransicindecadaespecieseimpongandemaneraexcesivaenelclculodelaverosimilitud.Esciertoquesimodelamoscongaussianasestaremoscometiendoirremediablementeunerrordemodelado(yaqueningunadelascaractersticastomavaloresenelejenegativo,siendomsadecuadaunadistribucindeRayleigh),perolodejaremosestar.Delasmedicionesextraemoslasecuenciadeobservacionesmostradaenlafigura4.3.3 Los datos del ejemplo como es evidente a estas alturas son todos ficticios.65Asimplevistapodemosobservarqueenlosinstantescercanosalcuatroelbancodepecessedesplazaabajavelocidadymantieneunaformabastanteredondeada,conloqueesposiblequeseestnalimentandooreposando.Enlosinstantesinmediatamenteposterioreselbancoseahsaysuvelocidadaumentadeformadrstica,ydespus(t=8),desplazndosetodavaagranvelocidad,vuelvearedondearseperoconunradiomayor(lospecesestnmsseparados).Estesegundointervalodeobservacionesseasemejabastanteaunahuida.Veamoslosresultadosquearrojaelprimermodelo(figuras4.4y4.5).Losvaloresmostradossecorrespondenconlasvariablesnormalizadasoescaladasquemencionamosenlaseccin4.3.4.Podemosobservarque,dadoquecadaunarindecuentasacercadeunapartelasobservaciones,parauninstantedadolasvariableshaciadelanteyhaciaatrstomanvaloresdistintos.66figura 4.3 Secuencia de observaciones que muestra la velocidad escalar (linea punteada y rayada),el eje mayor (linea punteada) y la excentricidad (linea contnua) de un banco de peces. Aunasenlamayoradeloscasosdancomomsprobableelmismoestado.Encualquiercasoloquenosinteresaeslaverosimilituddela67figura 4.4Valor de la variable hacia delante usando el modelo a (sardina). El trazo fino continuoes el valor de alfa para el estado uno (comiendo); el discontinuo se corresponde con el estado dos(huyendo). En cada instante, alfa representa la probabilidad de ocuparun estado, dadastodaslas observaciones anteriores.figura 4.5 Valor de la variable hacia atrs usando el modelo a (sardina). El trazo fino continuo esel valor de beta para el estado uno (comiendo); el discontinuo se corresponde con el estado dos(huyendo). En cada instante, beta representa la probabilidad de ocuparun estado, dadastodaslas observaciones futuras.observacinrespectoalmodelo.Comolasvariablesestnescaladas( ot,t),yvimosquelaverosimilitudpodacalcularseenfuncindeloscoeficientesdeescalado(4.4),quenosonsinolasumadelasvariablesescaladas,podemoshacerp(o/\) = t =1T| j ot( j ) = t =1T| jt( j )Enlugardeestevalorsueletomarselaverosimilitudlogartmica,demodoquenonosquedemossinrangodinmicoensecuenciaslargasdeobservaciones.Ennuestrocaso,obtenemosln p( o/\a) = t=1Tln( j ot( j )) = t =1Tln( jt( j )) = 195.1620Puedeparecerunvalormuypequeo,perosloadquieresignificadoenrelacinconlaverosimilituddelosotrosmodelosencompetencia.Lasvariableshaciadelanteyhaciaatrsparaelmodelobpuedenobservarseenlasfiguras4.6y4.7.Laverosimilituddelaobservacinrespectoaestesegundomodelosecalculaigual,yenestecasoelvaloresanmenorln p(o/\b) = t=1Tln( j ot( j )) = t =1Tln( jt( j )) = 244.0545Concluimospuesque,segnlaregladeBayes,loqueestamosobservandosonsardinas.6869figura 4.6Valor de la variable hacia delante usando el modelo b (boquern). El trazo fino continuoes el valor de alfa para el estado uno (comiendo); el discontinuo se corresponde con el estado dos(huyendo). En cada instante, alfa representa la probabilidad de ocuparun estado, dadastodaslas observaciones anteriores.figura 4.7Valor de la variable hacia atrs usando el modelo b (boqueron). El trazo fino continuo esel valor de beta para el estado uno (comiendo); el discontinuo se corresponde con el estado dos(huyendo). En cada instante, beta representa la probabilidad de ocuparun estado, dadastodaslas observaciones anteriores.Simulacin4.BEnestasegundasimulacinvamosadejarpatenteelefectodelasprobabilidadesdetransicin,elncleodelacaracterizacintemporalqueunprocesodeMarkovhacedelasobservaciones,enelmarcodelosmodelosocultosdeMarkov.Paraellosimplementeveremos(comohicimosenelcapitulotresconlascadenasdeMarkov)cmodifierenlaverosimilitudconunamatrizAdadaylaverosimilitudcuandolaprobabilidaddecambiodeestadoesuniforme(porloquenoentraenjuego).Basndonosenelejemploanterior,tomamosenestecasodosmodelos:elmodelodelboquern,yelmodelodeboquernhomogneo(ensuscostumbrestantodacomerquehuir).Loscoeficientesdetransicinaadenunsesgoalaverosimilituddelasealobservadaenuninstantedado,enfuncindeculeralaprobabilidad de ocupacin de estados en el instante anterior. Vemosqueaunquesutiles,existendiferenciasentrelasvariableshaciaadelantecalculadasparalosdosmodelosplanteados(fig4.9).70figura 4.8 Primera secuencia de observaciones. La linea punteada es el radio mayor, la linea rayada ypunteada la excentricidad y la lnea contnua representa la celeridad.Si pensamos en maximizar la verosimilitud, y nos fijamos encmosecalcula,vemosqueencadainstantenosconvienequelasumadelasprobabilidadesparatodoslosestadosdeobservareldatosealomayorposible.Loquehacenlasdistintasprobabilidadesdetransicinesmejorarunadeestasprobabilidades(laquesecorrespondeconunestadodado)yempeorarlasotras.Culdebieraserlacandidataalamejora,?tln( k1b1( ot)+k2b2( ot))Disminuirescalandoporunfactorfijolasprobabilidadesmspequeasnodisminuirmucholasuma,yaumentar4 escalandoporuno4 Si el uno menos el factor es mayor que un medio, ya estamos mejorando (aumentando)respecto a una ponderacin homognea de las probabilidades.71figura 4.9 Arriba, variable hacia delante correspondiente a unmodelo del boquern que obvia lasprobabilidades de transicin. Debajo, variable hacia delante modelo de boquern visto en lasimulacin anterior. Linea discontinua, comiendo, linea continua, huyendo.menosesefactorlaprobabilidadmsgrandepuedemejorarlamismanotablemente.Eseseraelenfoqueconlavistapuestaaaumentarlaverosimilitud,perolaeleccindeloscoeficientesqueproducenelmejorsesgoencadainstantenodependedenuestrocapricho,sinoquevieneimpuestalamismaestructuradelmodelo,enqueelestarenunestadouotro(yaplicarportantoelsesgodemanerabeneficiosaoperjudicial)depende exclusivamente delasprobabilidadesdeocupacindeestadoenelinstanteprevio.Estaescomoyasabemoslaesenciadecualquierprocesomarkoviano.Silaprobabilidadesdetransicinsonhomogneas,nisepenalizanisepremialasprobabilidadesdelasvariablesdelosdistintosestados,nisepremiaopenalizaelcambiodeunestadoaotrocualquieraestado.Si,enelcasocontrario,laprobabilidaddepermanecerenunestadoesmuchomayorquelaprobabilidaddepasaraotrosestadosaii j iaij estacaractersticadesembocarenunadelasmayoresmejorasposiblesparalaprobabilidaddelavariableasociadaaeseestadoi(limitadaporciertoestamejoraa,comomximo,duplicarelvalorqueobtendramosusandoaunadistribucinhomogneadelasprobabilidadesdetransicin).Almismotiempoincurriremosenungranempeoramientoparalasprobabilidadesasociadasalosotrosestadosj.Mientrastengamostiradaslargasenlasquelaprobabilidaddequelasobservacionesprovengandelavariableasociadaalestadoisealamayor,estaremosmejorandolaverosimilitud(comoyadijimos,deforma limitada). Pero y si en un momento dado esa probabilidadbi( ot) resultasermuchomenorquelaasociadaaotroestadodigamosbj(ot) ?(loqueocurresiemprequecuandolafuentecambiadeestado).Comolaprobabilidaddepasaralnuevoestadoesminscula,enestecasotendremosapechugarconunempeoramientodelaprobabili72daddelnuevoestado,quealserlamayor,arrastrarconsigolaverosimilituddelmodeloenteroeneseinstante.Yesteempeoramiento,adiferenciadelamejora,noestlimitado,yaqueln(aii) - 0 ln( aij) - Elequilibrio,elmximo,sealcanzacomosiemprecuandolalongitud promedio de las secuencias de observaciones en las quebi( ot)>bj(ot) j i secorrespondeconladuracinmediadeestado.Siestalongitudpromedioesdistintaalaunmodelo,laverosimilitudrespectoalmodeloasdefinidodecaer.73Figura4.10Arriba,diferenciaentreellogaritmodelasumadelasalfasdelmodelooriginalyeldelmodeloconmatrizdetransicinhomognea.Debajo,susumaacumulada(representacineneltiempodediferenciaentreambasverosimilitudes).Comopuedeobservarse,elmodelooriginalparaelboquern(matrizdetransicinnohomognea),resultamsverosmil.Enlafigura4.10semuestraparalaprimeraobservacin,ellogaritmodelamejoraparacadainstante,expresadacomoln(iot(i )) ln(iothomo(i ))Lasumadeestacantidadparatodoslosinstantesnosproporcionaladiferenciadeverosimilituddelasecuenciadeobservacionesrespectoaambosmodelos,tomandocomobaseelmodelodetransicioneshomogneas. Paraestaprimerasecuencia, ladiferenciaesde 13.102belios afavordelmodelo original. Para lasegundasecuencia(figura4.11)ladiferenciasesaldacon4.982beliosafavordelmodelohomogneoque,enesteotrocaso,casamejorconlaobservacin(figura4.13).74figura 4.11 Segunda secuencia de observaciones radar, que casa mejor con el modelo de transicioneshomogneas.75figura 4.12Arriba,variable hacia delante correspondiente a un modelo del boquern que obvia lasprobabilidades de transicin. Debajo, variable hacia delante modelo de boquern visto en lasimulacin anterior. Linea discontinua, comiendo, linea continua, huyendo.76figura 4.13Arriba, diferencia entre el logaritmo de la suma de las alfas del modelo original yel delmodelo con matriz de transicin homognea. Debajo, su suma acumulada (representacin en el tiempode diferencia entre ambas verosimilitudes). Como puede observarse, el modelo original para elboquern (matriz de transicin no homognea), resulta ms verosmil.5.Clculodelcaminoptimo5.1CriteriosdeoptimalidadEsteproblemasenosplanteacuandotenemosquedecidir,dadaunmodelo,cualeslasecuenciadeestadosptimarespectoaunasecuenciadeobservacin.Porquestadosesmsprobablequepaseelsistemaparaadaptarsealaobservacion.Loprimeroquetenemosquedecidiresaqullamamossecuenciadeestadosptima.Supongamosquenosceimosalcasodequeelcriteriodeoptimalidadsealamximaverosimilitud.Aunquenosciamosausarestecriterio,annosquedanvariasalternativas.Lasecuenciaptimapodraseri. Aquellaqueestcompuestaporaquellosestadosqueparacadainstantedetiempomaximizen p(qt=i / o , \) ,i.eunasecuenciadeestados ptimos.Enestecaso seescoge en cada paso eleslabnconmaximizaverosimilitudyluegoseaadealacadena.ii. Aquellaquedeentretodaslasposiblessecuenciasdeestados,maximize p(o/ q , \) ,i.eunasecuenciaptimadeestados.Eselcaminoindividualmsverosmil,lasecuenciadeestadosquemspresumiblementeel sistemahabraseguidodehabergeneradolaobservacin.5.2SecuenciadeestadosptimosEnelprimercasoestamosconsiderandoencadainstanteelestadomsprobabledadoquesehaobservadounasecuencia.Formalmentebuscamosargmaxip(qt=i / o , \)77Alaprobabilidaddeestarenienelinstantetdadaunaobservacinseleasignaunavariablequeserdeutilidadcuandonosenfrentemosalaresolucindelproblemadelareestimacin.Sedefine(5.1)Intuitivamente,elestadomsprobableenuninstantetesaquelenelquesermsprobablequeacabenloscaminosqueseadecuanalasobservacionespasadasydelqueesmsprobablequesalgancaminosqueseadecuenalaobservacionesfuturas.Sirecordamosladefinicindealfaybeta, ot( j ) compendiaba,hastaelinstantet,laverosimilituddetodosloscaminosquellegabanalestadoj. Porsuparte, t( j )condensabalaverosimilituddetodosloscaminosque,enelinstantet,nacanenj.Entrminosmatemticosp(o , qt=i / \) = p( o1... ot, qt=i /\) p(ot +1... oT/ qt=i , \) = ot(i ) t(i )Demodoquehemoshalladolaprobabilidadconjuntadeobservarlasecuenciaoyestarenelestadoienelinstantet.GammasederivaapartirdeellausandoBayes,onotandoqueesnecesariouncoeficientedenormalizacinquehagaque jt( j ) = 1:(5.2)Paraencontrarnuestrocamino Q=q1, q2, ... qT deeslabonesptimossloesnecesariocalcularalfaybeta,construirgammayescogeraquellosestados qtque,encadainstantecumplan(5.3)78t(i ) = p(qt=i / o , \)t(i ) =p( o , qt=i /\)p(o/\)= ot(i ) t(i )p( o/\)=ot(i ) t(i ) jot( j ) t( j )qt= argmaxjt( j )Finalmenteunmomentoparalareflexin.Qupodemosdecirdelcaminoasobtenido?Lonicoquepodemosdeciresloqueemanadeladefinicin:noessinolaconcatenacindeaquellosestadoseneselcaminocuyoseslabonesson,individualmenteyparacadainstante,losquetienenmspapeletasdehaberdadolugaralaobservacin.Maximizaelnmeroesperadodeestadoscorrectos.Aesosestadosindividualessepuedellegardesdemultituddecaminos,perononecesariamentedesdecualquiercamino.Sialgntrmino de la matriz de transicin fuera cero (es decir, la transicin porejemplodeiajestprohibida)nadaimpidequeaunaselestadoiseaelmsprobableenuninstante,yeljenelposterior.Elcaminodeeslabonesptimospuedequenitansiquieraseatransitable,puedequenoseauncaminovlidoqueelmodelopuedarecorrerparagenerarlaobservacin.79figura 5.1 Representacin grfica de cmo contribuyen la variable hacia delante (izquierda) yhacia atrs (derecha) al clculo de la probabilidad instantnea de ocupacin de estado, dadauna secuencia deobservacionesOt 1OtOt+1......p (Ot +1... OT/ qt=j , \)jp (O1... Ot, qt=j /\)5.3SecuenciaptimadeestadosUnasolucinalproblemaanteriorescambiarelcriteriodeoptimalidadparaqueabarqueparesotripletesdeestadosenlugardeestados individuales. La modificacin ms ampliamente aceptada y queaquseexponeesladebuscarlanicasecuenciacompletadeestadosptima.ParaelloexisteunatcnicabasadaenmtodosdeprogramacindinmicallamadaalgoritmodeViterbi. Para poder encontrar lasecuencia de estados q =q1,q2,... qT que con ms probabilidad hubierageneradolaobservacin o=o1, o2,... oT definimoslacantidad6t(i )= maxq1, q2, ... qt 1p(q1q2... qt=i , o1o2... ot/\)Laexpresindefine 6t(i ) ,querepresentalaprobabilidaddelcaminoms probable de entre todos los caminos parciales que, teniendo encuentalasobservacioneshastaeseinstante,desembocanenelestadoienelinstantet.Enuninstantet,cadaestadotendrsupropiomejorcamino,deentrelosqueenldesembocan,y 6t(i ) eslaprobabilidaddeesemejor caminoparcial. Delta se puedecalcularrecursivamentenotandoquepordefinicin6t+1( j ) = maxi|6t(i ) aij bj( ot+1)6T(i ) nos proporcionar al final la probabilidad del mejor caminocompletodetodoslosque,tomandoencuentalasobservaciones,muerenenelestadoi.Nosdalaprobabilidaddelcamino,peronoelcaminoens.Paranoperderelrastrosegncalculamosdelta,hayqueirguardandolaseleccionesquehemoshechoacadapaso.Asalfinal,podremostirardelhiloyrecuperarelcaminocompleto. Paramantenerlatrazadelosestadosvisitadosseusalamatriz t(i ) ,quealmacenaencadainstantedetiempoculeselestadoqueprecedealestadoi.80Vemosqueesmuysimilaralclculodelavariablehaciadelante,salvoporladerecuperacindelcamino.Usandoestatcnicapodemoshacernosunaideadelasucesindeestadosporlaquehapasadoelsistemaparagenerarlasalida.Esto,claroest,siesquelosestadosdenuestromodelosecorrespondenconalgoparecidoaunestadoenelsistemareal.5.4SimulacinEsta simulacin persigue dejar patente le hecho de que la secuenciadeestadosptimospuedeserdistintaalasecuenciaptimadeestados.Paraello,usaremosunmodeloampliadodelcomportamientodeunaespecieyaexpuestaelelcaptuloanterior,lasardina.Enestenuevomodelosehaaadidountercerestado,quepodramosetiquetarcomodurmiendo.Estenuevoestadosloesaccesibledesdeelestado811) Inicializacin61(i ) = nibi( o1) i1(i ) = 02) Recursin6t( j ) = maxi|6t 1(i ) aij bj( ot) t , i , jt( j ) = argmaxi|6t 1(i ) aij3) Terminacinp= maxi|6T(i )qT= argmaxi|6T(i )4) Recuperacin del caminoqt= t+1(qt +1)uno(comiendo)enningncasodesdeelestadodos ohuyendoysecaracterizaporunabajavelocidaddedesplazamientoyuntamaodelbancomsomenosentrelostamaosquecaracterizanalosotrosestados.Modeloaampliado.Aa=| 0.6 0.3 0.10.2 0.8 00.25 0.25 0.5na=| 0.3390 0.5932 0.0678b1(ot) =N (ot , j1,U1); j1a=| 0.1 7 1.3 U1a=|0.5 0 00 1.1 00 0 0.2b2(ot) =N (ot, j2,U 2); j2a=| 2.2 13 5.2 U 2a=|1.9 0 00 5 00 0 1.6b3(ot) =N (ot, j3,U 3); j3a=| 0.04 9 3 U 3a=|0.2 0 00 3 00 0 1.282figura 5.2 Detalle de la secuencia de observaciones para la simulacin 5a. La linea punteada secorresponde con la longitud del eje mayor del banco, la rayada con la excentricidad, y la continua conla celeridad del desplazamiento. Los puntos alrededor de t=364 sern de especial inters para lasimulacin.Confrontamosestemodeloconlaobservacinmostrada(enparte)enlafigura5.2.Calculamosenprimerlugarlaprobabilidaddeestarenelinstantet enelestadoi,dadoelmodeloylasobservaciones,quenoessinoladefinicinde t(i ) .Elclculonointroduceningnconceptonuevoquenohayamosvistohastaahora,yaquesebasaenteramenteenlasvariableshaciadelanteyhaciaatrs.Lanicaconsideracinatenerencuentaeselproblemadelescalado.Siemprequetrabajamoscondichasvariableslohacemosconsuversinescalada,porelproblemaineludibledelafaltaderangodinmico. Loquesehaceessustituirenlaexpresindegammalasvariablesporsuversinescalada.Puededemostrarsequesiutilizamoslosmismoscoeficientesdeescalado ct para otyt,estoscoeficientessecontrarrestanenelclculodela t(i ) asdefinida.Paraellorecordamosdelcaptuloanteriorlasexpresiones4.3ay4.3b,yformulamossuequivalenteparalavariablehaciadetrs,partiremosdelabasedequect =1 j ot( j )ot = ct ott = ct t ot+1( j ) = |i =1Not(i ) aijbj( ot+1) = ct|i =1N ot(i ) aijbj(ot +1)t(i ) = j =1Naijbj(ot +1)t +1( j ) = ct+1j =1Naijbj(ot+1)t +1( j )ot(i ) = ot(i )k=1t 11ckt(i ) = t(i )k=Tt +11ckElusodelosmismoscoeficientesdeescaladoparaambasvariablesnoconducealdesbordamientodet,dadoqueenprincipioambassondelmismoorden.sustituyendoestasltimasexpresionesenelclculo83degammatenemosqueC = k=1Tckt(i ) =ot(i ) t(i ) jot( j ) t( j ) =(ctC ) ot(i )t(i ) j(ctC ) ot( j )t( j ) = ot(i )t(i ) j ot( j )t( j )Demodoquegammapuedecalcularseapartirdelasvariablesescaladassinmayorproblema,yaslohacemos.84figura 5.3 Probabilidad de que el modelo se encuentre en uno u otro estado dado el modelo y lasobservaciones (t(i ) ), en el intervalo temporal de inters para la simulacin. La lnea punteadase corresponde con el estado uno (comiendo), la rayada con el estado dos (huyendo) y la continua conel estado tres (durmiendo). Ntese como en el instante t= 364 lo ms probable es que el banco estdurmiendo.Esderesearqueporsupropiadefinicin, t(i ) sumaunosobrelosestadosencualquierinstante.Ellagrficasemuestraelvalordegammaparacada unodelosestados,coronandoencadainstanteconuncrculoelvalormximodeentreellos.Simiramosconatencinelmodeloylasobservaciones,podemosreconocerelfuncionamientodegamma.Porejemploentornoat=357podemosobservarquelavelocidaddelbancoesgrandeyeltamaotambin.Esasobservacionescasanbastantebienconlavariablealeatoriaasociadaalestadodos(huyendo)y t( 2) tomaparaellasvalorescercanosalaunidad.Siatendiramos alaprimeradefinicindelcaptuloytomsemoscomomejorsecuenciadeestadosaquellosquecumplan(5.3),tendramosqueaceptarqueentrelosinstantest=363yt=364,elsistemapasadelestadodosalestadotres,transicinqueestprohibida.Comoyaanticipamosenlateora,vemosahoraqueenlaprcticaelcaminoasformadonopuedeserrecorridoporelmodelo(suverosimilitudsehaceceroencuantohagaunatransicinconprobabilidadnula).Aunqueelcaminoformadoporlosestadosindividualmentemsprobablespuedeserintransitable,lamayorpartedelasvecessuseslabonescoincidenconlosdelcaminonicomsprobable,queobtenemosusandoelmtododeViterbi.Laverosimilitudtotaldelasobservacionesrespectoalmodelodehallacomosiempre,yenestecasotomaelvalorln( p(o/\)) 2654.7Elcaminonicomsprobableofreceunvalordeverosimilitudlogartmicadeln( p(o/ q, \)) 2667.185esdecir,unos12.5beliospordebajodeltotal,loquehacequeaporteunaparteentre2.7 105deltotaldelaverosimilitud.Estopuedeparecerpocacontribucin,perositenemosencuentaquelaobservacintienequinientasmuestras,yhaytresestados,podemosdeducirqueelnmerototaldecaminosquecontribuyenverosimilitudesdelordende3500 (aproximadamente10239).Desdeluegosuaportacinsupera(concreces)alamediaesperada.86figura 5.4 Grfico que representa el camino de los estados individualmentems probables y elcamino nico ms probable. En lnea continua, tenemos aquellos estados para los que gamma esmxima en cada instante. Los rombos representan los estados que componen el camino nico msprobable (viterbi).6.Reestimacindeparmetros6.1IntroduccinLaresolucindeesteltimoproblema,elmsdificildelostres,yaestsuavizadagraciasalosconceptosqueseintrodujeronenlaresolucindelosotrosdos.Variableshaciadelanteyhaciadetrsserndegranutilidadenlareestimacindelosparmetrosdelmodelo. Lo que perseguimosconla reestimacin de los parmetrosesconseguirqueelmodeloreflejelomejorposibleunaseriedeobservaciones,enelsentidocomosiempredequelaverosimilituddelasmismasrespectoalprimerosealomayorposible.Estacuestinestclaramenterelacionadaconelentrenamientodelmodelo,previoapoderusarloparareconocimiento.Noseconoceningnmtodoanalticodeencontrareseconjuntodeparmetrosquemaximizenlaverosimilituddelaobservacin,peropodemosalcanzarmximoslocalesusandomtodositerativos.Elmtodomsusadoparamaximizar localmente p(o/\) eselde BaumWelch.EsequivalentealaaplicacindelalgoritmoEMsobreelHMMynoeslanicaalternativa(podemosusarotrastcnicascomodescensodegradiente,etc...),peroeslaquedesarrollaremosenestecaptulo.6.2BaumWelch6.2.1GeneralidadesEstemtodofuedesarrolladoinicialmenteporBaumysuscolaboradores.Unaformaintuitivadeverelfuncionamientodelprocesoeslasiguiente.87Partimosdelmodeloconunosparmetrosiniciales,yunaobservacinrespectoalacualtenemosquemaximizarlaverosimilitud.Entretejidosenelclculodelaverosimilitudseencuentranelconjuntodetodoslosposiblescaminosqueelmodelopodrahaberrecorrido.Estoscaminosabrenunabanicoinmenso:ramificamostodoslosposiblespasadosdeunanicaobservacin,todaslasformasquetengaelmodelodegenerarlaaparecenponderadascadaunaporsugradoderealismo.Yessobredeestegrupodecaminosfantasmalesysusprobabilidades,sobreestegrupoampliadodemilesdeejecucionesdelmodelo,sobreelcualpodemosextraerporsimpleconteonuevosvaloresparacualquierparmetrodelmodelo.Comoloscaminosquemejordescribenlaobservacinpesanms,influirnmsenlosvaloresreestimados,yesdeesperarqueelmodeloasreconstituidoarrojemejoresvaloresdeverosimilitudquesupredecesor.6.2.2Exposicin6.2.2.3SobrelareestimacindeAynEmpezaremos definiendo (t(i , j ) como la probabilidad de, estandoenelestadoienelinstantet,pasaralestadojent+1,dadaunaobservacinyelmodelo.Formalmente(6.1)Paracalcular (t(i , j ) podemosbasarnosen valores yaconocidos. ot(i ) nosaportalaprobabilidaddeacabarenelestadoienelinstantet; t+1( j ) seocupalaprobabilidadalpartirdelestadojenelinstantet+1.Ylaprobabilidaddepasardelestadoialjdado otvienedadaporlamatrizdetransicinyporladensidadasociadaalestadodedestino.Formalmente88(t(i ) = p(qt=i , qt +1=j / o , \)(t(i , j ) = p(qt=i , qt +1=j / o , \) =p(o , qt=i , qt +1=j /\)p( o/\)== ot(i ) aijbj(ot +1) t +1( j )p(o/\)=ot(i ) aijbj(ot +1) t +1( j )i jot(i ) aijbj(ot +1) t +1( j )El denominador p(o/ \) puede obtenerse (como de hecho sehace)comoioT(i ) ,perosehaexpresadodeestaformaparadejarpatenteelhechodequesufuncinnoesotraquelaqueleotorgaelteoremadeBayes,normalizaraunolasumadeprobabilidades.Enelcaptuloanterior,cuandobuscbamoselcaminoformadoporlosestadosptimos,definimos t(i ) comolaprobabilidaddeencontrarnosenelestadoienelinstantet,dadalasecuenciadeobservaciones.Estacantidadserelacionafcilmentecon(t(i , j ).Sisumamossobretodoslosposiblesdestinosdelatransicinentreestadosqueeselejede(t(i , j ),loquenosquedaesprecisamentelaprobabilidaddeestarenelorigendedichatransicin.(6.2)89figura 6.2 Representacin grfica de la estructura del clculo de laprobabilidadconjuntadequeelmodeloestenelestadoienelinstantet,yeneljent+1,sujetoalaobservaciones.aijbj(Ot +1)t+1 t+2 t t-1i jot(i )t+1( j )t(i ) = j(t(i , j ) = ot(i ) t(i )p( o/\)t(i ) nosaportamuchainformacinacercadelosestadosdelmodelo.Lasumarespectoaltiempopuedeinterpretarsecomolaesperanzadelnmerodevecesquesevisitaelestadoi.Oloqueeslomismo,elelnmeroesperadodevecesqueunatransicinseiniciadesdeelestado i (si excluimoelinstantefinal, t =T,desdeelcual no haytransicinposible).Delmismomodo,lasumade(t(i , j )respectoaltiemporepresentaelnumeroesperadodetransicionesdelestadoialj.t =1T 1t(i )= nmero esperado de transiciones desde el estado it =1T 1(t(i , j )= nmero esperado de transiciones desde el estado i al estado jUsandoestasdosinterpretacionesnoesdifcilencontrarunm