Extensiones de los Modelos Gráficos (2010/2011) - Teoria12_v02.pdf · Extensiones de los Modelos...

Extensiones de

los Modelos

Gráficos

(2010/2011)

Luis Valencia Cabrera

[email protected]

(http://www.cs.us.es/~lvalencia)

Ciencias de la Computacion e IA

(http://www.cs.us.es/)

Universidad de Sevilla

mailto:[email protected]

http://www.cs.us.es/~lvalencia

http://www.cs.us.es/

Extensiones de los Modelos

Gráficos En el tema anterior:

se han introducido los modelos gráficos de dependencia, definidos por medio de grafos dirigidos y no dirigidos, y

se ha visto cómo estos modelos permiten definir de forma sencilla la estructura cualitativa de un modelo probabilístico.

La principal deficiencia de estos modelos es que no todo modelo probabilístico se puede definir de forma perfecta mediante un grafo. Por tanto, los modelos gráficos han de entenderse, en general,

como mapas de independencia (I-mapas) de los modelos que se desean representar. Esto significa que todas las relaciones de independencia condicional verificadas por el grafo serán independencias reales del modelo, aunque algunas de las independencias del modelo podrán escapar a la representación gráfica.

El siguiente ejemplo ilustra esta deficiencia de los modelos gráficos mediante un sencillo ejemplo.

Modelo de dependencia sin

mapa perfecto dirigido Sea el conjunto de variables {X, Y,Z} relacionadas por las relaciones

de independencia: M = {I(X, Y |Z), I(Y,X|Z), I(Y,Z|X), I(Z, Y |X)}.

El modelo M está formado por dos relaciones de independencia y sus simétricas. Aunque es muy simple, no admite un mapa perfecto. Por ejemplo, utilizando el criterio de D-separación, se puede ver que el grafo dirigido acíclico (a) implica solamente las dos primeras relaciones de independencia, mientras que (b) verifica sólo las dos últimas. ninguno es representación perfecta del modelo sólo I-mapas del modelo de dependencia M. es imposible definir un modelo probabilístico que tenga la estructura de dependencia dada en M utilizando un único grafo.

Introducción En este tema se introducen algunos métodos para

extender la capacidad de representación de los modelos gráficos y abarcar una clase mayor de modelos de dependencia.

Estos modelos incluyen: 1. Modelos definidos por un conjunto de grafos

(multigrafos).

2. Modelos definidos por una lista de relaciones de independencia.

3. Modelos definidos por una combinación de grafos y relaciones de independencia.

4. Modelos definidos por un conjunto de funciones de probabilidad condicionada.

Introducción Aunque modelos ofrecen cuatro alternativas distintas para

construir modelos de dependencia más generales, hay similitudes entre ellos.

Por ejemplo, vimos que utilizando un criterio de separación gráfica adecuado se puede obtener la lista de relaciones de independencia que se derivan de un grafo dado. Por tanto, un modelo gráfico se puede convertir en un conjunto equivalente de relaciones de independencia, es decir, los modelos anteriores 1 y 3 se pueden reducir al modelo 2.

Por otra parte, se verá que tanto los modelos definidos por multigrafos, como los definidos por listas de relaciones de independencia, definen una serie de factorizaciones de la función de probabilidad por medio de un conjunto de funciones de probabilidad condicionada. Por tanto, los modelos 1−3 se pueden reducir al modelo 4, que proporciona las nociones básicas para entender el resto de los modelos que generalizan las representaciones gráficas.

Introducción En este tema se analizan estos modelos y sus

relaciones. En las próximas secciones se trata el problema de los modelos definidos por multigrafos y por listas de relaciones de independencia, respectivamente.

Posteriormente se introducen los modelos multifactorizados. En las siguientes secciones se muestran dos ejemplos concretos de estos modelos (uno discreto y otro continuo).

Los modelos definidos por un conjunto de funciones de probabilidad condicionada se introducen al final, junto con una discusión sobre los problemas de existencia y unicidad que aparecen en estos modelos.

Modelos Definidos por

Multigrafos Como un único grafo no permite representar cualquier modelo de

dependencia, los modelos gráficos se pueden generalizar considerando un conjunto de grafos, en lugar de un único grafo.

Los modelos restultantes se denominan modelos definidos por multigrafos. Por ejemplo, Geiger (1987) analizó el problema de representar un

modelo de dependencia mediante un conjunto de grafos dirigidos acíclicos. De forma similar, Paz (1987) y Shachter (1990b) analizaron las propiedades de las representaciones basadas en un conjunto de grafos no dirigidos.

Aunque estos modelos permiten definir una clase más amplia de modelos de dependencia que los modelos basados en un único grafo, Verma (1987) demostró que puede ser necesario un número exponencial de grafos para representar un modelo de dependencia arbitrario de forma perfecta. Por tanto, desde un punto de vista práctico, los modelos basados en multigrafos sólo pueden ser utilizados para extender la capacidad de representación de los modelos gráficos simples.


Multigrafos Por tanto, incluso utilizando un conjunto de grafos, alguna

independencia del modelo puede escapar a la representación gráfica.

En consecuencia, los multigrafos serán, en general, I-mapas mejorados del modelo de dependencia dado.

El término multigrafo denota el conjunto (la unión) de las relaciones de independencia implicadas por un conjunto de grafos. Por tanto, los modelos definidos por multigrafos son, en efecto,

equivalentes a los modelos definidos por una lista de relaciones de independencia. Se analizará en la sección siguiente.

Esta idea sencilla de combinar varios grafos ofrece una extensión importante de los modelos gráficos basados en un único grafo.

Definición Modelos definidos

por multigrafos Considérese el conjunto de variables X = {X1, . . . , Xn}. Un

modelo definido por un multigrafo en X es un conjunto de redes Bayesianas y de Markov compatibles

definidias sobre cada uno de los grafos Gl del multigrafo que definen una serie de factorizaciones Pl del correspondiente modelo probabilístico.

La compatibilidad requiere que la función de probabilidad conjunta definida por todas las redes de arriba sea idéntica, es decir,

Definición Modelos definidos

por multigrafos

El conjunto de redes Bayesianas y de Markov de la primera fórmula define la estructura de dependencia del modelo (dada por el multigrafo {G1, . . . , Gm}) y el modelo probabilístico resultante (dado por los conjuntos de factorizaciones).

El modelo probabilístico resultante tiene asociada una estructura dependencia más general que los modelos simples definidos por cada uno de los grafos.

Ejemplo Modelo de multired

Bayesiana Sean D1 y D2 los grafos dirigidos acíclicos dados en las figuras (a) y

(b), respectivamente. Cada uno de estos grafos es un I-mapa dirigido del modelo de dependencia M dado en el primer ejemplo. El multigrafo {D1, D2} implica el conjunto de independencias siguiente: M = {I(X, Y |Z), I(Y,X|Z), I(Y,Z|X), I(Z, Y |X)},

que es el mismo modelo M dado.

Obsérvese que D1 implica las dos primeras independencias y D2 implica las dos segundas. Estos dos grafos, y las correspondientes factorizaciones, definen una multired Bayesiana.

Ejemplo Modelo de multired

Bayesiana En este caso se tiene m = 2, y resulta la red {(D1, P1),

(D2, P2)}, donde P1 = {p1(x|z), p1(y|z), p1(z)}, P2 = {p2(x), p2(y|x), p2(z|x)}.

Para que el modelo sea compatible, tal y como se muestra en la fórmula correspondiente, las dos funciones de probabilidad P1 y P2 deben ser idénticas, es decir, p(x, y, z) = p1(x|z)p1(y|z)p1(z) = p2(x)p2(y|x)p2(z|x),

El problema de la consistencia, es decir, hallar las condiciones para que se cumpla la ecuación, se analiza en una sección posterior utilizando el concepto de modelo multifactorizado.

Problemas

relacionados con los modelos

definidos por multigrafos A continuación se analizan los siguientes

problemas relacionados con los modelos definidos por multigrafos: Problema: ¿Cómo se interpretan gráficamente las

independencias del modelo?

Problema: ¿Se puede reducir el número de grafos que componen el multigrafo sin alterar el modelo de dependencia que define?

Problema: ¿Cómo se puede obtener el modelo probabilístico asociado al modelo de dependencia?

Estos problemas son tratados en las secciones siguientes.

Interpretación

de Independencias

en un Multigrafo El primer problema relacionado con los modelos definidos

por multigrafos es la interpretación gráfica de sus independencias.

Las redes Bayesianas y de Markov son I-mapas de un cierto modelo de dependencia asociado al modelo probabilístico correspondiente. Entonces, todas las independencias condicionales contenidas en el grafo también son independencias del modelo correspondiente. Por tanto, será cierta en un multigrafo una relación de

independencia cualquiera si es cierta en alguno de los grafos que componen el multigrafo; en caso contrario será falsa.

Por tanto, el criterio gráfico de separación para multigrafos consiste en la aplicación del criterio de U-separación en los grafos no dirigidos que compongan el multigrafo y el criterio de D-separación en los dirigidos.

Reducción del Conjunto de

Grafos El segundo problema de estos modelos es el de la

redundancia en un multigrafo. En algunos casos, todas las independencias implicadas por

un grafo del modelo pueden ser obtenidas a partir de los demás grafos. Por ejemplo, Shachter (1990b) introdujo algunas

transformaciones gráficas que permiten simplificar la estructura de los grafos eliminando independencias redundantes.

En algunos casos, el conjunto de grafos puede ser reducido a un conjunto menor que es una representación más simple y eficiente del modelo.

Definición Grafos redundantes. Dados dos grafos G1 y G2, se dice que G1 es redundante

dado G2 si el conjunto de relaciones de independencia contenidas en G1 está contenido en G2.


Grafos El problema de la redundancia en grafos no dirigidos es fácil de resolver.

Teorema Redundancia en multigrafos no dirigidos. Dados dos grafos no dirigidos G1 = (X,L1) y G2 = (X,L2) con el mismo conjunto de variables X, entonces G1 es redundante dado G2 si L1 ⊂ L2.

Ejemplo Redundancia en multigrafos no dirigidos. Sean G1 y G2 los grafos no dirigidos mostrados en las figuras (a) y (b), respectivamente.

Se puede comprobar fácilmente que el grafo G1 es redundante dado G2 ya que L1 = {L1 2, L1 3, L3 4, L3 5} es un subconjunto de L2 = {L1 2, L1 3, L3 4, L3 5, L2 4}. Por tanto, el multigrafo formado por los dos grafos define el mismo modelo de dependencia que el modelo gráfico formado por G1.


Grafos Ejemplo Reduciendo un conjunto de grafos dirigidos. Sea el

multigrafo formado por los tres grafos dirigidos D1, D2 y D3 dados en las figuras (a)−(c), respectivamente. En este caso, todas las independencias que implica el grafo D2 pueden ser obtenidas de D1.

Este hecho puede comprobarse de la forma siguiente. Si se incluye la arista L24 en D1, entonces cualquier independencia derivada del nuevo grafo también podrá ser derivada del grafo original (la inclusión de aristas no incluye nuevas independencias).


Grafos Por otra parte, se puede invertir la dirección de las

aristas L13 y L35 simultáneamente sin modificar el modelo de dependencia asociado al grafo. Por tanto, si en D1 se añade la arista L24 y se invierte la

dirección de L13 y L35, se obtiene el grafo D2. Así, todas las independencias del grafo D2 están contenidas en D1 y, por tanto, D2 es redundante dado D1, es decir, el modelo definido por el multigrafo {D1,D2} es equivalente al modelo definido únicamente por D1.

Por otra parte, D1 y D3 no son redundantes entre sí, pues D1 contiene la independencia I(X2,X4|X1), que no es verificada por D3, y D3 implica I(X1,X2|X3), que no puede obtenerse de D1.


Grafos El teorema siguiente muestra las condiciones para

que dos grafos dirigidos sean redundantes.

Teorema Redundancia en multigrafos dirigidos. Sean D1 y D2 dos grafos dirigidos acíclicos sobre el mismo conjunto de variables X, y sean G1 y G2 los grafos no dirigidos asociados respectivos. Entonces, D2 es redundante dado D1 si (a) G2 está contenido en G1, (b) cada v-estructura de D1 está también contenida en

D2, y (c) cada v-estructura (Xi,Xj,Xk) de D2 está también

contenida en D1 siempre que G1 contenga el camino Xi − Xj − Xk.

El ejemplo siguiente ilustra este teorema.

Ejemplo Redundancia en

multigrafos dirigidos En el Ejemplo anterior se vio mediante una serie de

transformaciones topológicas de los grafos que D2 es redundante dado D1.

Esta conclusión puede obtenerse directamente aplicando el teorema anterior. En la figura previa puede verse que cada arista del grafo G1 (el grafo no dirigido asociado a D1) también está contenida en G2 (el grafo no dirigido asociado a D2). Por tanto, G2 es redundante dado G1, por lo que se cumple la

primera condición del teorema.

Dado que D1 no tiene v-estructuras, la segunda condición también se cumple.

Finalmente, D2 contiene la v-estructura (X2,X4,X3), pero G1 no contiene el camino X2−X4−X3. Por tanto, D2 es redundante dado D1.

Compatibilidad de Multigrafos

El tercer problema planteado se refiere a la existencia de una función de probabilidad p(x) que cumpla la segunda ecuación de la definición de los modelos definidos por multigrafos:

Dado que cada grafo proporciona una factorización distinta de p(x), el problema de compatibilidad se reduce a encontrar el modelo probabilístico dado por un conjunto de factorizaciones.

Ejemplo

Compatibilidad de multigrafos Sea de nuevo el problema introducido en el primer ejemplo, con los

dos grafos D1 y D2 dados en las figuras (a) y (b), respectivamente.

La red Bayesiana asociada a D1 implica la factorización: p(x, y, z) = p1(z)p1(x|z)p1(y|z),

mientras que la correspondiente a D2 implica p(x, y, z) = p2(x)p2(y|x)p2(z|x),

donde los superíndices denotan las distintas factorizaciones.

Las redes Bayesianas {(D1, P1), (D2, P2)} definen una multired Bayesiana.

Ejemplo

Compatibilidad de multigrafos Al combinar las independencias de ambos grafos en el

mismo modelo probabilístico, pueden implicar en el modelo alguna otra independencia adicional inducida por las propiedades de la independencia condicional. Un multigrafo no será, en general, un mapa perfecto del

modelo probabilístico resultante. Por ejemplo, el multigrafo definido por D1 y D2 define el modelo probabilístico M = {I(X, Y |Z), I(Y,X|Z), I(Y,Z|X), I(Z, Y |X)}.

Sin embargo, aplicando la propiedad de intersección (que satisfacen los modelos probabilísticos no extremos), se obtiene la independencia adicional I(Y, {X,Z}|Φ) que, aplicando la propiedad de descomposición, permite obtener a su vez I(X, Y |Φ) e I(Y,Z|Φ).

Ejemplo

Compatibilidad de multigrafos

Por tanto, la familia de funciones de probabilidad compatibles con el multigrafo formado por los dos grafos dados en la figura inicial, contiene las independencias siguientes:

M1 = {I(X, Y |Z), I(Y,Z|X), I(Y, {X,Z}|Φ), I(X, Y |Φ), I(Y,Z|Φ)},

así como las correspondientes independencias simétricas. Comparando M en el primer resultado y M1 en el segundo, puede verse que el multigrafo original es solamente un I-mapa del modelo probabilístico.

Ejemplo

Compatibilidad de multigrafos Las nuevas independencias de M1 nos permiten reescribir las

factorizaciones anteriores como: p(x, y, z) = p1(z)p1(x|z) p1(y|z) = p1 (z) p1(x|z) p1(y) y p(x, y, z) = p2(x)p2(y|x)p2(z|x) = p2 (x) p2(y) p2(z|x),

que son dos factorizaciones equivalentes de la misma familia de funciones de probabilidad.

Estas factorizaciones están asociadas a los grafos dados en la figura, que son dos mapas perfectos equivalentes del modelo de dependencia M1 en el segundo resultado, pero no son mapas perfectos del multigrafo original en el primer resultado.

Ejemplo

Compatibilidad de multigrafos Por tanto, el modelo probabilístico compatible con ambas

factorizaciones está determinado por una de las últimas ecuaciones.

Obsérvese que los dos grafos de la última figura han sido obtenidos eliminando las aristas Z → Y y X → Y de los grafos de la figura inicial.

Por tanto, existe un grafo que contiene todas las independencias del multigrafo y que permite obtener directamente una factorización del modelo probabilístico compatible con ambos modelos.

En este caso el problema de compatibilidad ha sido fácil de resolver. Sin embargo, en general, este problema es complicado y requiere

técnicas generales para su tratamiento. En una sección posterior se analizará este problema en el marco de los modelos multifactorizados.

Ejemplo Compatibilidad de

multigrafos Sea el multigrafo dado por los grafos D1 y D2

mostrados en las figuras (a) y (b), respectivamente.

La red Bayesiana definida por D1 implica: p(x1, x2, x3, x4) = p1 (x1) p1(x2|x1) p1(x3|x1) p1(x4|x2, x3),

mientras que la definida por D2 implica p(x1, x2, x3, x4) = p2(x1) p2(x2|x1) p2(x4|x2) p2(x3|x1, x4).

Ejemplo Compatibilidad de

multigrafos Obsérvese que las funciones de probabilidad

condicionada están definidas siguiendo las numeraciones ancestrales de las variables implicadas por los grafos correspondientes de la figura.

A diferencia de lo ocurrido en el ejemplo anterior, el problema de la compatiblidad de la multired Bayesiana {(D1, P1), (D2, P2)} no es un problema trivial y será resuelto más adelante utilizando las técnicas de los modelos multifactorizados.

Los modelos definidos por multigrafos son un tipo especial de la clase de modelos más general conocida como modelos multifactorizados que son analizados a continuación.


Listas de Independencias Como se mencionó dos temas atrás, las listas de

independencias constituyen una alternativa a los modelos gráficos para la construcción de modelos probabilísticos.

Esta lista puede venir dada directamente por un experto en el tema a analizar, y representa las relaciones existentes entre las variables del modelo.

Se analiza la relación entre una relación de independencia en un modelo probabilístico y una factorización de la función de probabilidad correspondiente.

Esta relación puede resumirse del modo siguiente: Siempre se puede encontrar una factorización que contiene

una relación de independencia dada.

Una factorización puede implicar una o más relaciones de independencia.

Ejemplo

De una relación de independencia

a una factorización Sea el conjunto de variables {X1,X2,X3,X4} y supóngase que cumplen la

relación de independencia I(X1,X2|X3).

La función de probabilidad correspondiente puede escribirse como p(x1, x2, x3, x4) = p(x2, x3)p(x1|x2, x3)p(x4|x1, x2, x3) = p(x2,

x3)p(x1|x3)p(x4|x1, x2, x3).

Donde la primera igualdad se ha obtenido considerando la partición de las variables {{X2,X3},X1,X4} y aplicando la regla de la cadena a la función de probabilidad p(x), y la segunda igualdad se ha obtenido utilizando la relación de independencia I(X1,X2|X3), que implica p(x1|x2, x3) = p(x1|x3).

Por tanto, cualquier función de probabilidad que factorice según la ecuación de arriba contiene, al menos, la relación de independencia I(X1,X2|X3).

La función de probabilidad podría contener también otras relaciones de independencia derivadas de los axiomas de la probabilidad (por ejemplo, la relación de independencia simétrica I(X2,X1|X3)). Por tanto, la lista de independencias formada por una única relación de independencia es un I-mapa del modelo probabilístico resultante.

Listas de independencia, listas

causales y factorización Existen listas de independencia que contienen varias relaciones de

independencia y que pueden definir una única factorización de forma colectiva.

Un ejemplo de ello lo constituyen las listas causales. Dado el conjunto de variables X = {X1, . . . , Xn}, una lista causal definida sobre X es un conjunto de relaciones de independencia de la forma {I(Y1,B1 \ S1|S1), . . . , I(Yn,Bn \ Sn|Sn)}, donde (Y1, . . . , Yn) es una permutación de {X1, . . . , Xn} y Si ⊂ Bi = {Y1, . . . , Yi−1}. Esta lista define la siguiente factorización de la función de probabilidad

que incluye todas las relaciones de independencia de la lista causal.

Ejemplo

De una factorización a una lista

de relaciones de independencia

Sea el conjunto de variables {X1,X2,X3,X4}.

Aplicando la regla de la cadena, cualquier función de probabilidad de las variables puede expresarse como p(x1, x2, x3, x4) = p(x1)p(x2|x1)p(x3|x1, x2)p(x4|x1, x2,

x3).

Esta factorización no implica ninguna relación de independencia pues es una factorización canónica estándar no contiene ninguna independencia entre las variables.

Por otra parte, considérese la factorización p(x1, x2, x3, x4) = p(x1)p(x2|x1)p(x3|x1)p(x4|x2, x3).

Las factorizaciones anteriores definen la misma ordenación ancestral de las variables (X1,X2,X3,X4). Se pueden obtener las relaciones de independencia correspondientes a este segundo modelo comparando las funciones de probabilidad condicionada con aquellas contenidas en la factorización general (la primera anterior). Las dos primeras funciones de probabilidad condicionada,

p(x1) y p(x2|x1), no implican ninguna relación de independencia pues se hayan contenidas en las dos factorizaciones.

Para la tercera función se tiene p(x3|x1, x2) = p(x3|x1), que implica la relación de independencia I(X2,X3|X1).

Finalmente, p(x4|x1, x2, x3) = p(x4|x2, x3), que implica I(X1,X4|X2,X3).

Por tanto, la factorización dada implica la lista de relaciones de independencia:

M1 = {I(X2,X3|X1), I(X1,X4|X2,X3)}.

Ejemplo



A partir de esta lista pueden obtenerse otras relaciones de independencia aplicando las propiedades de la independencia condicional (utilizando, por ejemplo, las propiedades de semigrafoide).

Como ejemplo final, supóngase que un modelo probabilístico está definido por medio de la factorización p(x1, x2, x3, x4) = p(x1)p(x2|x1)p(x4|x2)p(x3|x1, x4),

que implica la ordenación ancestral de las variables (X1,X2,X4,X3).

Considerando esta ordenación y aplicando la regla de la cadena, se tiene p(x1, x2, x3, x4) = p(x1)p(x2|x1)p(x4|x1, x2)p(x3|x1, x2, x4).

Ejemplo



Comparando las igualdades anteriores se obtienen las relaciones de independencia siguientes: p(x1) = p(x1) ⇔ sin relaciones de independencia, p(x2|x1) = p(x2|x1) ⇔ sin relaciones de independencia, p(x4|x1, x2) = p(x4|x2) ⇔ I(X1,X4|X2), p(x3|x1, x2, x4) = p(x3|x1, x4) ⇔ I(X2,X3|{X1,X4}).

Por tanto, la factorización dada implica la lista siguiente de relaciones de independencia: M2 = {I(X1,X4|X2), I(X2,X3|{X1,X4})}.

Esta lista puede completarse utilizando las propiedades de la independencia condicional.

Ejemplo



Generalización Dado un conjunto de variables {X1, . . . , Xn}, una factorización

obtenida aplicando la regla de la cadena canónica a una permutación (Y1, . . . , Yn) de las variables {X1, . . . , Xn}

donde Si ⊂ Bi={Y1, . . . ,Yi−1}, define la lista causal: {I(Y1,B1 \ S1|S1), . . . , I(Yn,Bn \ Sn|Sn)}.

Los ejemplos anteriores muestran que toda relación de independencia implica una factorización de la función de probabilidad.

Por tanto, dada una lista de relaciones de independencia, se puede obtener un conjunto equivalente de factorizaciones.

En ocasiones este conjunto puede ser reducido a una única factorización equivalente. Los siguientes ejemplos ilustran este hecho.

Ejemplo Conjunto reducible

de factorizaciones

La lista de relaciones de independencia M1 = {I(X2,X3|X1), I(X1,X4|{X2,X3})}

es equivalente al conjunto de factorizaciones p(x1, x2, x3, x4) = p1(x1, x2)p1(x3|x1)p1(x4|x1, x2, x3)

y

p(x1, x2, x3, x4) = p2(x1, x2, x3)p2(x4|x2, x3),

una factorización para cada una de las relaciones de independencia de M1, donde los superíndices representan el número de la relación de independencia asociada a cada factorización.

Sin embargo, este conjunto es equivalente a una única factorización: p(x1, x2, x3, x4) = p(x1, x2)p(x3|x1)p(x4|x2, x3),

ya que p(x1, x2, x3, x4) =

p(x1, x2)p(x3|x1, x2)p(x4|x1, x2, x3) =

p(x1, x2)p(x3|x1)p(x4|x2, x3).

La primera de las igualdades se ha obtenido aplicando la regla de la cadena, y la segunda se ha obtenido aplicando las dos relaciones de independencia en M1.

Ejemplo Conjunto reducible

de factorizaciones

Ejemplo Conjunto irreducible

de factorizaciones

Considérense las listas de relaciones de

independencia M1 y M2, donde:

M1 = {I(X2,X3|X1), I(X1,X4|{X2,X3})} y

M2 = {I(X1,X4|X2), I(X2,X3|{X1,X4})}.

En el ejemplo anterior se ha visto que M1 da lugar

a la factorización:

p(x1, x2, x3, x4) = p(x1, x2)p(x3|x1)p(x4|x2, x3).

De forma similar, M2 implica la factorización:

p(x1, x2, x3, x4) = p(x1)p(x2|x1)p(x4|x2)p(x3|x1, x4).


de factorizaciones Obsérvese que las dos factorizaciones coinciden

con las factorizaciones: p(x1, x2, x3, x4) = p1 (x1) p1(x2|x1) p1(x3|x1)

p1(x4|x2, x3),

p(x1, x2, x3, x4) = p2(x1) p2(x2|x1) p2(x4|x2) p2(x3|x1, x4).

obtenidas a partir de los grafos D1 y D2 mostrados en las figuras (a) y (b), respectivamente.


de factorizaciones Esta coincidencia ilustra el hecho de que un modelo de

dependencia puede ser descrito de forma indistinta por un grafo o por una lista de relaciones de independencia.

Supóngase que se desea construir un modelo que contenga las independencias de M1 y M2, o equivalentemente, que contenga las factorizaciones: p(x1, x2, x3, x4) = p(x1, x2)p(x3|x1)p(x4|x2, x3).

p(x1, x2, x3, x4) = p(x1)p(x2|x1)p(x4|x2)p(x3|x1, x4).

Estas factorizaciones no pueden ser reducidas a una única factorización, a menos que se consideren ciertas restricciones para los parámetros que las componen. Por tanto, se tiene de nuevo un problema de compatibilidad que requiere hallar una función de probabilidad p(x) definida por un conjunto de factorizaciones.

Conclusión Cuando una lista de relaciones de

independencia es equivalente a una única factorización los parámetros asociados a las funciones de probabilidad condicionada que definen la factorización pueden ser definidos de forma independiente, es decir, sin restricciones.

Es el caso de una lista causal, que siempre implica una única factorización de la función de probabilidad.

Conclusión Sin embargo, cuando las factorizaciones no se

pueden reducir a una única factorización sin imponer restricciones sobre los parámetros es necesario resolver el mismo problema de compatibilidad que surge en la definición del modelo probabilístico asociado a un multigrafo.

Es decir, es necesario hallar las restricciones que tienen que satisfacer los parámetros de una factorización para que la función de probabilidad resultante pueda ser factorizada en la forma indicada por las factorizaciones que componen el modelo.

La sección siguiente analiza el problema de la compatibilidad.

Modelos probabilísticos

Multifactorizados

Hemos visto que la definición de una función de probabilidad mediante multigrafos y listas de relaciones de independencia se reduce a:

hallar la función de probabilidad compatible con un conjunto dado de factorizaciones.

Por tanto, estos dos modelos son casos especiales de un tipo de modelos más generales conocido como modelos probabilísticos multifactorizados.

Definición Modelos

probabilísticos multifactorizados

Por ejemplo, las factorizaciones: p(x1, x2, x3, x4) = p1 (x1) p1(x2|x1) p1(x3|x1) p1(x4|x2, x3),

p(x1, x2, x3, x4) = p2(x1) p2(x2|x1) p2(x4|x2) p2(x3|x1, x4).

definen un modelo probabilístico multifactorizado.

Problema: ¿Cuáles son las condiciones que tienen que cumplir los conjuntos de funciones de probabilidad condicionada P para definir la misma función de probabilidad?

Se conoce por problema de consistencia o problema de compatibilidad.

Se analiza en secciones siguientes este problema para el caso de variables multinomiales (discretas), y para el caso de variables normales (continuas).

Definición Modelos

probabilísticos multifactorizados

Extensiones de los Modelos Gráficos (2010/2011) - Teoria12_v02.pdf · Extensiones de los Modelos...

Documents

Transcript of Extensiones de los Modelos Gráficos (2010/2011) - Teoria12_v02.pdf · Extensiones de los Modelos...