Incertidumbre Capítulo 13. Contorno Incertidumbre Probabilidad Sintaxis y Semántica Inferencia...

Post on 22-Jan-2016

221 views 0 download

Transcript of Incertidumbre Capítulo 13. Contorno Incertidumbre Probabilidad Sintaxis y Semántica Inferencia...

Incertidumbre

Capítulo 13

Contorno

•Incertidumbre•Probabilidad•Sintaxis y Semántica•Inferencia•Independencia y Regla de Bayes

IncertidumbreLa acción At = salir con destino al aeropuerto t minutos antes del vuelo¿Lo hará At llevarme allí a tiempo?

Los problemas:•Observación parcial (la condición de la carretera, los planes de otros conductores, etc.)•Los sensores ruidosos (el reporte del tráfico)•La incertidumbre en los resultados de acción (la llanta desinflada, etc.)•La complejidad inmensa de modelar y predecir tráfico

Por lo tanto un acercamiento puramente lógico cualquiera•Arriesga engaño: “A25 me llevará allí a tiempo ”, o•Conduce a las conclusiones que son demasiadas débiles para la toma de decisiones

“ A25 me llevará allí a tiempo si no hay accidente en el puente y si no llueve y mis llantas permanecen intactas, etc.”

(A1440 razonablemente me lleva allí a tiempo pero tendría que pasar la noche en el aeropuerto … )

Los métodos para manipular incertidumbre

•Lógica no monótona-Asumir que mi coche no tiene una llanta desinflada-Asumo que A25 trabaja a menos que sea contradicho por la prueba

•Los asuntos: ¿Qué suposiciones son razonables? ¿Cómo manipular contradicción?

•Las reglas con factores dulces:-A25 | --> 0.3 logre llegar a tiempo-WetGrass | --> 0.99 Regadores-WetGrass | --> 0.7 La Lluvia

•Los asuntos: Los problemas con combinación, e.g., ¿Las causas de Lluvia?

•La probabilidad-Modela el grado de creencia del agente -Dada la evidencia disponible-A25 me llevará allí a tiempo con probabilidad 0.04

ProbabilidadLas aseveraciones probabilísticas resumen efectos de

•La pereza: El fracaso para enumerar excepciones, aptitudes, etc.•La ignorancia: La falta de hechos pertinentes, condiciones iniciales, etc.

La probabilidad subjetiva:•Las probabilidades relacionan proposiciones con la propia condición de agente de conocimiento

v.g., P (A25 | ninguno accidente reportado) = 0.06

Éstas no son aseveraciones acerca del mundo

Las probabilidades de proposiciones se alteran con prueba nueva:v.g., P (A25 | ninguno accidente reportado, 5 a.m.)

= 0.15

Decisiones bajo incertidumbre

Supongo que creo en lo siguiente:P (A25 me lleva allí a tiempo | … ) = 0.04P (A90 me lleva allí a tiempo | … ) = 0.70P (A120 me lleva allí a tiempo | … ) = 0.95P (A1440 me lleva allí a tiempo | … ) = 0.9999

•¿Cuál es la acción a escoger?Depende de mis preferencias para el

vuelo faltante vs. el tiempo transcurrido esperando, etc.

-La teoría de utilidad se usa para representar e inferir preferencias-La teoría de decisión = teoría de la probabilidad + teoría de utilidad

Sintaxis•Elemento básico: La variable aleatoria

•Parecido a la lógica de la proposición: Los mundos posibles definidos por la asignación de valores para las variables aleatorias.

•Variables aleatorias Booleanasv.g., ¿La caries (tengo una caries)?

•Variables aleatorias discretasv.g., El clima es uno de < soleado, lluvioso, nublado, nevado>

•Valores de dominio deben ser exhaustivos y mutuamente exclusivos

•Proposición elemental construida por asignación de un valor a una variable aleatoria: v.g., El clima = soleado, Caries = falso

•Proposiciones complejas establecidas de proposiciones elementales y operadores lógicos estándar. v.g., clima = soleado v Cavidad = falso

Sintaxis•El acontecimiento atómico: Una especificación completa de la condición del mundo acerca del cual el agente está inseguro

v. g., Si el mundo consta sólo dos variables Booleanas de caries y dolor, entonces hay 4 acontecimientos atómicos distintos:

caries = falso dolor = falsocaries = falso dolor = verdaderocaries = verdadero dolor = falsocaries = verdadero dolor = verdadero

•Los acontecimientos atómicos son mutuamente exclusivos y exhaustivos

Axiomas de probabilidad•Para cualquier proposición A, B

0 ≤ P(A) ≤ 1

P(cierto) = 1 y P(falso) = 0

P(A B) = P(A) + P(B) - P(A B)

La probabilidad previa•Probabilidades previas o incondicionales de proposiciones

v.g., P (caries = verdadera) = 0.1 y P (Clima = Caluroso) = 0.72 corresponden a la creencia antes de la llegada de cualquier (nueva) evidencia

•La distribución de probabilidad da valores para todas las asignaciones posibles:

P (Clima)=< 0.72,0.1,0.08,0.1>(normalizando, sumas a 1)

•La distribución de probabilidad conjunta para un conjunto de variables aleatorias da la probabilidad de cada acontecimiento atómico en esas variables aleatorias

P (Clima, caries) = a 4 × 2 matriz de valores:

Clima Soleado Lluvioso Nublado Nevado caries = verdadera 0.144 0.02 0.016 0.02 caries = falsa 0.576 0.08 0.064 0.08

•Cada pregunta acerca de un dominio puede ser contestada por la distribución conjunta

Probabilidad Condicional

•Las probabilidades condicionales o posterioresv.g., P (caries | dolor) = 0.8

•Notación para distribuciones condicionales:P (caries | dolor) vector de 2 elementos de vectores de 2 elementos)

•Si sabemos más, v.g., caries es también dada, luego tenemosP (caries | dolor, caries) = 1

•La nueva evidencia puede ser una simplificación irrelevante, permitidora, v.g.,

P (caries | dolor, soleado) = P (caries | dolor) = 0.8•Esta clase de inferencia, admitido por el conocimiento de dominio, es crucial

Probabilidad Condicional•Definición de probabilidad condicional:

P(a | b) = P(a b) / P(b) si P(b) > 0

•Regla del producto da una formulación alternativa:P(a b) = P(a | b) P(b) = P(b | a) P(a)

•Una versión general sujeta para distribuciones enteras, v.g., P(Clima, Cavidad) = P(Clima | Cavidad) P(Cavidad)

•La regla de la cadena es derivativa por la aplicación sucesiva de regla del producto

P(X1, …,Xn) = P(X1,...,Xn-1) P(Xn | X1,...,Xn-1) = P(X1,...,Xn-2) P(Xn-1 | X1,...,Xn-2) P(Xn | X1,...,Xn-1)

= … = πi= 1^n P(Xi | X1, … ,Xi-1)

Inferencia por enumeración

•Comenzar con la distribución de probabilidad conjunta

•Para cualquier proposición φ , asumir los acontecimientos atómicos donde es cierto: P(φ) = Σω:ω╞φ P(ω)

Dolor de muelas ¬Dolor de muelas

Contraer ¬Contraer Contraer ¬Contraer

Cavidad 0.108 0.012 0.072 0.008

¬Cavidad 0.016 0.064 0.144 0.576

Inferencia por enumeración

•Comenzar con la distribución de probabilidad conjunta

•Para cualquier proposición φ , asumir los acontecimientos atómicos donde es cierto: P(φ) = Σω:ω╞φ P(ω)

•P(dolor de muelas) = 0.108 + 0.012 + 0.016 + 0.064 = 0.2

Dolor de muelas ¬Dolor de muelas

Contraer ¬Contraer Contraer ¬Contraer

Cavidad 0.108 0.012 0.072 0.008

¬Cavidad 0.016 0.064 0.144 0.576

Inferencia por enumeración

•Comenzar con la distribución de probabilidad conjunta

•Para cualquier proposición φ , asumir los acontecimientos atómicos donde es cierto: P(φ) = Σω:ω╞φ P(ω)

•P(dolor de muelas) = 0.108 + 0.012 + 0.016 + 0.064 = 0.2

Dolor de muelas ¬Dolor de muelas

Contraer ¬Contraer Contraer ¬Contraer

Cavidad 0.108 0.012 0.072 0.008

¬Cavidad 0.016 0.064 0.144 0.576

Inferencia por enumeración

•Comenzar con la distribución de probabilidad conjunta

•También puede computar probabilidades condicionales:P ( cavidad | dolor de muelas) = P( cavidad dolor de muelas)

P (dolor de muelas)

= 0.016 +0.064 0.108 + 0.012 + 0.016 +

0.064 = 0.4

Dolor de muelas ¬Dolor de muelas

Contraer ¬Contraer Contraer ¬Contraer

Cavidad 0.108 0.012 0.072 0.008

¬Cavidad 0.016 0.064 0.144 0.576

•Comenzar con la distribución de probabilidad conjunta

•El denominador puede ser visto como una constante de normalización α

P(Cavidad | dolor de muelas) = α, P(Cavidad, dolor de muelas) = α, [P(Cavidad,dolor de muelas,contraer) + P(Cavidad,dolor de muelas,

contraer)]= α, [<0.108,0.016> + <0.012,0.064>] = α, <0.12,0.08> = <0.6,0.4>

Idea general: Calcular distribución en la variable de averiguación centrando variables de prueba y sumando sobre las variables escondidas

Inferencia por enumeración

Dolor de muelas ¬Dolor de muelas

Contraer ¬Contraer Contraer ¬Contraer

Cavidad 0.108 0.012 0.072 0.008

¬Cavidad 0.016 0.064 0.144 0.576

Inferencia por enumeración (cont.)Típicamente, tenemos interés en la distribución conjunta posterior de las variables de Y dados los valores específicos para las variables de evidencia E

Las variables desconocidas son H=X - Y - E

Luego la suma total requerida de entradas conjuntas está hecha sumando las variables desconocidas que están fuera:

P(Y | E = e) = αP(Y,E = e) = αΣhP(Y,E= e, H = h)

•Las condiciones en la suma total son entradas conjuntas porque Y, E y H conjuntamente agotan el conjunto de variables aleatorias

•Problemas obvios:1.-La peor complejidad de tiempo de caso O(dn) donde d es la cardinalidad mayor2.-La complejidad del espacio O(dn) para almacenar la distribución conjunta3.-¿Cómo encontrar los números para las entradas O(dn)?

Independencia•A y B son independientes si y solo si:

P(A|B) = P(A) o P(B|A) = P(B) o P(A, B) = P(A) P(B)

Se descomponen en

P(dolor de muelas, Contraer, Caries, Clima)= P(Dolor de muelas, Contraer, Caries) P(Clima)

•32 entradas reducidas para 12; Para n monedas deformadas independientes, O(2n) O(n)

•Independencia absoluta y poderosa pero rara

•La odontología es un campo grande con centenares de variables, ninguna de las cuales es independiente. ¿Qué hacer?

Caries

Dolor de muelas Contraer

Clima

Caries

Dolor de muelas Contraer

Clima

Independencia Condicional•P (Dolor de muelas, Caries, Contraer) tiene 23 – 1 = 7 entradas independientes

•Si tengo una caries, entonces la probabilidad de que la sonda la perciba no depende de si tengo un dolor de muelas:

(1) P (contraer | dolor de muelas, caries) = P (contraer | caries)

•La misma independencia tiene aplicación si no he obtenido una cavidad:(2) P (contraer | dolor de muelas, caries) = P (contraer | caries)

•El contraer es condicionalmente independiente del dolor de muelas dada la caries:

P (Contraer | Dolor de muelas, caries) = P (Contraer | caries)

•Las declaraciones equivalentes:P (Dolor de muelas | Contraer, caries) = P (Dolor de muelas | caries)P (Dolor de muelas | caries) = P (Dolor de muelas, Contraer | caries) P (contraer | caries)

Independencia condicional (cont)

•Redactar la distribución completa y unida usando la regla de la cadena:

P(dolor de muelas, Contraer, caries) = P(Dolor de muelas | Contraer, caries) P(Contraer, caries)

= P(Dolor de muelas | Contraer, caries) P(Contraer | caries) P(caries) = P(Dolor de muelas | caries) P(Contraer | caries) P(caries)

I.e., 2 + 2 + 1 = 5 números independientes

•En la mayoría de los casos, el uso de independencia condicional reduce el tamaño de la representación de la distribución unida de exponencial en n para linealizar en n.

•La independencia condicional es nuestra forma más básica y robusta de conocimiento acerca de ambientes inciertos.

La Regla De Bayes•Regla del Producto P(ab) = P(a | b) P(b) = P(b | a) P(a)

Regla de Bayes: P(a | b) = P(b | a) P(a) / P(b)

•O en forma distributiva P(Y|X) = P(X|Y) P(Y) / P(X) = αP(X|Y) P(Y)

•Útil para evaluar probabilidad diagnóstica de probabilidad causal:

-P(Causa|Efecto) = P(Efecto|Causa) P(Causa) / P(Efecto)

-E.g., sea m meningitis, s cuello torcido:P(m|s) = P(s|m) P(m) / P(s) = 0.8 × 0.0001 / 0.1 = 0.0008

-Note: La probabilidad posterior de meningitis continua siendo muy pequeña

Regla de Bayes e Independencia Condicional

P(Caries | dolor de muelas contraer)

= αP(dolor de muelas contraer | Caries) P(Caries)

= αP(dolor de muelas | Caries) P(contraer | Caries) P(Caries)

P(Causa,Efecto1, … ,Efecton) = P(Causa) πiP(Efectoi|Causa)

•El número total de parámetros es lineal en n

Cavidad

Dolor de muelas Contraer

Causa

Efecto 1 Efecto n

Resumen•La probabilidad es un formalismo riguroso para el conocimiento incierto•La distribución de probabilidad unida especifica probabilidad de cada acontecimiento atómico•Las averiguaciones pueden ser resueltas sumando los acontecimientos atómicos•Para los dominios poco triviales, debemos encontrar la manera de reducir el tamaño conjunto•Dependencia e Independencia condicional proveen las herramientas