03 - El Modelo Probabilístico en Geoestadística03 - El Modelo
Probabilístico en Geoestadística
Interpretación probabilística
Variables aleatorias
Momentos
Interpretación
Los fenómenos en Ciencias de la Tierra involucran procesos
complejos, luego, parecen aleatorios. Sin embargo, los datos
verdaderos no son resultado de un proceso aleatorio: se trata
solamente de una interpretación por nuestro desconocimiento de la
realidad.
El valor de la variable regionalizada en un punto z(u) se
interpreta como la realización (outcome) de una variable aleatoria
Z(u).
Algunos problemas:
¿Cómo hacer inferencia acerca de la variable aleatoria si sólo
disponemos de una realización?
Inferencia y Modelamiento
Variable aleatoria
Variable aleatoria: Una función Z desde un espacio muestreal S en
los números reales. Una forma de representar un valor z no
muestreado (desconocido). Se denota con letra mayúscula
La variable aleatoria Z puede tomar cualquier valor dado por su
distribución de probabilidad. Ésta modela la incertidumbre respecto
a su realización z. La variable puede ser continua o
discreta:
Variable continua: puede tomar valores en forma continua entre dos
valores dados: ley, densidad, concentración, precio,...
Variable discreta o categórica: pertenece a una clase.
Ejemplo: códigos de litología
MI54A EVALUACIÓN DE YACIMIENTOS – UNIVERSIDAD DE CHILE
Función de distribución acumulada
Función de Distribución Acumulada (fda) de una variable aleatoria
Z:
Está definida para todos los valores de z
Puede ser una función discontinua
y
es una función no-decreciente
Esta fórmula entrega el área bajo la función de densidad de
probabilidad de la variable aleatoria Z, y equivale a la
probabilidad de que la variable aleatoria Z sea menor o igual a un
valor de corte z.
Probabilidad acumulada
Función de distribución acumulada
La probabilidad de superar cualquier valor de corte z se
escribe:
La probabilidad de que Z pertenezca a un intervalo [a,b] (donde
b>a) es la diferencia entre los valores de la función de
distribución acumulada evaluada en los puntos b y a:
MI54A EVALUACIÓN DE YACIMIENTOS – UNIVERSIDAD DE CHILE
Función de distribución acumulada
Teorema: (importante para entender porqué la simulación de
Monte-Carlo funciona):
Sea Z una variable aleatoria con función de distribución acumulada
continua y definamos la variable aleatoria Y como . Entonces Y está
distribuida uniformemente entre 0 y 1, es decir,
MI54A EVALUACIÓN DE YACIMIENTOS – UNIVERSIDAD DE CHILE
Función de densidad de probabilidad
La función de densidad de probabilidad (fdp) es la derivada de la
fda, si es derivable:
La fda se obtiene integrando la fdp:
MI54A EVALUACIÓN DE YACIMIENTOS – UNIVERSIDAD DE CHILE
Función de densidad de probabilidad
Propiedades de la función de densidad de probabilidad:
f(z) 0
Gráfico de probabilidad acumulativo
Permite ver todos los datos en un gráfico, reconocer y separar
poblaciones estadísticas
Permite también detectar valores extremos
Puede usarse para verificar modelos de distribución:
Línea recta en escala aritmética distribución normal
Línea recta en escala logarítmica distribución lognormal
Pequeñas divergencias pueden ser importantes (especialmente en los
extremos)
MI54A EVALUACIÓN DE YACIMIENTOS – UNIVERSIDAD DE CHILE
Valores extremos
¿Qué hacer con ellos?:
Clasificarlos en poblaciones estadísticas separadas
Usar estadísticas robustas, que son menos sensibles a los valores
extremos: mediana, coeficiente de correlación de posición
Transformar los datos para reducir su influencia
Bajarlos a un máximo “razonable”
Outliers: Observaciones que parecen no pertenecer a la misma
población constituida por el resto de los datos. Generan
considerables problemas al aplicar regresión, debido a que tienen
un efecto desproporcionado sobre los valores estimados
Se puede eliminar los datos considerados extremos (outliers) sólo
si se ha comprobado que están errados. En caso de ser datos
verdaderos, proveen información que puede ser crítica para la
respuesta del modelo.
MI54A EVALUACIÓN DE YACIMIENTOS – UNIVERSIDAD DE CHILE
Suavizamiento de distribuciones experimentales
Pocos datos: estadísticas y gráficos erráticos
Suavizamiento de la distribución experimental permite reducir las
fluctuaciones, aumentar la resolución de clases y extender la
distribución mas allá de los valores mínimo y máximo de la
muestra
Técnicas de suavizamiento más flexibles (programación cuadrática)
se han aplicado para suavizar histogramas y gráficos de dispersión:
mantienen las estadísticas de la muestra.
MI54A EVALUACIÓN DE YACIMIENTOS – UNIVERSIDAD DE CHILE
Momentos
Esperanza: (primer momento) es un promedio ponderado por las
probabilidades, si existe. Da una idea del centro de la
distribución
Caso discreto
wi = probabilidad de ocurrencia
Momentos
Propiedades de la esperanza:
La varianza (segundo momento centrado). Nos da una idea de la
dispersión de la distribución de la variable aleatoria Z. Se define
como la esperanza de la desviación de Z respecto de su media al
cuadrado:
MI54A EVALUACIÓN DE YACIMIENTOS – UNIVERSIDAD DE CHILE
Momentos
Momentos
La varianza es una medida de la dispersión de los datos en torno a
la media.
Propiedades de la varianza
La desviación estándar, , que es la raíz cuadrada de la varianza,
también es una medida de la variabilidad de los datos respecto a la
media. Se escribe en las mismas unidades de la variable.
El coeficiente de variación (CV), que es adimensional, es la razón
entre la desviación estándar y la media (s/m).
MI54A EVALUACIÓN DE YACIMIENTOS – UNIVERSIDAD DE CHILE
Distribución Uniforme
Distribución Dirac
fda
fdp
Momentos:
Distribución Normal (Gaussiana)
La distribución Gaussiana queda completamente caracterizada por dos
parámetros, la media m y la varianza 2:
La fdp normal estándar tiene una media de cero y una desviación
estándar de uno:
MI54A EVALUACIÓN DE YACIMIENTOS – UNIVERSIDAD DE CHILE
Distribución Normal (Gaussiana)
La fda de la distribución gaussiana G(z) no tiene una expresión
analítica simplificada, pero la fda normal estándar Go(z) está
tabulada en la literatura:
Si y definimos: , entonces:
La media y mediana son iguales
La fdp g(m+z) = g(m-z)
0
2
4
6
8
10
12
14
16
0.00
0.05
0.10
0.15
0.20
0.25
0.30
0.35
0.40
g(z)
z
95 %
2.5%
2.5%
Distribución Lognormal
Si Z es una variable aleatoria cuyo logaritmo está distribuido como
una normal, entonces Z tiene distribución lognormal.
Muy interesante en Ciencias de la Tierra
Distribución sesgada hacia la derecha (cola larga de valores
altos): asimétricas
0
2
4
6
8
10
0.00
0.05
0.10
0.15
0.20
0.25
0.30
0.35
g(z)
z
0
2
4
6
8
10
0.0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1.0
z
G(z)
Distribución Lognormal
Las distribuciones lognormales también se caracterizan por dos
parámetros: media y varianza. Sin embargo, pueden caracterizarse ya
sea por los parámetros aritméticos (m y 2) o por los parámetros
logarítmicos ( y 2).
La fda y fdp lognormal se expresan mas fácilmente en función de sus
parámetros logarítmicos:
Las relaciones entre los parámetros aritméticos y logarítmicos
son:
MI54A EVALUACIÓN DE YACIMIENTOS – UNIVERSIDAD DE CHILE
Combinación de distribuciones
De la combinación de distribuciones resulta una nueva
distribución.
F(z) =kkF'k(z) es un modelo de distribución si las F'k(z) son
funciones de distribución y si los k son positivos y suman 1.
Codificación disyuntiva de un histograma experimental de datos z1,
z2… zn:
Una suma de n distribuciones Dirac de parámetros zi e igual
amplitud 1/n
MI54A EVALUACIÓN DE YACIMIENTOS – UNIVERSIDAD DE CHILE
Teorema del Límite Central
La suma o la media de un gran número de variables aleatorias
estandarizadas independientes igualmente distribuidas (no
necesariamente Gaussianas) tiende a distribuirse en forma normal.
Es decir, si n variables aleatorias Zi tienen la misma fda y medias
m, su media tiende hacia una fda normal, cuando n tiende a
infinito.
Corolario: el producto de un gran número de variables aleatorias
positivas, independientes e idénticamente distribuidas tiende a
distribuirse en forma lognormal
MI54A EVALUACIÓN DE YACIMIENTOS – UNIVERSIDAD DE CHILE
Distribución bivariable
Función de densidad de probabilidad conjunta: de R2 en R es la
función de densidad de probabilidad conjunta del vector aleatorio
bivariable (Z1,Z2) si para cada :
1598.unknown
Distribución bivariable
Distribuciones marginales (univariables):
MI54A EVALUACIÓN DE YACIMIENTOS – UNIVERSIDAD DE CHILE
Distribución bivariable
Distribución bivariable
El momento de segundo orden de una distribución bivariable es la
covarianza, definida como:
La covarianza entre la variable y ella misma es su varianza:
Cov{Z1,Z2} = Var{Z1}; Cov{Z2,Z2} = Var{Z2}
El coeficiente de correlación entre dos variables se define como la
covarianza estandarizada por las desviaciones estándar:
MI54A EVALUACIÓN DE YACIMIENTOS – UNIVERSIDAD DE CHILE
Distribución multivariable
Caracteriza cómo se distribuyen conjuntamente las distintas
variables aleatorias
Se utiliza para describir la distribución de los valores de la
variable regionalizada en el espacio, al considerar el conjunto de
las variables aleatorias en el dominio de interés:
MI54A EVALUACIÓN DE YACIMIENTOS – UNIVERSIDAD DE CHILE
Noción de función aleatoria
Función Aleatoria: el conjunto de las variables aleatorias en un
dominio:
La variable regionalizada es una realización
de una función aleatoria
Es importante caracterizar cómo se correlacionan estas variables
aleatorias, de modo de modelar la continuidad espacial de los
valores de la variable regionalizada
→ “análisis variográfico”
Noción de función aleatoria
{
}
Ejemplo de distribuciones en filas horizontales
La media corresponde a la de la línea MN de regresión
s
Z1/Z2
2
de la línea KL de regresión
s
Z2/Z1
2
1