Download - 008-Formalismo

03 - El Modelo Probabilístico en Geoestadística03 - El Modelo Probabilístico en Geoestadística
Interpretación probabilística
Variables aleatorias
Momentos
Interpretación
Los fenómenos en Ciencias de la Tierra involucran procesos complejos, luego, parecen aleatorios. Sin embargo, los datos verdaderos no son resultado de un proceso aleatorio: se trata solamente de una interpretación por nuestro desconocimiento de la realidad.
El valor de la variable regionalizada en un punto z(u) se interpreta como la realización (outcome) de una variable aleatoria Z(u).
Algunos problemas:
¿Cómo hacer inferencia acerca de la variable aleatoria si sólo disponemos de una realización?
Inferencia y Modelamiento
Variable aleatoria
Variable aleatoria: Una función Z desde un espacio muestreal S en los números reales. Una forma de representar un valor z no muestreado (desconocido). Se denota con letra mayúscula
La variable aleatoria Z puede tomar cualquier valor dado por su distribución de probabilidad. Ésta modela la incertidumbre respecto a su realización z. La variable puede ser continua o discreta:
Variable continua: puede tomar valores en forma continua entre dos valores dados: ley, densidad, concentración, precio,...
Variable discreta o categórica: pertenece a una clase.
Ejemplo: códigos de litología
MI54A EVALUACIÓN DE YACIMIENTOS – UNIVERSIDAD DE CHILE
Función de distribución acumulada
Función de Distribución Acumulada (fda) de una variable aleatoria Z:
Está definida para todos los valores de z
Puede ser una función discontinua
y
es una función no-decreciente
Esta fórmula entrega el área bajo la función de densidad de probabilidad de la variable aleatoria Z, y equivale a la probabilidad de que la variable aleatoria Z sea menor o igual a un valor de corte z.
Probabilidad acumulada
La probabilidad de superar cualquier valor de corte z se escribe:
La probabilidad de que Z pertenezca a un intervalo [a,b] (donde b>a) es la diferencia entre los valores de la función de distribución acumulada evaluada en los puntos b y a:
Teorema: (importante para entender porqué la simulación de Monte-Carlo funciona):
Sea Z una variable aleatoria con función de distribución acumulada continua y definamos la variable aleatoria Y como . Entonces Y está distribuida uniformemente entre 0 y 1, es decir,
Función de densidad de probabilidad
La función de densidad de probabilidad (fdp) es la derivada de la fda, si es derivable:
La fda se obtiene integrando la fdp:
Función de densidad de probabilidad
Propiedades de la función de densidad de probabilidad:
f(z) 0
Gráfico de probabilidad acumulativo
Permite ver todos los datos en un gráfico, reconocer y separar poblaciones estadísticas
Permite también detectar valores extremos
Puede usarse para verificar modelos de distribución:
Línea recta en escala aritmética distribución normal
Línea recta en escala logarítmica distribución lognormal
Pequeñas divergencias pueden ser importantes (especialmente en los extremos)
Valores extremos
¿Qué hacer con ellos?:
Clasificarlos en poblaciones estadísticas separadas
Usar estadísticas robustas, que son menos sensibles a los valores extremos: mediana, coeficiente de correlación de posición
Transformar los datos para reducir su influencia
Bajarlos a un máximo “razonable”
Outliers: Observaciones que parecen no pertenecer a la misma población constituida por el resto de los datos. Generan considerables problemas al aplicar regresión, debido a que tienen un efecto desproporcionado sobre los valores estimados
Se puede eliminar los datos considerados extremos (outliers) sólo si se ha comprobado que están errados. En caso de ser datos verdaderos, proveen información que puede ser crítica para la respuesta del modelo.
Suavizamiento de distribuciones experimentales
Pocos datos: estadísticas y gráficos erráticos
Suavizamiento de la distribución experimental permite reducir las fluctuaciones, aumentar la resolución de clases y extender la distribución mas allá de los valores mínimo y máximo de la muestra
Técnicas de suavizamiento más flexibles (programación cuadrática) se han aplicado para suavizar histogramas y gráficos de dispersión: mantienen las estadísticas de la muestra.
Momentos
Esperanza: (primer momento) es un promedio ponderado por las
probabilidades, si existe. Da una idea del centro de la distribución
Caso discreto
wi = probabilidad de ocurrencia
Momentos
Propiedades de la esperanza:
La varianza (segundo momento centrado). Nos da una idea de la dispersión de la distribución de la variable aleatoria Z. Se define como la esperanza de la desviación de Z respecto de su media al cuadrado:
Momentos
Momentos
La varianza es una medida de la dispersión de los datos en torno a la media.
Propiedades de la varianza
La desviación estándar, , que es la raíz cuadrada de la varianza, también es una medida de la variabilidad de los datos respecto a la media. Se escribe en las mismas unidades de la variable.
El coeficiente de variación (CV), que es adimensional, es la razón entre la desviación estándar y la media (s/m).
Distribución Uniforme
Distribución Dirac
fda
fdp
Momentos:
Distribución Normal (Gaussiana)
La distribución Gaussiana queda completamente caracterizada por dos parámetros, la media m y la varianza 2:
La fdp normal estándar tiene una media de cero y una desviación estándar de uno:
Distribución Normal (Gaussiana)
La fda de la distribución gaussiana G(z) no tiene una expresión analítica simplificada, pero la fda normal estándar Go(z) está tabulada en la literatura:
Si y definimos: , entonces:
La media y mediana son iguales
La fdp g(m+z) = g(m-z)
0
2
4
6
8
10
12
14
16
0.00
0.05
0.10
0.15
0.20
0.25
0.30
0.35
0.40
g(z)
z
95 %
2.5%
2.5%
Distribución Lognormal
Si Z es una variable aleatoria cuyo logaritmo está distribuido como una normal, entonces Z tiene distribución lognormal.
Muy interesante en Ciencias de la Tierra
Distribución sesgada hacia la derecha (cola larga de valores altos): asimétricas
0
2
4
6
8
10
0.00
0.05
0.10
0.15
0.20
0.25
0.30
0.35
g(z)
z
0
2
4
6
8
10
0.0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1.0
z
G(z)
Distribución Lognormal
Las distribuciones lognormales también se caracterizan por dos parámetros: media y varianza. Sin embargo, pueden caracterizarse ya sea por los parámetros aritméticos (m y 2) o por los parámetros logarítmicos ( y 2).
La fda y fdp lognormal se expresan mas fácilmente en función de sus parámetros logarítmicos:
Las relaciones entre los parámetros aritméticos y logarítmicos son:
Combinación de distribuciones
De la combinación de distribuciones resulta una nueva distribución.
F(z) =kkF'k(z) es un modelo de distribución si las F'k(z) son funciones de distribución y si los k son positivos y suman 1.
Codificación disyuntiva de un histograma experimental de datos z1, z2… zn:
Una suma de n distribuciones Dirac de parámetros zi e igual amplitud 1/n
Teorema del Límite Central
La suma o la media de un gran número de variables aleatorias estandarizadas independientes igualmente distribuidas (no necesariamente Gaussianas) tiende a distribuirse en forma normal. Es decir, si n variables aleatorias Zi tienen la misma fda y medias m, su media tiende hacia una fda normal, cuando n tiende a infinito.
Corolario: el producto de un gran número de variables aleatorias positivas, independientes e idénticamente distribuidas tiende a distribuirse en forma lognormal
Distribución bivariable
Función de densidad de probabilidad conjunta: de R2 en R es la función de densidad de probabilidad conjunta del vector aleatorio bivariable (Z1,Z2) si para cada :
1598.unknown
Distribuciones marginales (univariables):
El momento de segundo orden de una distribución bivariable es la covarianza, definida como:
La covarianza entre la variable y ella misma es su varianza:
Cov{Z1,Z2} = Var{Z1}; Cov{Z2,Z2} = Var{Z2}
El coeficiente de correlación entre dos variables se define como la covarianza estandarizada por las desviaciones estándar:
Distribución multivariable
Caracteriza cómo se distribuyen conjuntamente las distintas variables aleatorias
Se utiliza para describir la distribución de los valores de la variable regionalizada en el espacio, al considerar el conjunto de las variables aleatorias en el dominio de interés:
Noción de función aleatoria
Función Aleatoria: el conjunto de las variables aleatorias en un dominio:
La variable regionalizada es una realización
de una función aleatoria
Es importante caracterizar cómo se correlacionan estas variables aleatorias, de modo de modelar la continuidad espacial de los valores de la variable regionalizada
→ “análisis variográfico”
Noción de función aleatoria
{
}
Ejemplo de distribuciones en filas horizontales
La media corresponde a la de la línea MN de regresión
s
Z1/Z2
2
de la línea KL de regresión
s
Z2/Z1
2
1