GEOESTADÍSTICATarea

GEOESTADÍSTICA Tarea#4Mino Alonso Hugo Cesar

Tipos y usos de los papeles de probabilidadEl empleo de papel probabilístico normal, propuesto por Daniel (1959), es una herramienta

muy útil para distintos fines: comprobar la distribución que siguen los datos de una variable

aleatoria continua, evaluar los efectos significativos en un diseño de experimentos mediante

lo que se denomina Plot de Daniel, o bien en sistemas de control de calidad.

Objetivos del ppn

• Construir la gráfica del papel probabilístico a partir de un conjunto de datos de la variable

observada.

• Detectar el tipo de distribución que siguen las variables a partir de la representación en

papel probabilístico.

• Identificar datos anómalos.

• Estimar media y desviación típica en el caso de variables normales.

Definición y características del Papel Probabilístico

La representación de los efectos en papel probabilístico normal (ppn) para analizar su

significación estadística (método propuesto por Daniel en 1959) resulta una herramienta

muy útil para analizar la significación estadística de distintos análisis: efectos que pueden

considerarse significativos, tipo de distribución que siguen las variables, presencia de datos

anómalos, etc. Así es recogido en libros clásicos en el ámbito académico como el de Box,

Hunter y Hunter (1978) o el de Montgomery (1997).

Definición y Características

Básicamente consiste en una representación en el

plano de un conjunto de datos, haciendo corresponder

a la abcisa o eje x los valores de los datos de la

variable estudiada, mientras que a la ordenada o eje y,

le hace corresponder el porcentaje de valores en la

muestra que son menores o iguales que el valor

considerado, es decir, la frecuencia relativa

acumulada.

El formato del papel probabilístico (imagen ) es fijo y

como se aprecia, la escala vertical de dicho papel está

modificada al aplicar una pequeña corrección por

continuidad, de manera que si la variable que estamos

representando sigue una distribución normal, la curva

típica de la función de distribución de las variables

normales sufre una especie de “estiramiento” por la parte superior e inferior,

transformándose en una recta. Es decir que cuando los datos que representamos proceden

de una variable que sigue una distribución normal, los puntos correspondientes se sitúan

aproximadamente en torno a una recta (Romero y Zúnica, 2000). En realidad, lo que

hacemos al representar los valores es asumir que siguen una Normal con parámetros sin

determinar, y a la vista de la disposición que adoptan los puntos en el ppn juzgamos

correcta o no la suposición de normalidad. Una vez representados, observamos que algunos

se alinean aproximadamente según una recta que pasa por el punto (0; 0,5), y estos son los

que consideraremos que siguen una distribución normal con media cero. Los otros, los que

se alejan de la recta por los extremos, serán considerados como datos anómalos.

Veamos a continuación como debemos proceder a la hora de representar los datos en papel

probabilístico normal y a continuación veremos un ejemplo de los aspectos típicos de

representaciones de las distintas situaciones con las que nos podemos encontrar.

Los distintos aspectos que pueden aparecernos al representar los datos en papel

probabilístico normal ysu interpretación son los que se muestran a continuación:

a. Presencia de dato anómalo.

Los datos se sitúan aproximadamente en torno

a una recta, pero hay algunos se alejan de ella,

bien en la zona superior derecha, bien en la

zona inferior izquierda.

b. Asimetría Positiva.

Las distribuciones asimétricas positivas presentan un

papel probabilístico con una figura de puntos que

forma una especie de curvatura hacia abajo, como se

muestra en la figura siguiente:

c. Asimetría Negativa.

Las distribuciones asimétricas negativas presentan un

papel probabilístico con una figura de puntos que forma

una especie de curvatura hacia arriba, como se muestra

en la figura siguiente:

d. Mezcla de dos poblaciones.

La mezcla de dos poblaciones con media diferentes,

presenta una forma típica don dos zonas de crecimiento

rápido separado por un tramo de crecimiento lento

(Romero y Zúnica,2000)

Tipos de papel probabilístico:

Papel probabilístico Exponencial Papel probabilístico Normal

Papel probabilístico Log-Normal Papel probabilístico Weibull

Papel probabilístico de Gumbel

Usos del papel probabilístico.

El papel probabilístico constituye una herramienta extremadamente práctica de análisis

estadístico, utilizándose en el estudio de distintos tipos de distribuciones. Una

representación de un conjunto de datos en papel probabilístico hace corresponder a cada

observación un punto en el plano. La abscisa del punto no es más que el valor observado,

mientras que la ordenada corresponde al porcentaje de valores en la muestra que son

menores o iguales que el considerado. (En general se aplica una corrección de continuidad,

de forma que una muestra de tamaño N a la observación i-ésima, una vez ordenadas de

menor a mayor, le corresponde como ordenada, 100(i-0.5)/N.)

Normalidad y LognormalidadLa distribución log-normal se obtiene cuando los logaritmos de una Variable se describen

mediante una distribución normal. Es el caso en el que las variaciones en la fiabilidad de una

misma clase de componentes técnicos se representan considerando la tasa de fallos λ

aleatoria en lugar de una variable constante.

Es la distribución natural a utilizar cuando las desviaciones a partir del valor del modelo

están formadas por factores, proporciones o porcentajes más que por valores absolutos

como es el caso de la distribución normal.

La distribución log-normal tiene dos parámetros: m* (media aritmética del logaritmo de los

datos o tasa de fallos) y σ(desviación estándar del logaritmo de los datos o tasa de fallos).

Propiedades

La distribución log-normal se caracteriza por las siguientes propiedades:

● Asigna a valores de la variable < 0 la probabilidad 0 y de este modo se ajusta a las tasas

y probabilidades de fallo que de esta forma sólo pueden ser positivas.

● Como depende de dos parámetros, según veremos, se ajusta bien a un gran número de

distribuciones empíricas.

● Es idónea para parámetros que son a su vez producto de numerosas cantidades aleatorias

(múltiples efectos que influyen sobre la fiabilidad de un componente).

● La esperanza matemática o media en la distribución log-normal es mayor que su

mediana. De este modo da más importancia a los valores grandes de las tasas de fallo que

una distribución normal con los mismos percentiles del 5% y 50% tendiendo, por tanto, a ser

pesimista. Esta propiedad se puede apreciar en la figura.

Normalidad; Se utiliza para modelar sistemas donde el 70% de los datos muestreados se

encuentran a una distancia inferior de (desviación estándar) del valor promedio , y la

frecuencia de aparición de los datos, se encuentra distribuida simétricamente con respecto

al valor promedio. Un ejemplo para utilizar una función de distribución normal es el

modelado del tiempo de producción de las maquinas, cuando no se considera la posibilidad

de fallos o errores de diversos tipos.

Permanencia de la normalidad y lognormalidad

Es muy útil visualizar las distribuciones de valores, detectar posibles errores y realizar pruebas de normalidad de los datos antes de realizar un análisis más complejo. En estas prácticas se van a trabajar tanto test de normalidad gráficos y numéricos. Los test de normalidad gráficos más utilizados en geoquímica son el histograma, el gráfico Q-Q, el grafico de cajas y bigotes y el papel probabilístico.

El gráfico Q-Q normal representa los datos de la variable frente a los datos esperados si la distribución fuera normal. Si los puntos están cerca de la diagonal podemos decir que la distribución es normal.

Los gráficos de Caja y bigotes se obtienen a partir de la mediana. La caja está definida por el segundo y tercer cuartil, mientras que los bigotes por el primero y el cuarto, por lo que dentro de la caja tenemos el 50 % de los datos de la muestra (mediana). Este tipo de representación es también útil para detectar valores atípicos.

La utilización papel probabilístico ha sido muy utilizado tradicionalmente en el análisis de datos geoquímicos. Se trata de contrastar dos escalas, una es aritmética normal o bien log-normal y la otra escala es probabilística. La escala probabilística está dispuesta de tal forma que una curva de distribución acumulada normal (o log-normal) se proyecta como una línea recta. Este gráfico es bastante sensible a resaltar las distribuciones que se alejan de la normalidad y sirve también para reconocer combinaciones de poblaciones múltiples. Los valores son acumulados desde los valores más bajos a los más altos de este modo quedan resaltados los valores altos.

R trabaja un gráfico probabilístico normal. Para poder estudiar una distribución log-normal es necesario, previamente, transformarlos a valores logarítmicos. El cálculo de valores medios y anómalos es menos intuitivo si se compara con los gráficos probabilísticos normales usados tradicionalmente debido a la transformación logarítmica de los valores.

El test Kolmogorov-Smirnov (K-S) es un test de normalidad numérico cuya hipótesis nula, H0, considera que la distribución de la variable seleccionada proviene de una distribución normal. Por ejemplo, si el nivel de significación o p-valor (Sig.) obtenido en el test K-S es 0.20, entonces para un nivel de significación del 0.05 (lo que está fuera del 95 % de probabilidades) no rechazamos la hipótesis nula, ya que el p-valor es 0.20>0.05. Por tanto, según este test, podemos considerar que la distribución de los datos es normal. En resumen:

Si Sig. (p-valor) > 0.05 aceptamos H0 (hipótesis nula) → distribución normalSi Sig. (p-valor) < 0.05 rechazamos H0 (hipótesis nula) → distribución no normal.

Si una variable tiene un comportamiento log-normal, se tendrá que realizar previamente la transformación logarítmica.

Bibliografia:

MÉTODOS ESTADÍSTICOS EN INGENIERÍA, Rafael Romero Villafranca, Luisa Rosa Zúnica Ramajo, Ed. Universidad Politécnica de Valencia

Martín Pliego, F.J. (2004). Introducción a la Estadística Económica y Empresarial. (Ed.)

Thomson. Madrid.

Mendenhall, W.; Reinmuth, J.E. (1978). Estadística para administración y economía. (Ed.) Grupo

Ed. Iberoamericana. ISBN 968‐7270‐13‐6.

Montgomery, D. C. (1997). Design and Analysis of Experiments. John Wiley

Montiel, A.M.; Rius, F.; Barón F.J. (1997). Elementos básicos de Estadística Económica y

Empresarial. (2ª Ed.) Prentice Hall, Madrid.

Conceptos Básicos de Estadística para Simulación, Dra Idalia Flores de la Mota, Fi Unam, 2011,

1ra Ed.

GEOESTADÍSTICATarea

Documents

Transcript of GEOESTADÍSTICATarea