Tesis - Copia

110
Universidad de Santiago de Chile Facultad de Ciencia Departamento de Matem´ atica y Ciencia de la Computaci´ on Ingenier´ ıa Estad´ ıstica Skew Mezcla Escala de Normales: Enfoque Bayesiano Segundo Avance Alumno: Nicol´ as Lizama Profesor Guia: Francisco Torres A. Comisi´ on Evaluadora: Reinaldo Arellano V. Victor Salinas T. Francisco Torres A . Fecha: 1 de Septiembre de 2014

description

Skew Mezcla Escala de Normales enfoque bayesiano

Transcript of Tesis - Copia

  • Universidad de Santiago de ChileFacultad de Ciencia

    Departamento de Matematica y Ciencia de la ComputacionIngeniera Estadstica

    Skew Mezcla Escala de Normales:Enfoque Bayesiano

    Segundo Avance

    Alumno: Nicolas LizamaProfesor Guia: Francisco Torres A.Comision Evaluadora: Reinaldo Arellano V.

    Victor Salinas T.Francisco Torres A .

    Fecha: 1 de Septiembre de 2014

  • Indice General

    i

  • Indice de Ilustraciones

    ii

  • Indice de Tablas

    iii

  • Resumen

    El Fondecyt 11110119 presente proyecto de tesis busca responder, en primer lugar, en que sentido las mezclasde escala de la distribucion Skew-Normal extienden la distribucion Skew-Normal de Azzalini .

    En segundo lugar, se estudia el enfoque teorico de la distribucion Skew Normal, en sus versiones univariada ymultivariada, ademas de las extensiones de mezclas que se generan a partir de ella.

    Se proponen condiciones necesarias y suficientes sobre los parametros del modelo Skew Normal Univariado, SkewSlash normal, Skew T Normal; y las respectivas extensiones de estas, Skew Normal Slash y Skew Normal T, conel fin de obtener un algoritmo de simulacion adecuado va MCMC, especficamente el metodo de Gibbs Sampling.

    En tercer lugar, se considera la inferencia Bayesiana para los parametros de localizacion, escala y asimetra ygrados de libertad, de la distribucion Skew-normal y las extensiones de las mezclas de la Skew normal, respecti-vamente, asumiendo distribuciones a priori. Representaciones estocasticas de las distribuciones Skew T Normaly Skew Slash Normal, bajo ciertas especificaciones.

    Se desarrolla los momentos de los modelos Skew -Normal, Skew-Normal-Multivariado,Skew-T-Normal y Skew-Slash-Normal.

    Se propone una conveniente representacion jerarquica de estos modelos, realizando el analisis de las distribucio-nes a posteriori, involucrando enlaces que permiten hacer la jerarqua de las variables, realizando un estudio desimulacion de cada modelo e ilustrando los resultados con un conjunto de datos reales aplicados a terremotosen Chile durante el periodo comprendido 2010-2012 y un clasico de la literatura estadstica la altura de losvolcanes utilizados por Tukey(1977).

    iv

  • Captulo 1

    Introduccion

    El estudio de modelos estadsticos que introducen parametros que representan asimetra y curtosis ha sido elfoco de atencion de la investigacion estadstica en estos ultimos anos.

    Esta tendencia se justifica toda vez que algun conjunto de datos, en diferentes areas de la ciencia como la me-dicina, biologa, economa o finanzas, presentan evidencias de sesgo o colas pesadas en su funcion de distribucion .

    Muchos de estos modelos se generan a partir de funciones de densidad de variables aleatorias con distribucionsimetrica que son multiplicadas por otras funciones, llamadas funciones de asimetra, las cuales dependen deciertos parametros. Otros tantos se generan a partir de la reduccion por condicionamiento de una funcion dedensidad conjunta simetrica.

    El ejemplo mas popular de este tipo de modelos encontrado en la literatura estadstica, es la distribucionSkew-Normal introducida por Azzalini [?] en 1985, la cual ha sido estudiada ampliamente desde la perspectivabayesiana y clasica.

    Por otra parte los modelos estadsticos construidos a partir de mezclas de distribuciones skew-simetricas permi-ten generar una subclase de distribuciones que presenta mayor flexibilidad tanto en asimetra como en curtosis,que otras distribuciones skew-simetricas, ejemplo de esto es la distribucion creada por ; Gomez, Venegas y Bol-farine. [?] (2007) quienes introdujeron la distribucion skew t-Student normal , demostrando que es una buenaalternativa a los modelos con colas pesadas de datos con un fuerte caracter natural asimetrico, especialmenteporque tiene un rango mas amplio de la asimetra que otras versiones asimetricas tradicionales de las distribu-ciones normales o t-student.

    Ademas Wang y Genton (2006) introducen una distribucion sesgada multivariante de la distribucion slash; lacual es una extension de la distribucion slash propuesta por Rogers y Tukey (1972), a menudo se aprecia comouna distribucion difcil de abordar para un procedimiento estadstico practico. La distribucion skew-slash mul-tivaraiada demuestra una gran flexibilidad, que es generada a partir de la skew normal; por consecuencia, sepuede utilizar en estudios de simulacion engorrosos, ademas de ser una distribucion robusta, esta distribuciongarantiza ser una buena opcion a la hora de modelar tasas, proporciones y datos atpicos.

    1

  • Captulo 1

    Segun lo planteado por Dalla-Valle (2004), en el caso practico la distribucion Skew Normal, como una genera-lizacion de la ley normal, representa una eleccion natural cuando se presenta una cierta asimetra, ademas deser matematicamente tratable, y con un gran numero de propiedades en comun con la distribucion normal usual.

    Resulta logico pretender aplicar la teora a un problema de la vida real, cabe senalar que muchas veces la com-plejidad teorica o la naturaleza de los datos no permitan aplicar esta teora, por lo que una forma de mitigaresta incertidumbre es realizar un estudio de simulacion previamente, para luego aplicar los modelos a un casopractico como son los Sismos en Chile y la altura de Volcanes.

    1.1. Objetivo General

    Establecer una metodologa Bayesiana que permita abordar las distribuciones mezcla generadas a partirde la distribucion Skew-Normal a traves de metodos de simulacion.

    1.2. Objetivos Especficos

    Estudiar detalladamente la distribucion skew normal univariada y multivariada.

    Estimar los parametros de los respectivos nuevos modelos.

    Encontrar las distribuciones a priori asociadas a estos modelos.

    Establecer un modelo jerarquico para las distribuciones derivadas de la skew-normal, que permita gene-rarlas.

    Implementar el muestreo de Gibbs (Gibbs Sampling) con el objetivo de obtener el analisis a posteriori delmodelo.

    Abordar computacionalmente los modelos, va simulacion a traves del metodo MCMC, revisando susdiagnosticos de convergencia.

    Aplicacion del modelo con datos reales, que presenten asimetra, como la escala Richter de los Sismosocurridos en Chile durante 2010-2012, en conjunto con la altura de volcanes en el mundo. .

    2

  • Captulo 1

    1.3. Metodologa

    La metodologa a desarrollar en este estudio se resume en los siguientes puntos:

    Revision bibliografica referente al modelo skew normal, se realiza un analisis de su version univariada ymultivariada.

    Revision bibliografica de las mezclas generadas a partir de la distribucion skew.normal, en especial de ladistribucion skew t normal.

    Encontrar distribuciones adecuadas y pertinentes para los parametros asociados al modelo.

    Explorar una nueva distribucion Skew Slash Normal, calculando los momentos de esta.

    Establecer modelos jerarquicos, que permitan abordar las distribuciones, aplicando el algoritmo de GibbsSampling a las distribuciones condicionales completas, el cual permitira simular las distribuciones.

    Explicar a a traves de estas jerarquas la generacion de las extensiones de estas mezclas, las cuales tienenla caracterstica de obtener la funcion de distribucion acumulada de la distribucion T Student y Slash.

    Aplicar va simulacion el algoritmo de Gibbs Sampling en los software R y Winbugs, para ver como secomportan los parametros asociados a los modelos.

    Aplicacion a Datos Reales, para ver como se comportan los modelos estudiados, donde los datos poseenuna fuerte componente de asimetra.

    1.4. Estructura del informe

    En el Captulo 2 se definiran los elementos preliminares, los cuales permitiran elaborar el marco teorico, el cualpermitira desarrollar y comprender la teora asociada a los modelos skew-normal.

    Por otro lado, en el Captulo 3 se desarrollara la teora con respecto a la distribucion skew normal univariaday multivariada, su parametrizacion habitual, momentos y perfiles de simulacion bayesiana via MCMC, en par-ticular con el metodo Gibbs Sampling.

    En el Captulo 4, se desarrolla el tema principal de este proyecto de tesis, es decir analizar la distribucionskew-t-normal; su extension skew-normal-t, Explorar la distribucion Skew-Slash-Normal y respectiva extensionSkew-Normal-Slash, obteniendo los respectivos momentos particularmente de la distribucion Skew Slash Nor-mal, ademas de establecer propuestas bayesianas va MCMC para sus respectivas simulaciones.

    Sera puntualizada en el Captulo 5 la teora planteada con anterioridad, en un estudio de simulacion de losmodelos propuestos, analizando la convergencia graficamente de los parametros estimados, ademas de aplicarlosa casos reales que son de naturaleza asimetrica.

    Por ultimo en el Captulo 6 se encuentran los Comentarios y Conclusiones referentes al proyecto de tesis realizado.

    3

  • Captulo 2

    Marco Teorico

    2.1. Enfoque Bayesiano

    La principal diferencia entre la teora estadstica clasica y el enfoque bayesiano es que, este ultimo,en terminosgenerales, se basa en suponer que los parametros desconocidos no son fijos, sino que son variables aleatoriasque tienen asociada una cierta distribucion de probabilidad, llamada distribucion a priori, la cual expresa lainformacion a disposicion del investigador antes que cualquier tipo de datos sea involucrado en el analisis es-tadstico. Dicha distribucion establece el grado de incerteza que se tiene sobre el valor real de los parametros ypuede variar desde estimaciones anteriores y actualizarse con la nueva informacion.Sin embargo, hay situacionesen que se puede tener un conocimiento nulo sobre el posible comportamiento de los parametros desconocidos,ante esto, la distribucion a priori sera representada por distribuciones no-informativas.

    La distribucion a priori es combinada con la verosimilitud del modelo para obtener la distribucion a posterioridel parametro de interes, en el cual esta basada la inferencia estadstica Bayesiana.

    Definicion 2.1. Considere que A y B son dos sucesos diferentes, la probabilidad condicional de que ocurra Adado que ya ocurrio B, proporcionada por el teorema de Bayes, viene dada por:

    P (A|B) = P (A B)P (B)

    =P (B|A)P (A)

    P (B) P (B|A)P (A) (2.1)

    Los modelos de regresion basados en la inferencia bayesiana , luego de aplicar la relacion ?? , quedan expresadosde la siguiente forma:

    f(|y) = f(y|) f()f(y)

    f(y|) f() (2.2)

    donde es el vector de parametros desconocidos,f(|y) representa a la distribucion a posteriori, f(y|) =ni=1 f(yi|) corresponde a la funcion de verosimilitud y f() simboliza la distribucion a priori.

    Usualmente se utiliza como estimador puntual a la esperanza condicional de dada la muestra y, llamadoestimador de bayes, el que esta definido como:

    B = E[|y] =

    f(|y)d (2.3)

    4

  • Captulo 2 CAPITULO 2. MARCO TEORICO

    Aplicar este enfoque proporciona la ventaja de utilizar informacion anterior e ir actualizando las distribuciones apriori y posteriori con la informacion nueva, con el fin de hacer mas precisas las estimaciones de los parametros.Sin embargo, la razon principal por la que la teora bayesiana no pudo un punto de apoyo como un enfoque bienaceptado para el analisis de datos cuantitativos fue la dificultad que se presenta en el calculo de la distribuciona posteriori. Los metodos MCMC fueron creados para solucionar este tipo de problemas, ya que establecen yestiman modelos complejos, posibilitando la descripcion y resolucion de problemas que no pueden solventarseempleando los metodos tradicionales(Thisted, 2006)

    2.2. Metodos MCMC

    Los metodos MCMC (Markox Chain Monte Carlo) son unas de las tecnicas mas eficientes para poder simulardatos provenientes de una distribucion, siendo una herramienta potente para el estudio de modelos con unaalta complicacion. Esto ha contribuido a la propagacion de la teora bayesiana, ya que estos metodos estimaneficazmente la distribucion a posteriori que se pueda generar. Considerando que una Cadena de markov es unproceso estocastico {(1), (2), ......, (T )}, por lo tanto sea:

    f((t+1)|(1), ......, (t)) = f((t+1)|(t)) (2.4)

    Es decir la distribucion de (t+1) solo depende de (t) , ademas f((t+1)|(t)) es independiente del tiempo t.Por lo que finalmente cuando la cadena de Markov es irreducible, aperiodica y recursivamente positiva, es decirergodica; haciendo quet, la distribucion de t converge a una distribucion estacionaria e independiente delvalor inicial 0 (Thisted, 2006)

    El algoritmo general es:

    1. Seleccionar un valor inicial (0)

    2. Generar T valores hasta alcanzar la distribucion de equilibrio.

    3. Monitorear la convergencia, si esta no es alcanzada, generar mas observaciones.

    4. Eliminar (Quemar ) las primeras B observaciones.

    5. Considerar a {(B+1), (B+2), ......., (T )} como la muestra para posteriores analisis6. Graficas las distribuciones a posteriori, especficamente en las distribuciones marginales.

    7. Obtener Resumenes y Medidas de tendencia central de las distribuciones a posteriori; esto es , mediamediana, cuantiles, desviacion estandar, correlaciones.

    La muestra obtenida no es independiente, por lo tanto se realiza un muestreo sis-tematico a L intervalos a partir de (B+1) para obtener muestras independientes de la distribucion, controlandolas autocorrelaciones. De este modo, podemos realizar analisis sobre la muestra obtenida.

    Existen diversas formas de simular los valores de , los mas conocidos algoritmos basados en los metodos MCMC,son el algoritmo Metropolis-Hasting y Gibbs Sampling.

    5

  • Captulo 2 CAPITULO 2. MARCO TEORICO

    6

  • Captulo 2 CAPITULO 2. MARCO TEORICO

    2.2.1. Algoritmo Metropolis Hastings

    Este algoritmo construye una cadena de Markov apropiada definiendo las probabilidades de transicion de lasiguiente manera:

    Sea Q(|) una distribucion de transicion (arbitraria) y definamos:

    y definamos ;

    (, ) = min{p(|)Q(|)

    p(|)Q(|) , 1} (2.5)

    Algoritmo. Dado un valor inicial (0), la i -esima iteracion consiste en:

    1. Generar una observacion de Q(|(t)).2. generar una variable u U(0, 1).3. si u (, (t)), hacer (t+1) = ; en caso contrario, hacer (t+1) = (t).

    Este procedimiento genera una cadena de Markov con distribucion de transicion

    P ((t+1)|(t)) = ((t+1), (t))Q((t+1)|(t)) (2.6)

    La probabilidad de aceptacion (, ) solo depende de p(|x) a traves de un cociente, por lo que la constantede normalizacion no es necesaria.

    Dos casos particulares utilizados comunmente en la practica son:

    Caminata aleatoria. Sea Q(|) = Q1( ), donde Q1() es una densidad de probabilidad simetrica cen-trada en el origen. Entonces

    (, ) = mn{p(|x)

    p(|x) , 1} (2.7)

    Independencia. Sea Q(|) = Q0(), donde Q0() es una densidad de probabilidad sobre . Entonces

    (, ) = mn{()

    (), 1} (2.8)

    donde:

    () =p(|x)Q0()

    En la practica es comun utilizar, despues de una reparametrizacion apropiada, distribuciones de transicion nor-males o t Student ligeramente sobredispersas.

    7

  • Captulo 2 CAPITULO 2. MARCO TEORICO

    2.2.2. Algoritmo Gibbs Sampling

    El muestreo de Gibbs o Gibbs Sampler fue originalmente propuesto por Geman y Geman (1984) en el contex-to de procesos espaciales que involucran una gran cantidad de variables, por ejemplo, reconstruccion de imagenes.

    Se obtiene como una extension del algoritmo de datos aumentados en cadena al caso multivariado. En un con-texto general, si pi(x) es la densidad de interes, donde x = (x1, x2, ...., xd):

    Algoritmo comienza iniciando de i = 0:

    (1) Genere x(i+1)1 p(x1|x(i)2 , ......., x(i)d )

    (2) Genere x(i+1)2 p(x2|x(i)1 , x(i)3 , ......., x(i)d )

    ...

    (d) Genere x(i+1)d p(xd|x(i)1 , x(i)2 , ......., x(i)d1)

    Si pi corresponde a una densidad a posteriori, digamos p(|Y ), con = (1, ....., d) entonces se aplica el mismoalgoritmo anterior, pero reemplazando

    p(xj |x(i+1)1 , x(i+1)j1 , x(i)j+1......., x(i)d ) (2.9)

    por

    p(j |(i+1)1 , (i+1)j1 , (i)j+1......., (i)d )

    En cada una de las etapas 1 hasta d.

    La secuencia de vectores simulados x(0), x(1), x(2), ....... forma una cadena de Markov y entre otros, tenemos elsiguiente resultado

    1

    k

    ki=1

    f(x(i) c.s

    Epi(f(x)) =

    f(x)pi(x)dx (2.10)

    Por otra parte es posible demostrar que si pi(x) es positiva en todo su dominio, entonces la distribucion conjun-tan queda unicamente determinada por las d distribuciones condicionales:

    p(x1|x2, ....., xd), p(x2|x1, x3, ....., xd), ........, p(xd|x1, ....., xd1) (2.11)

    8

  • Captulo 2 CAPITULO 2. MARCO TEORICO

    2.3. Error de Montecarlo

    El error de montecarlo es una medicion de la variabilidad de las estimaciones la cual es generada a traves delas simulaciones, mientras menor sea su valor mas precisas seran sus estimaciones. Este metodo se relacionadirectamente con el numero de iteraciones, por lo que es esperado que un numero adecuado de iteraciones,produzca un error de montecarlo pequeno.

    2.4. Diagnosticos de Convergencia

    Aun el mas simple de los metodos numericos puede producir resultados espureos si se es suficientemente des-cuidado en su uso... Esta situacion ciertamente no mejora para metodos basados en Cadenas de Markov, losque debieran usarse con cautela Hastings (1970).

    Estos Diagnosticos deben tomarse como indicativos de determinado tipo de comportamiento de la cadena deMarkov.

    Existen varios tipos de Diagnosticos entre los cuales se encuentran : el tipo de convergencia a la distribucionestacionaria, convergencia de medias ergodicas; convergencia al muestreo i.i.d de la cadena, lo que depende dela motivacion para usar MCMC. Hay ademas diagnosticos de tipo grafico y otros de tipo cuantitativo.

    En muchos casos es posible una cadena de Markov larga o varias cadenas mas cortas.

    2.4.1. Diagnosticos Graficos

    El procedimiento basico de este tipo de diagnostico es descartar parte inicial de la cadena de Markov (perodopara quemar iteraciones) hasta alcanzar estacionariedad implica que la cadena de Markov converga aproxi-madamente a la distribucion estacionaria.

    Grafico de X(j) vs. j o de autocorrelaciones puede ayudar a detectar falta de estacionariedad.

    Por otra parte un metodo intuitivo es el que monitorea graficos CUSUM, que establece;

    1

    i

    ij=1

    g(X(j)) vs i

    o equivalentemente

    1

    i

    ij=1

    ((X(j)) gn) vs i

    para cadenas de largo n;

    Sin embargo este metodo tiene dos caractersticas importantes:

    Resultados pueden ser enganosos: la moda principal podra actuar como atractor de la cadena de Markovque implica una exploracion de pi inapropiada.

    9

  • Captulo 2 CAPITULO 2. MARCO TEORICO

    Conviene simular varias cadenas markovianas en paralelo, usando una distribucion de X(0) dispersa yluego compararlas.

    2.4.2. Diagnosticos Cuantitativos

    2.4.2.1. Gelman y Rubin (1992)

    Se basa en el analisis de multiples simulaciones, evaluando las varianzas entre ellas, donde una valor grandede la varianza indica la no estacionaridad de la cadena, para esto proponen analizar m Cadenas de Markov enparalelo, de largo n cada una :

    i,j i = 1, ...,m; j = 1, ...n

    i,j : cantidad escalar de interes con

    Definamos:

    i =1

    n

    nj=1

    i,j (2.12)

    .. =1

    n

    nj=1

    i (2.13)

    S2i =1

    n 1nj=1

    (ij i.)2 (2.14)

    B =n

    m 1mi=1

    (i. ..)2 (2.15)

    Donde ?? es la variacion entre cadenas

    W =1

    m

    mi=1

    S2i (2.16)

    Donde ?? representa la variacion dentro de las cadenas

    Por lo cual La ecuacion queda representada:

    V =n 1n

    W +1

    nB (2.17)

    R =

    V

    W(2.18)

    R :razon entre la cota superior e inferior de la desviacion estandar de .

    10

  • Captulo 2 CAPITULO 2. MARCO TEORICO

    En general R > 1, y R 1 a medida que la simulacion converge.Si valores de R son > 1,1 o 1,2 conviene continuar la simulacion.

    2.4.2.2. Geweke (1992)

    Este metodo Divide la cadena en dos partes, por lo que compara el comportamiento de la Cadena de Markovjusto despues de alcanzar equilibrio, y hacia el final del proceso.

    Sea t0: numero de elementos a descartar y n: largo de la cadena ,

    Donde,

    gna =1

    na

    t0+naj=t0+1

    g(X(j)) (2.19)

    gnb =1

    nb

    nj=nnb+1

    g(X(j)) (2.20)

    Con varianzas estimadas S2a S2b , Geweke, Analiza:

    4 = gna bargnbS2a/naS2b/nb

    (2.21)

    Que asintoticamente en n, fijando na/n y nb/n tiene distribucion N(0, 1).

    Por lo tanto si 4 es grande se debe seguir iterandoGeweke recomienda usar na = n/10 y nb = n/2.

    Este Metodo podra indicar convergencia en el caso que la cadena este atrapada en una moda local.

    Observaciones:

    1. En la practica se suele generar un numero pequeno de iteraciones de ( 35) de cadenas paralelas alelas, yaplicar criterios de Geweke y Gelman y Rubin

    2. Ninguno de estos criterios garantiza convergencia (pero son indicadores confiables).

    11

  • Captulo 2 CAPITULO 2. MARCO TEORICO

    2.4.2.3. Raftery y Lewis (1992)

    Este metodo determina el tamano adecuado de la muestra, se basa en una muestra piloto, resuelve la preguntade cuantas iteraciones debe tener la cadena; se resuelve a traves de una dicotomizacion de la cadena de markov.

    El esquema siguiente plantea el algoritmo:

    -x fijo en el soporte de pi(x).

    Zt = I (Xt x)Zt se trata como una cadena markoviana, con matriz de transicion,

    [1 1

    ]y Zt

    LZ con P (Z = 0) = +

    Luego, imponiendoP (Zt0 = i|Z0 = j) P (Z = i) < , con i, j = 0, 1 se tiene;

    Elementos a eliminar,

    t0 log( (+)max(+) )

    log(|1 |)

    Usando ademas aproximacion normal asintotica a la distribucion de T =1T

    t0+Tt=t0

    Z(t) se tiene con (y) yCDF N(0, 1),

    Tamano de muestra:

    T ((2 )q2(+ )3

    )1

    {1 +

    2

    }

    donde la condicion es que P (T + < q) .

    Consideraciones que se deben tener con este metodo es:

    Se requiere generar la Cadena de Markov (casi) estacionaria para estimar y .

    Metodo es unidimensional y podra no detectar falta de convergencia en una distribucion conjunta.

    Valores extremos de x pueden invalidar resultados.

    Si los parametros y ya se han estimado, la regla de parada es automatica, independiente del modelo,y del algoritmo MCMC empleado

    12

  • Captulo 2 CAPITULO 2. MARCO TEORICO

    2.4.2.4. Heidelberg y Welch (1992)

    El diagnostico Heidelberg y Welch, sin duda es el diagnostico por excelencia que define un buen modelo, este sebasa en calcular un estadstico de prueba (basado en la estadstica de prueba Cramer-von Mises) para aceptar orechazar la hipotesis nula de que la cadena de Markov proviene de una distribucion estacionaria. . El diagnosticose compone de dos partes:

    Primera Parte

    Generar una cadena de N iteraciones y define un nivel .

    Calcula el estadstico de prueba en toda la cadena. acepta o rechaza la hipotesis nula de que la cadenaproviene de una distribucion estacionaria.

    Si la hipotesis nula es rechazada, se debe quemar el primer 10 % de la cadena. Calcular el estadstico deprueba y aceptar o rechazar la hipotesis nula.

    Si la hipotesis nula es rechazada, queme el siguiente 10 % y realizar el calculo de la estadstica de pruebanuevamente.

    Repetir hasta que la hipotesis nula sea aceptada o el 50 % de la cadena debe ser desechada. Si la pruebasigue rechazando la hipotesis nula, entonces la cadena no pasa la prueba y tiene que ser monitoreada pormas tiempo.

    Segunda Parte Si la cadena pasa la primera parte del diagnostico, entonces se toma la parte de la cadena nodescartada de la primera parte para probar esta segunda parte. La prueba de media anchura calcula la mitadde la anchura de la (1 ) % intervalo de credibilidad en torno a la media. Si la relacion de la media anchuray la media es menor que un valor , a continuacion, la cadena pasa la prueba. De lo contrario, la cadena sedebe ejecutar mas tiempo, el metodo para cada parametro entrega un resultado passed, el cual indica si elparametro paso la prueba de estacionariedad y el test Halfwidth.

    2.5. Seleccion de los Modelos

    2.5.1. Criterio de Informacion Bayesiana

    El criterio de informacion bayesiana, es un criterio para la seleccion de modelos entre un conjunto finito demodelos. Se basa, en parte, de la funcion de probabilidad y que esta estrechamente relacionado con el Criteriode Informacion de Akaike (AIC).

    Cuando el ajuste de modelos, es posible aumentar la probabilidad mediante la adicion de parametros, pero silo hace puede resultar en sobreajuste.

    Tanto el BIC y AIC resuelven este problema mediante la introduccion de un termino de penalizacion para elnumero de parametros en el modelo, el termino de penalizacion es mayor en el BIC que en el AIC.

    Para un modelo k dado, se define BIC(k) ( Criterio de informacion bayesiana de Schwartz, 1978) mediante.

    BIC(k) = 2log(L(X, (k)))mklog(n) (2.22)

    donde L(X, (k)) es la funcion de verosimilitud asociada al modelo, (k) es el EMV de (k) y mk es el numerode parametros independientes a ser estimados en el modelo.

    13

  • Captulo 2 CAPITULO 2. MARCO TEORICO

    Dados dos modelos estimados, el modelo con el menor valor de BIC es el que se prefiere. El BIC es un aumentode la funcion de 2e y una funcion creciente de k. Es decir, la variacion no explicada en la variable dependientey el numero de variables explicativas aumentan el valor de BIC. Por lo tanto, menor BIC implica un numeromenor de variables explicativas, mejor ajuste, o ambos.

    2.5.2. Criterio de Informacion de la Devianza

    El progreso del analisis Bayesiano ha hecho posible ajustar modelos estadsticos complejos lo que implica eldeterminar el modelo que mejor se ajuste de una gran cantidad de posibles candidatos. Por lo tanto, se ha hechocada vez mas necesario e importante el desarrollar criterios que ayuden en la seleccion del modelo mas eficiente.

    Una propuesta hecha por Spiegelhalter, Best y Carlin (2006) es el Deviance Information Criterion (DIC), unaversion o generalizacion bayesiana del muy conocido Criterio de Informacion de Akaike (AIC), el cual se rela-ciona ademas con el Criterio de Informacion Bayesiana (BIC) (Celeux, 2006).

    El DIC se basa en la distribucion a posteriori de la log-verosimilitud. Identi

    ca el numero de parametros en los modelos, lo que es requerido para el calculo del Criterio de InformacionBayesiana y el Criterio de Informacion de Akaike.

    Se asume en general, que la distribucion condicional de los datos y = (y1, ..., yn) depende de un vector deparametros con dimension p. Desde un punto de vista frecuentista, la valoracion del modelo se basa en ladevianza, la diferencia en la log-verosimilitud entre los modelos ajustado y el saturado. El modelo saturado serefiere al modelo con tantos parametros como observaciones, lo que conlleva a un ajuste perfecto de los datos.La distribucion posterior de la devianza clasica para un modelo bayesiano se define por:

    D() = 2logf(y|) + 2logh(y) (2.23)

    donde logh(y) es un termino de estandarizacion que esta en funcion de los datos. Basado en la distribucionposterior de D(), el DIC consiste de dos componentes: un termino que determina la bondad de ajuste y el otrotermino que penaliza el incremento de la complejidad del modelo.

    Entre mayor ajuste existe del modelo a los datos, mayores son los valores de la verosimilitud.D se define comodos veces la log-verosimilitud. El segundo componente cuantifica la complejidad del modelo mediante el numeroefectivo de parametros, pD, definido como la diferencia entre la media posteriori de la desviacion y la desviacionevaluada en la media posteriori de los parametros:

    pD = E|y[D]D(E|y[]

    )= D D ()= E|y[2logf(y|) + 2logf(y|(y))]

    De la expresion anterior puede notarse que pD es el termino que penaliza para verosimilitudes aproximadamentenormales y para informacion a priori difusa. En esta situacion, la media posteriori iguala el estimador de maxi-ma verosimilitud (MLE) , y la distribucion a posteriori de es bien aproximada por una distribucion normalmultivaridada con media igual a el estimador de maxima verosimilitud.

    14

  • Captulo 2 CAPITULO 2. MARCO TEORICO

    |y N(,d2

    d2|=) (2.24)

    Representando la desviacion a traves de una expansion de Taylor de segundo orden alrededor del estimador demaxima verosimilitud, el termino de primer orden desaparece y la desviacion es aproximada por la suma de ladesviacion en el estimador de maxima verosimilitud y un termino cuadratico que sigue una distribucion 2 conp grados de libertad. Al obtener la esperanza, el numero efectivo de parametros iguala a p, el verdadero numerode parametros.

    El Criterio de Informacion de la Devianza (DIC) se define entonces como la suma de ambos componentes antesmencionados.

    DIC = D + pD = 2D D()

    = D()

    + 2pD (2.25)

    En una situacion clasica, el DIC puede ser visto como una generalizacion del conocido Criterio de Informa-cion de Akaike (AIC), el cual se define por AIC = D() + 2p donde es el estimador de maxima verosimilitud(EMV) del vector de parametros y siendo p el numero de parametros. Para modelos no jerarquicos, DIC AIC.

    Muchas veces se utiliza esta notacion para reescribir el BIC Y BCA, a continuacion se muestra la notacion:

    BIC = D + ln(n)pD (2.26)

    BCA = D + 2pD (2.27)

    2.6. Modelamiento Jerarquico

    Bernardo y Smith (1994) mencionan, que en este tipo de modelos que especifican la distribucion f(y|) paralos datos observados Y = (y1, ......, yn) dado un vector de parametros desconocidos = (1, ....., k) suponemosque es una cantidad muestreada aleatoriamente de una distribucion a priori pi(|), donde es un vector dehiperparametros.

    Si es conocido, la inferencia referente a esta basada sobre su distribucion a posteriori .

    p(|y, ) = p(y, |)p(y|) =

    p(y, |)p(y, |)d =

    f(y|)pi(|)f(y|)pi(|)d (2.28)

    Cuando no es conocido se requiere una distribucion de segunda etapa h() la ecuacion queda redefinida como:

    p(|y) = p(y, )p(y)

    =

    f(y|)pi(|)h()df(y|)pi(|)h()dd (2.29)

    15

  • Captulo 3

    Distribucion Skew Normal

    La distribucion skew-normal (SN) o normal sesgada, se refiere a una clase parametrica de distribucion de proba-bilidad que extiende a la distribucion normal mediante un parametro de forma adicional que regula la asimetra,lo que genera una variacion continua de la normalidad a la no-normalidad (Dalla-Valle, 2004).

    La primera propuesta univariada sistematica de la clases SN fue propuesto por Azzalini (1985, 1986); poste-riormente, Azzalini y Dalla-Valle(1996) introdujeron una version multivariada de la distribucion skew normal,mientras que Azzalini y Capitano(1999) analizaron las propiedades probabilistas de la SN multivariada, ademasde examinar sus aspectos estadsticos mas importantes.

    3.1. Distribucion Skew-Normal Univariada

    Definicion 3.1. Sea Z una variable aleatoria con distribucion skew-normal con parametro R, cuya funcionde densidad viene dada por:

    f(z|) = 2 (z) (z) , < z 0. De este modo, Y SN(, , ) si su funcion de densidad esta definida como:

    f(y|, , ) = 2

    (y

    )

    (y

    )(3.2)

    Algunas propiedades de la distribucion skew-normal, referentes a la densidad ??, son las siguientes:

    1. La funcion de densidad de una SN(0) es igual a la de una N(0,1).

    2. Si , f(z|) tiende a 2(z)Iz>0, siendo una distribucion half-normal.

    16

  • Captulo 3 CAPITULO 3. DISTRIBUCION SKEW NORMAL

    3. Si Z SN(), luego Z SN().4. La funcion de densidad de una variable aleatoria que distribuye SN() es unimodal, ya que ln(f(z|)) es

    una funcion concava de z.

    5. Si Z SN(), entoncesZ2 21.

    En terminos de simulacion para generar numeros aleatorios provenientes de una distribucion con funcion dedensidad (3,1), se debe considerar si Y y W son variables aleatorias i.i.d con representacion N(0, 1), y Z es iguala Y condicionalmente sobre Y > W , luego Z SN(); entonces basta generar Y y W independientes condistribucion N(0, 1) y luego:

    Z =

    {Y si Y > W

    Y siY W (3.3)

    Una variable aleatoria con distribucion SN() puede tener una representacion estocastica, teniendo en consi-deracion que, si (X,Y ) es un vector aleatorio normal bivariado con marginales estandarizadas y correlacion ,luego Y |X > 0 SN(()) con (1, 1) y R, donde y se relacionan de la siguiente manera:

    () =

    1 2 (3.4)

    () =

    1 + 2(3.5)

    De esto se extrae que , si Y0 e Y1 son variables aleatorias i.i.d N(0,1) y (1, 1), luego,

    Z = |Y0|+ (1 + 2)1/2Y1 SN(()) (3.6)

    La funcion generadora de momentos de Z viene dada por:

    M(t) = 2expt2(t) (3.7)

    donde se relaciona con en la formula ??

    A partir de la funcion generadora de momentos se obtiene:

    E[Z] =

    2

    pi (3.8)

    Var[Z] = 1 2pi2 (3.9)

    S[Z] =1

    2(4 pi)sign(){

    2

    pi2 + (

    pi2 1)2

    }3/2 (3.10)

    K[Z] = 2(pi 3){ 2

    pi2 + (

    pi2 1)2

    }2 (3.11)

    donde S[Z] (0,9953; 0,9953) y K[Z] (0,869; 0,869) representan las medidas de asimetra y kurtosis res-pectivamente (Azzalini, 1985; Dalla -Valle, 2004).

    17

  • Captulo 3 CAPITULO 3. DISTRIBUCION SKEW NORMAL

    3.1.1. MCMC para el caso skew normal univariado

    SeaY SN(, , )

    Donde indica el parametro de localizacion, el parametro de escala y el parametro de asimetra;

    Adaptando a la notacion de un modelo lineal Bayesiano:

    Yi = + Zi + i; i N(0, 2); donde i = 1, ......, n (3.12)

    Donde:

    = (3.13)

    =

    1 + 2(3.14)

    Zi NT+(0, 1) (3.15)2 = 2(1 2) (3.16)

    =

    (3.17)

    =2 + 2 =

    1

    2+ 2 (3.18)

    donde el parametro de la precision es

    =1

    2

    Estructura de prioris informativas:

    [Zi] NT+(0, 1)Izi>0 (3.19)

    [] =

    (

    ) N(0,0) (3.20)

    [ ] Gamma(a, b) (3.21)

    Considerese la representacion Skew Normal en (??) , con distribuciones a priori (??), (??) y (??), Entonces lasCondicionales Completas asociadas al modelo son:

    Estructura de Condicionales Completas:

    1) Actualizacion del parametro Zi

    [Zi|, ] NT+(

    1

    1 + 2(yi ), 1

    1 + 2

    )(3.22)

    Desarrollo:

    18

  • Captulo 3 CAPITULO 3. DISTRIBUCION SKEW NORMAL

    [Zi|, ] exp[2

    (yi zi)2] exp[zi2

    ] Izi>0

    exp 12

    [((yi ) zi)2 + z2i ] Izi>0

    Desarrollando el exponente

    (yi ) + 2(yi )zi + 2z2i + z2i (2)z2i + 1 + (yi )zi

    2) Actualizacion del parametro =

    (

    )

    [|, ] N(, (10 + xx)1 [10 0 + xy]) (3.23)

    Desarrollo:

    [|, ] exp[2

    (y x)(y x)]exp[12

    ( 0)10 ( 0)]

    Donde X se compone por:

    X =

    1 z11 z2

    ...1 zn

    3) Actualizacion del parametro

    [ |] Gamma[a+ n2, b+

    1

    2(y x)(y x)] (3.24)

    Desarrollo:

    [ |] n/2exp[2

    (y x)(y x)]a1exp[b]

    A continuacion, se presenta la evolucion del parametro de asimetra graficamente.

    19

  • Captulo 3 CAPITULO 3. DISTRIBUCION SKEW NORMAL

    Figura 3.1: X SN(0, 1, 1).

    Figura 3.2: X SN(0, 1, 3).

    Figura 3.3: X SN(0, 1, 13).

    20

  • Captulo 3 CAPITULO 3. DISTRIBUCION SKEW NORMAL

    3.2. Distribucion Skew-Normal Multivariada

    Azzalini (1985) extiende la funcion de densidad dada en (3.1) a una densidad multivariada, en la cual sus mar-ginales no seguan una distribucion skew-normal, por lo que no fue satisfactoria.Por otra parte, la expansiondesarrollada por Azzalini y Dalla-Valle(1996) comienza a partir de la distribucion skew normal escalar hastaobtener la clase multivariada con marginales descritas por esa misma distribucion.

    Definicion 3.2. Sea Y = (Y1, ...., Yk)

    un vector aleatorio normal k-dimensional, con marginales estandarizadasy matriz de correlaciones , independiente de Y0 N(0, 1) tal que,(

    Y0Y

    ) Nk+1{0,

    [1 0

    0

    ]} (3.25)

    Si (1, ......, k) estan todos en el intervalo (-1, 1), se obtiene que,

    Zj = j |Y0|+ (1 2j )1/2Yj , j = 1, ......, k. (3.26)

    De modo que, Zj SN((j)). Luego, el vector aleatorio Z = (Z1, ......., Zk) tiene distribucion skew-normalk-dimensional, denotado por Z SNk(, ), si es continuo y con funcion de densidad:

    f(z) = 2k(z|)(z), z 0, j > 0 (3.32)

    Es evidente que, en el caso multivariado, tambien necesitamos introducir los parametros de localizacion y escala.As, si = (1, ...., k) y S = Diag(1, ......., k) son los parametros de localizacion y escala respectivamente, lafuncion de densidad de Y = + SZ, donde Z SNk(, ) es :

    f(y) = 2k(y|, SS)(S1(y )) (3.33)

    21

  • Captulo 3 CAPITULO 3. DISTRIBUCION SKEW NORMAL

    La cual se denota por Y SNk(, SS, ).

    La funcion generadora de momentos de la densidad ?? viene dada por:

    M(t) = 2exp

    (1

    2tt

    )

    (

    (1 + )1/2

    )(3.34)

    Tras algunas manipulaciones algebraicas, se obtiene la funcion generadora acumulada de Z es :

    K(t) = log(M(t)) =1

    2tt+ log(2(

    t)) (3.35)

    Donde,

    =1

    (1 + )1/2

    De estos resultados, directamente se obtiene :

    E(Z) =

    2

    pi (3.36)

    Var(Z) = 2pi

    (3.37)

    Con el vector de medias y matriz de varianzas respectivamente( Azzalini y Dalla-Valle, 1996; Azzalini y Capi-tano, 1999).

    3.2.1. MCMC para el caso skew normal multivariado

    Proposicion (Azzalini y Dalla-Valle (1996)) Sea una matriz de correlaciones, un vector p-dimensional y = (1 T1)1/21. Se define:

    Condicion:X N(0, 1)

    (Z

    X

    ) Np+1

    {(0

    0

    ),

    [1 t

    ]}{X, si Z > 0

    X, si Z < 0 SNp(, 0, ) (3.38)

    Donde una representacion estocastica:

    Y = U + SNp(,, ) con = (3.39)

    Ademas de la densidad conjunta de (Y, Z) esta dada por:

    fp+1 = fp(y|z)f(z) = Np( + |z| , ( )

    )N1(0, 1) (3.40)

    Reescribiendo:

    = ; ( ) = = G (3.41)

    22

  • Captulo 3 CAPITULO 3. DISTRIBUCION SKEW NORMAL

    Donde la matriz G debe ser definida positiva, donde implica una restriccion importante para los valores de y.el modelo se vuelve complicado para p-dimesiones, por lo cual se utilizara p=2, skew- normal bivariada.

    Estructura a priori para los parametros:

    pi(, ,G) = pi()pi(,G)

    Prioris informativas:

    [] 1 (3.42)

    por otra parte ,G IWp(m,)

    por lo tanto,

    [(G)] [()] (211, 222(1 2))1 (3.43)

    Donde

    211 =G11

    (1 21)

    222 =G22

    (1 22)

    212 = =G12

    1122+ 12

    Priori informativa:

    Aparentemente es muy complicado (si es que es posible) obtener prioris conjugadas. Usualmente es necesarioemplear metodos MCMC para muestrear de las posteriores, en este caso para = 2 tiene las propiedades decobertura ideales, ademas de proponer una priori Beta para la parametrizacion de .

    por lo que la priori debe depender de

    Haciendo:

    Bi =1 + i

    2

    Bis i.i.d

    Beta(0,25, 0,25)

    Con lo cual se obtiene :

    pi(|) = 1A()

    pj=1

    (1 2j )3/4

    23

  • Captulo 3 CAPITULO 3. DISTRIBUCION SKEW NORMAL

    donde A() es una constante de normalizacion,

    [(|)] =pj=1

    (1 2j )3/4IA(G)() (3.44)

    conA(G) = { :

    > 0}Utilizando las estructuras de prioris anteriores se obtienen las siguientes distribuciones condicionales completaspara el modelo .

    [|y, ,G] Np(y |z| , Gn

    ) (3.45)

    [|y, ,G] pi(|G) Gammap( ni=1 |zi| (yi)n

    i=1 z2i

    ,Gni=1 z

    2i

    ) (3.46)

    [G|y, , ] pi(G) IWishartp(n+m,W +ni=1

    (yi |zi| )(yi |zi| )) (3.47)

    A continuacion se muestran las correspondientes graficas de la distribucion Skew Multivariada Normal.

    Figura 3.4: Grafica en de Skew Normal Bivariada = 0, = 3, = 4,9.

    Figura 3.5: Curvas de Nivel de la distribucion de masa Skew Normal Bivariada = 0, = 3, = 4,9 .

    24

  • Captulo 4

    Distribuciones Skew : Mezcla Escala deNormales

    En esta seccion se elabora la metodologa que compone la parte central de este trabajo, se muestra como apartir de una distribucion Skew Normal se pueden crear nuevas distribuciones Sesgadas, o que incorporen elparametro de asimetra, permitiendo mas flexibilidad y mejor ajuste a los datos.

    4.1. Skew T Normal

    El modelo propuesto por Gomez et al. [?] (2007), es X StN(, 2, , ); lo cual denota que X sigue unadistribucion sesgada-t-normal con parametro de localizacion , parametro de escala 2, el parametro es deasimetra y grados de libertad.A continuacion, la densidad de X viene dada por:

    f(X|, 2, , ) = 2t(x|, 2)(x

    )donde x R (4.1)

    Donde t(z|, 2) denota la distribucion t-student usual con parametro de localizacion , parametro de escala2 y grados de libertad, mientras es la funcion de distribucion acumulada de la distribucion normal, queincorpora el parametro de asimetra.

    Esta distribucion es identica a la distribucion skew-t propuesto por Azzalini y Capitanio [?] (2003), excepto enque la funcion de distribucion acumulada normal que depende de la asimetra se sustituye por la misma funcionde distribucion, solo que controla ahora a la densidad t -Student, por lo cual el modelo en su conjunto no solodepende de la asimetra, sino tambien de los grados de libertad . Este modelo pretende ser una solucion paradesacoplar la asimetra con los grados de libertad; permitiendo una mayor identificabilidad, que era uno de lospuntos bajos de la distribucion Skew -Normal, la falta de identificabilidad de un modelo estadstico origina queel uso del mismo se limite en lo que a la aplicacion con datos reales se refiere .

    Considere el modelo jerarquico:

    i)X|S = s SkewNormal(, 2 S1, S1/2) (4.2)

    ii)S Gamma(/2, /2) (4.3)

    25

  • Captulo 4 CAPITULO 4. DISTRIBUCIONES SKEW : MEZCLA ESCALA DE NORMALES

    f(X|S = s) = 2 s1/2

    2 pi 2 exps2

    (x)22

    (sx 2

    s12

    )

    f(S) =(/2)/2

    (/2)s/21exps/2

    Demostracion:

    f(x|, 2, , ) =

    0

    2 s1/2

    2 pi 2 exps2

    (x)22

    (x 2

    ) (/2)

    /2

    (/2)s/21exps/2ds

    = 2

    (x 2

    )(2 )

    2

    2pi2(2 )

    0

    s+12 1exp

    s2 (+

    (x)22

    )ds

    = 2

    (x 2

    )(2 )

    2

    2pi2(2 )

    0

    s+12 1exp

    s2 (+

    (x)22

    ) ( +12 ,

    +(x)22

    )

    ds

    = 2

    (x 2

    )(2 )

    2

    2pi2(2 )

    (+12 )

    +(x)22

    +12

    = 2

    (x 2

    )(2 )

    2

    2pi2

    (+12 )

    (2 ) [ + (x )

    2

    2]

    +12

    = 2

    (x 2

    )(2 )

    2

    2pi2

    (+12 )

    (2 )

    +12 [1 + (x )

    2

    2

    ]+12

    = 2

    (x 2

    )1pi2

    (+12 )

    (2 ) [1 + (x )

    2

    2

    ]+12

    Momentos

    E(Xn) =n2 (n+12 )(

    n2 )

    pi(2 ), > n (4.4)

    E(X) =

    12 (12 )pi(2 )

    (4.5)

    E(X2) =

    2 (4.6)

    E(X4) =32

    ( 4)( 2) > 4 (4.7)

    Consideracion: En este modelo, los intervalos de la Asimetra y Kurtosis dependen de los grados de libertad,a continuacion una muestra para 4,5 y 6 grados de libertad.

    Representacion Estocastica STN Para U y V distribuciones normales independientes, Barbosa y Bolfarine(2009) proponen la siguiente representacion estocastica para SN (0, s1, s1/2):

    s11 + s12

    |U |+ s1/2

    1 + s12

    V

    Haciendo:

    2 =2

    s+ 2

    26

  • Captulo 4 CAPITULO 4. DISTRIBUCIONES SKEW : MEZCLA ESCALA DE NORMALES

    Skewness Kurtosis5 (-2.550, 2.550) (9.00, 23.139)6 (-2.052, 2.052) (6.00, 12.673)7 (-1.798, 1.798) (5.000, 9.461)8 (-1.643, 1.643) (4.500, 7.936)

    Tabla 4.1: Muestra de rango de asimetria y kurtosis para diferentes grados de libertad, con > 4, Gomez, H.W., Venegas, O. and Bolfarine, H. (2007)

    asumiendo que t independiente de [s, ]|2 se propone la siguiente representacion jerarquica:

    X|(t, s) N(+ t, 2) (4.8)t|s NT (0, 2) (4.9)s G(

    2,

    2) (4.10)

    Estructura a priori:

    [] N(a, b) (4.11)[ ] = 2 G(c/2, d/2) (4.12)

    [] N(e, f 2) (4.13)

    [] Exp(g/2) (4.14)

    Condicionales Completas

    [t|s, , , , , ] NT+(

    1 + 2,

    1

    1 + 2

    )(4.15)

    [s|t, , , , , ] G(

    2,

    2

    )(4.16)

    [|s, t, , , , ] N(a + b2

    ni=1 (xi 2si)

    + b2ni=1 (si +

    2),

    b2

    + b2ni=1 (si +

    2)

    )(4.17)

    [ |s, , t, , , ] G(n+ c

    2,d+

    ni=1 (xi )2 +

    ni=1 ti

    2

    )(4.18)

    [|s, , , t, , ] Exponen(g +

    ni=1 si

    2

    )(4.19)

    [|s, , , t, , ] N(e+ f2

    i=1 s

    2i

    1 + f2

    i=1 s2i ,

    f2

    1 + f2

    i=1 s2i

    )(4.20)

    [|s, , , t, , ] GI(

    1 ,

    ni=1 t

    2i + (1

    ni=1 ti)

    2

    2

    )(4.21)

    27

  • Captulo 4 CAPITULO 4. DISTRIBUCIONES SKEW : MEZCLA ESCALA DE NORMALES

    Graficas

    Figura 4.1: Densidad Skew t Normal : = 10, = 0,9, = 4, = 7.

    Figura 4.2: Curvas de Nivel: Distribucion Skew t Normal con = 10, = 0,9, = 4, = 7.

    28

  • Captulo 4 CAPITULO 4. DISTRIBUCIONES SKEW : MEZCLA ESCALA DE NORMALES

    4.2. Skew Normal T

    i)X|S = s SkewNormal(0, 1, S1/2) (4.22)

    ii)S Gamma(/2, /2) (4.23)

    Entonces la funcion de densidad marginal de X sera:

    fx(x) = 2(x)T (x|, )

    Donde (x) es la funcion de densidad de una normal estandar y T (x|, ) es la funcion de distribucion acumu-lada de una t-student.

    Demostracion:

    fx(x) = 2(x)

    0

    (xs) (/2)/2

    (/2)s/21exps/2ds

    = 2(x)

    0

    (/2)/2

    (/2)s/21exps/2

    (xs)ds

    = 2(x)

    0

    (/2)/2

    (/2)s/21exps/2

    tx

    s(ts)dtds

    Se implementa el cambio de variable = t x se tiene;

    fx(x) = 2(x)

    0

    (/2)/2

    (/2)s/21exps/2

    w0

    s([w + x]

    s)dwds

    Aplicando Fubini; que desarrolla la integral respecto al producto cartesiano de dos intervalos en el espacio ydesarrollando sobre la distribucion predictiva del modelo Bayesiano normal-gamma, se obtiene lo siguiente:

    fx(x) = 2(x)

    w0

    pi

    (+12 )

    (2 ) [1 + ([w + x])

    2

    ]

    +12 dw

    Similarmente al modelo skew t normal, se propone el siguiente modelo generalizado;i)

    X|S = s SkewNormal(, 2, S) (4.24)

    ii)S Gamma(/2, /2) (4.25)

    Haciendo:

    2 =2

    1 + 2 s

    29

  • Captulo 4 CAPITULO 4. DISTRIBUCIONES SKEW : MEZCLA ESCALA DE NORMALES

    asumiendo que t independiente de [s, ]|2 se propone la siguiente representacion jerarquica:

    X|(t, s) N(+ s t, 2) (4.26)t|s NT (0, 2) (4.27)s G(

    2,

    2) (4.28)

    Estructura a priori:

    [] N(a, b) (4.29)

    [ ] = 2 G(c/2, d/2) (4.30)

    [] N(e, f 2) (4.31)

    [] Exp(g/2) (4.32)

    Condicionales Completas

    [t|s, , , , , ] NT+(

    1

    1 + 2,

    1

    2ni=1 si

    )(4.33)

    [s|t, , , , , ] G(

    2,+ 2

    22

    )(4.34)

    [|s, t, , , , ] N(a + b2

    ni=1 (xi 2si)

    + b2ni=1 (si +

    2),

    b2

    + b2ni=1 (si +

    2)

    )(4.35)

    [ |s, t, , , , ] G(n+ c

    2,d+

    ni=1 (xi )2 +

    ni=1 ti

    2

    )(4.36)

    [|s, t, , , , ] Exponen(g +

    ni=1 si

    2

    )(4.37)

    [|s, t, , , , ] N(e+ f2

    i=1 s

    2i

    1 + f2

    i=1 s2i ,

    f2

    1 + f2

    i=1 s2i

    )(4.38)

    [|s, t, , , , ] GI(

    1 ,

    ni=1 t

    2i + (1

    ni=1 ti)

    2

    2

    )(4.39)

    30

  • Captulo 4 CAPITULO 4. DISTRIBUCIONES SKEW : MEZCLA ESCALA DE NORMALES

    Figura 4.3: Densidad Skew Normal T : = 10, = 0,9, = 4, = 7.

    Figura 4.4: Curvas de Nivel para Densidad Skew Normal T: = 10, = 0,9, = 4, = 7

    31

  • Captulo 4 CAPITULO 4. DISTRIBUCIONES SKEW : MEZCLA ESCALA DE NORMALES

    4.3. Skew Slash Normal

    Considere el modelo jerarquico:

    i)X|U = u SkewNormal(, 2 U1, U1/2) (4.40)

    ii)U Beta(, 1) (4.41)

    f(X|U = u) = 2 u1/2

    2 pi 2 expu2

    (x)22

    (ux 2

    u12

    )

    fu(U) =( + 1)

    () (1)u1

    Demostracion:

    f(x|, 2, , ) = 1

    0

    2 u1/2

    2 pi 2 expu2

    (x)22

    (x 2

    ) ( + 1)

    () (1)u1du

    = 2

    (x 2

    ) 10

    u1/22 pi 2 exp

    u2

    (x)22

    ()() (1)u

    1du

    = 2

    (x 2

    ) 10

    u+121

    2 pi 2 expu2

    (x)22 du

    Representacion Estocastica SSN Representacion estocastica de una skew normal usual

    Z = |X0|+

    1 2X1 , = 1 + 2

    W = U1Z

    W = + 2U1Z

    Representacion estocastica; Skew Slash Normal

    W = + 2U1( |X0|+

    1 2X1

    )Momentos

    E(W ) = + (

    2

    pi

    )1/2

    1(

    2

    1 + 2

    )1/2 > 1 (4.42)

    Var(W ) = 2(

    2 (

    1)2

    2

    pi2

    ) > 2 (4.43)

    S(W ) =E(X3)

    E(X2)(3/2)=

    2a+ b3

    (c+ d2)3/2 > 3 (4.44)

    Donde

    a =3

    pi1/2(

    3

    2

    1)

    32

  • Captulo 4 CAPITULO 4. DISTRIBUCIONES SKEW : MEZCLA ESCALA DE NORMALES

    b =4

    pi3/2

    (

    1)3

    3

    pi1/2(

    2

    1) +4

    pi

    3

    c =

    2

    d =

    2 2

    pi(

    1)2

    K(W ) =E(X4)E(X2)2

    = 2e+ f2 + g4

    (c+ d2)2 > 4 (4.45)

    Donde

    e =3

    2

    4

    f =6

    pi

    2(

    1)2 12

    pi

    3

    1 +3

    2

    4

    g = 6pi2

    (

    1)2

    +12

    pi

    2(

    1)2 8pi

    3

    1 +3

    2

    4

    Los Rangos de la asimetra y kurtosis, a pesar de que dependen de los grados de libertad en esta distribuciontambien depende de los valores que tome el parametro de asimetra, por ejemplo si el parametro de asimetratoma un valor dentro del intervalo (-0.9953 ; 0.9953 ) que es el intervalo de la skew normal, el valor Skewness con = 4 para esta distribucion es (-7.956743 ; 7.956743), y el intervalo correspondiente para la Kurtosis (4.3456 ;33.139).

    Demostracion de Momentos:

    si U Beta(, 1)

    E(Uj) = 1

    0uju1du =

    10uj+1du = j , > j

    se sabe del capitulo del marco teorico Z SN()

    E(Zj) = 2j22 pi1

    (1

    1+2

    )j/2ji=0 aij

    i

    donde el componente queda definido;

    aij =

    (j

    i

    )(1 + (1)ji)

    (i+ 1

    2

    )

    (j i+ 1

    2

    )i = 0, ...., j

    por lo que

    E(U1) = 1 , > 1

    E(Z) =(

    2pi

    )1/2 ( 21+2

    )1/2se demuestra en consecuencia

    E(W ) = E(+ 2U1Z) = (+ 2E[U1]E[Z]) = + (

    2pi

    )1/2 1

    (2

    1+2

    )1/2 > 1

    33

  • Captulo 4 CAPITULO 4. DISTRIBUCIONES SKEW : MEZCLA ESCALA DE NORMALES

    Funcion Generadora de Momentos:

    W E(W ) = (U1Z E[U1]E[Z])[W E(W )]k = k (U1Z E[U1]E[Z])k = kkj=0 (1)kj(kj

    )UjZjE[U1]kjE[Z]kj

    Desarrollando,

    mk(W ) = kE(k

    j=0 (1)kj(k

    j

    )UjZjE[U1]kjE[Z]kj

    )= k

    kj=0 (1)kj

    (k

    j

    )E[Uj ]E[Zj ]E[U1]kjE[Z]kj =

    2k22 k

    (1

    1 + 2

    )k/2 kj=0

    ji=0

    bijkkj+i ; para >

    k

    2

    donde,

    bijk = (1)kj(k

    j

    )

    j (

    1)kjpi(

    k+j22 )aij

    con k fijo y j = 0, ..., k ; i = 0, ..., j

    Reparametrizacion Haciendo:

    2 =2

    u+ 2u

    Asumiendo que t independiente de [u, ]|2 se propone la siguiente representacion jerarquica conveniente:

    Xi|(ti, Ui) N(+ t, 2) (4.46)ti|Ui NT (0, 2) (4.47)

    Ui B(, 1) (4.48)

    34

  • Captulo 4 CAPITULO 4. DISTRIBUCIONES SKEW : MEZCLA ESCALA DE NORMALES

    Prioris Informativas

    [] N(a, 1b

    ) (4.49)

    [ ] = 2 G(c/2, d/2) (4.50)

    [] N(e, f ) (4.51)

    [] Exponencial(g) (4.52)

    Condicionales Completas

    [t|U, , , , , ] NT+(

    1 + 2,+ 2

    1 + 2

    )(4.53)

    [U |t, , , , , ] B (, 1) (4.54)

    [|t, , U, , , ] N(a b+

    ni=1 (xi 2)

    +ni=1 (Ui +

    2),

    b

    +ni=1 (Ui +

    2)

    )(4.55)

    [ |t, , U, , , ] G(

    2n+ c

    2,dni=1 ti +

    ni=1 (ui +

    2) +ni=1 (xi )

    2

    )(4.56)

    [|t, , U, , , ] Exponen(h+

    ni=1

    log ui

    )(4.57)

    [|t, , U, , , ] N(ef +

    i=1 xi

    f2 +i=1 ui

    ,f2

    f2 +i=1 ui

    )(4.58)

    [|t, , U, , , ] GI(

    1ni=1 ti

    ,(1ni=1 ti)2

    2

    )(4.59)

    A continuacion graficas descriptivas de la distribucion Skew Slash Normal.

    35

  • Captulo 4 CAPITULO 4. DISTRIBUCIONES SKEW : MEZCLA ESCALA DE NORMALES

    Figura 4.5: Densidad Skew Slash Normal: = 10, = 0,9, = 4, = 7 .

    Figura 4.6: Curvas de Nivel de la Distribucion Skew Slash Normal : = 10, = 0,9, = 4, = 7.

    36

  • Captulo 4 CAPITULO 4. DISTRIBUCIONES SKEW : MEZCLA ESCALA DE NORMALES

    4.4. Skew Normal Slash

    i)X|U = u SkewNormal(0, 1, U1/2) (4.60)

    ii)U B(, 1) (4.61)

    Entonces la funcion de densidad marginal de X sera:

    fx(x) = 2(x)S (x|, )

    Donde (x) es la funcion de densidad de una normal estandar y S (x|, ) es la funcion de distribucion acumu-lada de una slash.

    Demostracion:

    fx(x) = 2(x)

    10

    (xu) ( + 1)

    () (1)u1du

    = 2(x)

    10

    ( + 1)

    () (1)u1

    (xu)du

    = 2(x)

    10

    ( + 1)

    () (1)u1

    tx

    u(tu)dtdu

    obteniendo el cambio de variable = t x se tiene;

    fx(x) = 2(x)

    10

    ( + 1)

    () (1)u1u

    12 (

    w0

    ([w + x]

    u)dw)du

    fx(x) = 2(x)

    10

    ( + 1)

    () (1)u1u

    12 (

    w0

    ([w + x]

    u)dw)du

    fx(x) = 2(x)

    10

    w0

    u+ 1212 pi exp

    u2 ((x+))

    2

    dudw

    fx(x) = 2(x)S (x|, )

    Se propone el siguiente modelo generalizado;

    i)

    X|S = s SkewNormal(, 2, S) (4.62)

    ii)S B(, 1) (4.63)

    37

  • Captulo 4 CAPITULO 4. DISTRIBUCIONES SKEW : MEZCLA ESCALA DE NORMALES

    Haciendo:

    2 =2

    1 + 2 sAsumiendo que t independiente de [s, ]|2 Se propone la siguiente representacion jerarquica:

    X|(t, s) N(+ s t, 2) (4.64)t|s NT (0, 2) (4.65)s B(, 1) (4.66)

    Estructura a priori:

    [] N(a, b) (4.67)

    [ ] = 2 G(c/2, d/2) (4.68)

    [] N(e, f 2) (4.69)

    [] Exp(g/2) (4.70)

    Condicionales Completas

    [t|, , U, , , ] NT+(

    1

    1 + 2,

    1 + 2ni=1 si

    )(4.71)

    [U |t, , , , , ] Beta(+ 2

    22, 1

    )(4.72)

    [|t, , U, , , ] N(a b+

    ni=1 (xi 2)

    +ni=1 (Ui +

    2),

    b

    +ni=1 (Ui +

    2)

    )(4.73)

    [ |t, , U, , , ] G(

    2n+ c

    2,dni=1 ti +

    ni=1 (ui +

    2) +ni=1 (xi )

    2

    )(4.74)

    [|t, , U, , , ] Exponen(h+

    ni=1

    log ui

    )(4.75)

    [|t, , U, , , ] N(ef +

    i=1 xi

    f2 +i=1 ui

    ,f2

    f2 +i=1 ui

    )(4.76)

    [|t, , U, , , ] GI(

    1ni=1 ti

    ,(1ni=1 ti)2

    2

    )(4.77)

    38

  • Captulo 4 CAPITULO 4. DISTRIBUCIONES SKEW : MEZCLA ESCALA DE NORMALES

    Figura 4.7: Densidad Skew Normal Slash: = 10, = 0,9, = 4, = 7.

    Figura 4.8: Curvas de Nivel para Distribucion Skew Normal Slash: = 10, = 0,9, = 4, = 7.

    39

  • Captulo 5

    Aplicaciones

    5.1. Estudio de Simulacion

    Los estudios de simulacion son una de las herramientas mas usadas en la actualidad al hacer analisis estadsticosde modelos en particular, este estudio permite evidenciar como el comportamiento de un determinado modelo seve influenciado al ser modificado y redefinido, lo que sugiere estrategias que mejoren la operacion y eficiencia delmismo. En general es util para experimentar en nuevas situaciones, sobre las cuales se dispone poca informaciony as anticiparse a posibles problemas con el modelo propiamente tal.

    En esta seccion se crearan 10.000 valores de una distribucion Skew Normal con parametros, = 2, = 4y = 30; donde se aplicara el metodo de Gibbs Sampling de los modelos estudiados anteriormente, paramonitorear el ajuste que tienen estos, esto se implementara a traves de R-Project, se simularan 100, 700 y 2700simulaciones , no se considerara adelgazamiento en las cadenas.

    En la simulacion con 100 iteraciones (Tabla 5.1), se ve como la estimacion del modelo Skew Normal no es precisacon respecto a los verdaderos parametros, ya que se comprueba que la varianza de las estimaciones aposteriori esmuy alta con respecto al resto de los modelos, si bien ningun modelo llega a la correcta estimacion del parametrode asimetra, en la mezcla de escala normales se obtiene una cercana estimacion a posteriori para y .

    Con 700 simulaciones (Tabla 5.2), la distribucion Skew Normal se ajusta con estimaciones precisas a los valores delos parametros reales, ademas del modelo Skew Slash Normal y Skew T Normal, por otra parte los modelos SkewNormal T y Skew Normal Slash no tienen una buena estimacion, aunque con varianzas pequenas particularmentepara para el modelo Skew Normal T.

    La simulacion con 2700 iteraciones (Tabla 5.3) presenta resultados contundentes con respecto al futuro compor-tamiento de los modelos, finalmente las mejores estimaciones son logradas bajo el modelo Skew Normal, Skew TNormal y Skew Slash Normal, donde los modelos de mezcla Skew Normal T y Skew Normal Slash sobre estimanlos parametros estudiados, cabe destacar como la estimacion de los grados de libertad fue menor para el modeloSkew Slash Normal, con respecto Skew T Normal.

    Finalmente con los criterios de seleccion de modelos, que permiten monitorear el ajuste que estos presentan a losdatos, se comprueba como a 100 iteraciones los modelos Skew Normal, Skew Slash Normal y Skew Normal Slash,son los que tienen valores mas bajos, esto es consecuencia por que a pocas iteraciones el modelo Skew NormalSlash presentaba un ajuste a posteriori razonable, pero a 2700 iteraciones es sorprendente como el modelo SkewSlash Normal tiene valores cercanos e incluso aun mas pequenos que el modelo Skew Normal con respecto a loscriterios de seleccion de modelos. Estos resultados nos dan un indicio de como se comportaran estos modelosaplicados a datos reales donde el supuesto de normalidad no se cumple (Apendice A).

    40

  • Captulo 5 CAPITULO 5. APLICACIONES

    100 simulaciones

    Modelos Parametros Estimacion SD Q1 Q3

    Skew Normal 12.49 1.264324 11.28 13.48 2.762 0.1183341 2.419 3.201 0.851100 1.482229 -0.120200 1.404000

    Skew T Normal 2.319 0.1610101 2.212 2.420 4.178 0.09190429 4.109 4.246 0.8530 0.04294948 0.8284 0.8724 10.7900 3.257539 3.2460 15.4200

    Skew Slash Normal 1.737 0.08928005 1.681 1.798 4.133 0.125778 4.049 4.212 1.379 0.04988372 1.353 1.405 8.0350 2.80695 2.9210 11.3400

    Skew Normal Slash 2.8760 0.5875492 2.975 3.056 4.047 2.889351 2.623 4.660 0.88570 0.1713655 0.93810 1.04900 5.998 2.747064 4.504 7.150

    Skew Normal T 2.127 0.4107489 2.166 2.363 14.9 1.324887 8.285 15.340 0.77320 0.1665739 0.01939 0.92040 8.657 5.960071 4.488 33.430

    Tabla 5.1: Estimacion de parametros y Medidas descriptivas con 100 simulaciones

    700 Simulaciones

    Modelos Parametros Estimacion SD Q1 Q3

    Skew Normal 10.099 0.03221025 9.971 10.027 4.012 0.04287191 3.968 4.048 25.840 5.207715 25.090 29.280

    Skew T Normal 2.329 0.185057 2.214 2.441 4.185 0.1035994 4.115 4.251 0.8532 0.0480191 0.8208 0.8817 9.93200 3.126295 3.09 14.57

    Skew Slash Normal 1.730 0.08463211 1.674 1.789 4.136 0.1113464 4.053 4.211 1.378 0.04331071 1.349 1.405 7.8790 2.789539 2.44 11.28

    Skew Normal Slash 2.9980 0.2216536 1.56 3.0490 3.018 0.214265 2.666 3.043 1.00600 0.07549654 0.99550 1.05200 6.088 1.979398 4.640 16.170

    Skew Normal T 2.230 0.06911844 2.185 2.275 14.86 0.6849424 14.38 15.28 1.473 0.03908427 1.429 1.445 8.675 4.665677 5.114 31.090

    Tabla 5.2: Estimacion de parametros y Medidas descriptivas con 700 simulaciones

    41

  • Captulo 5 CAPITULO 5. APLICACIONES

    2700 Simulaciones

    Modelos Parametros Estimacion SD Q1 Q3

    Skew Normal 10.010 0.04223824 9.966 10.023 3.997 0.02296084 3.969 4.026 27.39 1.489477 26.27 28.29

    Skew T Normal 2.330 0.1756097 2.216 2.441 4.186 0.09921877 4.119 4.247 0.8541 0.04480664 0.8252 0.8817 10.4 3.231665 3.084 14.48

    Skew Slash Normal 1.726 0.09198952 1.662 1.79 4.134 0.1144656 4.059 4.212 1.377 0.00573245 1.347 1.404 7.5460 2.665056 2.3770 10.4900

    Skew Normal Slash 3.016 0.0471447 2.857 3.166 3.711 0.558823 3.659 3.735 1.02100 0.04500476 0.99810 1.05400 6.199 2.10577 5.573 19.360

    Skew Normal T 2.232 0.07038139 2.186 2.276 14.87 0.6666951 12.58 17.29 1.473 0.0386017 1.330 1.935 8.643 5.17484 3.095 50.600

    Tabla 5.3: Estimacion de parametros y Medidas descriptivas con 2700 simulaciones

    Seleccion de Modelos

    Modelos Criterios 100 simulaciones 700 simulaciones 2500 simulaciones

    Skew Normal DIC 181.5509 343.3587 202.1907BIC 192.3664 360.012 222.8937BCA 184.5509 346.3587 205.1907

    Skew T Normal DIC 31.8992 114.657 86.4645BIC 34.7147 115.332 97.1676BCA 33.8992 114.67789 89.4645

    Skew Slash Normal DIC 24.868 53.99688 48.90693BIC 32.93464 60.65012 40.11965BCA 37.868 56.99688 41.90693

    Skew Normal Slash DIC 41.78689 26.6032 71.46626BIC 42.6024 43.2565 52.16928BCA 44.78689 59.6032 64.46626

    Skew Normal T DIC 58.5132 49.31391 51.96181BIC 59.5143 65.96715 72.66483BCA 51.35 52.31391 54.96181

    Tabla 5.4: Seleccion de Modelos

    42

  • Captulo 5 CAPITULO 5. APLICACIONES

    (a) Histograma de datos de Volcanes(b) Grafica 3D de la Aplicacion deVolcanes.

    (c) Curvas de Nivel aplicadas a laImagen de Volcanes .

    Figura 5.1: Graficos Descriptivos de Aplicacion a Volcanes

    5.2. Aplicacion a Datos Reales

    Los Datos a los cuales se aplicaran los modelos estudiados estan compuestos en una primera parte se estudiara laAltura de Volcanes mas importantes en el mundo, el cual es un conjunto de datos clasico usado por Tukey(1977)para explicar el uso de los Box-Plots en la exploracion de datos, este conjunto de datos fue obtenido a travesFuente: National Geographic Society and the World Almanac 1966, pp. 282-283.

    En una segunda parte se modelara los Sismos ocurridos en Chile, durante el perodo 2010-2012, donde lavariable a modelar es la escala MS Richter de estos fenomenos ocurridos por la energa liberada producida porla subduccion de placas tectonicas este conjunto de datos fue obtenido a traves Fuente: http://neic.usgs.gov/neis/bulletin/bulletin_esp.html#DISCLAIMER.

    5.2.1. Altura de Volcanes

    En primer lugar las estadsticas basicas del conjunto de 219 datos de Altura de Volcanes, son Media=70.246,Varianza=1850.55, Skewness=0.84 y Kurtosis=3.4844.

    Por lo que se comprueba que existe una asimetra positiva y la distribucion de las magnitudes es leptocurtica,es decir mas apuntada y con colas mas anchas que la normal.

    Se procede a realizar un test de normalidad( p value = 3,589e 07), el cual comprueba que estos datos no seajustan a una distribucion normal.

    5.2.1.1. Ajustes de modelos (Altura de Volcanes)

    En este apartado se mostrara la estimacion de los parametros de cada uno de los modelos estudiados en estatesis, detallando las prioris utilizadas, y explicando el detalle de su convergencia aplicando el algoritmo MCMCde Gibbs Sampling, para esto se utilizo el software OpenBugs y R; donde se logro crear los modelos, monitorearlas cadenas a traves de los archivos CODA, aplicando test y graficos de diagnostico, estos ultimos logrados enel soporte del software SAS .

    Para cada modelo se monitorearon la convergencia de las cadenas, a traves de diagnosticos graficos y a traves deldiagnostico cuantitativo de Heidelberg y Welch, estudiado en el captulo 2, recordando que este test es muchomas completo y mas estricto que los anteriores, diagnosticando en una primera parte la estacionariedad de lascadenas, y en una segunda parte la prueba de media anchura donde se calcula un intervalo de confianza del95 % para la media, utilizando la parte de la cadena que paso la prueba de estacionariedad. La mitad de la

    43

  • Captulo 5 CAPITULO 5. APLICACIONES

    anchura de este intervalo se compara con la estimacion de la media. Si la relacion entre la mitad de la anchuray la media es inferior a , se pasa la prueba de media anchura. De lo contrario, la longitud de la muestra seconsiderara insuficiente para estimar la media con suficiente precision.

    Con Valores iniciales para correr los programas; = 30, = 40, = 1, = 10.

    Para obtener los ajustes se simularon 10000 iteraciones para cada cadena, con un burn-in de las primeras 1000iteraciones, se crearon 4 cadenas y un thin de 1, ya que agregar un mayor valor del adelgazamiento de las cadenaspresentaran resultados enganosos(Ntzoufras (2009)), donde el objetivo de este trabajo es ver las estimacionesde los parametros, y un mayor thin provocara bajar las autocorrelaciones de modelos que tal vez tienen unaalta autocorrelacion, mala estimacion de parametros y por ende un mal ajuste a los datos.

    A continuacion graficas descriptivas de los datos Alturas de Volcanes

    44

  • Captulo 5 CAPITULO 5. APLICACIONES

    Skew Slash Normal

    Para el modelo Skew Slash Normal se utilizaron las siguientes prioris:

    N(33,44, 0,02)

    N(2, 0,02)

    Gamma(46, 46)

    Exponencial(12)

    Es concluyente en este modelo la estimacion a posteriori de los parametros en las tablas 5.16 y 5.17, si bien selogra una buena estimacion de los parametros, existe una sobre estimacion, las varianzas crecen con respecto alas prioris, tentativamente no es un buen ajuste.

    Parametros Estimacion SD Time series SE 66.053 1.48387 0.007877 5.081 0.24731 0.002737 97.757 4.37269 0.070496 1.337 0.08993 0.000476

    Tabla 5.5: Estimacion a Posteriori de los Parametros del modelo Skew Slash Normal

    Parametros MIN Q1 Median Q3 MAX 63.150 65.060 66.050 67.050 68.960 4.609 4.909 5.076 5.245 5.582 89.279 94.810 97.660 100.600 106.500 1.167 1.275 1.335 1.397 1.518

    Tabla 5.6: Medidas descriptivas de los Parametros del modelo Skew Slash Normal

    Skew T Normal

    Para el modelo Skew T Normal se utilizaron las siguientes prioris:

    N(33,44, 0,02)

    N(2, 0,02)

    Gamma(46, 46)

    Exponencial(12)

    45

  • Captulo 5 CAPITULO 5. APLICACIONES

    En este modelo la estimacion a posteriori de los parametros en las tablas 5.18 y 5.19, si bien se logra unabuena estimacion de los parametros, existe una sobre estimacion, las varianzas crecen con respecto a las prioris,tentativamente no es un buen ajuste.

    Parametros Estimacion SD Time series SE 66.115 1.4923 0.0078654 5.026 0.2461 0.0026877 99.499 4.4492 0.0705729 1.537 0.1333 0.0007065

    Tabla 5.7: Estimacion a Posteriori de los Parametros del modelo Skew T Normal

    Parametros MIN Q1 Median Q3 MAX 63.180 65.110 66.110 67.130 69.040 4.559 4.858 5.021 5.189 5.525 90.920 96.470 99.510 102.500 108.300 1.286 1.445 1.533 1.625 1.812

    Tabla 5.8: Medidas descriptivas de los Parametros del modelo Skew T Normal

    Skew Normal

    Para el modelo Skew Normal se utilizaran las siguientes prioris:

    N(33,44, 0,02)

    Gamma(46, 46)

    N(2, 0,02)

    En este modelo la estimacion a posteriori de los parametros en las tablas 5.20 y 5.21, si bien se logra una buenaestimacion de los parametros,las varianzas crecen con respecto a las prioris pero son menores con respecto a losmodelos anteriores,adema de los intervalos que comprenden a las estimaciones a posteriori son mas acotados,tentativamente el modelo Skew Normal tiene un buen ajuste a los datos.

    Parametros Estimacion SD Time series SE 66.79 1.4307 0.0340846 19.63 0.3762 0.0128897 49.21 0.0443 0.0007287

    Tabla 5.9: Estimacion a Posteriori de los Parametros del modelo Skew Normal

    46

  • Captulo 5 CAPITULO 5. APLICACIONES

    Parametros MIN Q1 Median Q3 MAX 63.96 65.86 66.77 67.74 69.64 18.91 19.37 19.62 19.89 20.40 36.83 44.3 49.41 77.79 136.5

    Tabla 5.10: Medidas descriptivas de los Parametros del modelo Skew Normal

    Skew Normal Slash

    Para el modelo Skew Normal Slash se utilizaron las siguientes prioris:

    N(33,44, 0,02)

    N(2, 0,02)

    Gamma(46, 46)

    Exponencial(12)

    En este modelo la estimacion a posteriori de los parametros en las tablas 5.22 y 5.23, se logra una estima-cion adecuada de los parametros, existe una sobre estimacion, las varianzas crecen con respecto a las prioris,tentativamente no es un buen ajuste.

    Parametros Estimacion SD Time series SE 67.459 1.9705 0.0103854 1.135 0.1470 0.0043627 28.386 2.0124 0.0655577 1.337 0.0893 0.0004714

    Tabla 5.11: Estimacion a Posteriori de los Parametros del modelo Skew Normal Slash

    Parametros MIN Q1 Median Q3 MAX 63.5700 66.140 67.450 68.800 71.270 0.8694 1.033 1.128 1.228 1.448 24.6300 27.010 28.320 29.690 32.530 1.1660 1.276 1.335 1.396 1.517

    Tabla 5.12: Medidas descriptivas de los Parametros del modelo Skew Normal Slash

    47

  • Captulo 5 CAPITULO 5. APLICACIONES

    Skew Normal T

    Para el modelo Skew Normal Slash se utilizaron las siguientes prioris:

    N(33,44, 0,02)

    N(2, 0,02)

    Gamma(46, 46)

    Exponencial(12)En este modelo la estimacion a posteriori de los parametros en las tablas 5.24 y 5.25, se logra una estima-cion adecuada de los parametros, existe una sobre estimacion, las varianzas crecen con respecto a las prioris,tentativamente no es un buen ajuste.

    Parametros Estimacion SD Time series SE 67.471 1.9753 0.0104117 1.141 0.1504 0.0047692 28.306 2.0615 0.0719046 1.536 0.1323 0.0006906

    Tabla 5.13: Estimacion a Posteriori de los Parametros del modelo Skew Normal T

    Parametros MIN Q1 Median Q3 MAX 63.590 66.140 67.470 68.800 71.330 0.867 1.037 1.134 1.237 1.454 24.650 26.850 28.210 29.610 32.650 1.291 1.443 1.531 1.623 1.809

    Tabla 5.14: Medidas descriptivas de los Parametros del modelo Skew Normal T

    Modelos DIC BIC BCASkew Normal 4216 4225 4219Skew Normal Slash 4474 4483 4477

    Skew T Normal 4386 4394 4389Skew Slash Normal 4320 4339 4323Skew Normal T 4575 4585 4579

    Tabla 5.15: Criterios de Seleccion de Modelos

    Las salidas de los programas utilizados en esta aplicacion se pueden ver en el Apendice C y E, finalmente sepresenta los resultados de los criterios de seleccion de modelos en la tabla 5.26, es de notar como el modeloSkew Normal presenta un DIC mas bajo que el resto de los modelos, y el modelo Skew T Normal y Skew SlashNormal logran un DIC parejo, analizando el Apendice C, se ve como estos tres modelos logran una convergenciaaceptable para estos datos, no as para el modelo Skew Normal Slash y Skew Normal T,el cual no se consideramalo para un thin inexistente, ademas segun el test de Heidelberg en el modelo Skew Normal presenta unaestabilidad en la devianza, una de las razones puede ser que la asimetra que presentan los datos de Volcanesesta en los rangos de la distribucion Skew Normal.

    48

  • Captulo 5 CAPITULO 5. APLICACIONES

    En la figura 5.7 se puede ver un comportamiento grafico de los 3 modelos que alcanzaron una convergenciaimportante en las 4 cadenas simuladas, es importante destacar que el modelo Skew Normal logra captar unajuste importante de area bajo la curva en comparacion a los otros dos modelos que se desplazan un poco a laderecha del histograma.

    Figura 5.2: Ajuste Skew Normal (Lnea Azul) ; = 33,44, = 46,77, = 2. Ajuste Skew SlashNormal (Lnea Roja) ; = 33,44, = 46,77, = 2, = 12. Ajuste Skew T Normal (Lnea Verde) ; = 33,44, = 46,77, = 2, = 12.

    49

  • Captulo 5 CAPITULO 5. APLICACIONES

    5.2.2. Sismos en Chile

    Esta base de datos contempla variables geograficas, tales como como las geo-referenciables, energa liberada yprofundidad de hipocentros( focos ssmicos).

    Este tipo de problemas que puedan de ser capaces de predecir el tiempo, la ubicacion, y la magnitud de losterremotos se ha estudiado e investigado durante muchos anos, sin dar con una solucion especifca.

    Inicialmente los sismologos crean que modelos determinsticos podran ser construidos para predecir el cuando,donde y cuan fuerte seran los futuros terremotos. Estos modelos dependan de algunos factores geologicos.Esta esperanza de poder construir modelos determinsticos ha disminuido y parece que (como la mayora defenomenos naturales) la naturaleza no revela sus secretos facilmente. Desde mediados de los anos 80, algunoscientficos han propuesto usar declaraciones probabilistas sobre el tiempo, la ubicacion, y la magnitud de futurosterremotos.

    Un metodo que se puede usar para el estudio de la ubicacion y la magnitud de terremotos son detallados porprocesos o modelos puntuales espaciales. Esta seccion tiene como objetivo especfico ver el ajuste que tienenestos modelos de mezcla skew con la variable respuesta Magnitudde escala MS Richter, solo se vera el apartado5.2.1.1, correspondiente al mapa Sismologico para ver como se comportan los sismos, ya que es fundamental vereste tipo de datos desde una perspectiva espacial por que se aprecia mejor los datos atpicos. (sin embargo nose considerara el tiempo, siendo que metodos espacio-temporales no son abordados en este proyecto de tesis).

    Por lo que los objetivos de esta seccion, se basan:

    En primer lugar realizar el mapa sismologico de los datos computacionalmente, para mostrar adecuada-mente los datos en terminos espaciales, este Mapa elaborado en una primera oportunidad por ; Salinas,V.H,Lacourly ,N., Martnez,S. (1984); es el precursor de la regionalizacion ssmica de Chile, desde el punto devista estadstico, el objetivo de este trabajo fue mostrar como las zonas hot spots, creadas en este mapaen terminos probabilistas, anticipan los lugares geograficos donde ocurriran sismos, por lo que dejandocomo referencia ese trabajo, en este seminario de tesis se describe un mapa mediante el programa R mos-trando los datos del 2010-2012, en terminos espaciales, donde se comprobara si los sismos caen dentro deestas zonas analizadas.

    Determinar si la variable respuesta, presenta normalidad, describir sus medidas descriptivas; que com-pruebe los resultados, de Skewness y Kurtosis, para ver si los modelos Skew Mezclas pueden abarcar elrango de este tipo de datos.

    Estudiar el ajuste de los modelos presentados en este trabajo; a traves de el algoritmo Gibbs Sampling,en relacion a los sismos del 2010 al 2012.

    5.2.2.1. Mapa Sismologico de Chile

    El primer trabajo hecho en Chile, acerca de un analisis estadstico de los sismos fue hecho por Salinas,V.H.,Martnez, S., Lacourly ,N. (1984), el cual se basaba en una regionalizacion ssmica del pas, en terminos proba-bilistas, utilizando tecnicas de clasificacion automatica, y considerando el efecto de subduccion de la placa deNazca con la placa continental, enmarcados en la teora de tectonica de placas.

    El algoritmo de clasificacion automatica ocupado en este trabajo se baso bajo la restriccion de contiguidad,consecuencia de la constitucion de clases disjuntas de la regionalizacion, pero con caractersticas ssmicas simi-lares, esto es para definir zonas donde se produzcan o se puedan producir zonas de enjambre de sismos, o comose conocen en la actualidad hot spots, a continuacion el grafico obtenido a traves de este algoritmo.

    50

  • Captulo 5 CAPITULO 5. APLICACIONES

    Figura 5.3: Mapa Sismologico de Chile( Salinas,V.H, Lacourly ,N., Martnez,S. (1984)).

    51

  • Captulo 5 CAPITULO 5. APLICACIONES

    En este tipo de datos y problemas espaciales donde la asimetra es tan marcada, y ademas donde los datosatpicos o outliers son importantes, los graficos como histogramas y box-plots no son muy descriptivos, es poresto que se aplicara lo estudiado en el apartado del mapa sismologico de Chile, donde utilizando el software Ry los Shaped Files, proporcionados por el software Esri, se establece un algoritmo para graficar las magnitudesMS Richter de los sismos:

    Usando la librera ggplot, dejar fijas las coordenadas geograficas proporcionadas por la base de datos.

    Generar dos variables, latitud y longitud para enmarcar en el mapa sismologico.

    Subir los Shaped files, que establece la regionalizacion del pas basandose en la web de Googlemaps.

    Crear una variable que permita crear las magnitudes en el mapa

    Con lo anteriormente definido se crea el siguiente mapa sismologico de la distribucion ssmica 2010-2012.

    Figura 5.4: Grafica espacial de los datos de sismos 2010-2012.

    En la grafica anterior se puede observar mejor el dato atpico que corresponde al terremoto ocurrido el 27 defebrero del ano 2010 ( 8.8 escala MS de Richter), por otra parte la distribucion de Sismos efectivamente seenmarcan en las zonas caracterizadas en el mapa sismologico de 1984.

    5.2.2.2. Sismos 2010-2012

    El proximo paso es resumir las estadsticas descriptivas de este conjunto de 871 datos, donde la variable a modelares la magnitud (Y: escala MS de Richter), con una Media=5.031228, Varianza=0.1973685, Skewness=2.003017 y Kurtosis= 8.441897.

    52

  • Captulo 5 CAPITULO 5. APLICACIONES

    Por lo que se comprueba que existe una asimetra positiva y la distribucion de las magnitudes es leptocurtica,es decir mas apuntada y con colas mas anchas que la normal, cabe destacar que la asimetria esta dentro de losrangos de las distribuciones Skew Slash Normal y Skew T Normal, pero no de la distribucion Skew Normal.

    Se procede a realizar un test de normalidad( p value < 2,2e 16), el cual comprueba que estos datos no seajustan a una distribucion normal.

    A continuacion un grafico descriptivo de estos datos, que permiten ver la asimetra positiva marcada que sepresenta y los datos atpicos en la imagen de la densidad con curvas de nivel.

    Figura 5.5: Histograma de los Sismos 2010-2012.

    53

  • Captulo 5 CAPITULO 5. APLICACIONES

    (a) Grafica 3D de los Sismos en Chile

    (b) Imagen de los contornos de la Grafica de Sis-mos.

    (c) Curvas de Nivel aplicadas a la Imagen deSismos .

    Figura 5.6: Graficos Descriptivos de Aplicacion a Sismos

    54

  • Captulo 5 CAPITULO 5. APLICACIONES

    5.2.2.3. Ajustes de modelos (Sismos)

    En este apartado se mostrara la estimacion de los parametros de cada uno de los modelos estudiados en estatesis, detallando las prioris utilizadas, y explicando el detalle de su convergencia aplicando el algoritmo MCMCde Gibbs Sampling, para esto se utilizo el software OpenBugs y R; donde se logro crear los modelos, monitorearlas cadenas a traves de los archivos CODA, aplicando test y graficos de diagnostico.

    Para cada modelo se monitorearon la convergencia de las cadenas, a traves de diagnosticos graficos y a travesdel diagnostico cuantitativo de Heidelberg y Welch, estudiado en el captulo 2, recordando que este test esmucho mas completo y mas estricto que los anteriores, diagnosticando en una primera parte la estacionariedadde las cadenas, y en una segunda parte la prueba de media anchura donde calcula un intervalo de confianzadel 95 % para la media, utilizando la parte de la cadena que paso la prueba de estacionariedad. La mitad de laanchura de este intervalo se compara con la estimacion de la media. Si la relacion entre la mitad de la anchuray la media es inferior a , se pasa la prueba de media anchura. De lo contrario, la longitud de la muestra seconsiderara insuficiente para estimar la media con suficiente precision.

    Con multiples valores iniciales para correr los programas se opto por; = 3, = 0,01, = 1,3, = 1.

    Para obtener los ajustes se simularon 10000 iteraciones para cada cadena, con un burn-in de las primeras 1000iteraciones, se crearon 4 cadenas y un thin de 1, ya que agregar un mayor valor del adelgazamiento de las cadenaspresentaran resultados engorrosos, donde el objetivo de este trabajo es ver las estimaciones de los parametros,y un mayor thin provocara bajar las autocorrelaciones de modelos que tal vez tienen una alta autocorrelacion,mala estimacion de parametros y por ende un mal ajuste a los datos, solo en el caso del modelo Skew NormalSlash y Skew Normal T se opto por incluir un thin de 50, para bajar las autocorrelaciones de las cadenas en losparametros de asimetra y escala.

    Skew Slash Normal

    Para el modelo Skew Slash Normal se utilizaron las siguientes prioris:

    N(3,531228, 0,1973685) N(2,3, 0,2768) Gamma(0,1, 0,1) Exponencial(1)

    Segun este esquema, en las tablas 5.5 y 5.6 se presentan las estimaciones de los parametros a posteriori, lasvarianzas son considerablemente mas bajas que los parametros de las prioris, si bien los parametros estimados nose acercan a los reales se considera un buen ajuste del modelo, ya que este modelo tiene su propia adaptabilidada los datos y no debe ser necesariamente igual a los reales por la incorporacion de el parametro de grados delibertad.

    Parametros Estimacion SD Time series SE 4.878 0.045 0.0005 0.20 0.095998 0.0009031 2.5 0.007051 0.0001313 1.351 0.045671 0.0002429

    Tabla 5.16: Estimacion a posteriori de los parametros del modelo skew slash normal

    55

  • Captulo 5 CAPITULO 5. APLICACIONES

    Parametros MIN Q1 Median Q3 MAX 4.803 4.762 4.793 4.8240 5.082 0.121 0.1960 0.2673 0.5390 0.672 1.66 1.646 1.7506 1.9553 2.66481 1.264 1.320 1.351 1.3820 1.442

    Tabla 5.17: Medidas descriptivas de los parametros del modelo Skew Slash Normal

    Skew T Normal

    Para el modelo Skew T Normal se utilizaron las siguientes prioris, siendo las mismas para el modelo anterior:

    N(3,531228, 0,1973685) N(2,3, 0,2768) Gamma(0,1, 0,1) Exponencial(1)

    Segun este esquema, en las tablas 5.7 y 5.8 se presentan las estimaciones de los parametros a posteriori, lasvarianzas son considerablemente mas bajas que los parametros de las prioris, si bien los parametros estimados nose acercan a los reales se considera un buen ajuste del modelo, ya que este modelo tiene su propia adaptabilidada los datos y no debe ser necesariamente igual a los reales por la incorporacion de el parametro de grados delibertad, destaca el parametro de escala donde la estimacion baja considerablemente respecto al parametro deescala de la distribucion Skew Slash Normal.

    Parametros Estimacion SD Time series SE 4.793 0.046365 0.0005867 0.2065 0.007281 0.0001310 2.57 0.097074 0.0009576 1.685 0.074076 0.0003923

    Tabla 5.18: Estimacion a posteriori de los Parametros del modelo Skew T Normal

    Parametros MIN Q1 Median Q3 MAX 4.3 4.762 4.7930 4.825 5.083 0.0366 0.0962 0.1506 0.2552 0.46529 2.392 2.509 2.5730 2.639 2.772 1.544 1.635 1.6840 1.735 1.834

    Tabla 5.19: Medidas descriptivas de los parametros del modelo Skew T normal

    56

  • Captulo 5 CAPITULO 5. APLICACIONES

    Skew Normal

    Para el modelo Skew Normal se utilizaron las siguientes prioris:

    N(3,531228, 0,1973685) N(2,3, 0,2768) Gamma(0,1, 0,1)

    Las Tablas 5.9 y 5.10 muestran las estimaciones a posterioris y medidas descriptivas respectivamente, si bien elmodelo logra un buena estimacion para el parametro de localizacion no es precisa para el resto de los parametros,aunque las varianzas bajan considerablemente respecto de las prioris formuladas.

    Parametros Estimacion SD Time series SE 4.997 0.02592 0.0004877 0.4447 0.01062 0.0002076 0.03391 0.02140 0.0004270

    Tabla 5.20: Estimacion a posteriori de los parametros del modelo Skew Normal

    Parametros MIN Q1 Median Q3 MAX 4.946 4.979 4.997 5.015 5.048 0.245 0.374 0.445 0.519 0.659 -0.00835 0.01932 0.03396 0.04843 0.07594

    Tabla 5.21: Medidas descriptivas de los parametros del modelo Skew Normal

    Skew Normal Slash

    Para el modelo Skew Normal Slash se utilizaron las siguientes prioris:

    N(4, 0,0973685) N(0,4, 0,09)

    Gamma(0,3, 0,3) Exponencial(0,9)

    Las estimaciones de los parametros a posteriori y medidas descriptivas se presentan en las tablas 5.11 y 5.12respectivamente, la estimacion con respecto al parametro de localizacion es precisa, luego las estimaciones parael resto de los parametros son mas bajas que los modelos anteriores, con intervalos mas anchos, pero las varianzascomo se ha analizado bajan considerablemente respecto de las prioris.

    Parametros Estimacion SD Time series SE 4.922 0.039122 0.0014590 1.022 0.005693 0.0015048 8.097 1.755 0.0018592 1.352 0.045867 0.0002463

    Tabla 5.22: estimacion a posteriori de los parametros del modelo skew normal slash

    57

  • Captulo 5 CAPITULO 5. APLICACIONES

    Parametros MIN Q1 Median Q3 MAX 3.924 4.841 4.923 5.001 5.078 0.6612 0.9791 1.053 1.131 2.467 4.0082 5.1 7.939 11.95 12.035 1.263 1.320 1.351 1.382 1.444

    Tabla 5.23: Medidas descriptivas de los parametros del modelo Skew Normal Slash

    Skew Normal T

    N(4, 0,0973685) N(0,4, 0,09)

    Gamma(0,3, 0,3) Exponencial(0,9)

    Las estimaciones de los parametros a posteriori y medidas descriptivas se presentan en las tablas 5.13 y 5.14respectivamente, la estimacion con respecto al parametro de localizacion es precisa, luego las estimaciones parael resto de los parametros son mas bajas que los modelos anteriores, con intervalos mas anchos, pero las varianzascomo se ha analizado bajan considerablemente respecto de las prioris.

    Parametros Estimacion SD Time series SE 4.922 0.04065 0.0028469 1.054 0.0386 0.0027611 8.137 1.771 0.0024543 1.687 0.07344 0.0002401

    Tabla 5.24: Estimacion a Posteriori de los Parametros del modelo Skew Normal T

    Parametros MIN Q1 Median Q3 MAX 4.881 4.941 4.969 4.997 5.048 0.41385 0.9796 1.054 1.132 2.04981 4.01235 5.092 8.004 11.98 12.04285 1.253 1.549 1.687 1.836 1.9489

    Tabla 5.25: Medidas descriptivas de los parametros del modelo Skew Normal T

    Las salidas de los programas utilizados en esta aplicacion se pueden ver en el Apendice B y D, finalmente sepresenta los resultados de los criterios de seleccion de modelos en la tabla 5.15, es de notar como el modelo SkewNormal presenta un DIC mas alto que el resto de los modelos, y el modelo Skew T Normal y Skew Slash Normallogran los DIC mas bajos, analizando el Apendice B, se ve como estos tres modelos logran una convergenciaaceptable para estos datos, no as para el modelo Skew Normal Slash y Skew Normal T, ademas segun el test deHeidelberg en el modelo Skew Normal no se logra monitorear la devianza, una de las razones puede ser que laasimetra que presentan los datos de Sismos no esta en los rangos de la distribucion Skew Normal. En la figura5.4 se puede ver un comportamiento grafico de los 3 modelos que alcanzaron convergencia en las cadenas, esimportante destacar que el modelo Skew Normal logra captar un ajuste importante de area bajo la curva, peroesta densidad no logra tomar los datos atpicos 7.6 y 8.8 respectivamente en comparacion a los otros modelosque si lo logran.

    58

  • Captulo 5 CAPITULO 5. APLICACIONES

    Modelos DIC BIC BCASkew Normal 16000.86 17120.96 17220.72Skew Slash Normal 5092.47 5099.20 5095.94

    Skew T Normal 5093.711 5100.91 5097.422Skew Normal Slash 5854.034 5961.8599 5858.068Skew Normal T 6058.087 6073.01578 6062.174

    Tabla 5.26: Criterios de Seleccion de Modelos

    Figura 5.7: Comparacion de modelos ajustados a temblores 2010-2012

    59

  • Captulo 6

    Conclusiones

    Los modelos estadsticos construidos a partir de mezclas de distribuciones Skew Normal bajo el parametro deasimetra permiten generar una subclase de distribuciones que presenta mayor flexibilidad tanto en asimetracomo en Kurtosis.

    Ejemplos de algunas distribuciones miembros de la clase antes mencionada son la distribucion skew t normal,skew slash normal, skew normal t y skew normal slash.

    Estos modelos skew-simetricos presentan propiedades interesantes, en mucho casos derivadas del supuesto desimetra en las funciones de distribucion de la distribucion de mezclas.

    La representacion estocastica de la distribucion skew-normal basada en la convolucion de una variable alea-toria con distribucion normal y otra con distribucion normal truncada, ademas de la estru