4to Informe Geoestadistica Marin

21
1 AÑO DE LA PROMOCIÓN DE LA INDUSTRIA RESPONSABLE Y COMPROMISO CLIMÁTICO CUARTO INFORME DE GEOESTADÍSTICA DOCENTES: PHD. MARIN SUAREZ, VALERIANO ALFREDO ING. TEVES ROJAS, AUGUSTO ALUMNO: PILA HUANCACHOQUE, RUSSOU ADRIEL CÓDIGO: 20124092I UNIVERSIDAD NACIONAL DE INGENIERÍA

description

es el 4 to informe de el profesor marin

Transcript of 4to Informe Geoestadistica Marin

1

AÑO DE LA PROMOCIÓN DE LA INDUSTRIA RESPONSABLE Y COMPROMISO CLIMÁTICO

CUARTO INFORME

DE GEOESTADÍSTICA

DOCENTES:

PHD. MARIN SUAREZ, VALERIANO ALFREDO

ING. TEVES ROJAS, AUGUSTO

ALUMNO:

PILA HUANCACHOQUE, RUSSOU ADRIEL

CÓDIGO:

20124092I

UNIVERSIDAD NACIONAL DE INGENIERÍA

FACULTAD DE INGENIERÍA GEOLÓGICA MINERA Y METALURGICA

Lima 5 de noviembre de 2014

2

TABLA DE CONTENIDO

1. OBJETIVOS......................................................................................................................3

2. ALCANCES......................................................................................................................3

3. INTRODUCCIÓN.............................................................................................................3

4. FUNDAMENTO TEORICO.............................................................................................3

5. PRIMER TRABAJO DEJADO POR EL PHD . MARÍN.................................................7

6. TABLAS Y FIGURAS......................................................................................................7

6.1 Tablas de datos Tabla de datos de población anormal....................................................7

6.2 Figuras histogramas y P-P plot..........................................................................................8

7. SEGUNDO TRABAJO DEJADO POR EN PHD. MARÍN...........................................11

7.1 Algoritmo del Variograma..................................................................................11

7.2 Visualización del programa................................................................................11

7.3 Algoritmo del programa en VBA.......................................................................11

7.4 Creación de datos con el T.L.C iniciar el programa...........................................12

8. TABLAS Y FIGURAS....................................................................................................13

8.1 Tablas de datos generados..................................................................................13

8.2 Figuras.................................................................................................................14

9. CONCLUSIONES...........................................................................................................15

10. REFERENCIAS...............................................................................................................15

3

1. OBJETIVOS

Analizar la gráfica p-p plot de los Ln de los datos dejador por el PHD Marín.

Analizar la gráfica p-p plot de los Ln de los datos con un incremento de datos

anormales.

Tener capacidad para comprender porque se produce cambios es la grppafica p-p plot.

Crear un algoritmo para generar datos con distribución de gauss usando el Teorema

del Limite Central.

2. ALCANCES

En el transcurso de este informe se podrá dar cuenta de que el análisis de la curva p-p

plot del Ln de los datos nos da información de posibles anomalías en nuestros datos.

3. INTRODUCCIÓN

La necesidad de acudir a herramientas estadísticas para el análisis de datos en todas las

áreas del conocimiento, ha hecho que aparezcan con el correr de los años nuevas

metodologías que, no obstante se centran en fundamentos probabilísticos comunes, son

específicas para cada una de las diversas disciplinas del saber. Algunos ejemplos son, entre

otros, la econometría, psicometría o la bioestadística. La gran relevancia que tiene

actualmente a nivel mundial el tema ambiental ha hecho que los profesionales en estadística

encaminen esfuerzos en el desarrollo de nuevas técnicas apropiadas para el análisis de

información enmarcada dentro de este contexto. Como consecuencia de este impulso surgió la

geoestadística, teniendo como padre a George Matheron.

4. FUNDAMENTO TEORICO

PROBABILIDAD-PROBABILIDAD (PP) TERRENO

Una probabilidad-probabilidad (PP) parcela se utiliza para ver si un determinado

conjunto de datos sigue alguna distribución especificado. Debe ser aproximadamente lineal si

la distribución especificado es el modelo correcto.

4

La probabilidad-probabilidad (PP) trama se construye utilizando la función de

distribución acumulada teórica, F (x), del modelo especificado. Los valores de la muestra de

datos, en orden de menor a mayor x, se denotan (1), X (2), ..., x (n). Para i = 1, 2, ....., n, F (x

(i)) se representa frente a (i-0.5) / n.

Ejemplo

En la figura de abajo, dos conjuntos de datos se han visualizado en gráficos de

probabilidad normal. El primer conjunto de datos (que se muestra en negro) realmente

proviene de una distribución normal, por lo que la trama PP es lineal. El segundo conjunto de

datos (que se muestra en rojo) proviene de una distribución exponencial, por lo que no es ni

siquiera cerca de simetría, y la trama del PP se desvía de una línea recta. El uso de estas

parcelas, queremos inferir correctamente que el primer conjunto de datos es normal, pero la

segunda no lo es.

5

HISTOGRAMA

En estadística, un histograma es una representación gráfica de una variable en forma

de barras, donde la superficie de cada barra es proporcional a la frecuencia de los valores

representados. Sirven para obtener una "primera vista" general, o panorama, de la distribución

de la población, o la muestra, respecto a una característica, cuantitativa y continua, de la

misma y que es de interés para el observador (como la longitud o la masa). De esta manera

ofrece una visión en grupo permitiendo observar una preferencia, o tendencia, por parte de la

muestra o población por ubicarse hacia una determinada región de valores dentro del espectro

de valores posibles (sean infinitos o no) que pueda adquirir la característica. Así pues,

podemos evidenciar comportamientos, observar el grado de homogeneidad, acuerdo o

concisión entre los valores de todas las partes que componen la población o la muestra, o, en

contraposición, poder observar el grado de variabilidad, y por ende, la dispersión de todos los

valores que toman las partes, también es posible no evidenciar ninguna tendencia y obtener

que cada miembro de la población toma por su lado y adquiere un valor de la característica

aleatoriamente sin mostrar ninguna preferencia o tendencia, entre otras cosas.

En el eje vertical se representan las frecuencias, es decir, la cantidad de población o la

muestra, según sea el caso, que se ubica en un determinado valor o subrango de valores de la

característica conocido como intervalo de clase. En el eje horizontal se representa el espectro

de valores posibles que toma la característica de

interés, evidentemente, cuando éste espectro de

valores es infinito o muy grande el mismo es

reducido a sólo una parte que muestre la

tendencia o comportamiento de la población, en

otras ocasiones éste espectro es extendido para

6

mostrar el alejamiento o ubicación de la población o la muestra analizada respecto de un valor

de interés.

TEOREMA DEL LIMITE CENTRAL

El teorema del límite central o teorema central del límite indica que, en condiciones

muy generales, si Sn es la suma de n variables aleatorias independientes y de varianza no nula

pero finita, entonces la función de distribución de Sn «se aproxima bien» a una distribución

normal (también llamada distribución gaussiana, curva de Gauss o campana de Gauss). Así

pues, el teorema asegura que esto ocurre cuando la suma de estas variables aleatorias e

independientes es lo suficientemente grande.

Sea   la función de densidad de la distribución normal definida como1

con una media µ y una varianza σ2. El caso en el que su función de densidad sea  , a

la distribución se le conoce como normal estándar. Se define Sn como la suma de n variables

aleatorias, independientes, distribuidas, y con una media µ y varianza σ2 finitas (σ2≠0):

de manera que, la media de Sn es n·µ y la varianza n·σ2, dado que son variables aleatorias

independientes. Con tal de hacer más fácil la comprensión del teorema y su posterior uso, se

hace una estandarización de Sn como

para que la media de la nueva variable sea igual a 0 y la desviación estándar sea igual a 1. Así,

las variables Zn convergerán en distribución a la distribución normal estándar N(0,1),

cuando n tienda a infinito. Como consecuencia, si Φ(z) es la función de distribución de

N(0,1), para cada número real z:

7

donde Pr( ) indica probabilidad y lim se refiere a límite matemático.

5. PRIMER TRABAJO DEJADO POR EL PHD . MARÍN

Agregar datos al archivo una población anormal y ver la media y desviación típica hacer

el P-P plot

6. TABLAS Y FIGURAS

6.1 Tablas de datos Tabla de datos de población anormal

# datos Ln(datos)

# Datos Ln(datos)1 1,91 ,652 ,76 -,273 ,76 -,274 ,90 -,105 2,99 1,106 ,49 -,717 ,69 -,378 1,59 ,469 2,39 ,87

10 ,87 -,1411 1,88 ,6312 ,97 -,0313 1,10 ,1014 2,08 ,73… … …

1965 ,74 -,301966 ,91 -,101967 2,05 ,721968 1,51 ,411969 3,03 1,111970 1,12 ,121971 ,61 -,491972 ,95 -,051973 1,44 ,371974 1,16 ,151975 1,41 ,351976 1,15 ,141977 ,86 -,151978 2,65 ,97

8

1 5.04 1.622 6.53 1.883 4.45 1.494 5.86 1.775 4.93 1.596 5.07 1.627 5.12 1.638 5.84 1.769 4.14 1.42

10 4.03 1.3911 4.63 1.5312 5.85 1.7713 5.01 1.6114 4.91 1.59… … …

87 6.39 1.8588 5.86 1.7789 3.30 1.1990 3.71 1.3191 4.65 1.5492 5.22 1.6593 4.05 1.4094 4.68 1.5495 5.43 1.6996 5.37 1.6897 4.82 1.5798 2.73 1.0099 5.73 1.75

100 4.55 1.526.2 Figuras histogramas y P-P plot

HISTOGRAMA DE DATOS DEL PHD. MARÍN

9

HISTOGRAMA DE LN(DATOS)

P-P PLOT DE LN DE DATOS

10

HISTOGRAMA DE DATOS AÑADIDOS CON POBLACIÓN ANORMAL

HISTOGRAMA DE LN(DATOS+POBLACION ANORMAL)

11

P-P PLOT DE LN(DATOS+POBLACION ANORMAL)

7. SEGUNDO TRABAJO DEJADO POR EN PHD. MARÍN

12

Hacer un programa para generar datos con distribución de gauss usando el Teorema de

Limite Central

7.1 Algoritmo del Variograma

El algoritmo fue desarrollado en el programa VBA, de tal manera que podamos

generar 1000 grupos de 100 datos aleatorios y por cada grupo obtener un valor con el T.L.C.

Los datos serán puestos en una hoja de Excel pudiendo realizar luego la gráfica del

histograma correspondiente.

7.2 Visualización del programa

7.3 Algoritmo del programa en VBA

Dim aleatorio(1 To 100) As DoubleDim alfa, beta As DoubleDim i, j As IntegerPrivate Sub CommandButton1_Click()Randomizealfa = Val(txt1.Text)beta = Val(txt2.Text)For i = 1 To 1000 For j = 1 To 100 aleatorio(j) = Rnd() suma = suma + aleatorio(j) Next Cells(i, 1) = beta * ((suma - 100 * (1 / 2)) / ((100 ^ 0.5) / (12 ^ 0.5))) + alfa suma = 0

13

NextEnd Sub End Sub7.4 Creación de datos con el T.L.C iniciar el programa

Asignamos una media = 3 y una desviación = 1

14

8. TABLAS Y FIGURAS

8.1 Tablas de datos generados

1.- Tabla de 1000 datos generados

Media VarianzaDesviación estándar

3.02428712 0.91150312 0.954726727

#Dato generado

1 3.2368601072 2.5025089263 3.0441233364 4.0368648835 2.5923189566 2.7435083517 1.5668361758 3.0168416729 4.048143127

10 3.94686159111 2.57691943912 3.82249135213 3.09558786314 2.21004167115 4.16370458116 3.763722511

… …981 3.455611601982 3.234596133983 3.530082571984 2.559191859985 2.62424915986 2.123699456987 3.151480568988 3.854348866989 2.567150621990 1.601683139991 2.028891703992 2.964398612993 2.586083034994 3.308582791995 2.754979527996 3.088222431997 3.714864213998 4.38110192999 2.033434848

1000 2.228549237

15

16

8.2 Figuras

0 0.3 0.6 0.9 1.2 1.5 1.8 2.1 2.4 2.7 3 3.3 3.6 3.9 4.2 4.5 4.8 5.1 5.4 5.7 60

5

10

15

20

25

30

35

40

45

50

Histograma de los valores generados con el TLC

Frecuencia

Clase

Frec

uenc

ia

17

9. CONCLUSIONES

El p-p plot sirve para identificar la función más adecuada para representar los datos.

El p-p plot ayuda a identificar posibles anomalías en el muestreo al variar la recta.

El Teorema del Limite central nos ayuda a simular datos con una media y desviación

estándar dados.

El teorema del límite central nos da como resultado una función de gauss

10. REFERENCIAS

Clases de Informática por Ing. Chávez, Adolfo

Clases del PhD. Alfredo Marín Suarez

Clases realizadas por el Ing. Téves.

http://www.stats.gla.ac.uk/glossary/?q=node/392

http://es.wikipedia.org/wiki/Teorema_del_l%C3%ADmite_central