Curso Geoestadística II

24
CURSO GEOESTADÍSTICA Definiciones Población: Es una colección bien definida de objetos que constituyen el conjunto de interés. Censo: Disponibilidad de información de interés para todos los objetos de la población. Variable: Es cualquier característica cuyo valor puede cambiar de un objeto a otro en la población. Datos univariantes: Es un conjunto de datos compuesto de observaciones realizadas en una sola variable. Datos bivariables: Cuando se realizan observaciones en cada una de dos variables. Estadística inferencial : Son técnicas para generalizar desde una muestra hasta una población. Los tipos más importantes de procedimientos inferenciales son: estimación puntual, comprobación de hipótesis y estimación por medio de intervalos de confianza. Estudio enumerativo: El interés se enfoca en un conjunto de individuos u objetos finitos identificable y no cambiante que conforma una población, debe existir un marco de muestreo. Marco de muestreo: Lista de individuos que deben ser muestreados. Estudio analítico: se considera como aquel que no es enumerativo. Muestra aleatoria simple: Es una para la cual cualquier subconjunto particular del tamaño especificado tiene igual oportunidad de ser seleccionado. Muestreo Estratificado: Implica separar la población en grupos no traslapantes y tomar una muestra de cada uno. Ejercicios 1.1 1) De una posible muestra de tamaño 4 de cada una de las siguientes poblaciones:

description

Breve introducción a la geoestadistica.Ejercicios con Software R.

Transcript of Curso Geoestadística II

CURSO GEOESTADSTICADefiniciones Poblacin: Es una coleccin bien definida de objetos que constituyen el conjunto de inters.Censo: Disponibilidad de informacin de inters para todos los objetos de la poblacin.Variable: Es cualquier caracterstica cuyo valor puede cambiar de un objeto a otro en la poblacin.Datos univariantes: Es un conjunto de datos compuesto de observaciones realizadas en una sola variable.Datos bivariables: Cuando se realizan observaciones en cada una de dos variables.Estadstica inferencial: Son tcnicas para generalizar desde una muestra hasta una poblacin. Los tipos ms importantes de procedimientos inferenciales son: estimacin puntual, comprobacin de hiptesis y estimacin por medio de intervalos de confianza.Estudio enumerativo: El inters se enfoca en un conjunto de individuos u objetos finitos identificable y no cambiante que conforma una poblacin, debe existir un marco de muestreo.Marco de muestreo: Lista de individuos que deben ser muestreados.Estudio analtico: se considera como aquel que no es enumerativo.Muestra aleatoria simple: Es una para la cual cualquier subconjunto particular del tamao especificado tiene igual oportunidad de ser seleccionado.Muestreo Estratificado: Implica separar la poblacin en grupos no traslapantes y tomar una muestra de cada uno. Ejercicios 1.11) De una posible muestra de tamao 4 de cada una de las siguientes poblaciones:a) Todos los peridicos publicados en USA: Los ngeles Times, Chicago Tribune, Washington Post, The New York Times.b) Todas las compaas listadas en la bolsa de valores de N.Y.: Apple, Microsoft, Ford Company, GM.2) Considere la poblacin compuesta de todas las computadoras de una cierta marca y modelo y enfquese en s una computadora necesita servicio mientras se encuentra en garanta.a) Plantee varias preguntas de probabilidad con base en la seleccin de 100 de esas computadoras: Qu tan probable es que el sistema operativo presente fallas, el disco duro, presente problemas relacionados con la batera, en los puertos?3) Qu pregunta de estadstica inferencial podra ser respondida determinando el nmero de dichas computadoras en una muestra de tamao 100 que requieren servicio de garanta? Cul es la falla ms recurrente en cada 100 computadoras.4) Cierta ciudad se divide en 10 distritos Cmo puede seleccionar un valuador de bienes races una muestra de casas unifamiliares que pudiera ser utilizada como base para desarrollar una ecuacin para predecir el valor estimado a partir de caractersticas tales como antigedad, tamao, nmero de baos, distancia a la escuela ms cercana y as sucesivamente El estudio es analtico o enumerativo?a) Puede ser una muestra aleatoria simple o bien una muestra estratificada.b) El estudio es enumerativo.

Mtodos pictricos y tabulares en la estadstica descriptiva.La estadstica descriptiva se divide en dos temas generales, la representacin mediante tcnicas visuales y la representacin mediante medidas numricas para conjuntos de datos.Grficas de tallos y hojas.Considrese un conjunto de datos numricos x1, x2, .xn para el cual cada xi, se compone de por lo menos dos dgitos. Una forma rpida de obtener la representacin visual informativa del conjunto de datos es construir una grfica de tallos y hojas.Pasos para construir una grfica de tallos y hojas1) Seleccione uno o ms de los primeros dgitos para los valores de tallo. Los segundos dgitos se convierten en hojas.2) Enumere los posibles valores de tallos en una columna vertical.3) Anote la hoja para cada observacin junto al correspondiente valor de tallo.4) Indique las unidades para tallos y hojas en algn lugar de la grfica.En general, se recomienda una grfica basada en tallos entre 5 y 20.Grficas de puntos Una grfica de puntos es un resumen atractivo de datos numricos cuando el conjunto de datos es razonablemente pequeo o existen pocos valores de datos distintos. Cada observacin est representada por un punto sobre la ubicacin correspondiente en una escala de medicin horizontal. Cuando un valor ocurre ms de una vez, existe un punto por cada ocurrencia y estos puntos se apilan verticalmente. HistogramasLa prescripcin para trazar un histograma depende de si se trata de variables discretas o continuas.Variable discreta: Es discreta si su conjunto de valores posibles es finito o adems puede ser puesto en lista en una secuencia infinita. Una variable numrica es continua si sus valores posibles abarcan un intervalo completo sobre la lnea de nmeros.Considrense datos compuestos de observaciones de una variable discreta x. La frecuencia de cualquier valor x particular es el nmero de veces que ocurre un valor en el conjunto de datos. La frecuencia relativa de un valor es la fraccin o proporcin de veces que el valor ocurre:

Las frecuencias relativas, o porcentajes, por lo general interesan ms que las frecuencias mismas. Construccin de un histograma para datos discretosEn primer lugar, se determinan la frecuencia y la frecuencia relativa de cada valor x. Luego se marcan los posibles valores x en una escala horizontal. Sobre cada valor, se traza un rectngulo cuya altura es la frecuencia relativa (o alternativamente, la frecuencia) de dicho valor.La construccin de un histograma para datos continuos (mediciones) implica subdividir el eje de medicin en un nmero adecuado de intervalos de clase o clases, de tal suerte que cada observacin quede contenida en exactamente una clase. No existen reglas inviolables en cuanto al nmero de clases o la seleccin de las mismas. Entre 5 y 20 ser satisfactorio para la mayora de los conjuntos de datos. En general, mientras ms grande es el nmero de observaciones en un conjunto de datos, ms clases debern ser utilizadas. Una razonable regla emprica es:

Construccin de un histograma para datos continuos: anchos de clase desiguales.Despus de determinar las frecuencias y las frecuencias relativas, se calcula la altura de cada rectngulo con la frmula:

Las alturas del rectngulo resultante en general se conocen como densidades y la escala vertical es la escala de densidades. Esta prescripcin tambin funcionar cuando los anchos de clase sean iguales.Cuando los anchos de clase son desiguales, si no se utiliza una escala de densidades se obtendr una grfica con reas distorsionadas. Con anchos de clase iguales, el divisor es el mismo en cada clculo de densidad y la aritmtica adicional simplemente implica cambiar la escala en el eje vertical. Un histograma de densidad tiene una propiedad interesante. Si se multiplican ambos miembros de la frmula para densidad por el ancho de clase se obtieneFrecuencia relativa = (ancho de clase)(densidad)= (ancho del rectngulo)(altura del rectngulo)= rea del rectngulo)Es decir, el rea de cada rectngulo es la frecuencia relativa de la clase correspondiente. Adems, como la suma de frecuencias relativas debe ser 1, el rea total de todos los rectngulos en un histograma de densidad es 1. Siempre es posible trazar un histograma de modo que el rea sea igual a la frecuencia relativa (esto tambin es cierto para un histograma de datos discretos), simplemente se utiliza la escala de densidad. Esta propiedad desempear un importante papel al crear modelos de distribucin.Formas de histogramaLos histogramas se presentan en varias formas. Un histograma unimodal es el que se eleva a una sola cresta y luego declina. Uno bimodal tiene dos crestas diferentes. Puede ocurrir bimodalidad cuando el conjunto de datos se compone de observaciones de dos clases bastante diferentes de individuos u objetos. Se dice que un histograma con ms de dos crestas es multimodal.Ejemplos seccin 1.21) Cada calificacin en el siguiente lote de calificaciones de exmenes se encuentra en los 60, 70, 80 o 90. Una grfica de tallos y hojas con slo los cuatro tallos 6, 7, 8 y 9 no describira detalladamente la distribucin de calificaciones. En tales situaciones, es deseable utilizar tallos repetidos. En este caso se repetira el tallo 6 dos veces, utilizando 6B para las calificaciones en los 60 bajos (hojas 0, 1, 2, 3 y 4) y 6A para las calificaciones en los 60 altos (hojas 5, 6, 7, 8 y 9). Construya la grfica las calificaciones dadas. Qu caracterstica de los datos es resaltada por esta grfica?74898093646772706685898181

71748285637281819584818070

69666083859884689082697287

88

Existe una brecha en los datos, no hay valores en el rango 7B.2) Las propiedades mecnicas permisibles para el diseo estructural de vehculos aeroespaciales metlicos requieren un mtodo aprobado para analizar estadsticamente datos de pruebas empricos. El artculo Establishing Mechanical Property Allowables for Metals (J. of testing and Evaluation, 1998: 293-299) utiliz los datos anexos sobre la Resistencia a la tensin ltima (kg/pulg2) como base para abordar las dificultades que se presentan en el desarrollo de dicho mtodo.

122.2124.2124.3125.6126.3126.5126.5127.2127.3

127.5127.9128.6128.8129129.2129.4129.6130.2

130.4130.8131.3131.4131.4131.5131.6131.6131.8

131.4132.3132.4132.4132.5132.5132.5132.5132.6

132.7132.9133133.1133.1133.1133.1133.2133.2

133.2133.3133.3133.5133.5133.5133.8133.9134

134134134134.1134.2134.3134.4134.4134.6

134.7134.7134.7134.8134.8134.8134.9134.9135.2

135.2135.2135.3135.3135.4135.5135.5135.6135.6

135.7135.8135.8135.8135.8135.8135.9135.9135.9

135.9136136136.1136.2136.2136.3136.4136.4

136.6136.8136.9136.9137137.1137.2137.6137.6

137.8137.8137.8137.9137.9138.2138.2138.3138.3

138.4138.4138.4138.5138.5138.6138.7138.7139

139.1139.5139.6139.8139.8140140140.7140.7

140.9140.9141.2141.4141.5141.6142.9143.4143.5

143.6143.8143.8143.9144.1144.5144.5147.7147.7

a) Construya una grfica de tallos y hojas de los datos eliminando los dgitos de dcimos y luego repitiendo cada valor de tallo cinco veces (una vez para para las hojas 1 y 2, una segunda vez para las hojas 3 y 4, etc.) Por qu es relativamente fcil identificar un valor de resistencia representativo?b) Construya un histograma utilizando clases de ancho igual con la primera clase que tiene un lmite inferior de 122 y un lmite superior de 124. En seguida comente sobre cualquier caracterstica interesante del histograma.

12 212 44512 666777712 88999913 0001111111113 222222222233333333333333313 4444444444444444445555555555513 666666666666777777777713 88888888888899999914 233333314 44414 77Comandos en R:read.table("E:/Curso_geo/Ejercicio2_secc1.2.csv", header = FALSE, sep =",", dec = ".")fuerza$V1 % convierte los datos de la variable V1 en un vector.x stem(am)

The decimal point is 1 digit(s) to the right of the |

8 | 000112345557 10 | 23490366 12 | 0588 14 | 16 | 2

>fr summary(fr) Min. 1st Qu. Median Mean 3rd Qu. Max. 81.0 95.0 105.0 109.6 122.0 158.0 > stem(fr)

The decimal point is 1 digit(s) to the right of the |

8 | 100234566 10 | 23551369 12 | 2235587 14 | 8

La duracin de las pelculas americanas son ms positivamente asimtricas que las francesas.Existe un salto entre los 120 y los 160 minutos de duracin en las primeras. Valor atpico de 162 para pelculas americanas y de 148 para francesas. Valores tpicos debajo de los 120 y encima de los 90 minutos para ambas.

4) Transductores de temperatura se envan en lotes de 50. Se seleccion una muestra de 60 lotes y se determin el nmero de transductores en cada lote que no cumplen con las especificaciones de diseo y se obtuvieron los siguientes datos. Ver E4_secc1.2.csv.a) Determine las frecuencias y las frecuencias relativas de los valores observados de x = nmero de transductores en un lote que no cumplen con las especificaciones.b) Qu proporcin de lotes muestreados tienen a lo sumo cinco transductores que no cumplen con las especificaciones? Qu proporcin tienen menos de cinco? Qu proporcin tienen por lo menos cinco unidades que no cumplen con las especificaciones?c) Trace un histograma con las densidades en la escala vertical y comente sus caractersticas?d) Tans$V1 = vector de transductores que no cumplen las especficacionesa) summary(tans$V1)b) Min. 1st Qu. Median Mean 3rd Qu. Max. c) 0.000 1.000 2.000 2.533 3.000 8.000 d) > stem(tans$V1)e) f) The decimal point is at the |g) h) 0 | 0000000 f= 7, fr = 0.1166i) 1 | 000000000000 f = 12, fR = 0.2j) 2 | 0000000000000 f= 12, fR = .2166k) 3 | 00000000000000 f = 14, fR = 0.233l) 4 | 000000 f = 6, fR = 0.1m) 5 | 000 f= 3, FR = 0.05n) 6 | 000 f= 3, fR = 0.05o) 7 | 0 F= 1, fr = 0.016p) 8 | 0 f= 1, fr = 0.016

90 % de los lotes muestrados tienen a lo sumo cinco transductores que no cumplen con las especificaciones. 85 % tienen menos de 5.

El histograma esta sesgado positivamente, con valores centrales entre 2 y 3.

5) Se determin el nmero de partculas contaminantes en una oblea de silicio antes de cierto proceso de enjuague para cada oblea en una muestra de tamao 100 y se obtuvieron las siguientes frecuencias.Nmero de partculas01234567

Frecuencia1231211151810

Nmero de partculas891011121314

Frecuencia12453121

a) Qu proporcin de las obleas muestreadas tuvieron por lo menos una partcula? Por lo menos cinco partculas?b) Qu proporcin de las obleas muestreadas tuvieron entre cinco y diez partculas, inclusive? Estrictamente entre cinco y diez?c) Trace un histograma con la frecuencia relativa en el eje vertical. Cmo describira la forma del histograma?a) .99 tuvieron por lo menos una, 0.71 por lo menos 5.b) 0.64 entre 5 y 10, inclusive. 0.44 entre 5 y 10, estrictamente.

c)

6) El artculo citado en el ejercicio 20 tambin da los siguientes valores de las variables y = nmero de calles cerradas y z = nmero de intersecciones: Ejer6_seccin1.3a) Construya un histograma con los datos y. Qu proporcin de estas subdivisiones no tena calles cerradas? Por lo menos una calle cerrada?.b) Construya un histograma con los datos z. Qu proporcin de estas subdivisiones tena cuando mucho cinco intersecciones? Menos de cinco intersecciones?

a)

16 subdivisiones no tienen calles cerradas y 22 tienen una calle cerrada.

b)

Aparecen las frecuencias solicitadas por el ejercicio de manera exacta.Estos histogramas estn abiertos por la derecha, es decir no incluyen los extremos de estos intervalos.7) Una transformacin de valores de datos por medio de alguna funcin matemtica, tal como: o 1/x a menudo produce un conjunto de nmeros que tienen mejores propiedades estadsticas que los datos originales. Considere los datos Ejer7_secc1.2 y use los intervalos de clase 10-