ApuntesCurso Estadistica Ingeco UA 2012

99
1 ESTADISTICA INGENIERIA COMERCIAL UNIVERSIDAD DE ANTOFAGASTA Segundo Semestre del 2012. Profesor: Sr. René Maluenda Moya Universidad de Antofagasta CHILE

Transcript of ApuntesCurso Estadistica Ingeco UA 2012

Page 1: ApuntesCurso Estadistica Ingeco UA 2012

1

ESTADISTICA

INGENIERIA COMERCIAL

UNIVERSIDAD DE ANTOFAGASTA

Segundo Semestre del 2012.

Profesor:

Sr. René Maluenda Moya Universidad de Antofagasta CHILE

Page 2: ApuntesCurso Estadistica Ingeco UA 2012

2

1.- Calidad y características de calidad.

1.1. Definición de calidad. La palabra calidad tiene múltiples significados. Es un conjunto de propiedades inherentes a un objeto que le confieren capacidad para satisfacer necesidades implícitas o explícitas. La calidad de un producto o servicio es la percepción que el cliente tiene del mismo, es una fijación mental del consumidor que asume conformidad con dicho producto o servicio y la capacidad del mismo para satisfacer sus necesidades. Por tanto, debe definirse en el contexto que se esté considerando, por ejemplo, la calidad del servicio postal, del servicio dental, del producto, de vida. La definición de calidad no es única ni absoluta, cambia de unos autores a otros, de unos productos o servicios a otros y según el momento en que se formule. De todos modos, buscando un denominador común, encontramos en muchas de ellas la siguiente idea:

La Calidad de un producto es la medida de su adecuación al uso para el que esta concebido. En esta definición tenemos presente uno de los elementos fundamentales del estudio de la calidad: la adecuación entre producto y uso (y por tanto usuario). En efecto, por encima de muchos otros aspectos será el grado en que el producto o servicio satisfaga las necesidades del cliente el que lleve a valorarlo como “de calidad” o no. Esta opción cobra cada vez más impulso en detrimento de lo que podrían ser definiciones de calidad más técnicas, quedando estas en un nivel de instrumento o herramienta para conseguir la satisfacción del cliente. Ya nadie se plantea que un producto de calidad “es aquel que cumple las especificaciones de ingeniería per se”: hay que remontarse a la fase de diseño y criticar el propio establecimiento de esas especificaciones. Además, y siguiendo el enfoque de Taguchi con su función de pérdida, no todo el producto que cumple especificaciones es igual de “bueno”, tiene la misma calidad, con lo cual las especificaciones recobran su papel como garantes de la funcionalidad del producto, pero no necesariamente de su calidad.

Por sí sola, la calidad es la descripción de algún producto o servicio no infiriendo nada bueno o malo, la calidad no es un valor, sin embargo muchas veces se la confunde con la palabra SATISFACCIÓN que produce el producto o el servicio al ser consumido. La ecuación calidad-satisfacción la desarrollamos tantas veces, que las personas terminan traduciendo la calidad como satisfacción.

Satisfacción es lo que desea permanentemente el cliente o el consumidor y se alcanza cumpliendo

los requisitos establecidos para el producto, en acuerdo y con conocimiento del cliente. (Calidad concertada) La Calidad tiene diferentes definiciones según la evolución que ha tenido el término en su todavía reciente historia, y en su abordaje por diferentes autores. Se agregan más definiciones si el término es referido como adjetivo o como sustantivo.

Sin contradecir las definiciones normalizadas internacionalmente del término y las que han realizado distintos autores como Crosby, Juran, Taguchi, Feigenbaum, Deming, Shewhart y otros sobre el término Calidad en general considerando al término Calidad como Adjetivo Calificativo, hoy el término es utilizado asimismo como Sustantivo para denominar a una Tecnología Blanda que se aplica en Organizaciones de todo tipo y tamaño.

Page 3: ApuntesCurso Estadistica Ingeco UA 2012

3

La Tecnología de la Calidad se aplica en las Organizaciones, generalmente mediante una inversión significativa, para:

1.- Estandarizar y mejorar continuamente sus procesos, y con el objetivo de obtener por un lado

productos y servicios estandarizados, uniformes, estables y confiables que satisfagan en forma continua al cliente para el cual están diseñados,

2.- Lograr productividad, competitividad, seguridad, replicabilidad y globalización de las actividades,

operaciones, productos y servicios, entre otros beneficios. La aplicación de la Tecnología de la Calidad en una organización involucra un cambio cultural

de la misma, fuertemente influenciado por actividades de sensibilización, capacitación y formación. Este cambio cultural suele ser un proceso lento, que requiere un largo y continuado esfuerzo de toda la Organización y un Liderazgo muy importante de la Alta Dirección.

Definiciones de Calidad desde una perspectiva de producto La calidad de un producto está dada por la percepción del cliente hacia ese producto, en función del

conjunto de características que el consumidor evalúa para el producto, y del nivel significativo que cada una de ellas tiene para ese cliente.

Definición de Calidad desde una perspectiva de usuario La calidad implica la capacidad de satisfacer los deseos de las personas dentro de su estilo de vida,

esto involucra un equilibrio entre lo objetivo/tangible y lo subjetivo/intangible, ofrecer características beneficiosas y saludables para las personas y su entorno. La calidad de un producto depende de cómo éste responda a las preferencias y a las necesidades de los clientes, por lo que se dice que la calidad es adecuación al uso de sí mismo en la actualización de los roles presentados a un consumidor. Por ello la calidad puede ser vista como un estilo o filosofía de vida en un mundo que está cambiando y evolucionando para desarrollar un lugar mejor donde vivir.

Definición de Calidad desde una perspectiva de las tecnologías de la información o calidad de datos La calidad de datos implica que los datos capturados, procesados, almacenados y entregados son

un fiel reflejo de la realidad que se desea tratar mediante sistemas informáticos. Esto supone que los datos no contengan errores, sean veraces y estén actualizados.

Definición de Calidad desde una perspectiva de producción La calidad puede definirse como la conformidad relativa con las especificaciones, a lo que al grado

en que un producto cumple las especificaciones del diseño, entre otras cosas, mayor es su calidad. Definición de Calidad desde una perspectiva de valor La calidad significa aportar valor al cliente, esto es, ofrecer unas condiciones de uso del producto o

servicio superiores a las que el cliente espera recibir y a un precio accesible. También, la calidad se refiere a minimizar las perdidas que un producto pueda causar a la sociedad humana mostrando cierto interés por parte de la empresa a mantener la satisfacción del cliente.

Page 4: ApuntesCurso Estadistica Ingeco UA 2012

4

Una visión actual del concepto de calidad indica que calidad es entregar al cliente no lo que quiere, sino lo que nunca se había imaginado que quería y que una vez que lo obtenga, se dé cuenta que era lo que siempre había querido.

Otras Definiciones formales de Calidad Otras definiciones de organizaciones reconocidas y expertos del mundo de la calidad son: 1.- Definición de la norma ISO 9000: “Calidad: grado en el que un conjunto de características

inherentes cumple con los requisitos” 2.- Según Luis Andrés Arnauda Sequera Define la norma ISO 9000 "Conjunto de normas y

directrices de calidad que se deben llevar a cabo en un proceso". 3.- Real Academia de la Lengua Española: “Propiedad o conjunto de propiedades inherentes a una

cosa que permiten apreciarla como igual, mejor o peor que las restantes de su especie” 4.- Philip Crosby: ”Calidad es cumplimiento de requisitos”

5.- Joseph Juran: “Calidad es adecuación al uso del cliente”.

Page 5: ApuntesCurso Estadistica Ingeco UA 2012

5

6.- Armand V. Feigenbaum: “Satisfacción de las expectativas del cliente”.

7.- Genichi Taguchi: “Calidad es la menor perdida posible para la sociedad”.

8.- William Edwards Deming: “Calidad es satisfacción del cliente”.

9.- Walter A. Shewhart: ”La calidad como resultado de la interacción de dos dimensiones: dimensión

subjetiva (lo que el cliente quiere) y dimensión objetiva (lo que se ofrece).

Page 6: ApuntesCurso Estadistica Ingeco UA 2012

6

1.2. Evolución Histórica del Concepto de calidad A lo largo de la historia el término calidad ha sufrido numerosos cambios que conviene reflejar en cuanto su evolución histórica. Para ello, describiremos cada una de las etapas el concepto que se tenía de la calidad y cuáles eran los objetivos a perseguir.

La Calidad Total es el estadio más evolucionado dentro de las sucesivas transformaciones que ha sufrido el término Calidad a lo largo del tiempo. En un primer momento se habla de Control de Calidad, primera etapa en la gestión de la Calidad que se basa en técnicas de inspección aplicadas a Producción. Posteriormente nace el Aseguramiento de la Calidad, fase que persigue garantizar un nivel continuo de la calidad del producto o servicio proporcionado. Finalmente se llega a lo que hoy en día se conoce como Calidad Total, un sistema de gestión empresarial íntimamente relacionado con el concepto de Mejora Continua y que incluye las dos fases anteriores. Los principios fundamentales de este sistema de gestión son los siguientes:

• Consecución de la plena satisfacción de las necesidades y expectativas del cliente (interno y externo).

• Desarrollo de un proceso de mejora continua en todas las actividades y procesos llevados a

cabo en la empresa (implantar la mejora continua tiene un principio pero no un fin).

• Total compromiso de la Dirección y un liderazgo activo de todo el equipo directivo.

• Participación de todos los miembros de la organización y fomento del trabajo en equipo hacia

una Gestión de Calidad Total. • Involucramiento del proveedor en el sistema de Calidad Total de la empresa, dado el

fundamental papel de éste en la consecución de la Calidad en la empresa. • Identificación y Gestión de los Procesos Clave de la organización, superando las barreras

departamentales y estructurales que esconden dichos procesos. • Toma de decisiones de gestión basada en datos y hechos objetivos remplazando la gestión

basada en la intuición. Dominio del manejo de la información. El proceso habla a través de los datos.

Page 7: ApuntesCurso Estadistica Ingeco UA 2012

7

Etapa Concepto Finalidad

Artesanal Hacer las cosas bien independientemente del coste o esfuerzo necesario para ello.

• Satisfacer al cliente. • Satisfacer al artesano,

por el trabajo bien hecho

• Crear un producto único.

Revolución Industrial

Hacer muchas cosas no importando que sean de calidad (Se identifica Producción con Calidad).

• Satisfacer una gran demanda de bienes.

• Obtener beneficios.

Segunda Guerra Mundial

Asegurar la eficacia del armamento sin importar el costo, con la mayor y más rápida producción (Eficacia + Plazo = Calidad)

Garantizar la disponibilidad de un armamento eficaz en la cantidad y el momento preciso.

Posguerra (Japón) Hacer las cosas bien a la primera

• Minimizar costes mediante la Calidad

• Satisfacer al cliente • Ser competitivo

Postguerra (Resto del mundo)

Producir, cuanto más mejor Satisfacer la gran demanda de bienes causada por la guerra

Control de Calidad

Técnicas de inspección en Producción para evitar la salida de bienes defectuosos.

Satisfacer las necesidades técnicas del producto.

Aseguramiento de la Calidad

Sistemas y Procedimientos de la organización para evitar que se produzcan bienes defectuosos.

• Satisfacer al cliente. • Prevenir errores. • Reducir costes. • Ser competitivo.

Calidad Total Teoría de la administración empresarial centrada en la permanente satisfacción de las expectativas del cliente.

* Satisfacer tanto al cliente externo como interno. * Ser altamente competitivo. Mejora Continua

Esta evolución nos ayuda a comprender de dónde proviene la necesidad de ofrecer una mayor calidad del producto o servicio que se proporciona al cliente y, en definitiva, a la sociedad, y cómo poco a poco se ha ido involucrando toda la organización en la consecución de este fin. La calidad no se ha convertido únicamente en uno de los requisitos esenciales del producto sino que en la actualidad es un factor estratégico clave del que dependen la mayor parte de las organizaciones, no sólo para mantener su posición en el mercado sino incluso para asegurar su supervivencia. (Mercados Globales, sistemas económicos abiertos, tratados de libre comercio).

Page 8: ApuntesCurso Estadistica Ingeco UA 2012

8

La filosofía de la Calidad Total proporciona una concepción global que fomenta la Mejora Continua en la organización y el Involucramiento de todos sus miembros, centrándose en la satisfacción tanto del cliente interno como del cliente externo.

Podemos definir esta filosofía del siguiente modo: Gestión (el cuerpo directivo está totalmente

comprometido) de la Calidad (los requerimientos del cliente son comprendidos y asumidos exactamente) Total (todo miembro de la organización está involucrado, incluso el cliente y el proveedor, cuando esto sea posible).

Criterios del Modelo de Excelencia Empresarial, o Modelo Europeo para la Gestión de Calidad Total: Divididos en dos grupos: Los cinco primeros son los Criterios Agentes, que describen cómo se consiguen los resultados (debe ser probada su evidencia). 1. Liderazgo.

Cómo se gestiona la Calidad Total para llevar a la empresa hacia la mejora continua. 2. Estrategia y planificación. Cómo se refleja la Calidad Total en la estrategia y objetivos de la compañía. 3. Gestión del personal. Cómo se libera todo el potencial de los empleados en la organización. 4. Recursos. Cómo se gestionan eficazmente los recursos de la compañía en apoyo de la estrategia. 5. Sistema de calidad y procesos. Cómo se adecuan los procesos para garantizar la mejora permanente de la empresa.

Los cuatro últimos son los Criterios de Resultados, que describen qué ha conseguido la organización (deben ser medibles). Los nueve criterios son los siguientes:

6. Satisfacción del cliente.

Cómo perciben los clientes externos de la empresa sus productos y servicios.

7. Satisfacción del personal.

Cómo percibe el personal la organización a la que pertenece.

8. Impacto de la sociedad. Cómo percibe la comunidad el papel de la organización dentro de ella. 9. Resultados del negocio. Cómo la empresa alcanza los objetivos en cuanto al rendimiento económico previsto.

Page 9: ApuntesCurso Estadistica Ingeco UA 2012

9

1.3.- Factores relacionados con la calidad

Para conseguir una buena calidad en el producto o servicio hay que tener en cuenta tres aspectos importantes (dimensiones básicas de la calidad):

• Dimensión técnica: Engloba los aspectos científicos y tecnológicos que afectan al producto o servicio.

• Dimensión humana: Cuida las buenas relaciones entre clientes y empresas.

• Dimensión económica: intenta minimizar costes tanto para el cliente como para la empresa.

Otros factores relacionados con la calidad son:

Cantidad justa y deseada de producto que hay que fabricar y que se ofrece.

Rapidez de distribución de productos o de atención al cliente. (Just in Time)

Precio exacto (según la oferta y la demanda del producto).

1.4.- Parámetros de la calidad

Calidad de diseño: es el grado en el que un producto o servicio se ve reflejado en su diseño.

Calidad de conformidad: Es el grado de fidelidad con el que es reproducido un producto o servicio respecto a su diseño.

Calidad de uso: el producto ha de ser fácil de usar, seguro, fiable, etc.

El cliente es el nuevo objetivo: las nuevas teorías sitúan al cliente como parte activa de la calificación de la calidad de un producto, intentando crear un estándar en base al punto subjetivo de un cliente. La calidad de un producto no se va a determinar solamente por parámetros puramente objetivos sino incluyendo las opiniones de un cliente que usa determinado producto o servicio.

1.5. Características de calidad. Un elemento que está presente en la definición anterior y que requiere un comentario específico es la forma en la que se pueda realizar la medida de esa satisfacción, es decir, la necesidad nos va surgir de medir el grado de adecuación al uso que tiene el producto o servicio considerado. Poder hacer esa medición es fundamental a la hora de comparar un producto con un cierto estándar de calidad que debe cumplirse o a la hora de comparar dos productos desde el punto de vista de la calidad para elegir el mejor. Será demás imprescindible si queremos enfocar el problema de la calidad y de su control desde una perspectiva científica y técnica.

Tal medida conlleva de modo inevitable el recurso a características cuantitativas, que permitan el uso de herramientas estadísticas potentes y adecuadas a cada situación. Así pues, deberemos identificar unas características sobre las que nosotros podamos medir de modo objetivo esa calidad.

Page 10: ApuntesCurso Estadistica Ingeco UA 2012

10

La identificación de las características que en cada caso mejor miden la calidad de un producto o servicio no es, en mucho casos, tarea fácil: a veces la gran cantidad de características (dimensionales, eléctricas, mecánicas, etc.) que definen un producto hacen que sea difícil encontrar la o las ideales, distinguiéndolas de una multitud de características de importancia secundaria e incluso irrelevantes. En otros casos, especialmente cuando se trata de empresas que prestan servicios, habrá una dificultad intrínseca a la propia identificación de características objetivas que permitan medir la calidad, dada la intangibilidad que muchas veces caracteriza al servicio prestado.

En cualquier caso, deberán seleccionarse sólo las más importantes de entre las características que

miden la calidad, para evitar una excesiva dispersión de esfuerzos. Como primer bloque de características a controlar están aquellas cuyo fallo podría acarrear problemas desde el punto de vista de la seguridad o del cumplimiento de normativa legal. Estas deben ser siempre objeto de estudio y control, por la responsabilidad que se podría derivar de su anormal comportamiento. Además de este aspecto, se manejarán varios criterios de importancia para seleccionar las características a controlar:

• Importancia para la función del producto. • Importancia para las operaciones de fabricación. • Importancia que le concede el cliente. • Importancia en como afecta al medio ambiente

Estos cuatro factores son en cierta medida independientes, como puede verse en el siguiente ejemplo: En la fabricación del bloque de un motor de explosión, un defecto que provocara un reducción de la potencia obtenida del 10% sería importante desde el punto de vista de la función del producto, pero podría no afectar al proceso de fabricación en las etapas siguientes y pasar desapercibido al cliente. La no colocación de un gancho que se usa para trasladar el bloque durante la fabricación sería un serio perjuicio para esta, pero no afectaría a la función del producto y el cliente ni lo notaría. Por último, un aspecto sucio del motor produciría en el cliente una impresión desfavorable, pero carecería de importancia respecto de los otros dos factores.

La identificación de esas características “más importantes” puede verse ayudada por el uso de algunas de las llamadas Siete Herramientas. Podemos citar aquí:

1.- El diagrama de Pareto, que ayuda a centrar esfuerzos en aquellos problemas más importantes o más frecuentes.

2.- También el diagrama de causa/efecto, al ayudarnos identificar las causas de los problemas de

calidad, nos ayuda en la selección de aquellas características que detecten la aparición de esas causas.

3.- Por otra parte, el conocimiento técnico del proceso y del producto es imprescindible, y sin él las

otras herramientas pueden carecer de sentido.

4.- En esta última línea, el diagrama de flujo del proceso, puede ayudarnos a fijar ideas sobre la secuencia de operaciones y sobre el recorrido que realiza el material. Es un recurso a tener en cuenta.

Page 11: ApuntesCurso Estadistica Ingeco UA 2012

11

1.6.- Tipos de características de calidad. Según un cierto criterio, las características de calidad pueden considerarse divididas en dos grandes grupos: variables y atributos.

Las primeras son aquellas características que son medibles de un modo continuo, como pueden ser:

• características dimensionales (espesores, longitudes, diámetros, ...), • características mecánicas (resistencia, dureza, …) • características eléctricas (voltaje, resistencia, intensidad, ...) • pesos • tiempo que se tarda en servir un pedido • tiempo de espera de un cliente para recibir un servicio • etc.

En cambio, los atributos son características resultado de procesos de conteo, que conllevan ya en si una valoración cualitativa sobre la calidad de piezas, productos o servicios:

• número de defectos superficiales por metro cuadrado de pavimento cerámico • número de piezas defectuosas en una muestra • número de errores en un documento • porcentaje de impresos mal rellenados • número de personas insatisfechas por la calidad del servicio recibido, en una muestra

La diferente naturaleza estadística de variables y de atributos nos obligará, como más adelante

veremos, a emplear técnicas distintas para cada caso, aún con la misma base y la misma filosofía.

Así entonces, si las variables son características continuas, habitualmente serán modelizadas a través de la distribución normal o gaussiana. Ocasionalmente serán otros los modelos a emplear, como por ejemplo el exponencial o el de Weibull si se maneja la vida (duración hasta el fallo) del producto como índice de calidad.

Por su parte, las características tipo atributo seguirán modelos discretos, que según la naturaleza

del problema, serán:

• El modelo Binomial, Hipergeométrico, si en las muestras tomadas cada unidad es clasificada simplemente como correcta o defectuosa.

• El modelo de Poisson, si cada unidad de la muestra es susceptible de contener uno o varios

defectos

1.7.- El Rol de la Ciencia Estadística en la Gestión de la Calidad Total

Al definir características de Calidad en un Producto o Servicio se debe de tener muy en cuenta que dichas características deben ser necesariamente medibles, ya sea de forma cualitativa o cuantitativa. La “medición” de la característica queda evidenciada en lo que se llama “dato”. La materia prima de la Ciencia Estadística es el dato.

Page 12: ApuntesCurso Estadistica Ingeco UA 2012

12

Podemos definir la Estadística como una ciencia que sustentada en el Método Científico y la Matemática se preocupa de: • Diseñar y Planificar la colecta de los datos • Recolectar los datos • Procesar de los datos • Analizar e interpretar los resultados o información Con el objetivo de:

• Ayudar a tomar decisiones lo más acertadas posibles, teniendo como respaldo el conocimiento obtenido de la "situación estudiada" a través de los datos.

• Planificar y realizar seguimientos a acciones de mejora. • Conocimiento básico y descripción del comportamiento de una situación problema. • Monitorear acciones implementadas (correctivas, de innovación, cambio de materias primas,

etc. ) La definición anterior es la que llevada a un ciclo permanente, permite "la mejora continua" de toda actividad humana.

1.8.- Calidad del Dato

Del contexto del “Ciclo Virtuoso de la Mejora Continua” podemos desprender entonces que toda la estructura y beneficios que se espera de la Estadística descansan en los DATOS. Esto nos sugiere que el mayor esfuerzo posible lo debemos focalizar en la preocupación de obtener DATOS DE BUENA CALIDAD.

La falta de calidad de los datos es uno de los principales problemas a los que se enfrentan los

responsables de sistemas de información y las empresas en general, pues constituye uno de los problemas "ocultos" más graves y persistentes en cualquier organización. Algunos aspectos a considerar para evaluar la calidad del dato:

• Capacidad de los equipos de medición utilizados

• Programas de Calibración de los instrumentos de medición

• Planes de muestreo o monitoreo para variables del proceso

Page 13: ApuntesCurso Estadistica Ingeco UA 2012

13

• Competencias del recurso humano que interviene

• Temporalidad

• Trazabilidad

• Etc, etc.-

En resumen, realizar un análisis al Sistema de Medición que se utiliza o se va a implementar en el o los procesos. La muestra está formada por un subconjunto de elementos de la población, que son obtenidos utilizando metodologías que aseguran la representatividad de la muestra respecto de la población. La información obtenida de la muestra permite elaborar conclusiones válidas para todo el Universo, con un cierto grado de confiabilidad, similar al que tiene la muestra.

Resulta tan relevante la importancia de la muestra para efectos de caracterización, conocimiento, descripción, etc. de la población o fenómeno en estudio, que la Ciencia Estadística tiene una disciplina denominada Muestreo Estadístico.

Para colectar una buena muestra resulta de vital importancia, conocer a fondo el comportamiento de la Población, Universo, Lote, Proceso, etc.- 1.9.- Los manejos y cuidados de los datos colectados Considerando todos los puntos anteriores, es necesario decir que el avance en la tecnología de los medios informáticos permite cada vez más el uso eficiente del dato para tener información y aprender de los procesos a través de los datos que entregan sus variables de control.

¿Dónde almacenamos los datos?

La respuesta a esta interrogante a veces puede no ser simple, pero en general los datos se guardan o almacenan en lo que denominamos o definimos como Base de Datos. Hay empresas que disponen de softwares especializados para el manejo de los datos que obtienen de sus procesos. Pero una forma de trabajar con los datos puede ser una planilla electrónica, como Excel, que resulta enormemente eficiente. A modo de ejemplo:

Page 14: ApuntesCurso Estadistica Ingeco UA 2012

14

¿Qué información nos pueden entregar los datos? Con el objetivo de describir y caracterizar el comportamiento (tendencia) de una variable la información estadística puede ser entregada a través de:

Medidas de resumen: De tendencia central De variabilidad De posicionamiento De deformación

Tablas de distribución de frecuencias

Gráficos estadísticos

Dependiendo del tipo o naturaleza del dato, es la calidad y forma de entregar la información.

Page 15: ApuntesCurso Estadistica Ingeco UA 2012

15

1.9 Según el propósito o utilización de la información obtenida, la Estadística se divide en: • Estadística Descriptiva o Diagnóstica • Estadística Inferencial o Inductiva La Estadística Descriptiva: Recibe este nombre cuando con la información obtenida sólo se pretende describir o caracterizar una variable o un grupo particular. Las conclusiones son válidas sólo para ese grupo en particular. La Estadística Inferencial: Recibe este nombre ,cuando existe un proceso riguroso de definición de una muestra aleatoria a ser extraída del conjunto mayor, denominado Población o Universo, la cual tiene asignado un grado de confiabilidad y un error preestablecido. La muestra está formada por un subconjunto de elementos de la población, que son obtenidos utilizando metodologías que aseguran la representatividad de la muestra respecto de la población. La información obtenida de la muestra permite elaborar conclusiones válidas para todo el Universo, con un cierto grado de confiabilidad, similar al que tiene la muestra. Resulta tan relevante la importancia de la muestra para efectos de caracterización, conocimiento, descripción, etc. de la población o fenómeno en estudio, que la Ciencia Estadística tiene una disciplina denominada Muestreo Estadístico. Para colectar una buena muestra resulta de vital importancia, conocer a fondo el comportamiento de la Población, Universo, Lote, Proceso, etc.-

Page 16: ApuntesCurso Estadistica Ingeco UA 2012

16

Capitulo 2: Nociones de MUESTREO ESTADÍSTICO En la Inferencia Estadística hay varios métodos, pero en cualquier caso es necesario utilizar una muestra que represente a la población, esto se consigue con las Técnicas de muestreo. Para estudiar una población se puede hacer de dos formas:

• Diremos que se ha realizado un estudio exhaustivo o censo cuando la investigación se ha hecho sobre todos y cada uno de los elementos o unidades de análisis que constituyen la población.

• Diremos que se ha realizado un estudio por muestreo cuando la investigación se ha realizado única

y exclusivamente sobre una muestra (un subconjunto limitado y convenientemente seleccionado de la población).

Distinguimos dos tipos fundamentales de muestreo:

• Muestreo probabilístico. En este tipo de muestreo, todos los individuos de la población pueden formar parte de la muestra, tienen probabilidad positiva de formar parte de la muestra. Por lo tanto es el tipo de muestreo que deberemos utilizar en nuestras investigaciones, por ser el riguroso y científico. Es necesario que tengamos de la población a estudiar un catastro o marco.

• Muestreo no probabilístico. En este tipo de muestreo, puede haber clara influencia de la persona

o personas que seleccionan la muestra o simplemente se realiza atendiendo a razones de comodidad. Salvo en situaciones muy concretas en la que los errores cometidos no son grandes, debido a la homogeneidad de la población, en general no es un tipo de muestreo riguroso y científico, dado que no todos los elementos de la población pueden formar parte de la muestra. Por ejemplo, si hacemos una encuesta telefónica por la mañana, las personas que no tienen teléfono o que están trabajando, no podrán formar parte de la muestra.

Actividad 1: Contesta a las siguientes preguntas en tu cuaderno de trabajo: ¿Qué es el muestreo? ¿Qué diferencia hay entre realizar un censo o un estudio por muestro? ¿Y entre realizar un muestro probabilístico o no probabilístico? La primera tarea en diseñar un esquema de muestreo es definir la población del interés, y las unidades muestrales que se tomaran de esta población. Entenderemos como “población” a una colección de ítems o variables que son de interés, y las “unidades de muestrales” son estos ítems o variables. Definir la población del interés y de las unidades de muestrales es lo primero que se debe realizar porque resulta obvio conocer la definición o extensión de la población, y las unidades muestrales naturales existentes. La población de interés puede ser el material que sale de la sección de aglomeración; o el material que está en una pila; o la solución que está en una piscina de reposo, etc.- La característica a medir u observar puede ser el “Porcentaje de Humedad”, “La concentración”; el tiempo de separación de fase.

Page 17: ApuntesCurso Estadistica Ingeco UA 2012

17

Sin embargo, en otras veces definiciones menos más o arbitrarias serán requeridas:

Un ejemplo de una situación es un catastro donde están todas las granjas la población en una región de un país y la variable del interés es la cantidad de agua usada para el regadío en una granja.

Esto pone en contraste con la situación donde hay interés en el impacto de un derrame del aceite

en la flora y de la fauna en playas. En este caso la extensión del área que pudo ser afectada puede no ser claro, y ello puede no ser obvio puesto no se sabe que longitud de la playa se va a utilizar como unidad muestral.

El derrumbe de una pila de lixiviación y caída de soluciones a un río cercano

El investigador debe entonces elegir subjetivamente el área potencialmente afectada, e impone una estructura en términos de las unidades muestrales. Además, podría no ser adecuado el tamaño para la unidad e muestral. Un rango de longitudes de la playa puede servir igualmente bien, considerando el método que se utiliza para tomar las mediciones.

La opción de qué medición se hará, por supuesto que también introducirá algunas otras decisiones subjetivas 2.1. Muestreo al azar Simple o Muestreo Aleatorio Simple (M.A.S) Una muestra escogida mediante Muestreo Aleatorio Simple es aquella que es obtenida por un proceso que otorga a cada unidad muestral o unidad de análisis, la misma probabilidad de ser elegida. Será generalmente deseable elegir tal muestra sin reemplazo para no utilizar unidades muestrales más de una vez. Esto da resultados levemente más exactos que el muestreo con el reemplazo por el que las unidades individuales puedan aparecer dos o más veces en la muestra. Sin embargo, para las muestras que son pequeñas en comparación con el tamaño de la población, la diferencia en la exactitud obtenida no es grande.

La obtención de una muestra aleatoria simple es más fácil cuando se tiene a disposición un marco de muestreo, donde está una lista de todas las unidades en la población de donde se obtendrá la muestra. Si el marco de muestreo contiene las unidades numeradas a partir de la 1 a N, entonces una muestra aleatoria simple, de tamaño n, es obtenida sin reemplazo, sacando de la población los “n” números sorteado y asignados en el marco muestral, de manera tal que cada numero de la población marco sea igualmente probable ser elegido. Para muestreo con reemplazo, cada uno de los números 1 a N tienen misma probabilidad de aparecer en cada extracción o selección de una unidad muestral.

El proceso de seleccionar las unidades para utilizar en una muestra es facilitado a veces usando una tabla de números al azar tales como el que está demostrado en la tabla 2,1 Como ejemplo de cómo tal tabla puede ser utilizada, suponga que un área del estudio está dividida en 116 cuadrantes según lo demostrado en el cuadro 2,1 y es deseable seleccionar una muestra escogida al azar simple de 10 de estos cuadrantes sin reemplazo.

Page 18: ApuntesCurso Estadistica Ingeco UA 2012

18

Figura 1 El área de estudio ha sido dividida en 116 cuadrantes que serán Utilizados como unidades muestrales.

El proceso de seleccionar las unidades para utilizar en una muestra es facilitado a veces usando una tabla de números al azar tales como el que está demostrado en la tabla 1. Como ejemplo de cómo tal tabla puede ser utilizada, suponga que un área del estudio está dividida en 116 cuadrantes según lo demostrado en la figura ,1 y es deseable seleccionar una muestra escogida al azar simple de 10 de estos cuadrantes sin reemplazo. Para hacer esto, en primer lugar se comienza en un lugar arbitrario en la tabla tal como el principio de la fila cinco. Los primeros tres dígitos en cada bloque de cinco dígitos se pueden entonces considerar, para dar la serie 698, 419, 008, 127, 106, 605, 843, 378, 462, 953, 745, etcétera. Los primeros diez números diferentes entre 1 y 116 constituirán una muestra aleatoria simple de cuadrantes: 8, 106, 80, 3, 99, 1, 75, 106, 34, 45.

Para seleccionar muestras grandes esencialmente se realiza el mismo proceso. Se puede realizar en una computadora usando números pseudo-random ( seudo aleatorios ).

Page 19: ApuntesCurso Estadistica Ingeco UA 2012

19

Tabla 1 : Tabla de números aleatorios

1252 9045 1286 2235 6289 5542 2965 1219 7088 1533 9135 3824 8483 1617 0990 4547 9454 9266 9223 9662 8377 5968 0088 9813 4019 1597 2294 8177 5720 8526 3789 9509 1107 7492 7178 7485 6866 0353 8133 7247 6988 4191 0083 1273 1061 6058 8433 3782 4627 9535 7458 7394 0804 6410 7771 9514 1689 2248 7654 1608 2136 8184 0033 1742 9116 6480 4081 6121 9399 2601 5693 3627 8980 2877 6078 0993 6817 7790 4589 8833 1813 0018 9270 2802 2245 8313 7113 2074 1510 1802 9787 7735 0752 3671 2519 1063 5471 7114 3477 7203 7379 6355 4738 8695 6987 9312 5261 3915 4060 5020 8763 8141 4588 0345 6854 4575 5940 1427 8757 5221 6605 3563 6829 2171 8121 5723 3901 0456 8691 9649 8154 6617 3825 2320 0476 4355 7690 9987 2757 3871 5855 0345 0029 6323 0493 8556 6810 7981 8007 3433 7172 6273 6400 7392 4880 2917 9748 6690 0147 6744 7780 3051 6052 6389 0957 7744 5265 7623 5189 0917 7289 8817 9973 7058 2621 7637 1791 1904 8467 0318 9133 5493 2280 9064 6427 2426 9685 3109 8222 0136 1035 4738 9748 6313 1589 0097 7292 6264 7563 2146 5482 8213 2366 1834 9971 2467 5843 1570 5818 4827 7947 2968 3840 9873 0330 1909 4348 4157 6470 5028 6426 2413 9559 2008 7485 0321 5106 0967 6471 5151 8382 7446 9142 2006 4643 8984 6677 8596 7477 3682 1948 6713 2204 9931 8202 9055 0820 6296 6570 0438 3250 5110 7397 3638 1794 2059 2771 4461 2018 4981 8445 1259 5679 4109 4010 2484 1495 3704 8936 1270 1933 6213 9774 1158 1659 6400 8525 6531 4712 6738 7368 9021 1251 3162 0646 2380 1446 2573 5018 1051 9772 1664 6687 4493 1932 6164 5882 0672 8492 1277 0868 9041 0735 1319 9096 6458 1659 1224 2968 9657 3658 6429 1186 0768 0484 1996 0338 4044 8415 1906 3117 6575 1925 6232 3495 4706 3533 7630 5570 9400 7572 1054 6902 2256 0003 2189 1569 1272 2592 0912 3526 1092 4235 0755 3173 1446 6311 3243 7053 7094 2597 8181 8560 6492 1451 1325 7247 1535 8773 0009 4666 0581 2433 9756 6818 1746 1273 1105 1919 0986 5905 5680 2503 0569 1642 3789 8234 4337 2705 6416 3890 0286 9414 9485 6629 4167 2517 9717 2582 8480 3891 5768 9601 3765 9627 6064 7097 2654 2456 3028

Page 20: ApuntesCurso Estadistica Ingeco UA 2012

20

Actividad 2.

1.- Supongamos que tenemos una población de 423 individuos, numerados desde el 1 a 423 y queremos obtener una muestra de cinco individuos. Utilice la tabla 2.1 para esta tarea. Inicie el recorrido ubicándose en el casillero de la segunda fila y tercera columna. Utilice los últimos tres dígitos en cada bloque.

2.- Seleccione de la población de 423 individuos, numerados desde el 1 a 423, una muestra aleatoria de cinco individuos. Utilice la rutina “Ran #” de su calculadora científica. Compare su resultado con los obtenidos por otros compañeros.

3.- Seleccione de la población de 423 individuos, numerados desde el 1 a 423, una muestra aleatoria de 15 individuos. Utilice la planilla Exce con el procedimiento siguiente: Datos, Análisis de Datos, Muestra. Compare su resultado con los obtenidos por otros compañeros.

2.2 MUESTREO ALEATORIO ESTRATIFICADO

Es frecuente que cuando se realiza un estudio interese estudiar una serie de sub-poblaciones (estratos) en la población, siendo importante que en la muestra haya representación de todos y cada uno de los estratos considerados. El muestreo aleatorio simple no nos garantiza que tal cosa ocurra. Para evitar esto, se saca una muestra de cada uno de los estratos.

Este caso se presenta cuando a la “Unidad de Chancado” llega mineral desde dos o más puntos diferentes de la mina, y se desea realizar una estimación de la ley media resultante en el proceso de molienda.

También puede ser que un estanque de “acopio de soluciones” esté siendo alimentado por dos o más líneas independientes de PLS, que proceden de sectores de pilas de lixiviación diferentes, que pueden tener concentraciones diferentes. Las muestras tomadas servirán para estimar la concentración promedio en el estanque de acopio.

Hay dos conceptos básicos:

Estratificación: El criterio a seguir en la formación de los estratos será formarlos de tal manera que haya la máxima homogeneidad en relación a la variable a estudio dentro de cada estrato y la máxima heterogeneidad entre los estratos.

Afijación: Reparto del tamaño de la muestra en los diferentes estratos o sub-poblaciones. Existen varios criterios de afijación entre los que destacamos:

• Afijación igual: Todos los estratos tienen el mismo número de elementos en la muestra.

Esto significa si pensamos que una muestra va a estar conformado por 14 unidades de análisis y la población está constituida por dos estratos, entonces de cada estrato se seleccionarán de manera aleatoria 7 unidades de análisis.

Page 21: ApuntesCurso Estadistica Ingeco UA 2012

21

• Afijación proporcional: Cada estrato tiene un número de elementos en la muestra proporcional a su tamaño. Para cada estrato hay que hacer una proporción, por tanto basta con dividir el tamaño de la muestra entre el tamaño de la población y multiplicar por el tamaño de cada estrato. En la escena basta con introducir el tamaño de la población, el tamaño de la muestra y el tamaño de un estrato y obtendremos los elementos de la muestra que debemos elegir en ese estrato.

Por ejemplo, una empresa perteneciente a un Holding, está formada por 450 operarios, 35 administrativos, 40 supervisores y 12 ejecutivos. Se desea aplicar una encuesta para medir compromiso e identidad institucional. Supongamos que las personas a cargo del estudio dicen que la muestra estará formada por un 10% de los trabajadores de la empresa. Entonces la encuesta deberá de ser aplicada a 54 personas.

Del estrato operarios deberán de seleccionarse de forma aleatoria = 45450*54054

=

Del estrato administrativos deberán de seleccionarse de forma aleatoria = 45,335*54054

==

Del estrato supervisores deberán de seleccionarse de forma aleatoria = 440*54054

=

Del estrato ejecutivos deberán de seleccionarse de forma aleatoria = 12,112*54054

==

Actividad 3.-

1.- Supongamos que en un centro escolar de 1.100 alumnos, hay 350 alumnos en 1º medio, 300 en 2º medio; 250 en 3º de Bachillerato, y 200 en 4º; y queremos estudiar el número de alumnos que aprueban todas las asignaturas. Pensamos que puede haber diferencias entre los distintos niveles educativos, por lo que nos interesa que en la muestra estén representados todos los cursos. Si queremos elegir una muestra de 80 alumnos, para que todos estén representados, podemos realizar dos tipos de muestreos aleatorios estratificados:

a) Determine los tamaños muestrales en cada estrato utilizando “afijación igual”

b) Determine los tamaños muestrales en cada estrato utilizando “afijación proporcional”

c) ¿Cómo cree usted que deberemos elegir después cuáles son los alumnos?

Page 22: ApuntesCurso Estadistica Ingeco UA 2012

22

2.- Una biblioteca pública está organizada en cinco secciones (en el cuadro adjunto se indica el número de libros existentes en cada sección). Con objeto de estimar el porcentaje de libros de edición española, se quiere seleccionar una muestra de un 5% del número total de libros, a través de muestreo estratificado aleatorio, considerando como estratos las secciones. Determinar el número de libros que habría que seleccionar en cada sección:

a) Considerando afijación igual. b) Considerando afijación proporcional.

Sección 1 Sección 2 Sección 3 Sección 4 Sección 5 500 860 1200 700 740

d) ¿ Qué se necesita en cada sección y cómo cree que deberemos elegir después cuáles son los libros que constituirán la muestra? • Afijación óptima : Consiste en obtener mayor cantidades de unidades muestrales de aquellos

estratos que presentan una mayor diversidad

3.3 MUESTREO ALEATORIO SISTEMATICO Se utiliza cuando el universo es de gran tamaño o ha de extenderse en el tiempo. Primero hay que identificar las unidades y relacionarlas con el calendario (cuando proceda). Luego hay que calcular una constante, que se denomina coeficiente de elevación K= N/n; donde N es el tamaño del universo y n el tamaño de la muestra. Determinar en qué fecha se producirá la primera extracción, para ello hay que elegir al azar un número entre 1 y K; de ahí en adelante tomar uno de cada K a intervalos regulares. Ocasionalmente, es conveniente tener en cuenta la periodicidad del fenómeno.

Este tipo de muestreo se realiza fundamentalmente cuando es imposible contar previamente con un listado de la población bajo estudio. Por ejemplo:

1. La cantidad de solución que pasa por un ducto o tubería ; 2. La cantidad de unidades que se embalan en una envasadora de frutas para exportar. 3. El material particulado que lleva una cinta o correa transportadora. 4. La cantidad de árboles, especies etc.- que se encontrarán en un recorrido utilizando una línea

imaginaria (Transecta). 5. etc., etc.

Es decir, todo aquello que refleje un producción en línea continua a través del tiempo. Podría decirse entonces que el muestreo sistemático es una metodología de obtención de las unidades de análisis, y por lo tanto el cálculo de los estimadores e intervalos de confianza son los mismos que los vistos para el muestreo aleatorio simple.

Se debe tomar de forma aleatoria un punto de partida, y de ahí en adelante, seleccionar las unidades muestrales a tiempo o espacios regulares.

Generalmente este tipo de muestreo lo realizan los cortadores automáticos o torres de muestreo , que se ubican en los saltos de correa. A intervalos regulares de tiempo, se desplaza una “cuchara” o canaleta atravesando la cinta transportadora y recogiendo una pequeña cantidad de material, la que se va almacenando en un depósito. Este depósito es retirado al final o a la mitad de un turno y se lleva al laboratorio para a partir de este material recopilado, se prepare una muestra para ser analizada.

Page 23: ApuntesCurso Estadistica Ingeco UA 2012

23

Este procedimiento selecciona una muestra más representativa que el muestreo aleatorio simple , si los elementos más cercanos entre sí se asemejan más que aquellos que están más distantes.. Pero podría ser menos representativa que la muestra aleatoria simple en situaciones en que hay ciclos o periodicidad oculta en la población (venta de pasajes según temporada, volumen de ventas según días de la semana o del mes ,etc).

2.4 MUESTREO ALEATORIO por Conglomerado o Área Requiere de elegir una muestra aleatoria simple de unidades heterogéneas entre sí de la población llamadas conglomerados. Cada elemento de la población pertenece exactamente a un conglomerado, y los elementos dentro de cada conglomerado son usualmente heterogéneos o disímiles.

Ejemplo:

Supongamos que una compañía de servicio de televisión por cable está pensando en abrir una sucursal en una ciudad grande; la compañía planea realizar un estudio para determinar el porcentaje de familias que utilizarían sus servicios. Como no es práctico preguntar en cada casa, la empresa decide seleccionar una parte de la ciudad al azar, la cual forma un conglomerado. Por ejemplo, una unidad vecinal podría constituir un conglomerado

En el muestreo por conglomerados, éstos se forman para representar, tan fielmente como sea posible, a toda la población; entonces se usa una muestra aleatoria simple de conglomerados para estudiarla. Los estudios de instituciones sociales como iglesias, hospitales, escuelas, universidades y prisiones se realizan, generalmente, con base en el muestreo por conglomerados.

Hay diferentes formas de trabajar con las unidades de análisis de los conglomerados, y según sea el caso, reciben las siguientes denominaciones:

Monoetápico: Cuando la característica definida para estudiar, se pesquisa en todas las unidades

que forman el conglomerado Bietápico: Cuando el conglomerado se subdivide en clases o áreas más pequeñas. Luego se

seleccionan al azar algunas de estas sub-áreas y en todas las unidades muestrales que forman estas sub-áreas se mide u observa la característica definida para estudiar

Trietápico: También los conglomerados que forman la población en estudio contienen sub-áreas

anidadas unas dentro de otras. Por ejemplo:

País Región Provincia Comuna Sector Unidad vecinal manzana hogares

Page 24: ApuntesCurso Estadistica Ingeco UA 2012

24

Entonces para llegar hasta el hogar, bajo muestreo por conglomerado, se debe pasar por siete etapas de selección aleatoria

Una situación parecida en cuanto a las etapas que hay realizar para reducir una muestra de mineral para preparar una muestra que debe ser analizada en el laboratorio.

2.5 Otros Métodos de Muestreo no probabilísticas 1- Muestreo Discrecional: A criterio del investigador los elementos son elegidos sobre lo que él

cree que pueden aportar al estudio. Ejemplo: muestreo por juicios; cajeros de un banco o un supermercado; Directores de colegios; Presidentes de organizaciones, etc.

2- Muestreo Doble: Bajo este tipo de muestreo, cuando el resultado del estudio de la primera

muestra no es decisivo, una segunda muestra es extraída de la misma población. Las dos muestras son combinadas para analizar los resultados. Este método permite a una persona principiar con una muestra relativamente pequeña para ahorrar costos y tiempo. Si la primera muestra arroja un resultado definitivo, la segunda muestra puede no necesitarse. Por ejemplo, al probar la calidad de un lote de productos manufacturados, si la primera muestra arroja una calidad muy alta, el lote es aceptado; si arroja una calidad muy pobre, el lote es rechazado. Solamente si la primera muestra arroja una calidad intermedia, será requerida la segunda muestra.

3- Muestreo Múltiple: El procedimiento bajo este método es similar al expuesto en el muestreo

doble, excepto que el número de muestras sucesivas requerido para llegar a una decisión es más de dos muestras.

4- Muestreo Opinático o Intencional: Este tipo de muestreo se caracteriza por un esfuerzo

deliberado de obtener muestras "representativas" mediante la inclusión en la muestra de grupos supuestamente típicos. Es muy frecuente su utilización en sondeos preelectorales de zonas que en anteriores votaciones han marcado tendencias de voto.

5- Muestreo Casual o Incidental: Se trata de un proceso en el que el investigador selecciona

directa e intencionadamente los individuos de la población. El caso más frecuente de este procedimiento el utilizar como muestra los individuos a los que se tiene fácil acceso (los profesores de universidad emplean con mucha frecuencia a sus propios alumnos). Un caso particular es el de los voluntarios. 2.6 Usos del Muestreo.

El Muestreo es utilizado en diversos campos: 1- Política: Las muestras de las opiniones de los votantes se usan para que los candidatos midan la opinión pública y el apoyo en las elecciones. 2- Educación: Las muestras de las calificaciones de los exámenes de estudiantes se usan para determinar la eficiencia de una técnica o programa de enseñanza. 3- Industria: La muestras de los productos de una línea de ensamble sirve para controlar la calidad. 4- Medicina: Las muestras de medidas de azúcar en la sangre de pacientes diabéticos prueban la eficacia de una técnica o de un fármaco nuevo. 5- Agricultura: Las muestras del maíz cosechado en una parcela proyectan en la producción los efectos de un fertilizante nuevo.

Page 25: ApuntesCurso Estadistica Ingeco UA 2012

25

6- Gobierno: Una muestra de opiniones de los votantes se usaría para determinar los criterios del público sobre cuestiones relacionadas con el bienestar y la seguridad nacional. 7.- Minería: Las muestras de mineral extraídas de una zona específica, una vez procesadas química y estadísticamente, permiten dimensionar la riqueza de un yacimiento y la viabilidad económica del proyecto (geoestadística)

Todo estudio estadístico a cerca de un Universo o población de interés utilizando información muestral, precisa que la muestra sea representativa y asegure un nivel de confiabilidad

Todos los puntos anteriores estuvieron destinados a definir y comprender lo que es una muestra y la metodología o forma de extraer las unidades de análisis de manera de dar representatividad a la muestra.

También es importante destacar que con la información muestral podemos realizar inferencias respecto de la población de donde fue extraída la muestra.

Toda inferencia respecto del comportamiento de una variable o característica en estudio, basada en información muestral, necesita asegurar un grado de confiabilidad y un error de muestral permitido . Estas dos ultimas característica influyen directamente en la cantidad de unidades de análisis que debe tener una muestra, o tamaño muestral.

Tipo de errores de muestreo y técnicas para su minimización

2.7 Materiales e instrumentos para el muestreo Los instrumentos de muestreo adecuados son esenciales para realizar un buen muestreo y para las buenas prácticas de laboratorio. Pierre Gy recomienda cucharones y espátulas planos con lados paralelos (sin puntas) , para evitar el muestreo preferencial de partículas gruesas. Adicionalmente, debe considerarse y evitar la introducción de errores en el laboratorio, debidos a un mal diseño de cortadores rifler, espátulas y otras herramientas usadas en la preparación de submuestras para análisis (US EPA 1999, Gy 1992). A continuación se mencionan criterios generales para la selección de herramientas, así como ejemplos de algunos materiales comunes para el muestreo.

Page 26: ApuntesCurso Estadistica Ingeco UA 2012

26

a) Herramientas adecuadas: Entre los principales criterios a considerar para la selección de herramientas adecuadas de muestreo, se encuentran los siguientes:

• Tamaño de muestra necesaria para los análisis requeridos, con base en la(s) característica(s) o propiedad(es) de interés (sección 3.5, cuadro 9).

• Tipo de suelo (arenoso, arcilloso, etc.) y condiciones de humedad.

• Profundidad máxima a la que se va a tomar la muestra (sección 3.5, cuadro 10).

• .Accesibilidad al sitio de muestreo.

• .Requerimientos del personal para su manejo. b) Instrumentos para la toma de muestras: La selección de instrumentos adecuados es esencial para un buen muestreo y para un buen análisis de laboratorio. Para el caso de suelos contaminados con metales, los utensilios para el muestreo deben ser de plástico, teflón o acero inoxidable; entre los más comunes se encuentran: palas rectas y curvas, picos, barrenas y barretas, nucleadores, espátulas, navajas y martillo de geólogo.

c) Material de apoyo. Como material de apoyo durante un muestreo, es importante incluir: cartas topográficas, edafológicas, climáticas y geológicas, un plano cartográfico del sitio y mapas de carreteras. Adicionalmente, es recomendable incluir una libreta para anotaciones, una cámara fotográfica y la cadena de custodia para las muestras. d) Material para la orientación y ubicación de los puntos de muestreo y para medir la zona:

. Sistema global de posicionamiento (GPS)

. Cinta métrica

. Estacas, etc.

e) Material para guardar y transportar muestras. El material a emplear debe ser compatible con el material a muestrear, deber ser resistente a la ruptura y evitar reacciones químicas con la muestra y/o pérdidas por evaporación. El volumen del contenedor debe ser aproximadamente el mismo de la muestra, con la finalidad de minimizar el espacio vacío. Algunos de los materiales que pueden utilizarse para la colección de muestras son:

Page 27: ApuntesCurso Estadistica Ingeco UA 2012

27

. Frascos de vidrio (boca ancha y angosta): compuestos semi-volátiles, pesticidas y metales . Tubos Viales de vidrio (tienen tapa rosca): compuestos volátiles. . Contenedores de polietileno: conductividad.

f) Conservación de muestras. Los recipientes en los que se colectaron las muestras deben sellarse adecuadamente. En general, es recomendable evitar en lo posible el uso de agentes químicos para conservar muestras de suelo. Para su conservación es conveniente mantenerlas en lugares frescos (4 a 6 °C) y oscuros. g) Material de seguridad y limpieza. Deben incluirse guantes de látex, agua desionizada, lentes de seguridad, toallas de papel, mascarilla para polvos y franelas. h) Material para etiquetar y marcar las muestras:

. Etiquetas adheribles o adhesivas . Marcador indeleble . Cinta adhesiva . Bolígrafos o lápices

La teoría de Gy para el “muestreo de materiales particulados” proporciona las bases para extraer una muestra a partir de un material y ayuda a definir el tamaño necesario para caracterizar un material como el suelo. La teoría relaciona directamente el tamaño de partícula de un material con el tamaño de la muestra a tomar para una unidad a evaluar, de tal manera que la cantidad de material necesario para el análisis de parámetros específicos puede determinarse a través de conceptos desarrollados en la misma (US EPA 1999, Mason 1992, Gerlach y Nocerino 2003).

Page 28: ApuntesCurso Estadistica Ingeco UA 2012

28

Capitulo 3: Tratamiento Estadísticos de los datos Colectados 3.1.- Los manejos y cuidados de los datos colectados Considerando todos los puntos anteriores, es necesario decir que el avance en la tecnología de los medios informáticos permite cada vez más el uso eficiente del dato para tener información y aprender de los procesos a través de los datos que entregan sus variables de control.

¿Dónde almacenamos los datos?

La respuesta a esta interrogante a veces puede no ser simple, pero en general los datos se guardan o almacenan en lo que denominamos o definimos como Base de Datos. Hay empresas que disponen de softwares especializados para el manejo de los datos que obtienen de sus procesos. Pero una forma de trabajar con los datos puede ser una planilla electrónica, como Excel, que resulta enormemente eficiente. A modo de ejemplo:

¿Qué información nos pueden entregar los datos? El propósito de la matriz de datos es presentar los datos de la manera "más depurada posible" para proceder a su procesamiento y obtener información

La primera preocupación es aprender a estructurar una base de datos, utilizando un software para su posterior procesamiento. La primera y más elemental forma de tener información y una visión resumida de los datos es a través de la "tablas estadísticas " y los "Gráficos estadísticos". Por supuesto que estas formas de resumir y presentar información dependen de la naturaleza del tipo de dato.

Page 29: ApuntesCurso Estadistica Ingeco UA 2012

29

Con el objetivo de describir y caracterizar el comportamiento (tendencia) de una variable la información estadística puede ser entregada a través de:

Medidas de resumen: De tendencia central De variabilidad De posicionamiento De deformación

Tablas de distribución de frecuencias

Gráficos estadísticos

Dependiendo del tipo o naturaleza del dato, es la calidad y forma de entregar la información,. 3.2 Procesamiento y análisis de Variables Cualitativas 3.2.1 Procesamiento de datos cualitativos Cuando los datos son cualitativos, la tabla tiene la siguiente estructura: Actividad: Un vendedor de vehículos nuevos resumió en la tabla siguiente, los automóviles vendidos según la cantidad de cilindros:

Clase Numero de Cilindros

Frecuencia Absoluta f i

Frecuencia Relativa h i %

Frecuencia Absoluta

Acumulada Fi

Frecuencia Relativa

Acumulada Hi %

1 3 1 0,65 1 0,65 2 4 104 67,10 105 67,74 3 5 3 1,94 108 69,68 4 6 30 19,35 138 89,03 5 8 17 10,97 155 100,00

Esta tabla debe de ser interpretada

Page 30: ApuntesCurso Estadistica Ingeco UA 2012

30

Número de Cilindros34568

0,65%

67,10%1,94%

19,35%

10,97%

Toda tabla y grafico estadístico debe tener un nombre breve que identifique plenamente la situación que presenta. También debe llevar o identificar la fuente que produce el gráfico o la tabla estadística. Actividad para el alumno La tabla siguiente muestra la venta de automóviles japoneses, en el año 1990

Clase Marca del Vehículo

Frecuencia Absoluta f i

Frecuencia Relativa h i %

Frecuencia Absoluta

Acumulada Fi

Frecuencia Relativa

Acumulada Hi % 1 Datsun 12 2 Honda 9 3 Mazda 9 4 Nissan 1 5 Subaru 2 6 Toyota 11

• Complete las otras columnas de la tabla

• Redacte algunas conclusiones que se pueden obtener de ella

• Construya un gráfico de barras y un gráfico de sectores

Es muy importante colocar, tanto a la “tabla de datos” como al “gráfico estadístico”, un nombre que describa de forma breve, concisa e inequívoca la situación que presenta Grafico de Pareto Cuando se trata de graficar tablas que presentan la distribución o comportamiento de variables cualitativas, hoy en día se está usando en el campo de la mejora de la calidad y la productividad un grafico muy interesante llamado Gráfico de Pareto.

Page 31: ApuntesCurso Estadistica Ingeco UA 2012

31

En términos muy generales, los problemas de calidad en el sector procesos industriales o de manufactura se presentan como pérdidas (productos defectuosos y su costo) . En el sector servicio, la falta de calidad también se puede tratar de cuantificar a través de las opiniones obtenidas de los usuarios y el desglose de las causas que motivan el descontento. Resulta muy importante aclarar el patrón de la distribución de la pérdida. La mayoría de las pérdidas se deberán a unos pocos tipos de defectos, y estos defectos pueden atribuirse a un número reducido de causas. Si se identifican las causas de estos pocos defectos vitales, podremos eliminar casi todas las pérdidas, concentrando todo el esfuerzo en esas causas particulares y dejando de lado por el momento otros muchos defectos triviales. El uso del diagrama de Pareto permite solucionar este tipo de problema con eficiencia. En 1897, el economista italiano V. Pareto presentó una fórmula que mostraba que la distribución del ingreso es desigual. En 1907, el economista norteamericano M. C. Lorenz expresó una teoría similar por medio de diagramas. Estos dos economistas indicaron que una proporción muy grande del ingreso está en manos de muy pocas personas. En el campo de La mejora de la Calidad y la Productividad , el Dr. J.M. Juran aplicó el método de l diagrama de Lorenz como fórmula para clasificar los problemas de calidad en los pocos vitales y los muchos triviales , y llamó a este método análisis de Pareto. Señaló que, en muchos casos, la mayoría de los defectos y de su costo se deben a un número relativamente pequeño de causas El gráfico de Pareto es en esencia un gráfico de barras, solo que éstas aparecen ordenadas de mayor a menor (Eje Horizontal). Se utiliza también la columna de la distribución de Frecuencias Relativas Acumuladas en el mismo gráfico. En el eje vertical se colocan las frecuencias absolutas acumuladas. Veremos un caso para ejemplificar la situación descrita en párrafos anteriores. A continuación se muestra una tabla de datos con defectos en piezas manufacturadas (Una pieza puede tener más de un defecto)

Tipo de defecto

Código Número de defectos

Burbuja Burb 20 Fractura Frac 10 Mancha Manc 6 Rajadura Raj 4 Rayado Raya 42 Tensión Tens 104 otros Otro 14 Total 200

Tipo Puntaje Puntaje Porcentaje de Defecto Rango Recuento Ponderación Ponderado Acum Porcentaje Acum Tensión 1 104 1 104 104 52,00 52,00 Rayado 2 42 1 42 146 21,00 73,00 Burbuja 3 20 1 20 166 10,00 83,00 otros 4 14 1 14 180 7,00 90,00 Fractura 5 10 1 10 190 5,00 95,00 Mancha 6 6 1 6 196 3,00 98,00 Rajadura 7 4 1 4 200 2,00 100,00 Total 200 200

Page 32: ApuntesCurso Estadistica Ingeco UA 2012

32

A la tabla anterior le agregaremos una nueva columna donde se le han colocado a cada tipo de defecto los pesos o ponderaciones. Muchas veces dichas ponderaciones son valores en moneda nacional de lo que significa ese defecto. Este nuevo antecedente hace que ahora la columna que estructura el gráfico y análisis de Pareto, sea la columna que se genera al multiplicar las cantidades de defecto (según tipo) por el costo asociado a cada uno de ellos.

Tipo de defecto

Código Número de defectos

Costo $

Burbuja Burb 20 150 Fractura Frac 10 300 Mancha Manc 6 50 Rajadura Raj 4 250 Rayado Raya 42 250 Tensión Tens 104 40 otros Otro 14 60 Total 200

Tipo Puntaje Puntaje Porcentaje de Defecto Rango Recuento Ponderación Ponderado Acum. Porcentaje Acumulado

Rayado 1 42 250 10500 10500 46,05 46,05 Tensión 2 104 40 4160 14660 18,25 64,30 Fractura 3 10 300 3000 17660 13,16 77,46 Burbuja 4 20 150 3000 20660 13,16 90,61 Rajadura 5 4 250 1000 21660 4,39 95,00 otros 6 14 60 840 22500 3,68 98,68 Mancha 7 6 50 300 22800 1,32 100,00 Total 200 22800

Page 33: ApuntesCurso Estadistica Ingeco UA 2012

33

El Gráfico de Pareto también se puede construir utilizando Excel 2007. Veremos el caso de los defectos en las piezas manufacturadas, sin importar el costo asociado a cada tipo de defecto 1.- Ordene los tipos de defecto según sus cantidades y obtenga una tabla como la siguiente:

2.- Seleccione las tres columnas principales que van a intervenir en su gráfico de Pareto. Un ejemplo puede ser:

3.- Luego haga la siguiente secuencia

Page 34: ApuntesCurso Estadistica Ingeco UA 2012

34

4.- Se desplegará en primer lugar un gráfico como el siguiente

5.- Ponga la punta de la flecha del mouse sobre cualquier columna de color rojo, para que aparezcan unos círculos. Después utilice el sector derecho del mouse y en la pantalla que se despliega seleccione “tipos de gráficos de series” y seleccione

6.- Se desplegará entonces un grafico básico, como el siguiente

Page 35: ApuntesCurso Estadistica Ingeco UA 2012

35

7.- Con el uso adecuado del mouse, ubicándolo en las diversas partes del gráfico anterior, se puede ir mejorando la presentación, y tener por ejemplo, un gráfico de Pareto como el siguiente.

De la misma manera se procede si se desea construir un grafico donde los defectos están asociados con los costos de cada uno de ellos

¿Cómo construir una tabla de Distribución de Frecuencias de datos cualitativos cuando los datos vienen dispuestos en una columna (no tabulados)? Por ejemplo, la hoja 2 del archivo Excel “automóviles” tiene la Variable “Type”. Usando Excel debemos usar el comando “Contar.Si”

Page 36: ApuntesCurso Estadistica Ingeco UA 2012

36

Un pedazo de lo que está en la hoja 3 del archivo Excel automóviles es la siguiente:

Otra medio o forma para construir la tabla de frecuencias es utilizando el comando “Ordenar y filtrar” Primero marque o seleccione toda la columna a filtrar y luego aplique

Vera que la columna queda de la siguiente forma

Colocando la punta del mouse sobre la punta de flecha, se verán desplegada todas las posibilidades.

Page 37: ApuntesCurso Estadistica Ingeco UA 2012

37

3.3.- Métodos Estadísticos para la descripción y caracterización de las variables Cuantitativas

Cuando el tipo de dato que entrega la variable en estudio es una Cantidad (entera o decimal), podemos tener información estadística de ella a través de tres vías:

1. Tablas Estadísticas 2. Gráficos Estadísticos 3. Medidas o Indicadores de resumen cuantitativos Las razones principales para agrupar los datos son: • Determinar o calcular las distribuciones de frecuencias (Tablas Estadísticas), contar con

algunos descriptores numéricos de la distribución ( Medidas de Resumen) , • Representar gráficamente los resultados (Gráficos Estadísticos), para determinar el

comportamiento o tendencias del fenómeno que interesa analizar. 3.3.1.- Las tablas estadísticas de datos cuantitativos que son el resultado de mediciones en las unidades de análisis, se caracterizan porque generalmente las mediciones se agrupan dentro de intervalos numéricos. Las tablas se explicarán por sí mismas enteramente. Como los gráficos, se ha de dar suficiente información en el título y en los encabezamientos de columnas y filas de la tabla para permitir que el lector identifique fácilmente su contenido. Como el título será por lo general lo primero que se lee en detalle, deberá suministrar toda la información esencial sobre el contenido de la tabla y deberá especificar el tiempo, lugar, material ó estudio experimental y relaciones que se presenten en la tabla.

Tabla de Frecuencias para Ley Cobre total, tomadas en muestras diarias en Toquepala

Clase Limite Límite Inferior Superior

Marca de Clase

X i

FrecuenciaAbsoluta

f i

Frecuencia Relativa h i

Frec. Absol. Acumulada

F i

Frec. Relativa Acumulada

Hi 1 2 3 4 5 6 7 8 9 10 11 12

1,38 1,42 1,42 1,46 1,46 1,50 1,50 1,54 1,54 1,58 1,58 1,62 1,62 1,66 1,66 1,70 1,70 1,74 1,74 1,78 1,78 1,82 1,82 1,86

1,60

3 42 45 81 78 20 24 28 32 9

11 5

21,89%

3 45 90

171 249 269 293 321 353 362 373 378

79,19%

Total 378

Page 38: ApuntesCurso Estadistica Ingeco UA 2012

38

Es necesario definir algunas columnas de la tabla de distribución de frecuencias:

• Marca de clase “ Xi”: Es el punto medio del intervalo que contiene a los datos.

• Frecuencia Absoluta “f i”: Indica la cantidad de muestras que están contenidas en ese intervalo.

• Frecuencia Relativa “h i”: Indica el porcentaje de muestras que están contenidas en ese intervalo. Se calcula dividiendo la frecuencia absoluta del intervalo por la cantidad total “n” de datos (378) y luego este cuociente se multiplica por 100.

• Frecuencia Absoluta acumulada “Fi”: Representa la cantidad de datos que se van acumulando desde el primer intervalo hasta los intervalos representan valores mayores. Por eso se interpreta F5 como que hay 248 muestras de mineral que tienen ley de cobre total entre 1,38% y 1,58%

• Frecuencia Relativa acumulada “H i”: Representa el porcentaje de datos que se van acumulando desde el primer intervalo hasta los intervalos representan valores mayores. Por eso se interpreta H 5 como que un 65,6% de las muestras de mineral tienen ley de cobre total entre 1,38% y 1,58%. Se calcula dividiendo la frecuencia absoluta acumulada hasta ese intervalo por la cantidad total “n” de datos y multiplicando este cuociente por 100

Actividad

Complete las otras columnas de la tabla de distribución de frecuencia anterior. Interpretaciones y análisis que pueden hacer con una tabla de frecuencia

1. El 6º intervalo con su frecuencia absoluta : • Hay 20 muestras que tienen una ley superior o igual a 1,58% e inferior a 1,62 %

2. La marca de clase del 6º intervalo con su frecuencia absoluta : • Hay 20 muestras que tienen una ley promedio de 1,60% 3. El 4º intervalo con su frecuencia relativa : • Un 21,89% de las muestras tienen una ley promedio rendimiento superior o igual 1,50% e • inferior a 1,54% 4. La marca de clase del 4º intervalo con su frecuencia relativa • Un 21,89% de las muestras tienen una ley promedio de 1,52% 5. La frecuencia absoluta acumulada hasta el 7º intervalo • Hay 293 muestras con una ley superior o igual a 1,38% e inferior a 1,66% 6. La frecuencia relativa acumulada hasta el 7º intervalo. • Un 79,19 % de las muestras tienen una ley superior o igual a 1,38% e inferior a 1,66 %

Page 39: ApuntesCurso Estadistica Ingeco UA 2012

39

Actividad La tabla siguiente muestra el rendimiento en millas por galón, de vehículos que se fabrican y circulan en Estados Unidos de Norteamérica Clase Limite Límite

Inferior Superior Marca de

Clase X i

Frecuencia Absoluta

f i

Frecuencia Relativa h i

Frec. Absol. Acumulada

F i

Frec. Relativa Acumulada

Hi

1 2 3 4 5 6 7 8

15 18 18 21 21 24 24 27 27 30 30 33 33 36 36 39

10 20 13 14 10 6 9 3

a) Complete las otras columnas de la tabla de distribución de frecuencia anterior.

b) Una vez que completó las columnas de la tabla anterior, Interprete lo siguiente

1 El 4º intervalo con su frecuencia absoluta: 2 La marca de clase del 2º intervalo con su frecuencia absoluta: 3 El 4º intervalo con su frecuencia relativa: 4 La marca de clase del 4º intervalo con su frecuencia relativa 5 La frecuencia absoluta acumulada hasta el 6º intervalo 6 La frecuencia relativa acumulada hasta el 6º intervalo

Page 40: ApuntesCurso Estadistica Ingeco UA 2012

40

3.3.2- ¿Cómo construir una tabla de Distribución de Frecuencias?

Al resumir una gran cantidad de datos Cuantitativos Discretos con un Rango de variación más o menos amplio o datos Cuantitativos Continuos, resulta útil distribuirlos en clases o categorías denominadas Intervalos y determinar el número de observaciones que pertenecen a cada clase, llamando a esta cantidad "Frecuencia Absoluta " o "Frecuencia de Clase".

El número de intervalos o categorías a determinar para clasificar los datos, por reglas más bien prácticas oscila entre 5 y 20. Douglas Montgomery en su libro "Control Estadístico de la Calidad", aconseja una regla empírica : Señala que la cantidad de intervalos a determinar debe ser igual a la "Raíz Cuadrada del número de datos".

De forma muy general los pasos que se deben seguir para tabular los datos en una tabla de frecuencia, son los siguientes:

1. Ubicar en el conjunto de datos los valores máximos y mínimos. 2. Determinar el rango de variación de los datos "R" = XMáximo - XMínimo 3. Determinar la amplitud o ancho de los intervalo "Ai”: Consiste en dividir el rango por un valor

entero "k" que indica un número adecuado de intervalos a construir, que generalmente fluctúa entre 5 y 20. También puede ser igual al número entero inferior más próximo a la raíz cuadrada del número de datos.

Ai = kR

k = n

Una manera comúnmente usada para determinar "Ai" es : Ai = 2

21 AA +

Donde 201RA = ;

52RA =

El valor de Ai se debe aproximar a la décima de la unidad medida con que se registra el dato.

4.- Los intervalos o categorías se determinan de la forma siguiente: Intervalo 1: [ Xmin ; Xmin + Ai ) Intervalo 2: [ Xmin + Ai ; Xmin + 2 Ai ) . . . Intervalo t: [ Xmin +(t-1)Ai ; Xmin + t Ai ) 5.- Preparar un formato para la tabla de frecuencias, el cual debe contener: Una columna con los puntos medios o marcas de clase de los intervalos, otra columna para registrar la cantidad de valores que están dentro de cada intervalo (frecuencia absoluta), etc.- 6.- Lea cada valor registrado y vaya asignándolo al único intervalo donde debe estar contenido.

Page 41: ApuntesCurso Estadistica Ingeco UA 2012

41

Podemos utilizar la planilla Excel para elaborar una tabla de Distribución de Frecuencias con escala de intervalos. Un procedimiento sugerido es: 1.- Disponer los datos en una columna 2. Generar una columna donde estén definidos los intervalos 3.- Marcar la columna con los datos 4.- Poner el curso en la barra de herramientas “Datos” y seleccionar la opción “Filtro”

5.- En filtro personalizado colocar los intervalos definidos según el punto 2.-

Ejercicio: Los datos siguientes representan el rendimiento, en kilómetros por litro, en una muestra de 60 automóviles que circulan por la ciudad. Construya una tabla de distribución de frecuencias e interprete todos los componentes de la tabla, según ejemplos anteriores

17,9  15,0  13,6  16,4 15,0 8,3 8,1 8,4 8,0 8,5 8,4  10,4  8,5  8,1 8,6 8,6 7,7 7,5 8,0 7,4 7,5  7,3  12,5  11,4 11,3 12,8 8,8 9,6 9,9 9,9 8,4  7,1  9,0  6,7 13,1 12,3 8,9 8,2 9,3 8,4 8,6  7,1  7,3  6,9 7,6 7,0 6,4 8,0 7,7 13,3 14,2  14,8  11,4  10,6 9,6 11,3 9,9 14,2 14,3 13,2 

Page 42: ApuntesCurso Estadistica Ingeco UA 2012

42

3.3.3. Gráficos asociados a una tabla de distribución de frecuencias con escala de Intervalos. Una de las maneras de presentar datos estadísticos es la presentación gráfica. El análisis de los datos tabulados en cualquiera de las formas establecidas anteriormente, resulta casi imposible, debido a las múltiples comparaciones que se tienen que hacer con las cifras y el escaso tiempo que a veces se dispone para ello. Teniendo en consideración de que los gráficos en Estadística resultan de vital importancia para explicar situaciones presentadas o resumidas en Tablas con Información resumida ,( puesto que nos permiten : Tener una visión global y condensada del comportamiento de la variable , observar posibles tendencias , apreciar su campo de variación ,etc. ), debemos tener un especial cuidado en saber construirlos y luego analizarlos. En términos muy generales, un gráfico debe ser: Sencillo y auto-explicativo; Escalas adecuadas en los ejes de coordenadas a objeto de evitar las distorsiones y con ello evitar malas interpretaciones.

1. Histograma de Frecuencia : Los datos obtenidos de una muestra sirven como base para decidir sobre la población de la cual provienen. Mientras más grande sea la muestra, más información obtendremos sobre la población. Pero un aumento en el tamaño de la muestra también implica un aumento en la cantidad de datos, y esto puede llegar a hacer difícil comprender la población a partir de esos datos, aún cuando se organicen en tablas. En ese caso necesitamos un método que nos permita comprender la población de un vistazo. Un histograma responde a esta necesidad. La organización de un buen número de datos en un histograma nos permite comprender la población de manera objetiva. Es tal vez uno de los gráficos más utilizados. Se construye en un sistema coordenado formado por dos rectas perpendiculares entre sí, que se denomina Plano Cartesiano. La recta o Eje Horizontal se denomina EJE "X", y la recta o Eje Vertical se denomina EJE "Y" Está formado por barras que nacen desde el eje X, con un ancho igual a la amplitud del intervalo y de altura en el eje Y igual a la frecuencia absoluta del intervalo (o su frecuencia relativa).

Construcción del histograma de frecuencias usando Excel. 1.- Construya una tabla de distribución de frecuencias como la siguiente

Page 43: ApuntesCurso Estadistica Ingeco UA 2012

43

2.- Seleccione el área de la tabla anterior con la construirá el histograma:

3.- Seleccione “insertar” de la barra de comando de Excel:

4.- Aparecerá un gráfico donde las columnas se verán separadas.

Como los datos son continuos, las barras debiesen de estar juntas. En el gráfico original anterior, esta situación se corrige colocando la punta del curso sobre cualquier barra y conseguir que todas las barras aparezcan con unos círculos, tal como lo indica la siguiente figura

Page 44: ApuntesCurso Estadistica Ingeco UA 2012

44

5.- Enseguida pulsar el lado derecho del mouse para tener la siguiente ventana, donde deberá seleccionar “opciones de serie” y luego corregir el campo “Ancho del intervalo”, dejando hasta un 5% para ver levemente separadas las columnas.

6.- Para colocar los Rótulos a los ejes y el Título del gráfico, deberá trabajar las opciones que esta opción de Excel presenta

7.- Una presentación básica aceptable sería la siguiente

Page 45: ApuntesCurso Estadistica Ingeco UA 2012

45

Aplicación de los Histogramas a problemas relacionados con calidad: Un aspecto muy interesante es utilizar los histogramas que entregan los datos de la variable con los límites de especificación que le han sido asignados a la variable en estudio. Si existe una especificación, dibuje sobre el histograma, con líneas verticales, los límites de la especificación, para comparar la distribución de los datos con la respectiva especificación. Luego observe si el histograma está localizado razonablemente dentro de los límites.

Cuando el Histograma de los datos, acusa que se satisfacen las especificaciones

. Se satisface la especificación, pero no hay margen extra.

Es necesario reducir la variabilidad para poder quedar con un margen extra de tolerancia.

Page 46: ApuntesCurso Estadistica Ingeco UA 2012

46

Cuando el histograma de los datos, no satisface las especificaciones:

Estratificación de Histogramas : Cuando los valores observados se dividen en dos o más sub-poblaciones según la condición que existía en el momento de recoger los datos , esas sub-poblaciones se llaman estratos , y la división de los datos en estratos se llama estratificación . Los valores observados siempre van acompañados de alguna variación. Por tanto , cuando los datos se estratifican según los factores que se cree puedan causar la variación, las causas de la variación se hacen más fácilmente detectables. Este método puede usarse de forma muy efectiva para mejorar la calidad del producto al reducir la variación y mejorar el promedio del producto.

Por lo general, la estratificación se hace según los materiales, las máquinas, las condiciones de operación, de los turnos, trabajadores, etc. (usualmente se denominan Factores).

2.- Polígono de frecuencia Este gráfico muestra un perfil de la curva asociada a la distribución de los datos. Consiste en representar puntos (x , y ) en el Plano de manera que en el eje horizontal (X ) ubiquemos la marca de clase o punto medio del intervalo, y en el eje vertical (Y) la frecuencia absoluta o relativa correspondiente a la marca de clase. Luego se une los puntos con segmentos de recta.

Page 47: ApuntesCurso Estadistica Ingeco UA 2012

47

Construcción del Polígono de distribución de frecuencias usando Excel. 1.- Construya una tabla de distribución de frecuencias como la siguiente

2.- Es necesario determinar el punto medio o marca de clase para cada uno de los intervalos, pero agregando un primer intervalo y un último intervalo, ambos con frecuencia absoluta cero. Esto se hace pues un polígono por definición es una figura cerrada de “n” lados. Al igual que el histograma se selecciona el área numérica y se aplica la siguiente secuencia. 3.-

4.-

Las otras partes de un buen gráfico, se colocan como se explicó para el Histograma.

Page 48: ApuntesCurso Estadistica Ingeco UA 2012

48

3.- Ojiva o Curva de Concentración Consiste en la representación de una curva (con segmentos de recta), cuyas ordenadas tienen tantas unidades como elementos existan de la distribución hasta el punto determinado. Para su construcción se emplea colocando en el eje horizontal, los intervalos; en el eje vertical, las frecuencias absolutas acumuladas o frecuencias relativas acumuladas. También se puede colocar en el eje horizontal los puntos medios de los intervalos (marcas de clase)

La OJIVA es un gráfico que permite obtener de manera muy aproximada el valor de cualquier Percentil. Se debe trazar una línea perpendicular al eje vertical que pase por un porcentaje deseado, y prolongarla hasta que corte la curva de las frecuencias acumuladas. Desde aquí, bajar una perpendicular que corte el eje horizontal. Este punto representa el valor del percentil.

Por ejemplo

Para construir este gráfico en Excel, se debe agregar en la tabla original un primer intervalo con frecuencia absoluta acumulada igual a cero.

Tabla (a) Tabla (b)

Cuando en el eje horizontal colocamos los intervalos y en el eje vertical colocamos las frecuencias relativas acumuladas , marcamos previamente la columna “intervalos” junto con la columna “Hi” de la Tabla (b) anterior y aplicamos la siguiente secuencia Excel

Page 49: ApuntesCurso Estadistica Ingeco UA 2012

49

Cuando en el eje horizontal colocamos las marcas de clase de los intervalos y en el eje vertical colocamos las frecuencias relativas acumuladas , marcamos previamente la columna “Xi” junto con la columna “Hi”

Aplicamos la siguiente secuencia Excel

Page 50: ApuntesCurso Estadistica Ingeco UA 2012

50

Page 51: ApuntesCurso Estadistica Ingeco UA 2012

51

3.4.- Métodos Estadísticos para la descripción y caracterización de las variables: 3.4.1.- Medidas de Resumen: Estimadores 3.4.1.1.- Tendencia Central: Son aquellos estimadores cuyos valores tienden a ubicarse en la parte Central del Recorrido o Rango de la Variable , es decir , más o menos en la mitad del intervalo definido entre el valor mínimo y el valor máximo.

Valor Mínimo Valor Máximo T.C Se consideran Medidas de Tendencia Central el promedio aritmético, la mediana, el modo, el promedio geométrico, el promedio armónico. Cuando se tienen los datos de la variable en estudio dispuesto en una columna, Excel o cualquier software que haga tratamiento estadístico de los datos, las medidas de resumen las calcula directamente de esta columna. También es posible calcular las medidas de resumen a partir de las tablas de distribución de frecuencia, pero en este caso los valores calculados son una aproximación de los verdaderos valores. Por eso es que en un primer lugar calcularemos las medidas de resumen a partir de los datos originales y luego estas medidas de resumen dada una tabla de distribución de frecuencias :

El Promedio Aritmético o Media Aritmética: 1

i n

ii

xX

n

=

==∑

El símbolo anterior significa que debemos sumar todas las mediciones u observaciones (datos) y dividir por el número total de datos (n). Esta es una medida se ve influenciada por datos que a veces son anómalos, en el sentido de que pueden aparecer valores que se salen del rango o comportamiento habitual de lo que normalmente se registra. Esto tiene mayor importancia en cuanto menor es la cantidad de datos que se procesan. Los datos siguientes son mediciones diarias de la cantidad de cloro (en ppm) en una solución denominada purga.

97 77 97 110 113 115 97 116 86 98 106 99 97 103 109 102

El campo de variación de la variable es: Valor mínimo = 77 ; valor máximo = 116 El promedio aritmético es

375,10116

162216

)102109..........115113110977797(==

+++++++=X ppm de cloro

Page 52: ApuntesCurso Estadistica Ingeco UA 2012

52

Como se puede observar, este valor está ubicado más o menos en el centro del campo de variación de la variable. De ahí entonces de que el promedio aritmético sea una medida de tendencia central Sin embargo cuando los datos ese encuentran agrupados en tablas de frecuencias con intervalos, la forma de calcular el promedio es un tanto diferente. Se debe multiplicar cada valor de la marca de clase “Xi” por la frecuencia absoluta “f i“de ese intervalo. Luego se suman todos estos productos y se divide por la cantidad de datos “n” que hay en la tabla.

Es decir n

fXX

ti

iii∑

=

=

∗= 1

Para ejercitar esta expresión, calcularemos el promedio aritmético de la ley de cobre total de las muestras tomadas en el mineral de Toquepala. (Ubicado en el Sur de Perú, en la precordillera de los Andes a aproximadamente 2900 mts sobre el nivel del mar)

Clase Limite Límite Inferior Superior

Marca de Clase

X i

FrecuenciaAbsoluta

f i

X i

. f i

1 2 3 4 5 6 7 8 9

10 11 12

1,38 1,42 1,42 1,46 1,46 1,50 1,50 1,54 1,54 1,58 1,58 1,62 1,62 1,66 1,66 1,70 1,70 1,74 1,74 1,78 1,78 1,82 1,82 1,88

1,40 1,44 1,48 1,52 1,56 1,60 1,64 1,68 1,72 1,76 1,80 1,84

3 42 45 81 78 20 24 28 32 9 11 5

1,40 x 3 = 1,44 x 42 = 1,48 x 45 = 1,52 x 81 = 1,56 x 78 = 1,60 x 20 = 1,64 x 24 = 1,68 x 28 = 1,72 x 32 = 1,76 x 9 = 1,80 x 11= 1,84 x 5 =

n = 378 Total = Entonces el mineral procesado tiene una ley media de cobre total igual: ………………………% Siguiendo la metodología, anterior calcule el promedio aritmético de los datos agrupados en la tabla de frecuencia siguiente. En esta tabla se muestra los valores de concentración de cobre, en grms / litro, en muestras de soluciones el PLS de un proceso de lixiviación en pilas en una Empresa de la II región de Chile.

Page 53: ApuntesCurso Estadistica Ingeco UA 2012

53

Clase Limite Límite Inferior Superior

Marca de Clase

X i

Frecuencia Absoluta

f i

X i

. f i

1 2 3 4 5 6 7 8

3,50 3,80 3,80 4,10 4,10 4,40 4,40 4,70 4,70 5,00 5,00 5,30 5,30 5,60 5,60 5,90

1 2 8 14 27 9 6 3

La concentración promedio del PLS de este proceso de: _________________ grs / litro

La Mediana:

Este es una medida de Tendencia Central cuyo valor separa el conjunto de datos en dos mitades. Cada una de ellas es un 50% . Es decir , entre el valor mínimo de la variable y la Mediana hay un 50 % de los datos ; por consiguiente , entre la Mediana y el valor máximo de la variable está el otro 50% superior. Para calcular la mediana es necesario ordenar los datos de menor a mayor. En el caso de que la cantidad de datos sea un número impar, la mediana se obtiene ubicando el valor que está en el centro.

En el caso de que la cantidad de datos se un número par, la mediana se obtiene como el promedio de los dos valores centrales.

Esta medida tiene la ventaja de ser menos sensible que el promedio aritmético a la presencia de valores anómalos, ya que sólo tiene en cuenta el orden de los datos y no su magnitud. Es decir no se altera mayormente si un valor o dato tiene un error grande de medida o de trascripción. Al comparar el valor de la mediana con el promedio aritmético, si hay mucha diferencia entre ellas, esto es una señal que la distribución de los datos es más bien asimétrica o heterogénea.

Por ejemplo, veamos los datos de las mediciones diarias de la cantidad de cloro (en ppm) en una solución denominada purga.

97 77 97 110 113 115 97 116 86 98 106 99 97 103 109 102

Estos mismos datos ordenados de mayor a menor, dan como resultado:

77 86 97 97 97 97 98 99 102 103 106 109 110 113 115 116

Como hay un número par de datos, entonces la mediana es el promedio de los dos valores centrales. Es decir, la mediana es igual (99 + 102) / 2 . El resultado es 100,5

Page 54: ApuntesCurso Estadistica Ingeco UA 2012

54

Supongamos que por algún motivo obtuvimos un valor extremo o atípico igual a 138. Entonces los

datos quedan ordenados de la siguiente manera:

77 86 97 97 97 97 98 99 102 103 106 109 110 113 115 116 138 Como hay una cantidad impar de datos, entonces la mediana es el valor central, siendo en este

caso el 102. Es decir, que el contenido de cloro en el 50% inferior de las muestras de purga fluctúa entre 77 gms/litro a 102 grms / litro. El contenido de cloro en el 50% superior de las muestras de purga fluctúa entre 102 gms/litro a 138 grms / litro

Si se hubiese calculado el promedio aritmético de los datos, incluyendo el valor atípico de 138, entonces se tendría que la cantidad promedio de cloro en la purga sería de 103,53 grms / litro.

Al comparar el valor de la mediana con el promedio aritmético, si hay mucha diferencia entre ellas, esto es una señal que la distribución de los datos es más bien asimétrica

Sin embargo cuando los datos ese encuentran agrupados en tablas de frecuencias con intervalos, la forma de calcular la es un tanto diferente.

En la tabla de distribución frecuencia de la de la ley de cobre total, debemos ubicar la columna de frecuencias absolutas acumuladas. Entrando por esta columna , ubicar hasta que intervalo tenemos acumuladamente el 50 % de los valores de la variable. A este intervalo le llamaremos intervalo mediano.

Clase Limite Límite Inferior Superior

Marca de Clase

X i

Frecuencia Absoluta

f i

Frec. Absol. Acumulada

F i 1 2 3 4 5 6 7 8 9

10 11 12

1,38 1,42 1,42 1,46 1,46 1,50 1,50 1,54 1,54 1,58 1,58 1,62 1,62 1,66 1,66 1,70 1,70 1,74 1,74 1,78 1,78 1,82 1,82 1,88

1,40 1,44 1,48 1,52 1,56 1,60 1,64 1,68 1,72 1,76 1,80 1,84

3 42 45 81 78 20 24 28 32 9

11 5

3 45 90 171 249 269 293 321 353 362 373 378

El intervalo mediano sería el nº 5 , pues hasta aquí ya está acumuladamente el 50 % de los datos

X~ = Med = Límite Inferior del Intervalo Mediano + ii

ia

f

Fn

×⎟⎟⎟⎟

⎜⎜⎜⎜

⎛ − −12

Donde: 1−iF es la frecuencia absoluta acumulada hasta el intervalo anterior al intervalo mediano.

102

Page 55: ApuntesCurso Estadistica Ingeco UA 2012

55

if Es la frecuencia absoluta del intervalo mediano. ia Es la amplitud del intervalo mediano

Calculando la mediana de la tabla de datos anterior tenemos:

X~ = 1,54 + 1,55 04,078

171189=×⎟

⎠⎞

⎜⎝⎛ −

%

Actividad Práctica:

La tabla siguiente muestra la Concentración de cobre, en grms / litro, en muestras de soluciones el PLS de un proceso de lixiviación en pilas en una Empresa de la II región de Chile

Clase Limite Límite Inferior Superior

Marca de Clase

X i

Frecuencia Absoluta

f i

Frec. Absol. Acumulada

F i 1 2 3 4 5 6 7 8

3,50 3,80 3,80 4,10 4,10 4,40 4,40 4,70 4,70 5,00 5,00 5,30 5,30 5,60 5,60 5,90

1 2 8

14 27 9 6 3

n= 70 1.- En la tabla anterior complete la columna de las frecuencias absolutas acumuladas Fi 2.- Ubique el intervalo mediano 3.- Siguiendo la metodología descrita en el ejemplo anterior, calcule el promedio aritmético y la mediana 4.- Interprete el significado del promedio aritmético y de la mediana. Analice y redacte conclusiones

importantes. Cabe destacar que la Mediana es una Medida de Tendencia Central que puede calcularse, en el caso de que los datos estén tabulados y que ya sea el primer intervalo, o el último intervalo o ambos sean intervalos abiertos. Un intervalo es abierto cuando decimos " menos de 45 " , "más de 150 " , por ejemplo. Una vez calculado el promedio y la mediana, podemos comparar ambas medidas de resumen, pues dan una orientación acerca del comportamiento de la distribución de los datos, de carácter empírico. Esto se denomina estudio del sesgo o de la simetría de la distribución de los datos, y por lo tanto de la variable en estudio.

Page 56: ApuntesCurso Estadistica Ingeco UA 2012

56

- Cuando el Promedio es mayor que la Mediana, entonces se dice que la curva que representa la distribución de los datos tiene un sesgo positivo. Esto se refleja en el hecho de que la curva tiene una cola más larga hacia el lado derecho. En términos prácticos, significa que hay una cierta tendencia a tener valores anómalos o atípicos altos en la medición de la variable. - Cuando el Promedio es menor que la Mediana, entonces se dice que la curva que representa la

distribución de los datos tiene un sesgo negativo. Esto se refleja en el hecho de que la curva tiene una cola más larga hacia el lado izquierdo. En términos prácticos, significa que hay una cierta tendencia a tener valores anómalos o atípicos bajos en la medición de la variable. - Cuando el Promedio es igual que la Mediana, entonces se dice que la curva que representa la

distribución de los datos es simétrica. Esto se refleja en el hecho de que la curva tiende a tener una forma de campana. Desde el punto de vista del análisis estadístico de los datos, en muchos casos esta es una ventaja pues tiende a facilitar su caracterización.

Promedio Geométrico Esta medida de resumen también se considera como de tendencia central. Es una alternativa de cálculo cuando la comparación entre el promedio y la mediana nos lleva a concluir que la distribución de la variable tiene un sesgo positivo o negativo relativamente fuerte o importante. De forma empírica se sabe que cuando se analiza la distribución del tamaño de partículas en muestras de material particulado, o el tamaño de las partículas en suspensión en muestras de aire, tendremos una curva de distribución que presenta un sesgo positivo. (Cola más larga hacia la derecha). Para disminuir la diferencia o la importancia de los valores anómalos o atípicos extremos de la variable, y aprovechando las propiedades de los logaritmos, se transforman los datos originales aplicándoles la función logaritmo. Esta medida corresponde al valor que tomaría la variable si se calculase la media aritmética de los logaritmos de los datos en lugar de los valores directos.

X g = Inv Log { n

XLog i

ni

i)(

1∑=

= }

Actividad Práctica: Calcularemos el promedio geométrico de las mediciones diarias de la cantidad de cloro (en ppm) en una solución denominada purga. Incorporaremos un valor atípico en la parte alta

77 86 97 97 97 97 98 99 102 103 106 109 110 113 115 116 148 1.- Usando una calculadora científica haremos la siguiente operación, que nos permite obtener la suma de los valores transformados a “logaritmos”:

01347,21722899,34

17)148log............98log97log97log97log97log86log77(log

)(1 ==

++++++++=

∑=

=

n

XLog i

ni

i

Page 57: ApuntesCurso Estadistica Ingeco UA 2012

57

2.- Al valor “2,01347” debemos calcularle el antilogaritmo, para obtener el promedio geométrico: SHIFT log 2,01347 = y se obtiene 103,15 Esta cantidad significa que la cantidad promedio geométrico de cloro en la purga es de 103,15 ppm. El promedio aritmético de estos mismos datos es de 104,12 ppm La mediana es de 102.

Estas medidas de resumen de una variable del proceso son una importante información para realizar las estimaciones de una producción semanal, mensual, para las personas que tienen a cargo esta responsabilidad.

Cuando los datos se encuentran agrupados en tablas de frecuencias con intervalos, la forma de calcular el promedio es un poco diferente. Primero se debe multiplicar cada valor de la frecuencia absoluta “fi” de ese intervalo, por el logaritmo de la marca de clase “Xi”. Luego se suman todos estos productos y se divide por la cantidad de datos “n” que hay en la tabla. Seguidamente se le calcula antilogaritmo a este cuociente.

Es decir

⎥⎥⎥⎥

⎢⎢⎢⎢

⎡∗

=∑=

=

n

fXX

ti

iii

1)(log

Antilog

Clase Limite Límite Inferior Superior

Marca de Clase

X i

FrecuenciaAbsoluta

f i

(log X i )x f i

1 2 3 4 5 6 7 8 9

10 11 12

1,38 1,42 1,42 1,46 1,46 1,50 1,50 1,54 1,54 1,58 1,58 1,62 1,62 1,66 1,66 1,70 1,70 1,74 1,74 1,78 1,78 1,82 1,82 1,88

1,40 1,44 1,48 1,52 1,56 1,60 1,64 1,68 1,72 1,76 1,80 1,84

3 42 45 81 78 20 24 28 32 9 11 5

(log 1,40) x 3 = 0,43838 (log 1,44) x 42 = 6,65122 (log 1,48) x 45 = 7,66178 (log 1,52) x 81 = 14,72933 (log 1,56) x 78 = 15,06372 (log 1,60) x 20 = 4,08240 (log 1,64) x 24 = 5,15625 (log 1,68) x 28 = 6,30866 (log 1,72) x 32 = 7,53691 (log 1,76) x 9 = 2,20961 (log 1,80) x 11 = 2,80800 (log 1,84) x 5 = 1,32409

n = 378 Suma Total = 73,96716

)19568.0log(37896716,73 Antilog AntiX =⎥⎦

⎤⎢⎣⎡= . Pulsando las teclas de su calculadora científica

0.19568 = 1,57 %

SHIFT log =

SHIFT log

Page 58: ApuntesCurso Estadistica Ingeco UA 2012

58

Recordemos que la tabla anterior presenta la ley de cobre total de las muestras tomadas en el mineral de Toquepala. Como anteriormente se calcularon: 1.- Promedio Aritmético: 1,57% 2.- Mediana: 1,55% 3.- Promedio Geométrico: 1,57% El análisis de estas tres medidas de resumen nos indican la distribución del % de la ley de cobre en Toquepala tendrían una clara tendencia a tener una distribución relativamente simétrica. Actividad Práctica Personal

La tabla siguiente muestra la distribución de la concentración de cobre, en grms / litro, en muestras de soluciones el PLS de un proceso de lixiviación en pilas en una Empresa de la II región de Chile

Clase Limite Límite Inferior Superior

Marca de Clase

X i

Frecuencia Absoluta

f i

(log X i )x f i

1 2 3 4 5 6 7 8

3,50 3,80 3,80 4,10 4,10 4,40 4,40 4,70 4,70 5,00 5,00 5,30 5,30 5,60 5,60 5,90

1 2 8

14 27 9 6 3

n= 70 1.- Complete en la tabla anterior la columna con las marcas de clases de cada intervalo 2.- Complete la columna “(log Xi) x f i” 3.- Obtenga la suma total de la columna (log Xi) x f i 4.- Divida esta suma total por n= 70 5.- Al valor obtenido en e punto anterior, calcule el antilogaritmo de dicha cantidad. Este es el Promedio Geométrico de la concentración del PLS 6.- Compare los valores del promedio aritmético, el promedio geométrico y la mediana. Obtenga conclusiones al respecto.

Page 59: ApuntesCurso Estadistica Ingeco UA 2012

59

Moda o Modo Es otra medida de tendencia central. También se le conoce como promedio industrial. Conceptualmente es el valor de la variable que más se repite. En el caso de de variables continuas, es preferible calcular esta medida de resumen a partir de la tabla de distribución de frecuencias. En un gráfico, ya sea un histograma o polígono de distribución de frecuencias, es el valor en el eje X que tiene la barra de mayor altura o el vértice del polígono que tiene mayor altura. Por ejemplo:

En la tabla de frecuencia inicial , debemos ubicar el o los intervalos de mayor frecuencia absoluta.

A este (o estos) intervalo(s) se le(s) denomina intervalo modal, pues aquí se encuentra el valor de la moda. Luego se deben determinar los valores

∆1 = Frecuencia Absoluta del intervalo Modal - Frecuencia Absoluta del intervalo anterior al Intervalo modal ∆2 = Frecuencia Absoluta del intervalo Modal - Frecuencia Absoluta del intervalo siguiente al intervalo modal

Nº Interv Limite Intervalos Marca deClase (Xi)

FrecuenciaAbsoluta fi

1 45 60 52,5 9 2 60 75 67,5 47 3 75 90 82,5 43 4 90 105 97,5 19 5 105 120 112,5 15 6 120 135 127,5 8 7 135 150 142,5 8 8 150 165 157,5 2 Total 151

Modo = [Límite Inferior del intervalo Modal] + [ (∆1 / ∆1 + ∆2) ] * ai

Donde "ai " es la amplitud del intervalo modal

Page 60: ApuntesCurso Estadistica Ingeco UA 2012

60

3.4.1.2.- Medidas de Variabilidad:

Estas medidas de resumen están orientadas a cuantificar el grado o magnitud de cómo los datos se dispersan en torno a una medida de tendencia central. Generalmente se usa como valor de referencia el promedio aritmético. Mucha dispersión es señal de poca uniformidad u homogeneidad en los datos. Por el contrario poca dispersión, es señal de homogeneidad en los datos. Valor Mínimo X Valor Máximo T.C

Las medidas de variabilidad más ampliamente conocidas y utilizadas son

Campo de Variación: Es el intervalo numérico formado por el menor valor de la variable y el mayor valor de la variable, {X Mínimo ; X Máximo }

Rango: Es una medida de variabilidad muy fácil de calcular pues es la diferencia entre al

mayor valor de la variable se le resta el menor valor de la variable:

R = X Máximo -- X Mínimo

Varianza Es el promedio aritmético de los desvíos cuadráticos de los valores de la variable respecto de su promedio aritmético.

n

xxni

ii∑

=

=

−= 1

2

2)(

σ (Varianza poblacional)

o también como

2 1

2

1

( )ˆ

i n

i in

xxσ

=

==−

−∑ (Varianza muestral)

Cabe destacar que los desvíos del valor de la variable respecto de su media aritmética deben de ser elevados al cuadrado, pues si se suman sin hacer esta operación, el resultado de la suma es cero.

Actividad Los datos siguientes representan las partes por millón de cloro en el electrolito rico de un proceso de lixiviación en pilas, durante dos semanas seguidas, en una faena minera de la segunda región de Chile 31 28 30 29 28 30 29 29 27 28 27 28 28 28

Page 61: ApuntesCurso Estadistica Ingeco UA 2012

61

El promedio aritmético de los datos es de 28,57 ppm. Este valor resulta vital para proceder a calcular la varianza. Entonces el valor de la varianza poblacional se calcula de la siguiente manera

[ ] 2449,1144286,17

14)57.2828(...........)57.2830()57,2828()57,2831( 2222

2 ==−++−+−+−

=σ ppm2

El valor de la varianza muestral tiene el mismo numerador. El denominador es siempre la cantidad de datos menos 1. Se calcula de la siguiente manera:

[ ] 3407,1134286,17

13)57.2828(...........)57.2830()57,2828()57,2831(ˆ

22222 ==

−++−+−+−=σ ppm2

Al analizar las fórmulas que permiten calcular estas varianza, se puede observar que el dividir por “n” o por “n-1”, sólo tiene importancia cuando la cantidad de datos es pequeña. En estadística se consideran pocos datos para caracterizar el comportamiento de una variable cuando se tienen 30 o menos datos.

El problema que tiene esta medida de resumen es que las unidades resultantes quedan como

valores cuadráticos. Pero para zanjar esta dificultad, es que se le puede extraer raíz cuadrada.

Si los datos se presentaran resumidos en una tabla de distribución de frecuencia, las fórmulas anteriores deben de incluir la frecuencia absoluta de cada intervalo. Es decir:

n

fxxni

iii∑

=

=

⋅−= 1

2

2)(

σ n

fxxni

iii∑

=

=

⋅−= 1

2

2)(

σ

Actividad Práctica Personal

Distribución de la concentración de cobre, en grms / litro, en muestras de soluciones el PLS de un proceso de lixiviación en pilas en una Empresa de la II Región de Chile

Clase Limite Límite Inferior Superior

Marca de Clase

X i

Frecuencia Absoluta

f i

(Xi – 4,81)2 x fi

1 2 3 4 5 6 7 8

3,50 3,80 3,80 4,10 4,10 4,40 4,40 4,70 4,70 5,00 5,00 5,30 5,30 5,60 5,60 5,90

3.65 3.95 4.25 4.55 4.85 5.15 5.45 5.75

1 2 8

14 27 9 6 3

(3.65 – 4.81)2 x 1 = 1.3456 (4.25 – 4.81)2 x 8 = 2.5088

Calcule la varianza de la concentración de cobre, en muestras de soluciones de PLS. Siga las instrucciones. El promedio aritmético, calculado anteriormente, es de 81.4=X grm / lts

Page 62: ApuntesCurso Estadistica Ingeco UA 2012

62

1.- Complete la columna “(Xi – 4,81)2 x fi” 2.- Obtenga la suma total de esta columna 3.- Divida esta suma total por 70. El resultado de este cuociente es la varianza poblacional. Si divide la suma total por 69, tendrá la varianza poblacional

Desviación Estándar o típica Es la raíz cuadrada de la varianza. Tiene una gran importancia pues es la cuantificación de la precisión de la medición de la variable.

2σσ = Se utiliza, entre otras aplicaciones, para construir intervalos de confiabilidad, que contendrán los valores límites extremos (mínimos y máximos) , en torno a los cuales oscilará un parámetro de una población en Estudio. Si el perfil de la curva que representa a un conjunto de datos y tuviese la forma de una campana, estamos seguros que aproximadamente un 68,27 % de las veces, la medición estará en el intervalo: X ± Desv. Estándar. Y con las característica de la curva tipo campana el intervalo X ± 2 Desv. Estándar contendrá el 95 % de los valores de la variable

Ejemplo Los datos siguientes representan las partes por millón de cloro en el electrolito rico de un proceso de lixiviación en pilas, durante dos semanas seguidas, en una faena minera de la segunda región de Chile 31 28 30 29 28 30 29 29 27 28 27 28 28 28 1.- La desviación estándar de la serien de datos

[ ] 2449,1144286,17

14)57.2828(...........)57.2830()57,2828()57,2831( 2222

2 ==−++−+−+−

Es igual a 1157.12449.1 ==σ ppm. También 1579.13407.1ˆ ==σ

Page 63: ApuntesCurso Estadistica Ingeco UA 2012

63

Entonces una medición que se haga en el electrolito rico de este proceso tiene un 95% de confianza de estar entre X ± Desv. Estándar. = 28.57 ± 2 * 1.1579, Es decir, con 95% de confiabilidad la medición a obtener debería estar entre {26,2 y 30,9} ppm de cloro. Ejercicio: Dada la siguiente tabla de distribución de frecuencias: 1.- Calcule la desviación estándar de la concentración de cobre de las 70 muestras de PLS 2.- Determine un intervalo de confiabilidad de 95% para una medición de la concentración de cobre en la solución de PLS.

Clase Limite Límite Inferior Superior

Marca de Clase

X i

Frecuencia Absoluta

f i

(Xi – 4,81)2 x fi

1 2 3 4 5 6 7 8

3,50 3,80 3,80 4,10 4,10 4,40 4,40 4,70 4,70 5,00 5,00 5,30 5,30 5,60 5,60 5,90

3.65 3.95 4.25 4.55 4.85 5.15 5.45 5.75

1 2 8

14 27 9 6 3

(3.65 – 4.81)2 x 1 = 1.3456 (4.25 – 4.81)2 x 8 = 2.5088

Error Estándar. Suele representarse por " e.e " y es la desviación estándar dividida por la raíz cuadrada del número de datos.

e.e = nσ

Permite construir intervalos de confiabilidad para el promedio aritmético de los datos. A mayor número de datos, "n”, menor es el error estándar y por lo tanto más estrecho o preciso será el intervalo de estimación para EL PROMEDIO. Por ejemplo, en intervalo formado por X ± 1.96 ee , nos dice que el promedio aritmético de la variable, calculado a partir de una muestra de tamaño "n", estará en un 95 % de las veces, dentro del intervalo X ± 1.96 ee . Actividad Práctica:

Si las 378 muestras de óxido de cobre obtenidas en el mineral de Toquepala entregan un promedio aritmético de 1. 57% . Una Desviación Estándar de 0.101%.

1.- Calcule el Coeficiente de variación del mineral de oxido de cobre procesado 2.- Si se tomara una muestra aleatoria de 9 muestras, determine un intervalo de confianza para dicho promedio muestral.

Page 64: ApuntesCurso Estadistica Ingeco UA 2012

64

Coeficiente de Variación. Es una medida de la variabilidad o de la dispersión relativa de una variable, en relación con su

promedio aritmético. Tiene la propiedad de ser adimensional. Por lo tanto sirve para comparar el menor o mayor grado de homogeneidad de una variable respecto de otra. Por ejemplo , si medimos en un conjunto de personas su estaturas (cm) y su peso (kg) , deseamos saber cuál presente una mayor grado de homogeneidad.

C.V = %100*Xσ

Generalmente C.V por debajo del 5% en una variable, es signo de un alto grado de homogeneidad.

Si supera el 15% , es signo de una significativa tendencia a la heterogeneidad. El coeficiente de variación para las ppm de cloro en las 14 muestras de electrolito rico, es igual

%91,3%10057.28

1157.1. == xVC X

Lo cual puede indicar mucha estabilidad en esa variable del proceso. Si existe poca variabilidad,

entonces es un proceso estadísticamente controlado o es un proceso estable.

Actividad Práctica:

Si las 378 muestras de óxido de cobre obtenidas en el mineral de Toquepala entregan un promedio aritmético de 1. 57% . Una Desviación Estándar de 0.101%.

1.- Calcule el Coeficiente de variación del mineral de oxido de cobre procesado 2.- Si se tomara una muestra aleatoria de 9 muestras, determine un intervalo de confianza para dicho promedio muestral.

Puntaje Estandarizado : Z i

La variable o puntaje estandarizado mide la posición relativa del valor de la variable con respecto al Promedio Aritmético X , expresado en unidades de desviación estándar σ .

Su expresión algebraica es: Z i = σ

XX i −

Esta variable es adimensional, por lo que resulta muy interesante su utilización cuando se desea

comparar en que variable o variables una unidad de análisis se encuentra mejor o peor.

También resulta de mucha utilidad cuando se necesita transformar valores de una variable expresados en cierta escala, en unidades de otra escala.

Page 65: ApuntesCurso Estadistica Ingeco UA 2012

65

Igualmente se emplea para comparar resultados de experimentos expresados en ciertas unidades, con otros expresados en otras unidades.

3.4.1.3.- Medidas de Posicionamiento. Después de hacer un ordenamiento de menor a mayor en los datos de la variable en estudio, se proceden a ubicar aquellas posiciones porcentuales de la cantidad de datos que dejan entre sí un cierto porcentaje de los datos. Aparecen entonces conceptos tales como Deciles, Quintiles , Cuartiles, etc.- Por ejemplo, si la cantidad de datos la dividimos en cuatro partes iguales, tenemos los denominados Cuartiles, que dejan entre si un 25% de la cantidad de datos. Es decir, son tres valores que separaran la totalidad de los datos en cuatro partes que contienen igual cantidad los datos . X mínimo X Máximo Cuartil Mediana Cuartil Inferior Superior 25 % 75 % 50 % 75 % 25 % Cuartil Inferior o Primer Cuartil. Es un valor que limita o separa el 25 % Inferior de los valores de la variable del 75 % Superior.

Para el 25 % inferior, representa el Máximo valor de ese tramo. Para el 75 % Superior, representa el Mínimo valor de ese sector.

Cuartil Superior o Tercer Cuartil. Es un valor que limita o separa el 75 % Inferior de los valores de la variable del 25 % Superior.

Para el 75 % inferior, representa el Máximo valor de ese tramo. Para el 25 % superior, representa el Mínimo valor de ese sector.

Entre el Cuartil Inferior y el Cuartil Superior se produce un intervalo, cuya diferencia produce el denominado Rango Intercuartílico, que es una medida de variación del 50 % central de los valores de la variable. Percentiles : Proporcionan valores límites que separan los datos , de manera tal que el Percentil 10, por ejemplo, nos indica que un 10% de los valores de la variable está por debajo de dicho valor y un 90 % de los datos está por sobre el valor del percentil 10.

El Percentil 80, por ejemplo, nos indica que un 80 % de los valores de la variable están por

debajo de dicho valor, y el 20% restante está por sobre el valor del percentil 80.

Page 66: ApuntesCurso Estadistica Ingeco UA 2012

66

X mínimo X máximo P10 P90 Los valores correspondientes los Percentiles 10 y 90, producen un intervalo que contiene el

80% Central de todos los valores de la variable.

Los valores correspondientes los Percentiles 5 y 95 , producen un intervalo que contiene el 90% Central de todos los valores de la variable. En algunas oportunidades interesan estos valores como elementos de filtro para la variable, a objeto de dejar fuera valores muy extremos, que por alguna razón desconocida registra la variable.

X mínimo X máximo P5 P95 Si los datos están presentados en una columna, el cálculo de percentiles lo podemos hacer utilizando la planilla Excel. Utilizaremos el siguiente procedimiento. 1.- Ponga la punta del mouse en la ventana de la función “fx”

2.- Se desplegará una ventana donde deberá seleccionar “estadísticas” y seleccionar “percentil” del conjunto de posibilidades desplegadas.

Cuando los datos están tabulados, también es posible calcular valores de percentiles. El procedimiento es muy similar al cálculo de la mediana. A partir de la tabla inicial, se debe ubicar la columna de Frecuencias Absolutas Acumuladas. Estando dentro de esta columna, determinar el intervalo que contiene el Percentil buscado. Por ejemplo si se desea determinar P20, es decir el percentil 20, se debe determinar hasta que intervalo ya se tiene acumuladamente, de menor a mayor , el 20 % de los datos.

Page 67: ApuntesCurso Estadistica Ingeco UA 2012

67

Pj = Lim. Inferior intervalo que contiene percentil "j" + ii

ia

f

Fjn

*)*

100( 1

⎥⎥⎥⎥

⎢⎢⎢⎢

⎡ − −

Donde: J es el valor del percentil deseado Fi-1 es la frecuencia acumulada hasta en intervalo anterior al que contiene el percentil "j" fi es la frecuencia absoluta del intervalo que contiene al percentil "j"

A modo de ejemplo calcule el percentil 20 y el percentil 80 de la siguiente tabla de datos

El Percentil 20, está contenido en el intervalo nº 2 puesto que hasta dicho intervalo está acumulado

el 20% de 151 , cuyo valor es de 30,2.

P20 = 60 + 15*47

9100

20*155

⎥⎥⎥⎥

⎢⎢⎢⎢

⎡ − =

El Percentil 80, está contenido en el intervalo nº 5 puesto que hasta dicho intervalo está acumulado el 80% de 151, cuyo valor es de 120,8.

P80 = 105 + 15*15

118)100

80*151(

⎥⎥⎥⎥

⎢⎢⎢⎢

⎡ − =

Nº Interv Limite Intervalos Marca deClase (Xi)

FrecuenciaAbsoluta fi

Frecuencia Absoluta Acumulada

1 45 60 52,5 9 9 2 60 75 67,5 47 56 3 75 90 82,5 43 99 4 90 105 97,5 19 118 5 105 120 112,5 15 133 6 120 135 127,5 8 141 7 135 150 142,5 8 149 8 150 165 157,5 2 151 Total 151

Page 68: ApuntesCurso Estadistica Ingeco UA 2012

68

3.4.1.4.- Medidas de Deformación:

Son medidas de resumen que cuantifican fundamentalmente dos elementos de la distribución de los datos: La asimetría y la Curtos. La Asimetría o Sesgo: Cuantifica el grado de asimetría de una distribución, es decir, cuánto se aparta de la Simetría. Cuando este valor es "cero", sugiere que los datos están simétricamente distribuidos en torno a una medida de Tendencia Central, que generalmente es el Promedio Aritmético o la Mediana. Valores positivos para el Sesgo, indican que la "cola superior" o derecha de la curva que representa a los datos, es más larga. Presencia de datos "anómalamente" altos. Por el contrario, valores negativos indican que la "cola inferior" o lado izquierdo de la curva es más larga, presencia de datos anómalamente" bajos.

Sesgo > 0, curva sesgada a la derecha o sesgo positivo

Existe una variada gama de algoritmos para cuantificar el grado de asimetría de la distribución de los datos: El estadístico Alemán Karl Pearson propone fórmulas empíricas para cuantificar el Sesgo.

1º coeficiente de Sesgo de Pearson = σ

) Moda ( −X

2º coeficiente de Sesgo de Pearson = σMediana) (3 −X

Otra medida del Sesgo en términos de Cuartiles es: (Cuartil Superior - Mediana) - (Mediana - Cuartil Inferior ) Cuartil Superior - Cuartil Inferior

Page 69: ApuntesCurso Estadistica Ingeco UA 2012

69

Otra medida del Sesgo en términos de Percentiles ( Percentil 90 - Mediana ) - (Mediana - Percentil 10) Percentil 90 - Percentil 10 Los softwares que trabajan análisis de datos tienen incorporados en sus algoritmos de cálculo aquellos que permiten el cálculo del sesgo o la simetría de una variable. Una importante medida del Sesgo de una distribución de los Datos de una variable es el llamado coeficiente momento de sesgo "a3".

3

13

3

)(

σn

XX

a

ni

i i∑=

=−

= si n ≥ 150

31

3i

3 2)-1)(n-(n

)(Xn

σ

∑=

=

−=

ni

iX

a si 4 ≤ n ≤149

Para curvas perfectamente simétricas, tal como una campana, el coeficiente de sesgo es igual a cero. Excel permite el calcular un coeficiente de asimetría de la variable. Para ello use la siguiente ventana:

Sesgo Estandarizado o tipificado.

Cuando la cantidad de datos colectados para la variable en estudio es igual o superior a 150 , se puede asumir "normalidad estadística". Resulta de vital importancia saber que tan alejado o próxima está el Sesgo de la variable con respecto de la Distribución Normal Estándar. A veces el supuesto de normalidad estadística simplifica y ayuda enormemente el análisis e interpretación estadística de los datos. Cuando el valor del Sesgo Estandarizado queda fuera del intervalo -2 , +2 significa que el Sesgo de los datos colectados es significativamente diferente de un Sesgo Normal.

Page 70: ApuntesCurso Estadistica Ingeco UA 2012

70

Valores negativos, son indicadores de una "Cola" más grande hacia el lado izquierdo, respecto de una medida de Tendencia Central. Por el contrario, un valor positivo indicaría una "cola" más larga hacia el lado derecho de la curva.

El valor del Sesgo estandarizado se obtiene dividiendo el valor del sesgo por el factor n6

Ejercicio: Para la tabla de distribución de frecuencias siguiente, calcule el segundo coeficiente de sesgo de Pearson.

Estandarice el coeficiente obtenido, dividiendo por n6

. Analice sus resultados y obtenga conclusiones al

respecto.

Curtosis

Esta medida de resumen cuantifica el grado de "alargamiento" o "achatamiento". En otros términos, cuan aguzada o puntiaguda es la curva de la distribución de los datos, en general por referencia a la normal.

Mientras más alargada o aflautada es la curva, se dice leptocútica. Mientras más aplastada o achatada es la curva, se dice platicúrtica

Este coeficiente se calcula mediante el siguiente algoritmo, cuando los datos no están tabulados.:

b2 = )3)(2(

)1(3)3)(2)(1(

)()1( 2

41

4

−−−

−−−−

−− ∑=

=

nnn

nnn

XXnnni

ii

σ

Para una curva cuyo perfil sea semejante al de una campana, el valor de este coeficiente es 3 Cuando b2 > 0, la curva es Leptocúrtica. Cuando b2 < 0, la curva es Platicúrtica.

Nº Interv Limite Intervalos Marca deClase (Xi)

FrecuenciaAbsoluta fi

Frecuencia Absoluta Acumulada

1 45 60 52,5 9 9 2 60 75 67,5 47 56 3 75 90 82,5 43 99 4 90 105 97,5 19 118 5 105 120 112,5 15 133 6 120 135 127,5 8 141 7 135 150 142,5 8 149 8 150 165 157,5 2 151 Total 151

Page 71: ApuntesCurso Estadistica Ingeco UA 2012

71

Curtosis tipificada o estandarizada : Este coeficiente que sirve para comparar el grado de apuntamiento de la curva de los datos , con respecto a este mismo coeficiente en caso de Distribución Normal. Cuando este valores está fuera del intervalo -2 y +2 indican un significativo incumplimiento con la normalidad estadística, con lo cual se tiende a invalidar el resultado de aquellos test que requieren del supuesto de normalidad.

El valor de la Curtosis Estandarizada se obtiene dividiendo el valor de la Curtosis por n24

La planilla Excel permite el cálculo de este coeficiente, cuando los datos están dispuestos en una columna.

Ejercicio: Los datos siguientes representan el rendimiento, en kilómetros por litro, en una muestra de 60 automóviles que circulan por la ciudad. Disponga estos datos en unan columna de la planilla Excel para: a) Calcular el coeficiente de curtosis b) Estandarizar dicho coeficiente c) Analice y obtenga las respectivas conclusiones

17,9  15,0  13,6  16,4 15,0 8,3 8,1 8,4 8,0 8,5 8,4  10,4  8,5  8,1 8,6 8,6 7,7 7,5 8,0 7,4 7,5  7,3  12,5  11,4 11,3 12,8 8,8 9,6 9,9 9,9 8,4  7,1  9,0  6,7 13,1 12,3 8,9 8,2 9,3 8,4 8,6  7,1  7,3  6,9 7,6 7,0 6,4 8,0 7,7 13,3 14,2  14,8  11,4  10,6 9,6 11,3 9,9 14,2 14,3 13,2 

Cuando los datos están tabulados, otra medida de curtosis que suele utilizarse para el 80 % central de los valores de la variable , es el coeficiente κ (Kappa) , denominado Coeficiente Percentil de Curtosis

Κ = )(2)(

1090

2575

PercentilPercentilPercentilPercentil−−

Este coeficiente, en el caso de la Distribución Normal vale 0,263

Page 72: ApuntesCurso Estadistica Ingeco UA 2012

72

Cuando Κ > 0,263 la curva de distribución que genera la variable es Leptocúrtica. Cuando Κ < 0,263 la curva de distribución que genera la variable es platicúrtica. Ejercicio De la siguiente tabla de distribución de frecuencia, obtenga el valor del coeficiente Kappa

Nº Interv Limite Intervalos Marca deClase (Xi)

FrecuenciaAbsoluta fi

Frecuencia Absoluta Acumulada

1 45 60 52,5 9 9 2 60 75 67,5 47 56 3 75 90 82,5 43 99 4 90 105 97,5 19 118 5 105 120 112,5 15 133 6 120 135 127,5 8 141 7 135 150 142,5 8 149 8 150 165 157,5 2 151 Total 151

Page 73: ApuntesCurso Estadistica Ingeco UA 2012

73

TALLER DE APLICACIONES: Uso de la Planilla Excel Abra el Archivo de Datos en Planilla Excel “Automóviles”, hoja 2 y encuentre todas las medidas estadísticas de resumen para la variable Rendimiento. Para ello deberá seguir el siguiente procedimiento: 1.-

2.- En el recuadro que aparece con el nombre “Pegar Función”, en la ventana “Categorías de la función”, seleccione Estadísticas. En la ventana nombre de la función deberá seleccionar la medida de resumen que necesita:

Medidas de Tendencia Central: 1.- Promedio Aritmético

2.- Mediana

Page 74: ApuntesCurso Estadistica Ingeco UA 2012

74

Medidas de Variabilidad 1.- Valor Mínimo

2.- Valor Máximo

El intervalo numérico formado con el Valor mínimo y el valor máximo se llama “campo de variación de la variable 3.- Rango. Para obtener el Rango de la variable al Valor Máximo - Valor Mínimo 4.- Varianza Poblacional

5.- Varianza Muestral

6.- Desviación Estándar Poblacional

7.- Desviación Estándar Muestral

8.- Con el promedio aritmético y la desviación estándar calculados, determine intervalos de confianza del 68,27% y del 95% para la variable Rendimiento.

Haga uso de la fórmula .X Desv Est± para 68,27%

Haga uso de la fórmula 2 .X Desv Est± para 95% 9.- Calcule el error estándar de la variable, haciendo uso de la fórmula

. ..

n es la cantidad de datos de la variable

Desv Est muestrale en

=

Usted puede saber la cantidad de datos utilizando

Page 75: ApuntesCurso Estadistica Ingeco UA 2012

75

10.- Con el promedio aritmético y el error estándar calculados, determine intervalos de confianza del 68,27% y del 95% para el Promedio Aritmético de la variable VOD.

Haga uso de la fórmula X Error Est± para 68,27%

Haga uso de la fórmula 2 .X Error Est± para 95% 11.- Con el promedio aritmético y la desviación estándar calculados, determine e interprete el coeficiente de variación que tiene la variable VOD.

. .. var 100%Desv Est muestralCoef de iaciónX

= ×

12.- En una columna aparte, transforme los valores de la variable a puntajes estandarizados y analice aquellos valores que están fuera del intervalo –2, +2 Medidas de Posicionamiento Calcule valores de Percentiles en la distribución de los datos de la variable VOD

Percentil 2,5 = Percentil 5 = Percentil 10 = Percentil 15 = Percentil 25= Percentil 50 = Percentil 75 = Percentil 90= Percentil 95= Escriba un intervalo que contenga el 80% central de los valores de la variable Escriba un intervalo que contenga el 95%% central de los valores de la variable Medidas de Deformación 1.- Calcule e interprete el sesgo o asimetría de la variable

Obtenga el coeficiente de Sesgo Estandarizado, para decidir si resulta ser estadísticamente significativo el sesgo

de la distribución. Es decir, el “COEFICIENTE. ASIMETRÍA” obtenido, divídalo por el factor n6

Page 76: ApuntesCurso Estadistica Ingeco UA 2012

76

2.- Calcule e interprete el coeficiente de curtosis de la variable

Obtenga el coeficiente de Curtosis Estandarizado, para decidir si resulta ser estadísticamente significativo la curtosis de la distribución. Es decir, el valor obtenido para la CURTOSOS , divídalo por

el factor 24n

Cálculo de medidas de resumen y gráficos cuando se tiene una tabla de distribución de frecuencias Siempre que se utilizan softwares para hacer análisis de datos, las medidas de resumen se calculan a partir de los datos originales. Pero podría darse el caso de que en alguna oportunidad tuviésemos una tabla de distribución de frecuencia, pero no conocemos los datos originales que la produjeron. Tabla de Frecuencias para la velocidad de detonación de un explosivo -------------------------------------------------------------------------------- Límite Límite Marc.Clase Frecuencia Frecuencia Frecuencia Frecuencia Clase Inferior Superior X i Absoluta Relativa Acumulada Acum.Rel. -------------------------------------------------------------------------------- 1 1600,0 1686,0 1643,0 4 0,0188 4 0,0188 2 1686,0 1772,0 1729,0 1 0,0047 5 0,0235 3 1772,0 1858,0 1815,0 15 0,0704 20 0,0939 4 1858,0 1944,0 1901,0 13 0,0610 33 0,1549 5 1944,0 2030,0 1987,0 36 0,1690 69 0,3239 6 2030,0 2116,0 2073,0 43 0,2019 112 0,5258 7 2116,0 2202,0 2159,0 34 0,1596 146 0,6854 8 2202,0 2288,0 2245,0 38 0,1784 184 0,8638 9 2288,0 2374,0 2331,0 19 0,0892 203 0,9531 10 2374,0 2460,0 2417,0 10 0,0469 213 1,0000 --------------------------------------------------------------------------------

Ejercicio: 1.- Calcule y analice el coeficiente de variación de la variable. 2.- Determine el valor de la mediana y del promedio geométrico 3.- Obtenga el segundo coeficiente de sesgo de Pearson. Estandarice este coeficiente y luego analice el valor obtenido para decidir si es estadísticamente significativo. 4.- Usando percentiles, obtenga un intervalo para el 50% central de los valores de la variable. 5.- Usando percentiles, obtenga un intervalo para el 80% central de los valores de la variable. 6.- Con lo calculado en puntos 4 y 5, obtenga el coeficiente Kappa para la variable y describa como clasificaría el grado de apuntamiento de la variable. 7.- Obtenga el valor modal de la variable.

Page 77: ApuntesCurso Estadistica Ingeco UA 2012

77

8.- Construya el histograma de frecuencia. 9.- Construya el polígono de frecuencia 10.- Construya el gráfico de frecuencias acumuladas. 11.- A partir de la tabla de distribución y sus elementos, analice, interprete y redacte las conclusiones pertinentes.

Page 78: ApuntesCurso Estadistica Ingeco UA 2012

78

Capitulo 4.- Procesamiento de Datos Bidimensionales

En muchas oportunidades una "unidad de análisis" es medida u observada desde diferentes ángulos o puntos de vista. Es decir se observan ciertos atributos, como también se miden ciertas variables. Ello genera una matriz de "n" filas y "k = 2 " columnas. En muchos problemas existe una relación inherente entre dos o más variables, y resulta necesario explorar la naturaleza de esta relación. Al explorar esta relación, podemos tener una medición cuantitativa de ella, la que dependerá de la naturaleza de las variables en estudio. Puede darse el caso de que las dos variables en estudio u observación sean cualitativas, como es el caso de "tuno" y "tipo de defecto", por ejemplo. Puede darse el caso de una de la variable sea cualitativa y la otra sea cuantitativa, como es el caso de "origen de procedencia " de un vehículo y "rendimiento", por ejemplo. Puede ser de que ambas variables sean cuantitativas, como es el caso de "Rendimiento" de un vehículo” (Km / lt)) y "peso del vehículo". Por lo tanto las posibilidades de formas de tabulación, las medidas cuantitativas asociadas y los gráficos asociados dependerán de la naturaleza de las variables en estudio. 4.1 AMBAS VARIABLES SON CUALITATIVAS Un problema que se encuentra frecuentemente en el análisis de datos de conteos o enumerativos, trata de la independencia de dos métodos (variables) de clasificación de los eventos observados. Para ello en una primera instancia debemos tabular estos datos bidimensionales, generando una tabla denominada tabla de asociación o de contingencia. De esta tabla puede extraerse una variada cantidad de información. Por ejemplo, queremos clasificar los Tipos de Defectos encontrados en las unidades producidas en una planta manufacturera, según el Turno de producción. El archivo de datos tendría más o menos la siguiente presentación:

Num_Unidad Tip_Defect Turno 1 A 1 2 B 3 3 C 2 4 D 1 5 B 2 . .

308 C 2 309 A 1

Para producir una " tabla de contingencia o de asociación", a partir de datos no tabulados, utilizando Excel. Utilizaremos la base de datos automóviles, hoja 2. Aquí tomaremos las variables “Type” (Tipo de Vehículo) y “Air Bags” y es preferible usar una nueva hoja para copiarlas.

Page 79: ApuntesCurso Estadistica Ingeco UA 2012

79

Se debe utilizar Tablas Dinámicas de Excel. Para esta tabla necesitamos que las Filas sean los tamaños de los vehículos (Type) y que las columnas sean Air Bags (Cantidad de sacos de Aire) 1.- Marque o seleccione el campo de las dos variables 2.-

3.- Seleccione ambas variables. Arrastre “Type” a la ventana Rótulos de Fila y “Air Bags” a la ventana Rótulos de columna. En la ventana Valores∑ , active la punta de flecha y tendrá una ventana donde deberá seleccionar “configurar campo de valor” para seleccionar “cuenta”

Page 80: ApuntesCurso Estadistica Ingeco UA 2012

80

5.- En este caso la tabla obtenida es

Análisis Estadístico de una Tabla de asociación Una vez obtenida o construida una tabla de asociación de dos variables, es de vital importancia analizar sus componentes e interpretar los resultados que se pueden obtener a partir de ella. Por ejemplo:

Porcentajes respecto del total de la tabla. Porcentajes respecto del total por columnas. Porcentajes respecto del total por filas. Valores esperados en cada celda bajo supuesto de independencia estadística , que se verá más

adelante .etc.- Porcentajes respecto del total de la tabla. Tabla de Frecuencias: Distribución de los Tipos de Defectos, según Turno

El contenido en el interior de las celdas representa las frecuencias absolutas conjuntas. En los márgenes de la tabla aparecen los totales por filas, y los totales por columnas.

Page 81: ApuntesCurso Estadistica Ingeco UA 2012

81

Interpretaciones:

f i j : Representa la frecuencia conjunta de la fila "i" con la columna "j". f 32 = 34. Significa que hay 34 unidades que tienen el " tipo de defecto c " y que fueron producidos durante el "turno 2"

f i . : Representa el total en la fila "i" f 1. = 74. Significa hay 74 unidades que tienen el " tipo de defecto a ", cualesquiera

sea el turno f . j : Representa el total en la columna " j "

f . 2 = 96. Significa que hay 96 unidades defectuosas que fueron producidas durante el Turno 2.

¿Qué porcentaje representan los defectos tipo C y que son producidos en el turno 2? Respta. = 34 *100%309

¿Cuál es la probabilidad de que haya un defecto tipo B y se haya producido en el turno 3? Respta.

= 17 *100%309

=

Representación Gráfica de la tabla de asociación Tipo de Defectos según Turno, usando Excel. Sea la tabla original en planilla Excel

Para obtener el grafico, seleccione de la tabla anterior el siguiente campo

Luego utilice el siguiente procedimiento Excel

Page 82: ApuntesCurso Estadistica Ingeco UA 2012

82

Obtendrá un gráfico básico que podrá ir mejorando según necesidad y dominio que tenga en el manejo de la planilla

Porcentajes condicionados:

En el turno 3, ¿Qué porcentajes de los defectos son del tipo C? Respuesta = 49 *100%

119

De los defectos tipo C, ¿Qué porcentaje de ellos son producidos en el turno 1? Respuesta= 45 *100%128

Porcentajes respecto del total por columnas: La frecuencia absoluta conjunta es dividida por el total de la columna.

Realice algunas interpretaciones

• En el turno 1, la probabilidad de que se produzca un defecto tipo C es de un 47,87%. • Cualesquiera sea el turno, el defecto más probable es del tipo C

Page 83: ApuntesCurso Estadistica Ingeco UA 2012

83

Utilizando el mismo procedimiento anterior para construir un grafico de barras obtendremos el siguiente gráfico:

Pero está el inconveniente que el turno debiese aparecer en el eje X. Es decir tenemos cambiados los ejes. Este inconveniente se resuelve aplicando en el gráfico anterior, el siguiente procedimiento:

Realizando algunos cambios en el gráfico básico, podrá ir mejorándolo según necesidad y dominio que tenga en el manejo de la planilla. Un ejemplo es el siguiente

Podemos observar que si se suman los valores de las 4 barras en cada uno de los turnos, los porcentajes suman 100%

Page 84: ApuntesCurso Estadistica Ingeco UA 2012

84

Porcentajes respecto del total por filas: La frecuencia absoluta conjunta es dividida por el total de la fila

Realice algunas interpretaciones

• Dado que se tiene un defecto tipo B, los más probable es que la pieza haya sido producida en el turno 2 (44,93%)

• Dado que se tiene un defecto tipo D, lo menos probable es que la pieza haya sido producida en el

turno 2 (13,16%) El grafico de barras asociado a esta tabla de distribución de frecuencias, se obtiene de la manera anteriormente explicada. El grafico inicial que se entrega es:

Realizando algunos cambios en el gráfico básico, podrá ir mejorándolo según necesidad y dominio que tenga en el manejo de la planilla. Un ejemplo es el siguiente

Page 85: ApuntesCurso Estadistica Ingeco UA 2012

85

4.2.- UNA VARIABLE ES CUALITATIVA Y LA OTRA ES CUANTITATIVA. Una forma de presentar la información es considerar la variable cualitativa en filas y en columna alguna medida de resumen de interés para el investigador, tal como el promedio y la desviación estándar para ese nivel de medición de la variable cualitativa. Podemos utilizar Tablas Dinámica de Excel para este propósito. El análisis estadístico de este formato, cualitativo (factor) – cuantitativo, se realiza utilizando la metodología denominada Análisis de la Varianza (Anova) a un Factor. Ejemplo: Del archivo Excel automóviles, hoja 2, copie las Variables “Type” y “Engine Size”  (hoja9). Utilice el procedimiento descrito para Tabla Dinámica

Si deseamos tener el promedio y las desviación estándar para cada tipo de vehículo, tendremos dos tablas. En este caso

A partir de ellas podemos consolidarlas en una sola tabla como la siguiente:

Page 86: ApuntesCurso Estadistica Ingeco UA 2012

86

4.3.- AMBAS VARIABLES SON CUANTITATIVAS. En muchos fenómenos o problemas existe una relación inherente entre dos o más variables, y resulta necesario explorar la naturaleza de esta relación. Por ejemplo, muchos de los productos farmacéuticos y alimenticios tienen fechas de expiración estampadas en etiquetas o estampadas en los envases. En el caso del pan, yogurt y de otros productos alimenticios, la fecha de expiración indica la fecha en la que el producto ya no está fresco y su consumo ocasiona un riesgo para la salud de las de personas. En el caso de medicamentos como los analgésicos o las medicinas contra el resfriado, la fecha de expiración indica a partir de cuando el producto comienza a perder su efecto para el propósito indicado. También, a modo de ejemplo, en un proceso químico supóngase que el rendimiento del producto está relacionado con la temperatura de operación del proceso. El poder de detergencia de un detergente está relacionado con la temperatura del agua, etc.- ¿Cómo se determina éstas fechas de expiración de los productos? ¿Cuál es la temperatura que maximiza el rendimiento? La respuesta es con Análisis de Regresión. 4.3.1. Análisis de Regresión. El Análisis de Regresión es una metodología estadística para la modelización e investigación de la relación entre dos o más variables. Permite hacer un resumen de los datos y cuantificar la naturaleza y fuerza de la relación entre una variable dependiente o respuesta (Y), y una o más variables independientes o predictoras (X). A modo de ejemplo, considérense los datos de la tabla siguiente: y es la pureza del oxígeno producido en un proceso de destilación químico; x es el porcentaje de hidrocarburos presentes en el condensador principal de la unidad de destilación. Datos en el archivo Excel “Regresión Simple”

Para tener una idea acerca del comportamiento conjunto de estas dos variable, debemos graficar este conjunto de puntos en el plano coordenado (X,Y). Se genera un gráfico denominado diagrama de dispersión o nube de puntos. El análisis de este diagrama de dispersión indica que , si bien una curva no pasa exactamente por todos los puntos , existe una fuerte evidencia de que los puntos están dispersos de manera aleatoria alrededor de un modelo matemático y = f (x). Es decir, el porcentaje de pureza del oxígeno (y) es función o depende del nivel de hidrocarburo (X).

El modelo matemático más simple, es la "función lineal" o simplemente, la línea recta. Y = a + b X a : Es el intercepto o el valor de la ordenada en el origen , es decir el valor de Y cuando X = 0. b : Es la pendiente de la recta, y representa el cambio que experimenta la ordenada Y, por unidad de

cambio en la abcisa X.

Page 87: ApuntesCurso Estadistica Ingeco UA 2012

87

El modelo anterior es un modelo matemático de carácter determinista, puesto que al sustituir un valor de X en la ecuación, el valor de Y queda determinado y no se considera margen alguno para el error.

Los modelos deterministas resultan apropiados para propósitos predictivos, sólo cuando lo errores de predicción son pequeños.

Cuando los errores de predicción son grandes, que es por ejemplo el caso de los pronósticos en la

administración de negocios, hay que tomarlos en cuenta y reflejarlos en el modelo, y además, dar alguna idea de su magnitud.

El modelo Estadístico o matemático probabilístico, contiene una o más componentes aleatorias, que se agregan a la parte determinista del modelo matemático para tomar en cuenta el error aleatorio o inexplicado de la predicción.

Y = a + b X + ε

El modelo anterior recibe el nombre de Modelo de Regresión Lineal Simple, ya que sólo tiene una variable independiente o Regresor. En algunas ocasiones, los modelos de este tipo surgen de una relación teórica. En otras, no hay ningún conocimiento teórico de la relación existente entre "x" e "y", entonces la selección del modelo se basa en el análisis del diagrama de dispersión. En estos casos, el modelo de regresión se considera como un modelo empírico.

La variable aleatoria ε, supone las siguientes propiedades 1.- El valor esperado de ε, o su promedio, es igual a cero. ε = 0 2.- La varianza de la variable aleatoria ε es constante e igual a 2σ 3.- Cualquier par de errores aleatorios jiεε , correspondientes a dos observaciones yi yj , son

independientes En otras palabras, se supone que el promedio o valor esperado de "y" está relacionado

linealmente con "x" y que los valores observados de "y" se desviarán por encima y por debajo de esta línea en una cantidad aleatoria ε.

Además, se ha considerado que la distribución de los errores respecto a la línea recta será

idéntica, sin que importe el valor de "x", y que para cualquier par de errores hay independencia entre sí.

La gráfica de los datos anteriores es:

Page 88: ApuntesCurso Estadistica Ingeco UA 2012

88

Los coeficientes a, b del modelo Y = a + b X + ε, se determinan utilizando un programa denominado regresión lineal, que tienen incorporadas las calculadoras científicas.

Debemos establecer un criterio para tratar de minimizar las desviaciones de los puntos observados con la recta que se ajusta mejor, es decir, establecer un criterio para " el mejor ajuste" que parezca intuitivamente razonable, objetivo, y que según ciertas condiciones, ofrezca la mejor predicción de "y" para un valor dado de "x".

Un criterio de "bondad" utilizado es el denominado principio de los mínimos cuadrados.

Básicamente consiste en escoger como la recta de mejor ajuste a la que : 1.- El promedio de los errores (desviaciones de los valores observados "Y" respecto de los pronosticados o estimados) sea igual a cero.

ε =

2

1 1

ˆ( )i n i n

i i ii i

Y Y

n n

ε= =

= =

−=

∑ ∑ = 0

2.- La suma de los errores elevados al cuadrado sea mínima

SCE = ∑=

=

−ni

ii yy

1

2)ˆ( sea mínima

SCE = [ ]2

1

)ˆˆ(∑=

=

+−ni

iii Xbay sea mínima

El método para encontrar los valores numéricos de a y b que minimicen la SCE está basado en el cálculo diferencial (derivadas parciales). Con ello obtenemos las denominadas ecuaciones normales.

Los valores de cada componente del sistema de ecuaciones, los podemos calcular con Excel

1843, 21 *20 *23,922214,66 *23,92 *29, 2892

a ba b

= += +

Resuelva el sistema y obtendrá los valores que ajustarán la recta a los datos

Page 89: ApuntesCurso Estadistica Ingeco UA 2012

89

Los valores que deben de obtener al resolver el sistema de ecuaciones anterior son:

Coeficientes

Estimación del Parámetro

Intercepto “a” 74,2833 Pendiente “b” 14,9475

Por lo tanto la recta ajustada a los datos tiene como ecuación:

74,2833 14,9475*Y X= +

Interpretación de los coeficientes obtenidos para la recta ajustada.

Significa que cuando la cantidad de hidrocarburos en el condensador fuese igual cero, entones la pureza de oxigeno producido tendría un porcentaje de 74,28%

Pendiente “b” 14, 95: Significa que cuando la cantidad de hidrocarburos en el condensador aumenta en 1%, entonces entones la pureza de oxigeno producido aumenta en 14,95% Los diagramas de dispersión se pueden obtener utilizando la planilla Excel, de la siguiente manera: 1.- Marque las dos columnas de datos con las cuales va a construir el gráfico de dispersión. Tenga cuidado de colocar como primera la columna lo que usted defina como variable dependiente. 2.- Luego aplique el siguiente procedimiento:

Intercepto “a” 74,2833

Page 90: ApuntesCurso Estadistica Ingeco UA 2012

90

3.- Obtendrá un gráfico básico, para comenzar a mejorarlo según lo ya visto. Un resultado preliminar puede ser:

Page 91: ApuntesCurso Estadistica Ingeco UA 2012

91

4.3.2.- ANÁLISIS DE CORRELACION A veces se desea obtener un indicador de la intensidad o la fuerza de la relación lineal entre dos variables cuantitativas “x” e “y”, que no dependa de sus respectivas escalas de medición. Se designará por medida de correlación lineal entre x e y. 4.3.2.1.- Coeficiente de Correlación Lineal de Pearson

La medida de correlación lineal utilizada comúnmente en Estadística se llama coeficiente de correlación lineal de Pearson.

La expresión de cálculo matemático es: rxy = Y) de (Des.Est. * X) de (Des.Est.

Y , X entre var ianzaCo=

( )( )( )( )yx

ni

iii

YXn

yx

σσ

−∑=

=1

=

2214,6566 1,196*92,161 0,50827420 0,9356 93,56%0,1845*2,9443 0,543223

−= = =

-1 ≤ rxy ≤ +1 ; - 100% ≤ rxy ≤ +100 % Debemos analizar el significado numérico del rxy 1.- Un valor positivo para rxy implica que la recta sube de izquierda a derecha en el diagrama de dispersión. Relación Directa entre las variables.

2.- Un valor negativo para rxy implica que la recta baja de izquierda a derecha en el Diagrama de dispersión. Relación Inversa entre las variables

Page 92: ApuntesCurso Estadistica Ingeco UA 2012

92

3.- Un valor de rxy a cero implica de que no hay correlación lineal entre x e y

4.- La correlación entre las variables no es lineal

A partir de la expresión matemática inicial para calcular el XYr podemos colocarlo como una función de

rxy = y

x

σσ b

Para el ejemplo el porcentaje de pureza del oxigeno y el porcentaje de hidrocarburo en el reactor químico

rxy = 0,1845 *14,9475 0,9367 93,67%2,9443

= = = 0,945 = 94,5%

Es decir, el coeficiente de correlación se puede colocar como un cuociente entre el producto de la desviación estándar de la variable X con el Regresor de la recta, dividido por la desviación estándar de la variable Y.

Page 93: ApuntesCurso Estadistica Ingeco UA 2012

93

4.3.2.2- Error Estándar de la Estimación Si denotamos por y el valor de Y para valores dados de X , a través del modelo ajustado , una medida de la dispersión respecto de la Recta de Regresión de Y sobre X , viene proporcionada por la expresión :

∑=

=

−=ni

ii yy

n 1

2y/x )ˆ(1σ =

1 *21,249820

= 1,0308

El error estándar de la estimación tiene propiedades análogas a las de la Desviación Típica o Estándar. Por ejemplo , si construimos rectas paralelas a la de Regresión de Y sobre X a distancias verticales respectivas 1 y/xσ ; 1,96 y/xσ ; 3 y/xσ de ella, si “n” (tamaño de la muestra) es lo suficientemente grande , que estarían incluidos entre esas rectas aproximadamente el 68 %, 95 % y 99 % de los puntos muestrales. Para pequeñas o pocas muestras, será útil un error típico de estimación modificado, que es el que también es muy utilizado

y/x1

2

y/x *22

)ˆ(ˆ σσ

−=

−=∑=

=

nn

n

yyni

ii

= 20 *1,0308 1,086518

=

Para más adelante, podremos cambiar el denominador “(n – 2)”, por uno más general que es “(n – p)”, donde “p” indica el número de parámetros que se estimaron en el modelo. En el caso de la recta, p = 2. 4.3.2.3.- Coeficiente de Determinación.

La variación total en la variable respuesta se define como :

∑ ∑∑=

=

=

=

=

=

−+−=−ni

i

ni

iiii

ni

ii YYYyYy

1 1

22

1

2 )ˆ()ˆ()(

El término ∑=

=

−ni

iii Yy

1

2)ˆ( se llama variación no explicada (por el modelo). Pues se comportan de un

modo caótico, impredecible, aleatorio.

El término ∑ − 2)ˆ( YY se llama variación explicada (por el modelo).

Significa entonces que la variación total es igual a la suma entre la variación explicada y la variación no explicada. El Coeficiente de Determinación, R2, es el cuociente entre la variación explicada y la variación total.

R2 =

∑=

=

=

=

ni

ii

ni

i

Yy

YY

1

2

1

2

)(

)ˆ( 0 ≤ R2 ≤ 1

Page 94: ApuntesCurso Estadistica Ingeco UA 2012

94

Remplazando el numerador de la expresión anterior por ∑ ∑ −−− 22 )ˆ()( YyYy ii

Se tiene que R2 = y

i

ni

iii

Yy

Yy

2y/x

2

2

1

2

1)(

)ˆ(1

σσ

−=−

−−

∑=

= donde y/x2σ es la varianza de los errores

El valor de R2 multiplicado por 100% se interpreta como el porcentaje de la variabilidad en la respuesta que es explicada por la variable predictora X a través del modelo de regresión. Tiene por lo tanto un carácter más general que el coeficiente de correlación lineal.

La raíz cuadrada de R2, es el Coeficiente de Correlación rxy

XYr = 2R =

y2

2 y/x1σσ

− xy2

y/x 1 ry −= σσ

Para el ejemplo el porcentaje de pureza del oxigeno y el porcentaje de hidrocarburo en el reactor químico

R2 =

2

1

2

ˆ( )21,2498171 1 0,8774 87,74%

173,376900( )

i n

i ii

i

y Y

y Y

=

=

−− = − = =

Esto significa que un 84,67% de la variabilidad en la pureza del oxigeno es explicada por el porcentaje de hidrocarburo en el reactor OBSERVACIÓN: Abusos comunes de la regresión

La Regresión se emplea mucho y, con frecuencia, de mala manera. Mencionaremos brevemente algunos abusos comunes de la regresión. Debe tenerse cuidado al seleccionar las variables con las que se construyen las ecuaciones de regresión, así como al determinar la forma del modelo. Es posible determinar relaciones estadísticas entre variables que no están relacionadas desde un punto de vista práctico. Por ejemplo, puede intentarse relacionar la resistencia al esfuerzo de los puntos de soldadura con los valores día de un cierto tipo de moneda. Incluso puede parecer que una línea recta proporciona un “buen ajuste “ de los datos, pero la relación es poco razonable. La observación de una fuerte relación entre variables no necesariamente implica la existencia de una relación causal entre ellas. Sólo los experimentos diseñados son los únicos que ofrecen una vía para determinar relaciones causales.

Las relaciones de regresión son válidas sólo para los valores del regresor que están dentro del rango de los datos originales. La relación lineal supuesta de manera tentativa puede ser válida dentro del rango original de X, pero tal vez no lo sea al momento de la extrapolación ( Es decir , si se emplean valores de X que están fuera del rango de los que fueron utilizados para la regresión). Esto es porque si se toman valores de X que están fuera del rango de los colectados, menos certidumbre se tiene sobre la validez del modelo propuesto. Los modelos de regresión no son necesariamente válidos para fines de extrapolación.

Page 95: ApuntesCurso Estadistica Ingeco UA 2012

95

4.4.- Modelos NO Lineales Reducibles a lineal Una relación entre dos variables puede ser aproximadamente lineal cuando se estudia en un intervalo relativamente limitado, pero puede ser marcadamente curvilínea si se amplía el intervalo. Un ejemplo de ello lo tenemos al obtener valores experimentales de la presión P de una masa dada de gas, correspondiente a varios valores de volumen V. Es de suma utilidad, representar los datos originales en un Diagrama de Dispersión, para darnos cuenta de la existencia de alguna tendencia a alguna "curvatura". La selección de la forma de la ecuación de regresión que mejor expresa una relación curvilínea no siempre es problema simple. Existe un gran número de tipos de curvas que pueden expresarse por ecuaciones matemáticas.

Lo que debemos tener en cuenta para la elección del modelo que mejor interpreta a los datos , es elegir del conjunto de ecuaciones dadas, aquel modelo que en términos absolutos tenga el mayor coeficiente de correlación rxy , como también el mayor coeficiente de determinación R2 . Este criterio de selección está justificado por el hecho de que al aumentar el coeficiente de correlación (en términos absolutos), disminuye el error estándar de la estimación del modelo.

Además del criterio enunciado anteriormente para escoger la forma de la curva, es deseable tener

alguna teoría dada por especialistas que trabajen en el campo de la materia del tema por lo que se colectaron los datos. Además, también es de mucha utilidad, revisar si se cumplen los supuestos enunciados anteriormente en lo errores para la validez de la estimación.

La relación curvilínea entre las variables nos puede llevar a buscar: a) Modelos que no son lineales en los parámetros, pero que mediante una transformación (logarítmica por ejemplo), se los hace lineales. b) Modelos que son lineales en los parámetros, y entonces recurrimos a los polinomios de grado dos o más, en la variable independiente. c).- Modelos intrínsecamente no lineales que son aquellos que no se pueden linealizar mediante una transformación. Los correspondientes análisis se denominan regresiones no lineales. Una vez transformados los datos, es aconsejable realizar un nuevo diagrama de dispersión y observar si ahora los datos presentan tendencia a alinearse en torno a una recta.

Las Transformaciones tienen por objetivo proporcionar un procedimiento más fácil de ajuste y/o

procedimientos válidos de estimación y prueba.

En el caso de curvas polinómicas, el diagrama de dispersión de los datos originales generalmente presenta cierto punto máximo, como también mínimo. Al ajustar curvas polinomiales, el investigador se interesa usualmente en un segmento dado del intervalo total representado por la ecuación.

Recordemos que:

Polinomio Cuadrático es 2210 xaxaay ++=

Polinomio Cúbico es 3

32

210 xaxaxaay +++= Polinomio Cuártico es 4

43

32

210 xaxaxaxaay ++++=

Page 96: ApuntesCurso Estadistica Ingeco UA 2012

96

A continuación, a modo de ejemplo, se dará una lista de modelos no lineales en los parámetros que haciendo uso de una transformación podemos linealizarlos.

Modelo no Lineal Modelo linealizado by axe = xbay lnln +=

xaby = xbay )(log)(loglog +=

baxy = )(log)(loglog xbay +=

bxay

+=

1 bxay

+=1

xabky

+=

1 xbaky

)(log)(log)1log( +=−

bxaekky ++

=2

1 bxakky

+=− )ln( 21

donde

k1 , k2 representan asíntotas horizontales

gaby x += xbaxy )(log)(log)log( +=−

gaxy b += )(log)(log)log( xbagy +=−

⎟⎠⎞

⎜⎝⎛+=

xy 1

10 ββ zy 10 ββ += donde z representa ( 1 / x )

( )xey

10

1ββ += x

y 101ln ββ +=⎟⎟

⎞⎜⎜⎝

Page 97: ApuntesCurso Estadistica Ingeco UA 2012

97

Actividad de Aplicación Práctica Taller de Regresión y Correlación: Los datos están en el archivo Excel “Regresión Simple

1.- La resistencia del papel utilizado en la fabricación de cajas de cartulina (Y), está relacionada con la

concentración de madera dura en la pulpa original (X). Bajo condiciones controladas una planta piloto fabrica 16 muestras, cada una con un lote diferente de pulpa, y mide la resistencia a la tensión

Y: 101.4 117.1 106.2 146.9 146.8 133.9 123.0 125.1 145.2 134.3 144.5 143.7 146.9 X : 1.0 1.5 1.5 2.0 2.2 2.4 2.5 2.8 2.8 3.0 3.0 3.2 3.3

Represente los datos en un Diagrama o grafico de dispersión y analice el tipo de dependencia entre las variables.

Usted tiene los siguientes modelos para ajustar a sus datos: 1) Y = a + b*X 2) 1

( / )Y

a b x=

+

a) Calcule el coeficiente de correlación lineal para ambos y elija cuál de ellos ajustaría a sus datos b) Interprete los coeficiente de correlación de los modelos c) Determine la ecuación del modelo ajustado. d) Determine el valor de R2 para el modelo ajustado e) Determine el error estándar de la estimación para el modelo ajustado f) Estime la resistencia del papel cuando la concentración de madera dura tiene una concentración de

2,3 con ± 1,5 error estándar 2.- La tabla siguiente entrega las edades y las presiones sanguíneas (en sístole) de 12 mujeres. Edad ( X) 56 42 72 36 63 47 55 49 38 42 68 60_____ Pr. Sang. (Y) 147 125 160 118 149 128 150 145 115 140 152 155 Represente los datos en un Diagrama o grafico de dispersión y analice el tipo de dependencia entre las variables

Usted tiene los siguientes modelos para ajustar a sus datos: 1) Y a b X= + 2) 1Y a bX

⎛ ⎞= + ⎜ ⎟⎝ ⎠

a) Calcule el coeficiente de correlación lineal para ambos y elija cuál de ellos ajustaría a sus datos b) Interprete los coeficiente de correlación de los modelos c) Determine la ecuación del modelo ajustado. d) Determine el valor de R2 para el modelo ajustado e) Determine el error estándar de la estimación para el modelo ajustado f) Estime la presión sanguínea de una mujer que tiene 50 años de edad con ± 1,5 error estándar.

3.- El número de bacterias por unidad de volumen "Y" en un cultivo tras "X" horas se presenta en la siguiente tabla de datos: Nº de horas (X) 0,1 1 2 3 4 5 6____ Nº de bacterias ( Y) 30 45 63 90 130 200 300 Represente los datos en un Diagrama o grafico de dispersión y analice el tipo de dependencia entre las variables

Page 98: ApuntesCurso Estadistica Ingeco UA 2012

98

Usted tiene los siguientes modelos para ajustar a sus datos 1) Y = exp(a + b*X) 2) Y = a + b*X

a) Calcule el coeficiente de correlación lineal para ambos y elija cuál de ellos ajustaría a sus datos b) Interprete los coeficiente de correlación de los modelos c) Determine la ecuación del modelo ajustado. d) Determine el valor de R2 para el modelo ajustado e) Determine el error estándar de la estimación para el modelo ajustado f) Estime la cantidad de bacterias que podrían haber a la hora 7, con ± 1 error estándar

4.- El tiempo necesario para detener un coche después de percibir un peligro, es el tiempo de reacción (el tiempo entre la percepción del peligro y la `aplicación de los frenos), más el tiempo de frenada (lo que tarda en detenerse bajo la acción de los frenos) . La tabla siguiente muestra las distancias (Y) en pies, y las velocidades (X) de los coches en millas por hora Velocidad (X) 20 30 40 50 60 80 Distancia Frenado 54 90 138 206 292 370 Represente los datos en un Diagrama o grafico de dispersión y analice el tipo de dependencia entre las variables Usted tiene los siguientes modelos para ajustar a sus datos Y = a + b*ln(X) 2) Y = a*X^b

a) Calcule el coeficiente de correlación lineal para ambos y elija cuál de ellos ajustaría a sus datos b) Interprete los coeficiente de correlación de los modelos c) Determine la ecuación del modelo ajustado. d) Determine el valor de R2 para el modelo ajustado e) Determine el error estándar de la estimación para el modelo ajustado f) Estime la cantidad la distancia de frenado para un coche que se desplaza a 70 millas por hora con

± 1,5 error estándar 5.- Las siguientes mediciones se efectuaron en 20 áreas geográficas. La variable "X" es la medición combinada de contaminación del aire y agua en la zona. La variable "Y" es la medición del estado de salud de los residentes del área. Entre mayor sea el valor de X, hay mayor contaminación. Entre mayor sea el valor de Y, la salud de las personas es más precaria. X 73 52 68 47 60 71 67 80 86 91 67 73 71 57 86 76 91 69 87 77 Y 90 74 94 62 63 78 60 89 82 105 76 82 93 73 82 88 97 80 87 95 Represente los datos en un Diagrama o grafico de dispersión y analice el tipo de dependencia entre las variables

Usted tiene los siguientes modelos para ajustar a sus datos 1) Y = 1/(a + b*X) 2) Y a b X= +

a) Calcule el coeficiente de correlación lineal para ambos y elija cuál de ellos ajustaría a sus datos b) Interprete los coeficiente de correlación de los modelos c) Determine la ecuación del modelo ajustado. d) Determine el valor de R2 para el modelo ajustado e) Determine el error estándar de la estimación para el modelo ajustado f) Estime el estado de salud de un residente cuando la contaminación en la zona es de 70 con ± 1

error estándar

Page 99: ApuntesCurso Estadistica Ingeco UA 2012

99

6.- Los siguientes valores representan 15 lecturas que indican el volumen de tráfico y la concentración de monóxido de carbono(Y) tomado en un laboratorio para determinar la calidad del aire en una cierta ciudad. X: Volumen del tráfico (Automóviles por hora), Y: CO (ppm) X 100 110 125 150 175 190 200 225 250 275 300 325 350 375 400 Y 8.8 9.0 9.5 10.0 10.5 10.5 10.5 10.6 11.0 12.1 12.1 12.5 13.0 13.2 14.5 Represente los datos en un Diagrama o grafico de dispersión y analice el tipo de dependencia entre las variables

Usted tiene los siguientes modelos para ajustar a sus datos Y = exp(a + b*X) 2) 1Y a bX

⎛ ⎞= + ⎜ ⎟⎝ ⎠

a) Calcule el coeficiente de correlación lineal para ambos y elija cuál de ellos ajustaría a sus datos b) Interprete los coeficiente de correlación de los modelos c) Determine la ecuación del modelo ajustado. d) Determine el valor de R2 para el modelo ajustado e) Determine el error estándar de la estimación para el modelo ajustado f) Estime la cantidad de concentración de monóxido de carbono, cuando el volumen de tráfico en la

ciudad es de 360 automóviles por hora, con ± 1,5 error estándar 7.- Valores de Clorofila, Fósforo y Nitrógeno, tomados de varios lagos y diversos tiempos. Se sugiere Buscar Modelos de Regresión apropiados. Use los modelos antes señalados en los ejercicios anteriores. La variable Respuesta Y es la Clorofila. La variable predictora puede ser Fósforo (X1) o el Nitrógeno (X2). Haga un informe que contenga básicamente las mismas preguntas de los ejercicios anteriores