Curso de estadística

64
ESTADÍSTICA ÁLVARO VALENCIA OROZCO 1 ESTADÍSTICA Tabla de Contenido . Introducción 1. Conceptos preliminares 1.1 Breve historia de la estadística 1.2 Dimensión actual de la estadística 1.3 Qué es estadística 1.4 Finalidad de la estadística 1.5 Ramas de la estadística 1.6 Variables. 1.7 Población y muestras 1.8 La medida en la estadística 1.9 Redondeo de datos Ejercicios propuestos 2. Etapas del Método Estadístico 2.1 Planteamiento del problema 2.2 Fijación de los objetivos 2.3 Formulación de las hipótesis 2.4 Definición de la unidad de observación y de la unidad de medida 2.5 Determinación de la población y de la muestra 2.6 La recolección 2.7 Crítica, clasificación y ordenación 2.8 La tabulación 2.9 La presentación 2.10 El análisis 2.11 Publicación . 3. Distribución de Frecuencias 3.1 Distribución de frecuencias simple Ejercicios 3.2 Distribución de frecuencias por intervalo 3.3 Reglas empíricas para la construcción de Intervalos Cuestionario y ejercicios propuestos . 4. Representación Gráfica 4.1 Definición 4.2 Componentes de una gráfica 4.3 Principales tipos de gráficos 4.3.1 Gráfico de líneas 4.3.2 Gráfico de líneas compuesto 4.3.3 Gráfico de barras 4.3.4 Gráfico de barras compuesto 4.3.5 Gráfico de sectores circulares 4.3.6 Histograma de frecuencias 4.3.7 Polígono de frecuencias 4.3.8 Histograma de frecuencias acumuladas Cuestionario y ejercicios propuestos . 5. Medidas de Tendencia Central 5.1 Media aritmética 5.1.1 Propiedades de la media aritmética

description

 

Transcript of Curso de estadística

Page 1: Curso de estadística

ESTADÍSTICA ÁLVARO VALENCIA OROZCO

1

ESTADÍSTICA

Tabla de Contenido . Introducción 1. Conceptos preliminares 1.1 Breve historia de la estadística 1.2 Dimensión actual de la estadística 1.3 Qué es estadística 1.4 Finalidad de la estadística 1.5 Ramas de la estadística 1.6 Variables. 1.7 Población y muestras 1.8 La medida en la estadística 1.9 Redondeo de datos Ejercicios propuestos 2. Etapas del Método Estadístico 2.1 Planteamiento del problema 2.2 Fijación de los objetivos 2.3 Formulación de las hipótesis 2.4 Definición de la unidad de observación y de la unidad de medida 2.5 Determinación de la población y de la muestra 2.6 La recolección 2.7 Crítica, clasificación y ordenación 2.8 La tabulación 2.9 La presentación 2.10 El análisis 2.11 Publicación . 3. Distribución de Frecuencias 3.1 Distribución de frecuencias simple Ejercicios 3.2 Distribución de frecuencias por intervalo 3.3 Reglas empíricas para la construcción de Intervalos Cuestionario y ejercicios propuestos . 4. Representación Gráfica 4.1 Definición 4.2 Componentes de una gráfica 4.3 Principales tipos de gráficos 4.3.1 Gráfico de líneas 4.3.2 Gráfico de líneas compuesto 4.3.3 Gráfico de barras 4.3.4 Gráfico de barras compuesto 4.3.5 Gráfico de sectores circulares 4.3.6 Histograma de frecuencias 4.3.7 Polígono de frecuencias 4.3.8 Histograma de frecuencias acumuladas Cuestionario y ejercicios propuestos . 5. Medidas de Tendencia Central 5.1 Media aritmética 5.1.1 Propiedades de la media aritmética

Page 2: Curso de estadística

ESTADÍSTICA ÁLVARO VALENCIA OROZCO

2

5.1.2 Media aritmética con cambio origen y de escala 5.1.3 Media aritmética ponderada 5.2 Mediana 5.2.1 La mediana cuando los datos no están agrupados en intervalos 5.2.2 La mediana cuando la información está agrupada en intervalos 5.3 La Moda 5.3.1 La moda cuando los datos no están agrupados en intervalos 5.3.2 Cálculo de la moda con la información agrupada en intervalos Cuestionario y ejercicios propuestos . 6. Medidas de Posición (Percentiles) 6.1 Cuartiles 6.2 Quintiles 6.3 Deciles 6.4 Centiles 6.5 Resumen Cuestionario y ejercicios propuestos . 7. Medidas de Dispersión 7.1 Rango o recorrido 7.2 Desviación media 7.3 Varianza 7.4 Coeficiente de variabilidad Cuestionario y ejercicios propuestos 8. Regresión y Correlación Lineal 8.1 Tablas de doble entrada 8.2 Correlación 8.3 Regresión lineal 8.3.1 Ajuste rectilíneo (método de los mínimos cuadrados) 8.3.2 Ajuste parabólica (método de los mínimos cuadrados) Cuestionario y ejercicios propuestos . 9. Tasas e Índices 9.1 Tasa 9.2 Índice 9.2.1 Índice simple 9.2.1.1 Índice de base fija 9.2.1.2 Índice de base móvil 9.2.2 Índices compuestos (globales) 9.2.2.1 Índice de Laspeyres 9.2.2.2 Índice de Passche 9.2.2.3 Índice ideal de Fisher Cuestionario y ejercicios propuestos . 10. Nociones de Probabilidad (Eventos) 10.1 Nociones de conteo 10.1.1 Principio fundamental 1 10.1.2 Principio fundamental 2 10.1.3 Permutaciones 10.1.4 Variaciones 10.1.5 Combinaciones 10.1.6 Permutaciones con repetición 10.1.7 Variaciones con repetición Ejercicios propuestos

Page 3: Curso de estadística

ESTADÍSTICA ÁLVARO VALENCIA OROZCO

3

10.2 Definición de probabilidad 10.2.1 Probabilidad a priori 10.2.2 Probabilidad a posteriori 10.2.3 Probabilidad subjetiva 10.3 Axiomas de la teoría de probabilidades 10.4 Probabilidad condicional e independencia estadística Cuestionario y ejercicios propuestos 10.5 Variable aleatoria 10.6 Función de probabilidad 10.6.1 Función de probabilidad 10.6.2 Función de distribución Cuestionario y ejercicios propuestos 10.7 Valor esperado (esperanza matemática) 10.7.1 Media aritmética poblacional 10.7.2 Varianza poblacional Cuestionario y ejercicios propuestos . 11. Distribuciones Especiales 11.1 Distribución de Bernoulli 11.2 Distribución binomial, tablas binomiales 11.3 Distribución de Poisson, tablas de Poisson 11.4 Distribución normal 11.5 Distribución normal estándar, tablas normales Cuestionario y ejercicios propuestos 11.6 El tamaño de la muestra Referencias Bibliográficas

Alatorre, et al., Introducción a los métodos estadísticos, México, UPN. Azorín, Poch. Francisco. Curso de muestreo y aplicaciones, Aguilar, 1969. Barahoma, Abel y otro. Metodología de trabajos científicos, Ipler, 1979. Bencardino M., Ciro. Estadística, Apuntes y 600 Problemas Resueltos, 2a Edición, Ecoe, 1982. Castillo, Juana, Estadística inferencial básica, México, CCH, UNAM. CHAO. Lincoln L. Estadística para Ciencias Administrativas, 2a Edición, MCGRAWHILL, 1980. Dixon, Wilfrid J y otro. Introducción al Análisis Estadístico, 2a Edición, MCGRAWHILL, 1965. Doms, Fernan P. La Estadística Qué Sencilla, 2a Edición, Paraninfo, 1969. Downie, N. M. y otro. Métodos Estadísticos Aplicados. Harper Row Publishers Inc., 1970. Giardina, Basilio. Manual de Estadística, 3 Edición, 1972. Haber, Audrey. Estadística General, Fondo Educativo Interamericano, 1973. Hoel, Paul G. Estadística elemental, México, CECSA. Johnson, Robert, Estadística elemental, Buenos Aires, Grupo Editorial Iberoamericana. Kazmier, Leonard J. Estadística Aplicada a la Administración y la Economía, MCGRAW-HILL, 1978. Leitold Louis. El Cálculo con Geometría Analítica, 2a Edición, Harla S.A., 1973. Levin Yack. Fundamentos de Estadística en la Investigación Social, 2a Edición, Harla S., 1977. Llerena, León, Ricardo y otro. Curso de Estadística General, U. de A., 1981. Mejía V., William. Bioestadística General, Escuela Nal. De Salud Pública, U. de A.,

Page 4: Curso de estadística

ESTADÍSTICA ÁLVARO VALENCIA OROZCO

4

1980. National Council of Teachers. Of. Mathematics USA. Recopilación, Organización e interpretación de Datos, Trilla, 1970. Portilla, Ch. Enrique. Estadística, Primer Curso. Interamericano, 1980. Richards, Larry E. Y otro. Estadística en los Negocios. ¿por qué y cuándo?, MCGRAW-HILL,1978. Seymour, Lipschutz, Teoría y problemas de probabilidad, México, McGraw-Hill. Shao, Stephen P. Estadística para Economistas y Administradores de Empresas, 15a Edición, 1979. Spiegel, Murray R. Estadística, MCGRAW-HILL, 1970. Spiegel, Murray, Teoría y problemas de estadística, México, McGraw-Hill. Stevenson, William, Estadística, México, Harla. Yamane, Taro, Estadística, México, Harla.

Page 5: Curso de estadística

ESTADÍSTICA ÁLVARO VALENCIA OROZCO

5

ESTADÍSTICA INTRODUCCIÓN

“Las acciones que acometemos hoy se basan en un plan de ayer y las expectativas del mañana”.

La palabra estadística se origina, en las técnicas de recolección, organización, conservación, y tratamiento de los datos propios de un estado, con que los antiguos gobernantes controlaban sus súbditos y dominios económicos. Estas técnicas evolucionaron a la par con el desarrollo de las matemáticas, utilizando sus herramientas en el proceso del análisis e interpretación de la información. Para mediados del siglo XVII en Europa, los juegos de azar eran frecuentes, aunque sin mayores restricciones legales. El febril jugador De Méré consultó al famoso matemático y filosofo Blaise Pascal (1623-1662) para que le revelara las leyes que controlan el juego de los dados, el cual, interesado en el tema, sostuvo una correspondencia epistolar con el tímido Pierre de Fermat (1601-1665, funcionario público apasionado por las matemáticas; célebre porque no publicaba sus hallazgos) dando origen a la teoría de la probabilidad, la cual se ha venido desarrollando y constituyéndose en la base primordial de la estadística. En nuestros días, son de uso cotidiano las diferentes técnicas estadísticas que partiendo de observaciones muestrales o históricas, crean modelos lógico-matemáticos que se "aventuran" describir o pronosticar un determinado fenómeno con cierto grado de certidumbre medible. El presente texto no pretende teorizar el saber estadístico, desde luego, no es un libro para estadísticos, ya que, adrede se obvia el rigor científico de lo expuesto en beneficio de la sencillez necesaria para el neófito; con un lenguaje coloquial se conduce al lector a través del contenido, a partir de dos o tres ejemplos que ilustran la aplicabilidad de los temas tratados. El avance tecnológico en la informática ha contribuido enormemente al desarrollo de la estadística, sobre todo en la manipulación de la información, pues en el mercado existen paquetes estadísticos de excelente calidad, como el SAS, SPSS, SCA, STATGRAPHICS, amén de otros, que "corren" en un ordenador sin mayores exigencias técnicas, permitiendo el manejo de grandes volúmenes de información y de variables. La estadística, entonces, dejó de ser una técnica exclusiva de los estados, para convertirse en una herramienta imprescindible de todas las ciencias, de donde proviene la desconcertante des-uniformidad en las definiciones de los diferentes autores, ya que cada estudioso la define de acuerdo con lo que utiliza de ella y tenemos definiciones como que: la estadística es la tecnología del método científico, o que es el conocimiento relacionado con la toma de decisiones en condiciones de incertidumbre, o que la estadística son métodos para obtener conclusiones a partir de los resultados de los experimentos o procesos, o que es un método para describir o medir las propiedades de una población. En fin, no se trata de discutir si la estadística es una ciencia, una técnica o una herramienta, sino de la utilización de sus métodos en provecho de la evolución del conocimiento. La estadística hace inferencias sobre una población, partiendo de una muestra representativa de ella. Es a partir del proceso del diseño y toma de la muestra desde donde comienzan a definirse las bondades y confiabilidad de nuestras aseveraciones, hechas, preferentemente, con un mínimo costo y mínimo error posible..

Page 6: Curso de estadística

ESTADÍSTICA ÁLVARO VALENCIA OROZCO

6

1. CONCEPTOS PRELIMINARES.

1.1 BREVE HISTORIA DE LA ESTADÍSTICA. Godofredo Achenwall, profesor y economista alemán (1719 a 1772) es considerado por algunos investigadores el fundador de la Estadística. Siendo profesor de la Universidad de Leipzig, escribió un artículo sobre el descubrimiento de una nueva ciencia que llamó Estadística y que definió como “el conocimiento profundo de la situación respectiva y comparativa de cada estado”. Achenwall y sus seguidores estructuraron los métodos estadísticos que se orientaron a investigar, medir y comparar las riquezas de las naciones a partir de los conceptos de inventarios y censos que ya se realizaban desde la antigüedad. Los juegos de azar dieron origen a la teoría de las probabilidades desarrollada por Pascal y Fermat a mediados del siglo XVII. La curva Normal de mucha importancia en el desarrollo de la Estadística fue publicada originalmente en 1733 por De Moivre, quien no supo como aplicar sus resultados a observaciones experimentales. Su escrito permaneció desconocido hasta que Karl Pearson lo encontró en 1924. Sin embargo, al mismo resultado llegaron los astrónomos y matemáticos Laplace (1749 a 1827) y Gauss (1777 a 1855), independientemente el uno del otro. En el siglo XIX, se hizo necesaria una base más sólida para la estadística. Karl Pearson (1857 a 1936) aplicó las matemáticas a la evolución, como resultado del entusiasmo que generó Darwin en la Biología y construyó durante medio siglo una investigación estadística rigurosa, fundó la revista Biometrika y una escuela de estadística. Gosset (1876 a 1937), consideraba insuficientes los desarrollos matemáticos para encontrar distribuciones exactas de la desviación estándar y otros parámetros; sus escritos sobre sus resultados aparecieron con el seudónimo de Student en la revista Biometrika; Hoy, la distribución t-Student es instrumento fundamental de la estadística. R. A. Fisher (1890 a 1962) recibió influencias de Pearson y de Student e hizo numerosas e importantes contribuciones a la Estadística, entre las que se destaca la teoría sobre la verificación o prueba de hipótesis estadística, presentada en 1936 con J. Neuman.

1.2 DIMENSIÓN ACTUAL DE LA ESTADÍSTICA

La estadística ha tenido un desarrollo extraordinario, que ha hecho que muchos problemas que antes no tenían una clara solución, hoy la tengan. Para que podamos hacernos una idea de la diversidad de campos en los que la Estadística juega un papel importante, se presentan a continuación algunas situaciones.

Prueba de una vacuna. Se quiere determinar la efectividad de una vacuna; para ello se diseña un experimento en el cual participa un gran conjunto de niños de cierta edad, los cuales son clasificados al azar en 2 grupos, al primer grupo se le aplica la vacuna y al segundo grupo no. Se les hace un seguimiento durante un periodo adecuado de tiempo para comparar la incidencia de la enfermedad problema en cada grupo. ¿Cuál debe ser la diferencia mínima en el número de afectados para aceptar que la vacuna es efectiva?.

Determinación de la etiología de una enfermedad. Para que una enfermedad se produzca es preciso una combinación adecuada de las condiciones de tres elementos que son: el agente, el ambiente y el huésped. Al proceso constituido por las interrelaciones entre estos tres elementos que caracteriza y explica la presencia de la enfermedad, se conoce como “historia natural de la enfermedad”. La epidemiología se dedica en gran parte a la determinación de la historia natural de las enfermedades ya que conociendo ésta, es posible determinar cuál etapa del desarrollo de la enfermedad es más factible de interrumpir para evitar la misma. No es fácil en la mayoría de los casos, determinar la historia natural de una enfermedad, y en ello la estadística juega un papel muy importante al proporcionar herramientas para comparar

Page 7: Curso de estadística

ESTADÍSTICA ÁLVARO VALENCIA OROZCO

7

la distribución de la enfermedad en grupos con diversas características socioeconómicas (sexo, edad, condiciones geográficas, raza, hábitos, etc.), con el ánimo de ir acotando las condiciones ambientales y del huésped que conduzcan a la explicación de la historia natural de la enfermedad.

Determinación de la dosis de una droga. Para lanzar una nueva droga al mercado, es necesario superar una serie de etapas y pruebas que son más o menos rigurosas dependiendo de las leyes del país en cuestión. Generalmente el consumo de una droga puede producir efectos colaterales que pueden ser más o menos graves. Por tal razón es necesario diseñar experimentos para determinar niveles de sensibilidad y la dosis adecuada que permita atacar la enfermedad y no producir molestias. (Nótese que estos aspectos varían de persona a persona).

Caracterización de la demanda por el servicio de Urgencia Hospitalaria. La demanda por el servicio de Urgencia Hospitalaria es variable de mes a mes, de semana a semana, día a día, e inclusive en las horas de un mismo día. El conocimiento de dicha distribución es de mucho interés para la determinación de los recursos humanos y materiales y para su programación. Un acercamiento a la distribución de la demanda puede conseguirse recolectando información y realizando algunos análisis estadísticos.

Fase de planeación. La planeación es en cierta forma “mirar hacia el futuro con los ojos del pasado”. En el proceso de planeación se requiere disponer de la información cuantitativa y cualitativamente adecuadas para tomar decisiones ahora, que tendrán implicaciones en el futuro. Una empresa debe hacer proyecciones de demanda del artículo que produce, pues con base en ella, se hará la programación de la producción y todo lo que ella trae consigo. Dicha demanda puede ser estimada a través de modelos estadísticos de SERIES DE TIEMPO.

Control de calidad. La calidad con que se produce un artículo es muy importante para cada industria. Esta constituye un factor básico de competencia en el peor de los casos, porque en el caso de drogas o alimentos se trata de la integridad e incluso de la vida de las personas. En la práctica es muy costoso y a veces imposible inspeccionar el 100% de la producción o de la materia prima; se puede en estos casos diseñar un plan estadístico de muestreo, y unos instrumentos que permitan tomar decisiones muy confiables sobre la calidad de un lote de producción a partir de la observación de unos pocos artículos, economizando de esta manera dinero y tiempo.

Comparación de la eficiencia de dos procesos. Se desea decidir sobre cuál de 2 procedimientos utilizar para la realización de una actividad intermedia en la producción de un artículo, tomando como criterio la eficiencia. Se diseña el experimento y se realizan observaciones durante corto tiempo con base en las cuales se deberá decidir con cierta confiabilidad cuál procedimiento es mejor.

Producción Agrícola. Se van a sembrar grandes áreas de terreno con papa china, se requiere por tanto diseñar un experimento para determinar entre otras cosas: ¿Cuál debe ser la distancia entre plantas?, ¿Cuáles deben ser los niveles de agua y de nutrientes a usar?, ¿Hay o no interacción entre la distancia entre plantas y los niveles de nutrientes? Todo ello para conseguir óptima producción.

Econometría. Determinación de las principales características socioeconómicas que generan la inflación y cómo influye cada una de ellas, presentando esto a través de un modelo de Regresión.

Análisis actuarial.

Page 8: Curso de estadística

ESTADÍSTICA ÁLVARO VALENCIA OROZCO

8

Una empresa de seguros de vida, desea determinar cuánto debe cobrar al año por una póliza, según la edad. Para ello, debe realizar un estudio estadístico sobre los riesgos y las frecuencias de muertes por grupos de edad.

1.3 ¿QUÉ ES ESTADÍSTICA? Es un sistema o método científico, que estudia el comportamiento de los fenómenos de masa, mediante la recopilación, organización, clasificación, presentación, análisis, e interpretación de datos que interesan al investigador, para sacar conclusiones generales, destinadas a mejorar las políticas que rigen los procesos que se cumplen en la naturaleza y en la vida social.

1.4 FINALIDAD DE LA ESTADÍSTICA La estadística tiene por finalidad suministrar información, cuya utilidad depende del objeto para el cual se realiza la estadística y la forma en que se realiza la obtención de los datos. Algunas aplicaciones de la estadística que podemos nombrar en forma general son:

Conocer la realidad de una observación o de un fenómeno. Ejemplo: si se cumple o no la producción programada para un artículo.

Determinar lo típico o normal de una observación. Ejemplo: el promedio de edad de los estudiantes de un grado determinado.

Determinar los cambios que presenta un fenómeno. Ejemplo: un cambio en cantidad de ventas de un producto.

Determinar las causas que originan un fenómeno. Ejemplo: la disminución de valor de un producto por efectos de la oferta y la demanda.

Estimativos sobre el comportamiento futuro de un fenómeno. Ejemplo: la proyección de ventas de un artículo dependiendo del aumento de población.

1.5 RAMAS DE LA ESTADÍSTICA

La estadística dispone de dos tipos de usos diferentes: La Estadística descriptiva o deductiva y la Estadística inferencial o inductiva. La Estadística descriptiva o deductiva permite obtener conclusiones sobre un conjunto de datos, a partir de los mismos, sin sobrepasar el conjunto de conocimientos que éstos proporcionan. Sus métodos disponen las técnicas de recolectar, presentar, analizar e interpretar datos. La estadística inferencial es un proceso inductivo que permite inferir a toda la población, proposiciones basadas en las observaciones y resultados proporcionados por la muestra. Incluye un factor de incertidumbre que no evita el error pero lo cuantifica.

1.6 VARIABLES. Son características de las personas u objetos de una muestra o población que se observa. Las variables pueden ser cuantitativas o cualitativas. Si las observaciones se pueden expresar mediante números, se trata de una variable cuantitativa como por ejemplo el número de kilómetros que tienen que conducir cada noche quienes acuden en su coche a la universidad, la cantidad de usuarios por hora en un cajero automático o las calificaciones que los estudiantes obtienen en una evaluación determinada. Y si la variable se mide por medios no numéricos, se trata de una variable cualitativa como por ejemplo el estado civil de los solicitantes de préstamos en un banco, el lugar de procedencia de los estudiantes de la Universidad o la raza, el color de cabello y preferencia religiosa de una población. Además, las variables también pueden ser continuas o discretas. Una variable continua es aquella que puede tomar cualquier valor dentro de un determinado rango, cuando se realizan mediciones u observaciones. Por ejemplo, al realizar un estudio de la relación existente entre el peso y la estatura de los niños de preescolar, se puede encontrar cualquier valor dentro de un rango para las variables de estudio. Y una variable discreta es aquella que da lugar a valores

Page 9: Curso de estadística

ESTADÍSTICA ÁLVARO VALENCIA OROZCO

9

separados y no continuos dentro de un determinado rango, esto es, solo pueden tomar algunos valores del rango y generalmente son aquellas cuya observación depende de la enumeración o del conteo. Por ejemplo, el número de usuarios que visita diariamente una web, el número de estudiantes de la clase de estadística.

1.7 POBLACIÓN Y MUESTRAS

Cada investigación que recurre al uso de métodos Estadísticos inicialmente define si se puede o debe recurrir al conjunto de todos los datos o sólo a una parte de éste.

1.7.1 POBLACIÓN. Conjunto de todos los elementos, individuos u objetos que tienen una característica en común y además son objeto de un estudio. Una población o universo consiste en todos los posibles valores de una variable. Cuando se disponen todos los valores de una población es posible describirla sin ambigüedad. Estos valores no tienen que ser todos diferentes ni en número infinito. Son ejemplos: La edad de los niños Colombianos que cursan el quinto grado, El número de hijos por familia en el municipio de Candelaria. El número de vehículos que cruzan por un semáforo cada minuto.

1.7.2 MUESTRA Es una parte de una población que se utiliza frecuentemente para hacer inferencia acerca de la población. Por esta razón es particularmente importante definir la población que se estudia y obtener una muestra representativa de la población definida, lo que no es cosa trivial. Toda muestra representativa debe cumplir el principio de la aleatoriedad (cada elemento de la población tiene una oportunidad igual e independiente de ser elegido), consistente en un proceso que asegure que los sesgos individuales conocidos o desconocidos, no influyan en la selección de la muestra y tener cualquier tamaño, pero que cumpla con unos objetivos planeados en la estadística y con un margen de error tolerable y un nivel de confianza que la hagan aceptable para la población.

1.7.3 MUESTREO

Es el proceso de recoger una muestra. Existen diferentes métodos de muestreo:

Aleatorio: Cada elemento de la población tiene la misma oportunidad de ser elegido. No aleatorio: Cuando se hace de manera deliberada, dirigida o por cuotas No restringido: No hay condición que restrinja a los elementos de la población. Restringido: Existen condiciones que restringen a la población. Estratificado: La población se divide en grupos homogéneos. Estratificado igual: Si de cada estrato se saca igual cantidad de elementos para la

muestra. Estratificado proporcional: Si de cada estrato se saca en forma proporcional (por

conveniencia) para formar la muestra. Sistemático: Los elementos de la población están dispuestos ordenadamente por

listados o registros. Censo: La recolección de la información incluye la población.

1.8 LA MEDIDA EN LA ESTADÍSTICA

El material de trabajo en estadística son los datos. Las escalas de medida se asocian a las características de los datos, con la intención de manipularlos. Dada la necesidad de emplear mediciones numéricas, o una serie de números en el análisis de los datos, los investigadores han desarrollado mediciones para aplicarla a una gama muy amplia de fenómenos, incluyendo aspectos no cuantificables, tales como: prestigio ocupacional, actitudes, autoritarismo, alienación, inteligencia, prejuicio, dogmatismo, conformidad,

Page 10: Curso de estadística

ESTADÍSTICA ÁLVARO VALENCIA OROZCO

10

realización, etnocentrismo, religiosidad, armonía matrimonial, fertilidad, status socioeconómico. Dependiendo del nivel de medida empleada, los números tienen por lo menos tres funciones importantes para el investigador: Categorizan el nivel nominal de la medición. Determinan el rango de orden al nivel ordinal de la medición. Permiten obtener montajes al nivel cardinal (de intervalo, razón o proporción) de la medición.

1.8.1 ESCALAS NOMINALES Este nivel se utiliza para clasificar los objetos y numerar las clases. El valor numérico de una clase no cuantifica nada sobre ella, es decir que el número asignado a una clase sea mayor o menor que el de otra, no refleja nada sobre las propiedades del objeto, sino simplemente el hecho de que son distintas. De acuerdo con la zona en que viven, la población de un país puede dividirse en urbana, suburbana y rural; las cuales podrían llamarse clases 1,2 y 3. La escala nominal establece una relación de equivalencia y todos los eventos u objetos que pertenecen a una categoría tienen una característica igual. El número de eventos que pertenecen a una característica se llama frecuencia.

1.8.2 ESCALA ORDINAL

Cuando las propiedades de los objetos pueden ser ordenadas según algún criterio. Esta escala establece una relación de orden entre las variables. Los números por su propiedad de orden nos permite establecer relaciones tales como: mayor que; igual a; menor que; más importante; etc. El nivel ordinal da información acerca de la organización de las categorías, pero no indica la magnitud de la diferencia entre los números. El valor numérico se usa para indicar en orden relativo el lugar que ocupa el elemento. Por ejemplo, ordenar de la más importante a la menos importante, cada una de las necesidades de empleo, vivienda, salud, servicios públicos y educación utilizando 1 para la más importante y así sucesivamente en orden de importancia.

1.8.3 ESCALA CARDINAL Cuando las propiedades de los objetos son cuantificables y se pueden hacer operaciones aritméticas. Es la de mayor uso en el Método Científico. Ejemplo: medida de distancias, tiempo, dinero, masas, fuerza, etc. Cuando se desea entregar una información como resultado de un estudio realizado utilizando la escala cardinal, dicha información la podemos entregar en términos de intervalos, razones o proporciones

Intervalos: En contraste con el nivel ordinal, la medición por intervalos indica el orden de las categorías y la diferencia entre ellas. Emplean unidades de medición tales como días, metros, horas. Ejemplos son: El número de respuestas acertadas en las pruebas Icfes por cada uno de los aspirantes que se presentaron, El tiempo de duración de los bombillos de un fabricante, el tiempo requerido para enviar cada uno de los paquetes de datos de un conjunto.

Razón: Son también llamadas de cociente, ya que es el cociente entre dos cantidades

independientes es decir son partes de un todo. Ejemplo: En un grupo de 50 personas 40 son adultos y 10 son niños

La razón de niños es: 25.04

1

40

10 lo cual podemos interpretar como que en tal grupo

existen 0.25 niños por cada adulto, sin embargo en términos prácticos para algunos casos como este, es preferible entregar el resultado como enteros, es decir, existe un niño por cada 4 adultos.

Page 11: Curso de estadística

ESTADÍSTICA ÁLVARO VALENCIA OROZCO

11

La razón de adultos es: 410

40 lo que significa que existen 4 adultos por cada niño.

Proporción: En la proporción también se halla un cociente, pero las cantidades que se

relacionan no son independientes, es decir, calculamos el cociente entre una parte y el total

Ejemplo: Con respecto al grupo del anterior ejemplo deseamos saber la proporción de adultos, y la proporción de niños, luego:

La proporción de niños es: 20.050

10 lo cual podemos interpretar como que en tal grupo

existen 0.2 niños por cada persona, o que el 20% de las personas en dicho grupo son niños.

La proporción de adultos es: 80.050

40 lo que significa que existen 0.8 adultos por cada

persona, o que el 80% de las personas del grupo son adultos.

1.8.4 PARÁMETRO Se llamará parámetro a una característica medible de la población. Por ejemplo, el ingreso promedio de los estudiantes de la Universidad, el porcentaje de hombres en la Ciudad de Cali. Un parámetro es una constante para la población.

1.8.5 ESTADÍGRAFO O ESTADÍSTICO Se denominará estadígrafo a una característica medible en la muestra y que sirve para estimar el parámetro correspondiente de la población, por ejemplo la edad promedio de una muestra de estudiantes de una escuela, o el porcentaje de varones en la muestra.

1.9 REDONDEO DE DATOS Para realizar el redondeo de cantidades continuas con aproximaciones, tendremos en cuenta los siguientes criterios: Incrementar en una unidad el último dígito fijado, si el que sigue es mayor o igual que 5. No cambiar el último dígito fijado, si el que sigue es menor que 5. Ejemplo: Dados los siguientes números, redondear a 2 dígitos decimales (centésimas). a. 45,32854 45,33 b. 0,39425 0,39 c. 1,29632 1,30 d. 4,325 4,33 e. 8,435 8,44 EJERCICIOS: En los siguientes ejercicios encuentre las razones, las proporciones y porcentajes sugeridos 1. Supongamos que una empresa tiene clasificados sus empleados por año y por sexo

AÑO

SEXO

Total

Hombres Mujeres

1995 780 320 1100

2000 880 620 1500

Page 12: Curso de estadística

ESTADÍSTICA ÁLVARO VALENCIA OROZCO

12

Encuentre para cada uno de los años:

La razón de feminidad La razón de masculinidad La proporción de feminidad La proporción de masculinidad

2. Suponga que se dispone de cierta información por sexo, sobre personas portadoras de un

virus:

SEXO

VIRUS X

Total

Portadores No portadores

Hombres 3500 5´600.000

Mujeres 7200 9´200.000

Total Encuentre:

La razón de feminidad entre portadores La razón de masculinidad entre portadores La razón de feminidad entre no portadores La razón de masculinidad entre no portadores La proporción de feminidad entre portadores La proporción de masculinidad entre portadores La proporción de feminidad entre no portadores La proporción de masculinidad entre no portadores La proporción de portadores La proporción de no portadores

3. Las pérdidas en una fábrica de papel, (en miles de dólares), debidos a las rupturas de la

hoja se pueden dividir de acuerdo con el producto en:

Papel higiénico 132 Toallas 85 Servilletas 43 Pañuelos 50

Encuentre:

Qué porcentaje de las pérdidas se obtiene al hacer c/u de los productos? La razón de pérdidas al hacer papel higiénico con respeto a c/u de los otros productos La razón de pérdidas al hacer servilletas con respeto a los otros productos La proporción de pérdidas de cada uno de los productos.

4. Redondear cada uno de los siguientes números a la exactitud que se indica:

48,6 aproximar a las unidades. 136,5 aproximar a las unidades. 2,484 aproximar a las centésimas. 0,0435 aproximar a las milésimas. 143,95 aproximar a las décimas. 368 aproximar a las centenas. 24448 aproximar a las unidades de millar. 24581562 aproximar a las unidades de millón.

Page 13: Curso de estadística

ESTADÍSTICA ÁLVARO VALENCIA OROZCO

13

48,6 aproximar a las decenas. 2. Etapas del Método Estadístico El método estadístico, parte de la observación de un fenómeno, y como no puede siempre mantener las mismas condiciones predeterminadas o a voluntad del investigador, deja que actúen libremente, pero se registran las diferentes observaciones y se analizan sus variaciones. Para el planeamiento de una investigación, por norma general, se siguen las siguientes etapas: 2.1 Planteamiento del problema. 2.2 Fijación de los objetivos. 2.3 Formulación de la hipótesis. 2.4 Definición de la unidad de observación y de la unidad de medida. 2.5 Determinación de la población y de la muestra. 2.6 La recolección. 2.7 Crítica, clasificación y ordenación. 2.8 Tabulación. 2.9 Presentación. 2.10 Análisis. 2.11 Publicación. 2.1 PLANTEAMIENTO DEL PROBLEMA Al abordar una investigación se debe tener bien definido qué se va a investigar y por qué se pretende estudiar algo. Es decir, se debe establecer una delimitación clara, concreta e inteligible sobre el o los fenómenos que se pretenden estudiar, para lo cual se deben tener en cuenta, entre otras cosas, la revisión bibliográfica del tema, para ver su accesibilidad y consultar los resultados obtenidos por investigaciones similares, someter nuestras proposiciones básicas a un análisis lógico; es decir, se debe hacer una ubicación histórica y teórica del problema. 2.2 FIJACIÓN DE LOS OBJETIVOS Luego de tener claro lo que se pretende investigar, Debemos presupuestar hasta dónde queremos llegar; en otras palabras, debemos fijar cuáles son nuestras metas y objetivos. Estos deben plantearse de tal forma que no haya lugar a confusiones o ambigüedades y debe, además, establecerse diferenciación entre lo de corto, mediano y largo plazo, así como entre los objetivos generales y los específicos. 2.3 FORMULACIÓN DE LAS HIPÓTESIS Una hipótesis es ante todo, una explicación provisional de los hechos objeto de estudio, y su formulación depende del conocimiento que el investigador posea sobre la población investigada. Una hipótesis estadística debe ser susceptible de docimar, esto es, debe poderse probar para su aceptación o rechazo. Una hipótesis que se formula acerca de un parámetro (media, proporción, varianza, etc.), con el propósito de rechazarla, se llama Hipótesis de Nulidad y se representa por Ho; a su hipótesis contraria se le llama Hipótesis Alternativa (H1). 2.4 DEFINICIÓN DE LA UNIDAD DE OBSERVACIÓN Y DE LA UNIDAD DE MEDIDA La Unidad de Observación, entendida como cada uno de los elementos constituyentes de la población estudiada, debe definirse previamente, resaltando todas sus características; pues, al fin de cuentas, es a ellas a las que se les hará la medición. La unidad de observación puede estar constituida por uno o varios individuos u objetos y denominarse respectivamente simple o compleja.

Page 14: Curso de estadística

ESTADÍSTICA ÁLVARO VALENCIA OROZCO

14

El criterio sobre la unidad de medición debe ser previamente definido y unificado por todo el equipo de investigación. Si se trata de medidas de longitud, volumen, peso, etc., debe establecerse bajo qué unidad se tomarán las observaciones ya sea en metros, pulgadas, libras, kilogramos, etc. Asociado a la unidad de medida, deben establecerse los criterios sobre las condiciones en las cuales se ha de efectuar la toma de la información. 2.5 DETERMINACIÓN DE LA POBLACIÓN Y DE LA MUESTRA Estadísticamente, la población se define como un conjunto de individuos o de objetos que poseen una o varias características comunes. No se refiere esta definición únicamente a los seres vivientes; una población puede estar constituida por los habitantes de un país o por los peces de un estanque, así como por los establecimientos comerciales de un barrio o las unidades de vivienda de una ciudad. Existen desde el punto de vista de su manejabilidad poblaciones finitas e infinitas. Aquí el término infinito no está siendo tomado con el rigor semántico de la palabra; por ejemplo, los peces dentro de un estanque son un conjunto finito; sin embargo, en términos estadísticos, puede ser considerado como infinito. Muestra es un subconjunto de la población a la cual se le efectúa la medición con el fin de estudiar las propiedades del conjunto del cual es obtenida. En la práctica, estudiar todos y cada uno de los elementos que conforman la población no es aconsejable, ya sea por la poca disponibilidad de recursos, por la homogeneidad de sus elementos, porque a veces es necesario destruir lo que se está midiendo, por ser demasiado grande el número de sus componentes o no se pueden controlar; por eso se recurre al análisis de los elementos de una muestra con el fin de hacer inferencias respecto al total de la población. Existen diversos métodos para calcular el tamaño de la muestra y también para tomar los elementos que la conforman, pero no es el objetivo de este curso estudiarlos. Diremos solamente que la muestra debe ser representativa de la población y sus elementos escogidos al azar para asegurar la objetividad de la investigación. 2.6 LA RECOLECCIÓN Una de las etapas más importantes de la investigación es la recolección de la información, la cual ha de partir, a menos que se tenga experiencia con muestras análogas, de una o varias muestras piloto en las cuales se pondrán a prueba los cuestionarios y se obtendrá una aproximación de la variabilidad de la población, con el fin de calcular el tamaño exacto de la muestra que conduzca a una estimación de los parámetros con la precisión establecida. El establecimiento de las fuentes y cauces de información, así como la cantidad y complejidad de las preguntas, de acuerdo con los objetivos de la investigación son decisiones que se han de tomar teniendo en cuenta la disponibilidad de los recursos financieros, humanos y de tiempo y las limitaciones que se tengan en la zona geográfica, el grado de desarrollo, la ausencia de técnica, etc. Es, entonces, descubrir dónde está la información y cómo y a qué "costo" se puede conseguir; es determinar si la encuesta se debe aplicar por teléfono, por correo, o si se necesitan agentes directos que recojan la información; establecer su número óptimo y preparar su entrenamiento adecuado. 2.7 CRITICA, CLASIFICACIÓN Y ORDENACIÓN Después de haber reunido toda la información pertinente, se necesita la depuración de los datos recogidos. Para hacer la crítica de una información, es fundamental el conocimiento de la población por parte de quien depura para poder detectar falsedades en las respuestas, incomprensión a las preguntas, respuestas al margen, amén de todas las posibles causas de nulidad de una pregunta o nulidad de todo un cuestionario. Separado el material de "desecho" con la información depurada se procede a establecer las clasificaciones respectivas y con la ayuda de hojas de trabajo, en las que se establecen los cruces

Page 15: Curso de estadística

ESTADÍSTICA ÁLVARO VALENCIA OROZCO

15

necesarios entre las preguntas, se ordenan las respuestas y se preparan los modelos de tabulación de las diferentes variables que intervienen en la investigación. El avance tecnológico y la popularización de los computadores hacen que estas tareas, manualmente dispendiosas, puedan ser realizadas en corto tiempo. 2.8 LA TABULACIÓN Una tabla es un resumen de información respecto a una o más variables, que ofrece claridad al lector sobre lo que se pretende describir; para su fácil interpretación una tabla debe tener por lo menos: Un titulo adecuado el cual debe ser claro y conciso. La Tabla propiamente dicha con los correspondientes subtítulos internos y la cuantificación de los diferentes ítems de las variables, y las notas de pie de cuadro que hagan claridad sobre situaciones especiales de la tabla, u otorguen los créditos a la fuente de la información. 2.9 LA PRESENTACIÓN Una información estadística adquiere más claridad cuando se presenta en la forma adecuada. Los cuadros, tablas y gráficos facilitan el análisis, pero se debe tener cuidado con las variables que se van a presentar y la forma de hacerlo. No es aconsejable saturar un informe con tablas y gráficos redundantes que, antes que claridad, crean confusión. Además la elección de determinada tabla o gráfico para mostrar los resultados, debe hacerse no sólo en función de las variables que relaciona, sino del lector a quien va dirigido el informe. 2.10 EL ANÁLISIS La técnica estadística ofrece métodos y procedimientos objetivos que convierten las especulaciones de primera mano en aseveraciones cuya confiabilidad puede ser evaluada y ofrecer una premisa medible en la toma de una decisión. Es el análisis donde se cristaliza la investigación. Esta es la fase de la determinación de los parámetros y estadísticos muestrales para las estimaciones e inferencias respecto a la población, el ajuste de modelos y las pruebas de las hipótesis planteadas, con el fin de establecer y redactar las conclusiones definitivas. 2.11 PUBLICACIÓN Toda conclusión es digna de ser comunicada a un auditorio. Es más, hay otros estudiosos del mismo problema a quienes se les puede aportar información, conocimientos y otros puntos de vista acerca de él. 3. Distribución de Frecuencias Después de recoger toda la información correspondiente a la investigación, es decir, al agotar todo el trabajo de campo, nuestro escritorio se llena de un cúmulo de datos y cifras desordenadas los cuales, al ser tomados como observaciones individuales, dicen muy poco sobre la población estudiada; es, entonces, tarea del investigador “hacer hablar las cifras”, comenzando por la clasificación y ordenación, consignando la información en tablas inteligibles que denominamos distribuciones de frecuencias. 3.1 DISTRIBUCIÓN DE FRECUENCIAS SIMPLE Para una mayor sencillez, en la exposición del tema, nos valemos del siguiente ejemplo: Supongamos que en la fábrica de confecciones “La Hilacha”, ha estallado un conflicto laboral y sus cincuenta operarias solicitan un aumento en el salario integral diario sopena de paralizar la fábrica. El Gerente-propietario recoge la información respecto a la variable salario diario de sus 50 operarias y la relaciona en la tabla No 1.

Page 16: Curso de estadística

ESTADÍSTICA ÁLVARO VALENCIA OROZCO

16

Tabla No.1

SALARIO DIARIO DE 50 OPERARIAS EN LA FÁBRICA DE CONFECCIONES LA HILACHA (DATOS EN MILES DE PESOS POR DÍA)

OBRERA

SALARIO

OBRERA

SALARIO

OBRERA

SALARIO

OBRERA

SALARIO

OBRERA

SALARIO

1 52 11 54 21 55 31 56 41 52 2 54 12 51 22 55 32 53 42 57 3 55 13 54 23 52 33 57 43 56 4 54 14 55 24 55 34 54 44 51 5 53 15 54 25 53 35 53 45 58 6 56 16 56 26 57 36 50 46 55 7 54 17 52 27 54 37 55 47 53 8 58 18 54 28 55 38 52 48 54 9 51 19 53 29 53 39 53 49 53

10 54 20 55 30 55 40 54 50 56

Tabla No. 2

Tabla No. 3 SALARIO DIARIO DE 50 OPERARIAS EN LA FÁBRICA

DE CONFECCIONES LA HILACHA (DATOS EN MILES DE PESOS POR DÍA)

SALARIO SALARIO SALARIO SALARIO SALARIO 50 53 54 55 56 51 53 54 55 56 51 53 54 55 56 51 53 54 55 56 52 53 54 55 56 52 53 54 55 57 52 53 54 55 57 52 53 54 55 57 52 54 54 55 58 53 54 54 55 58

SALARIO DIARIO DE 50 OPERARIAS EN LA FÁBRICA DE CONFECCIONES LA HILACHA

(DATOS EN MILES DE PESOS POR DÍA) SALARIO SALARIO SALARIO SALARIO SALARIO

52 54 55 56 52 54 51 55 53 57 55 54 52 57 56 54 55 55 54 51 53 54 53 53 58 56 56 57 50 55 54 52 54 55 53 58 54 55 52 54 51 53 53 53 53 54 55 55 54 56

Page 17: Curso de estadística

ESTADÍSTICA ÁLVARO VALENCIA OROZCO

17

Tabla No. 4

SALARIO DIARIO DE 50 OPERARIAS EN LA FÁBRICA DE

CONFECCIONES LA HILACHA (DATOS EN MILES DE PESOS POR

DÍA) SALARIO CONTEO REPETICIÓN

50 I 1 51 III 3 52 IIIII 5 53 IIIIIIIII 9 54 IIIIIIIIIIII 12 55 IIIIIIIIII 10 56 IIIII 5 57 III 3 58 II 2

SUMA 50

Como se puede observar, hay una gran diferencia entre los datos brutos de la tabla No.1 y el ordenamiento y agrupamiento de la tabla No. 4. . .Con el fin de obtener una mejor tabla interpretativa, introduciremos la siguiente simbología: n: El tamaño de la muestra, es el número de observaciones. xi: La variable; es cada uno de los diferentes valores que se han observado. La variable xi, toma los x1, x2... xm valores. fi: La frecuencia absoluta o simplemente frecuencia, es el número de veces que se repite la variable xi; así f1, es el número de veces que se repite la observación x1, f2 el número de veces que se repite la observación x2, etc. fa: La frecuencia absoluta acumulada, se obtiene acumulando la frecuencia absoluta. fr: La frecuencia relativa; es el resultado de dividir cada una de las frecuencias absolutas por el tamaño de la muestra. fra: Frecuencia relativa acumulada; se obtiene dividiendo la frecuencia acumulada entre el tamaño de la muestra. .Veamos el ejemplo que venimos trabajando:

Tabla No. 5 DISTRIBUCIÓN DE FRECUENCIAS DEL SALARIO DIARIO DE 50 OPERARIAS EN LA FÁBRICA DE

CONFECCIONES LA HILACHA (DATOS EN MILES DE PESOS POR DÍA)

SALARIO Xi

FRECUENCIA ABSOLUTA

fi

FRECUENCIA ABSOLUTA

ACUMULADA fa

FRECUENCIA RELATIVA

fr

FRECUENCIA RELATIVA

ACUMULADA fra

50 1 1 1/50=0.02 1/50=0.02 51 3 4 3/50=0.06 4/50=0.08 52 5 9 5/50=0.10 9/50=0.18 53 9 18 9/50=0.18 18/50=0.36 54 12 30 12/50=0.24 30/50=0.60 55 10 40 10/50=0.20 40/50=0.80 56 5 45 5/50=0.10 45/50=0.90

Page 18: Curso de estadística

ESTADÍSTICA ÁLVARO VALENCIA OROZCO

18

57 3 48 3/50=0.06 48/50=0.96 58 2 50 2/50=0.04 50/50=1.00

SUMAS 50 1.00

En la práctica, cuando se tiene confianza en el ordenamiento, no son necesarias tantas tablas; se puede pasar de la tabla No 1 directamente a la tabla No 6.

Tabla No. 6 DISTRIBUCIÓN DE FRECUENCIAS DEL SALARIO DIARIO DE 50 OPERARIAS EN LA FÁBRICA DE

CONFECCIONES LA HILACHA (DATOS EN MILES DE PESOS POR DÍA)

SALARIO Xi

FRECUENCIA ABSOLUTA

fi

FRECUENCIA ABSOLUTA

ACUMULADA fa

FRECUENCIA RELATIVA

fr

FRECUENCIA RELATIVA

ACUMULADA fra

50 1 1 0.02 0.02 51 3 4 0.06 0.08 52 5 9 0.10 0.18 53 9 18 0.18 0.36 54 12 30 0.24 0.60 55 10 40 0.20 0.80 56 5 45 0.10 0.90 57 3 48 0.06 0.96 58 2 50 0.04 1.00

SUMAS 50 1.00 Analizando las columnas porcentuales fr y fra se obtienen, entre otras las siguientes conclusiones:

Sólo el 4% de las obreras gana el máximo salario/día de la fábrica, el cual corresponde a $58.000.00

El salario diario mínimo ($50.000.00) lo gana únicamente una obrera, lo que constituye el 2% del personal asalariado.

El 62% de las operarias tiene un salario diario entre $53.000.00 y $55.000.00 El 60% de las obreras tiene un salario/día de $54.000.00 o menos. El 64% tiene un ingreso diario de $54.000.00 o más.

CUESTIONARIO Y EJERCICIOS PROPUESTOS 1. ¿Qué es frecuencia absoluta? 2. Cómo se obtiene: 2.1 ¿La frecuencia acumulada? 2.2 ¿La frecuencia relativa? 2.3 ¿La frecuencia relativa acumulada 3. En una distribución de frecuencias ¿se pueden establecer conclusiones porcentuales, utilizando solamente la frecuencia relativa? ¿Por qué? 4. La siguiente tabla relaciona las ausencias al trabajo de 50 obreras, durante el mes de octubre, en la fábrica de confecciones "la hilacha".

1 0 2 1 3 1 4 3 2 5 3 2 4 2 0 3 1 2 0 2 1 1 0 1 0 0 1 2 1 3 4 0 2 3 2 0 0 2 5 2 2 4 2 1 3 1 2 1 0 2

Page 19: Curso de estadística

ESTADÍSTICA ÁLVARO VALENCIA OROZCO

19

4.1 Construir una distribución de frecuencias simple. 4.2 Sacar 3 conclusiones. 5. Años de experiencia de las 50 operarias de la fábrica de confecciones "la hilacha"

4 6 5 6 4 6 5 5 6 5 5 5 8 8 8 6 9 6 5 7 7 9 3 2 7 4 5 7 7 3 6 7 7 7 8 3 6 6 7 6 4 6 8 5 6 6 7 5 7 4

Ordenar la Información y responder: 5.1 ¿Qué porcentaje de las obreras tiene experiencia inferior o igual a 6 años? 5.2 ¿Qué porcentaje tiene experiencia entre 5 y 7 años (incluyendo los extremos)? 3.2 DISTRIBUCIÓN DE FRECUENCIAS POR INTERVALOS Usualmente los valores de los datos no permiten un agrupamiento de ellos en una tabla de frecuencias simple, debido a que se encuentran distribuidos a través de todo el recorrido y el número de veces que se repite cada observación no es significativo en todos los casos, y en la mayoría de ellos su frecuencia es baja. Una tabla de frecuencias construida en estas condiciones, no presenta ninguna utilidad. Ilustraremos el caso a través de un ejemplo, para ello, supongamos que la fábrica de baldosas ”De las casas”, con el objeto de ofrecer una garantía de su producto, desea hacer un estudio técnico de su producción, para lo cual extrae una muestra de 100 baldosas, cada una de las cuales se somete a una prueba de resistencia, destructiva cuyos datos expresados en Kg/cm2, se relacionan a continuación:

Tabla No 7

REISTENCIA EN KG/CM² DE 100 BALDOSAS DE LA FÁBRICA “DE LAS CASAS”

478 391 655 621 498 469 223 183 323 321 339 487 436 223 720 369 449 345 360 472 666 540 422 418 122 736 477 479 383 575 313 458 569 487 253 310 392 321 282 559 415 694 610 634 433 648 448 463 161 259 210 239 504 282 351 521 537 517 452 578 419 644 683 460 135 763 533 591 367 337 425 291 478 470 450 444 368 592 359 444 425 480 398 542 439 361 746 586 555 251 420 459 495 780 308 370 437 531 549 527

La clasificación en una distribución de frecuencias simple daría como resultante un ordenamiento de por lo menos 80 items; la mayoría de ellos con frecuencia unitaria. Se hace necesario el agrupamiento en intervalos o clases que haga más compacta, manejable y presentable la información. El número de clases y la amplitud de los intervalos los fija el investigador de acuerdo con el conocimiento que posea de la población, la necesidad de hacer comparación con otras investigaciones y la presentación de la información. Sin embargo, se recomienda que la información no sea demasiado compacta, lo cual le restaría precisión, ni demasiado dispersa, ya que no se tendría claridad.

Page 20: Curso de estadística

ESTADÍSTICA ÁLVARO VALENCIA OROZCO

20

En términos generales, es usual que el número de intervalos no sea inferior a 5 ni superior a 15. Sturges propone que el número de clases o intervalos sea determinado por la expresión m = 1 + 3.3 log(n).* La amplitud debe ser igual para todos los intervalos y, en lo posible, no se debe trabajar con clases abiertas. 3.3 REGLAS EMPÍRICAS PARA LA CONSTRUCCIÓN DE INTERVALOS Cuando no se tiene experiencia en el manejo de la información es aconsejable seguir los pasos que se dan a continuación: 3.3.1 Determinar los datos de mayor y menor valor Xmax, Xmin.

3.3.2 Calcular el rango o recorrido (R). R = Xmáx – Xmín

3.3.3 Determinar el número de intervalos (m) y la amplitud de clase (A): m = 1 + 3.3 log(n), debe

tenerse presente que m es un número natural. Luego se busca la amplitud A: m

RA

3.3.4 Calcular el rango ampliado: AmRa .

3.3.5 Establecer la diferencia RRa a , es decir la cantidad en que ha sido alterado el recorrido, la

cual no debe ser superior a la amplitud. (“ a ”) También puede ser definida como la cantidad positiva más pequeña que le hace falta al rango o recorrido para ser divisible exactamente por la amplitud. 3.3.6 Distribuir adecuadamente la cantidad “ a ” de la siguiente manera:

Al valor Xmin se le resta aproximadamente (es un poco más) 2

a y la parte restante se le suma a Xmax,

obteniendo el límite inferior del primer intervalo y el límite superior del último, respectivamente.

LIPIa

Xmín2 (Límite inferior del primer intervalo)

LSUIa

Xmáx2 (Límite superior del último intervalo)

3.3.7 Construir los intervalos, calcular los puntos medios o marcas de clase y hacer el agrupamiento de frecuencias. Con el fin de prever dobles conteos, quien clasifica deberá especificar si los intervalos son abiertos a la derecha o abiertos a la izquierda, en estas notas, trabajaremos con intervalos abiertos a la

derecha; es decir, del tipo bXa , donde el límite superior no está incluido dentro de la clase. Retomemos el ejercicio de la Tabla No. 7 y construyamos una distribución de frecuencia por intervalos.

1. Valores máximo y mínimo: 780Xmáx y 122Xmín 2. Rango: 658122780R 3. Número de intervalos:

6.72*3.31100log3.31log3.31 nm No es lógico tener 7.6 intervalos, por lo tanto se procede a aproximar el número de intervalos a un

número natural cercano, luego m=7, y busquemos la amplitud m

RA

, 94

7

658A

Page 21: Curso de estadística

ESTADÍSTICA ÁLVARO VALENCIA OROZCO

21

Ya determinado el número de clases en m=7 encontramos que la amplitud debe ser mayor que 94. Fijémosla, entonces, en A = 100, que hace más manejable y presentable la tabla con la información.

4. Rango ampliado: 700100*7aR

Hemos alterado el rango original 658R , cambiándolo por el rango ampliado 700aR . La

diferencia está representada por RRa a o sea 42658700a 5. Tenemos por tanto, que distribuir adecuadamente la diferencia entre los rangos

LIPIa

Xmín2

; LIPI10022122

LSUIa

Xmáx2

; LSUI80020780

Como se dijo antes, no estamos hablando de restar o sumar estrictamente sino una cantidad aproximada que brinde una buena presentación. Construcción de los intervalos.

Tabla No. 8 CONSTRUCCIÓN DE LOS INTERVALOS PARA LA RESISTENCIA DE LAS BALDOSAS

Intervalos Marcas de clase Xi

100 – 200 150 200 – 300 250 300 – 400 350 400 – 500 450 500 – 600 550 600 – 700 650 700 - 800 750

Se puede desde luego, proceder a agrupar la información en los respectivos intervalos, haciendo la salvedad de que ninguno de los límites superiores de clase son considerados dentro de los intervalos.

Tabla No 9 DISTRIBUCIÓN DE FRECUENCIAS POR INTERVALOS DE LA RESISTENCIA DE 100 BALDOSAS DE LA

FÁBRICA “DE LAS CASAS” KG/CM² Xi fi fa fr fra

100 – 200 150 4 4 0.04 0.04 200 – 300 250 10 14 0.10 0.14 300 – 400 350 21 35 0.21 0.35 400 – 500 450 33 68 0.33 0.68 500 – 600 550 18 86 0.18 0.86 600 – 700 650 9 95 0.09 0.95 700 - 800 750 5 100 0.05 1.00

SUMAS 100 1.00

Conclusiones: El 72% de las baldosas tiene una resistencia entre 300 y 600 Kg/cm² El 86% de las baldosas resiste menos de 600Kg/cm². Sólo el 5% resiste 700 o más Kg/cm².

CUESTIONARIO Y EJERCICIOS PROPUESTOS 1. ¿Por qué se recurre al agrupamiento en distribuciones de frecuencias por intervalos? 2. ¿Cómo se determina el número de intervalos y la amplitud de ellos?

Page 22: Curso de estadística

ESTADÍSTICA ÁLVARO VALENCIA OROZCO

22

3. ¿Qué es una marca de clase? 4. La siguiente tabla presenta el consumo de agua, en m³, de 184 familias en un barrio residencial de una ciudad durante el mes de octubre

4 8 8 13 15 20 10 19 9 18 17 16 16 29 17 23 3 17 25 10 18 29 6 23 11 23 10 21 21 6 22 18 13

23 12 23 17 22 18 27 27 17 13 13 10 31 11 26 22 5 5 18 16 13 30 23 2 26 17 15 21 14 29 18 20 9 10 21 9 30 13 18 34 17 4 29 16 12 23 8 26 8 28 8 16 29 18 2 17 13 21 13 16 26 18 9 18 13 12 21 27 21 9 26 24 8 10 16 33 21 14 16 19 17 17 24 5 20 14 16 12 12 5 13 17 7 12 14 1 16 25 20 14 20 14 6 9 13 22 10 6 21 20 5 20 28 17 21 4 33 12 25 9 17

14 20 10 25 12 32 15 25 16 22 13 15 25 2 9 24 25 12 15 22 17 7 24 15 24 11 22 10 21 14

Construir una distribución de frecuencias por intervalos. 4.1 Asumiendo el número de intervalos m = 8 4.2 Asumiendo el número de intervalos m = 9 4.3 Comparar las dos distribuciones y las conclusiones que de ellas se deriven. 4. REPRESENTACIÓN GRÁFICA A pesar de la gran ayuda que prestan las tablas y cuadros con información organizada, no todos los públicos alcanzan a comprenderla o no disponen del tiempo suficiente para analizarla. Es por ello que la mayoría de los investigadores acostumbran a reforzar la descripción a través de dibujos, generalmente con formas geométricas, que ayudan a visualizar el comportamiento de las variables tratadas. 4.1 DEFINICIÓN Una gráfica o diagrama es un dibujo complementario a una tabla o cuadro, que permite observar las tendencias de un fenómeno en estudio y facilita el análisis estadístico de las variables allí relacionadas. 4.2 COMPONENTES DE UNA GRÁFICA Una gráfica, al igual que un cuadro o una tabla, debe constar de: 4.2.1 Título adecuado: El cual debe ser claro y conciso, que responda a las preguntas: Qué relaciona, cuándo y dónde se hicieron las observaciones. 4.2.2 El cuerpo: o gráfico en sí, cuya elección debe considerar el o los tipos variables a relacionar, el público a quien va dirigido y el diseño artístico del gráfico. 4.2.3 Notas de pie de gráfico: Donde se presentan aclaraciones respecto al gráfico, las escalas de los ejes, o se otorgan los créditos a las fuentes respectivas. Es de anotar que por medio de gráficos tendenciosos se pueden deformar o resaltar situaciones o estados, que presentados en un gráfico apropiado, mostrarían un comportamiento normal.

Page 23: Curso de estadística

ESTADÍSTICA ÁLVARO VALENCIA OROZCO

23

4.3 PRINCIPALES TIPOS DE GRÁFICOS Existe una gran cantidad de gráficos para la representación de datos estadísticos, ya que de ellos depende el diseño artístico de quien los elabora, así como de su imaginación al combinar varios tipos de ellos, como forma de presentar una información. Entre los gráficos más comunes tenemos: 4.3.1 Gráfico de Líneas: Usado básicamente para mostrar el comportamiento de una variable cuantitativa a través del tiempo. El gráfico de líneas consiste en segmentos rectilíneos unidos entre sí, los cuales resaltan las variaciones de la variable por unidad de tiempo. Para su construcción ha de procederse de la siguiente manera: en el eje de las ordenadas se marcan los puntos de acuerdo con la escala que se esté utilizando. En el caso de una escala aritmética, distancias iguales en el eje, representan distancias iguales en la variable.

Variación de La Inflación en Colombia

1995-2000 1995 1996 1997 1998 1999 2000 19.46 21.63 17.68 16.7 9.23 7.81

Gráfico No. 1 Variación de La Inflación en Colombia

1995-2000

El eje de la variable X se divide en unidades de tiempo iguales, teniendo presente el número de ítems que ha de presentarse, así como la longitud del eje. Es de anotar la conveniencia de mostrar la interrupción y acercamiento del eje a su origen cuando esto haya ocurrido. 4.3.2 Gráfico de Líneas Compuesto: Cuando se tienen varias variables a representar, con el fin de establecer comparaciones entre ellas (siempre que su unidad de medida sea la misma); se utiliza plasmarlos en un sólo gráfico, el cual es el resultado de representar varias variables en un mismo plano.

Variación de la Inflación y el Salario de la Hilacha 1995-2000

0

5

10

15

20

25

1994 1995 1996 1997 1998 1999 2000 2001

PO

RC

ENTA

JES

AÑOS

Page 24: Curso de estadística

ESTADÍSTICA ÁLVARO VALENCIA OROZCO

24

1995 1996 1997 1998 1999 2000 19.46 21.63 17.68 16.7 9.23 7.81 15.00 20.00 15.00 15.00 7.00 5.00

Gráfico No. 2

Variación de la Inflación y el Salario de la Hilacha 1995-2000

4.3.3 Gráfico de Barras: El gráfico de barras, como su nombre lo indica, está constituido por barras rectangulares de igual ancho, conservando la misma distancia de separación entre sí. Se utiliza básicamente para mostrar y comparar frecuencias de variables cualitativas o comportamientos en el tiempo, cuando el número de ítems es reducido.

" GRÁFICO No 3

Años de experiencia de 50 Obreras en "La Hilacha"

0

5

10

15

20

25

1994 1995 1996 1997 1998 1999 2000 2001

PO

RC

ENTA

JES

AÑOS

INFLACIÓN

SALARIO

0

2

4

6

8

10

12

14

1 2 3 4 5 6 7 8 9

OB

RER

AS

AÑOS DE EXPERIENCIA

Page 25: Curso de estadística

ESTADÍSTICA ÁLVARO VALENCIA OROZCO

25

Éstos gráficos suelen ser de barras verticales, aunque se pueden utilizar de forma horizontal. 4.3.4 Gráfico de Barras Compuesto

Variación de la Inflación y el Salario de la Hilacha 1995-2000

1995 1996 1997 1998 1999 2000 19.46 21.63 17.68 16.7 9.23 7.81 15.00 20.00 15.00 15.00 7.00 5.00

Gráfico No 4

Variación de la Inflación y el Salario de la Hilacha 1995-2000

4.3.5 Gráfico de Sectores Circulares Usualmente llamado gráfico de pastel, debido a su forma característica de una circunferencia dividida en cascos, por medio de radios que dan la sensación de un pastel tajado en porciones. Se usa para representar variables cualitativas en porcentajes o cifras absolutas cuando el número de ítems no es superior a 5 y se quiere resaltar uno de ellos. Para su construcción se procede de la siguiente forma: La circunferencia tiene en su interior 360 grados, los cuales hacemos corresponder al total de la información, es decir al 100%; luego, para determinar el número de grados correspondiente a cada componente se multiplica el porcentaje respectivo por 360 y se divide por 100, los cuales se miden con la ayuda de un transportador para formar los casquetes de los diferentes ítems.

0

5

10

15

20

25

1995 1996 1997 1998 1999 2000

PO

RC

ENTA

JE

AÑOS

INFLACIÓN

SALARIO

Page 26: Curso de estadística

ESTADÍSTICA ÁLVARO VALENCIA OROZCO

26

Gráfico No 5 SALARIO DIARIO DE 50 OPERARIAS EN LA FÁBRICA DE CONFECCIONES LA HILACHA

4.3.6 Histograma de Frecuencias: Para la construcción de un histograma de frecuencias de fácil interpretación y que no falsee la información, debe disponerse de una distribución de frecuencias por intervalos con amplitud igual para cada clase o intervalo. En el eje de las abscisas procedemos a representar los intervalos de la variable, y en el eje de las ordenadas las frecuencias de cada clase. El histograma se construye dibujando barras contiguas que tienen como base la amplitud de cada intervalo y como alturas las frecuencias respectivas.

GRÁFICO No 6. Histograma de Frecuencias de la Resistencia de 100 baldosas

50

51

52

53

5455

56

57

58

Page 27: Curso de estadística

ESTADÍSTICA ÁLVARO VALENCIA OROZCO

27

4.3.7 Polígono de Frecuencias

GRÁFICO No 7. Polígono de Frecuencias de la resistencia de 100 baldosas

Para la construcción de un polígono de frecuencias, se marcan los puntos medios de cada uno los intervalos en la parte superior de cada barra del histograma de frecuencias, los cuales se unen con segmentos de recta. 4.3.8 Histograma de Frecuencias Acumuladas. El histograma de frecuencias acumuladas también es obtenido a partir de una distribución de frecuencias, tomando en el eje horizontal las clases de la variable, y en el eje vertical las frecuencias acumuladas correspondientes a cada intervalo.

GRÁFICO No 8. Histograma de Frecuencias acumuladas de la Resistencia de 100 baldosas

0

5

10

15

20

25

30

35

150 250 350 450 550 650 750

FREC

UEN

CIA

RESISTENCIA KG/CM²

0

5

10

15

20

25

30

35

50 150 250 350 450 550 650 750 850

FREC

UEN

CIA

RESISTENCIA KG/CM²

Page 28: Curso de estadística

ESTADÍSTICA ÁLVARO VALENCIA OROZCO

28

GRÁFICO No 9. Frecuencias acumuladas de la Resistencia de 100 baldosas

Ojiva Creciente

GRÁFICO No 10. Histograma de Frecuencias acumuladas de la Resistencia de 100 baldosas

Ojiva Decreciente

0

20

40

60

80

100

120

150 250 350 450 550 650 750

FREC

UEN

CIA

RESISTENCIA KG/CM²

0

20

40

60

80

100

120

100 200 300 400 500 600 700 800

FREC

UEN

CIA

RESISTENCIA KG/CM²

Page 29: Curso de estadística

ESTADÍSTICA ÁLVARO VALENCIA OROZCO

29

CUESTIONARIO Y EJERCICIOS PROPUESTOS 1. ¿Cuál es el objetivo de un gráfico? 2. Describa los componentes de una gráfica. 3. ¿Cuáles son las principales causas de distorsión de la información de un gráfico? 5. Para el ejercicios 4 del capítulo 3, construir: 5.1 Un histograma de frecuencias 5.2 Un polígono de frecuencias. 5.3 Un histograma de frecuencias acumuladas 5.4 Un polígono de frecuencias acumuladas 5. MEDIDAS DE TENDENCIA CENTRAL En los capítulos anteriores, nos referimos a la clasificación, ordenación y presentación de datos estadísticos, limitando el análisis de la información a la interpretación porcentual de las distribuciones de frecuencia. El análisis estadístico propiamente dicho, parte de la búsqueda de parámetros sobre los cuales pueda recaer la representación de toda la información. Las medidas de tendencia central, llamadas así porque tienden a localizarse en el centro de la información, son de gran importancia en el manejo de las técnicas estadísticas, sin embargo, su interpretación no debe hacerse aisladamente de las medidas de dispersión, ya que la representatividad de ellas está asociada con el grado de concentración de la información. Las principales medidas de tendencia central son: 5.1 Media aritmética. 5.2 Mediana 5.3 Moda. 5.1 MEDIA ARITMÉTICA Cotidiana e inconscientemente estamos utilizando la media aritmética. Cuando por ejemplo, decimos que un determinado fumador consume una cajetilla de cigarrillos diaria, no aseguramos que diariamente deba consumir exactamente los 20 cigarrillos que contiene un paquete sino que es el resultado de la observación, es decir, dicho sujeto puede consumir 18, un día; 19 otro; 20, 21, 22; pero según nuestro criterio, el número de unidades estará alrededor de 20.

0

20

40

60

80

100

120

100 200 300 400 500 600 700 800

FREC

UEN

CIA

RESISTENCIA KG/CM²

Page 30: Curso de estadística

ESTADÍSTICA ÁLVARO VALENCIA OROZCO

30

Matemáticamente, la media aritmética se define como la suma de los valores observados dividida entre el número de observaciones.

n

x

n

xxxxX

n

i

n 1321 ...

X : Media aritmética de la variable X

ix : Valores de la variable X

n : Número de observaciones

: Signo de sumatoria, indica que se debe sumar

Ejemplo: Cantidad de cigarrillos consumidos por un fumador en una semana. Lunes: 18 Martes: 21 Miércoles: 22 Jueves: 21 Viernes: 20 Sábado: 19 Domingo: 19 Entonces la media aritmética es:

207

140

7

19192021222118

... 1321

X

n

x

n

xxxxX

n

i

n

El fumador consume en promedio 20 cigarrillos diarios. Cuando la variable está agrupada en una distribución de frecuencias, la media aritmética se calcula por la fórmula:

n

fx

n

fxfxfxfxX

m

ii

mm 1332211 ...

Ejemplo 1: Cantidad de Cigarrillos Consumidos

por un Fumador en una Semana Dada

CANTIDAD Xi

FRECUENCIA Fi

18 1 19 2 20 1 21 2 22 1

207

140

7

2242203818

7

)1(22)2(21)1(20)2(19)1(18X

Page 31: Curso de estadística

ESTADÍSTICA ÁLVARO VALENCIA OROZCO

31

Ejemplo 2: Calculo de La Media Aritmética. El Salario/día de 50 Operarias

SALARIO

Xi

FRECUENCIA ABSOLUTA

fi

Xifi

50 1 50 51 3 153 52 5 260 53 9 477 54 12 648 55 10 550 56 5 280 57 3 171 58 2 116

SUMAS 50 2705

1.5450

2705

50

9

1

ii fx

X

Es decir que, el salario promedio diario de las operarias en la fábrica de confecciones “La hilacha” es de $54100 pesos/día. Si la información está relacionada en una distribución de frecuencias por intervalos, se toman como valores de la variable las marcas de clase de los intervalos, entiéndase por marca de clase el punto medio entre los límites de cada clase o intervalo. Ejemplo 3:

Cálculo de La Media Aritmética de la Resistencia de 100 Baldosas

KG/CM² Xi fi Xifi

100 – 200 150 4 600 200 – 300 250 10 2500 300 – 400 350 21 7350 400 – 500 450 33 14850 500 – 600 550 18 9900 600 – 700 650 9 5850 700 - 800 750 5 3750

SUMAS 100 44800

448100

44800

100

7

1

ii fx

X

La resistencia promedio de las 100 baldosas es de 448 Kg/Cm². 5.1.1 Propiedades de la Media Aritmética 5.1.1.1 La suma de las diferencias de los datos con respecto a la media aritmética es igual cero. 5.1.1.2 La suma de las diferencias cuadráticas de los datos, con respecto a la Media Aritmética, es mínima.

Page 32: Curso de estadística

ESTADÍSTICA ÁLVARO VALENCIA OROZCO

32

Quiere decir esta propiedad que cualquier otro parámetro p, diferente a la media aritmética hace mayor la expresión 5.1.1.3 Si a cada uno de los resultados le sumamos o le restamos una constante C , la Media Aritmética queda alterada en esa constante. 5.1.1.4 Si cada uno de los datos se multiplica por una constante k, entonces la media aritmética queda multiplicada por esa constante. 5.1.2 Media Aritmética Ponderada Hemos visto que la Media Aritmética se calcula con base a la magnitud de los datos, otorgándole igual importancia a cada uno de ellos. Sin embargo en muchas ocasiones la magnitud del dato esta ponderada con un determinado peso que lo afecta relativamente. La Media Aritmética ponderada tiene en cuenta la importancia relativa de cada uno de los datos, para lo cual la definimos con la siguiente expresión:

n

i

n

ii

W

w

wx

X

1

1

Donde

wX : Media aritmética ponderada

iX : Valor de la variable X

iw : Ponderación del ítem xi

Ejemplo 1: Las calificaciones de un estudiante están conformadas por los siguientes factores: Un examen cuyo valor es 40% en el cual obtuvo una nota de 4.5, un trabajo de consulta con ponderación del 10% y calificación de 1.0, una exposición equivalente al 15% con nota de 2.0, y por último una investigación con valor del 35% calificada con 3.5. Entonces la nota definitiva es:

425,31

225.13.01.08.1

35.015.010.040.0

)35.0(5.3)15.0(0.2)10.0(0.1)40.0(5.4

1

1

n

i

n

ii

W

w

wx

X

. . . . . . 5.2 LA MEDIANA Otra medida de tendencia central, utilizada principalmente en estadística no paramétrica, es la mediana, la cual no se basa en la magnitud de los datos, como la media aritmética, sino en la posición central que ocupa en el orden de su magnitud, dividiendo la información en dos partes iguales, dejando igual número de datos por encima y por debajo de ella. 5.2.1 La Mediana Cuando los datos no están Agrupados en Intervalos. Partiendo de la información bruta, ordenamos los datos ascendente o descendentemente:

ni xxxxx ,.....,,.....,,, 321 se define

Mediana =

2

1nxMe , si n es impar ó

Page 33: Curso de estadística

ESTADÍSTICA ÁLVARO VALENCIA OROZCO

33

Mediana =2

122

nnxx

Me , si n es par

En el ejercicio de los cigarrillos, consumidos por un fumador tenemos lunes 18, martes 21, miércoles 22, jueves 21, viernes 20, sábado 19, y domingo 19. Ordenando ascendentemente: x1=18, x2=19, x3=19, x4=20, x5=21, x6=21, x7=22

Como n, es impar, entonces 204

2

17

2

1xxxMe

n

Veamos cuando n es par: .Consumo mensual de agua, en m3, por la fábrica de confecciones “la hilacha”. Enero= 10,. Febrero= 12, Marzo= 15, Abril= 18, Mayo= 14, .Junio= 19, Julio= 17, Agosto= 18, Septiembre= 18, , Octubre= 22, , Noviembre= 15, , Diciembre= 13 x1=10, x2=12, x3=13, x4=14, x5=15, x6=15, x7=17, x8=18, x9=18, x10=18, x11=19, x12=22

Mediana = 162

1715

222

761

2

12

2

121

22 xxxxxx

Me

nn

Como se puede observar, en este caso la mediana no es un dato perteneciente a la información, es un parámetro que divide la información dejando el 50% por encima y el 50% por debajo de ella. 5.2.2 La Mediana Cuando la Información se Encuentra Agrupada en Intervalos Si la información esta agrupada en intervalos iguales, entonces la mediana se calcula según la siguiente expresión:

Af

fan

LIMei

i 12

Me: Mediana LI: Límite inferior del intervalo donde se encuentra la mediana (intervalo mediano), el cual se determina observando en que clase se encuentra la posición n/2.) n: Número de observaciones

1ifa : Frecuencia acumulada anterior al intervalo mediano

if : Frecuencia del intervalo mediano

A: Amplitud del intervalo Ejemplo 1:

Resistencia de 100 Baldosas de la Fábrica “De Las Casas”

KG/CM² Xi fi fa 100 – 200 150 4 4 200 – 300 250 10 14 300 – 400 350 21 35 400 – 500 450 33 68 Intervalo mediano 500 – 600 550 18 86 600 – 700 650 9 95 700 - 800 750 5 100

SUMAS 100

En la columna de frecuencia acumulada advertimos que la observación número 50 se halla en el cuarto (4) intervalo.

Page 34: Curso de estadística

ESTADÍSTICA ÁLVARO VALENCIA OROZCO

34

45.44545.45400100.33

15400100.

33

352

100

40021

Af

fan

LIMei

i

Se concluye que el 50% de las baldosas resiste menos de 445.45 Kg/Cm² y el 50% resiste más de 445.45 Kg/Cm². . . . . . . 5.3 LA MODA La moda, como su nombre lo indica, es el valor más común (de mayor frecuencia) dentro de una distribución. Una información puede tener una moda y se llama unimodal, dos modas y se llama bimodal, o varias modas y llamarse multimodal. Sin embargo puede ocurrir que la información no posea moda. 5.3.1 La Moda Cuando los datos no están Agrupados en Intervalos

Salario de 50 Operarias de la Fabrica de Confecciones "La Hilacha"

SALARIO Xi

FRECUENCIA ABSOLUTA

fi

50 1 51 3 52 5 53 9 54 12 55 10 56 5 57 3 58 2

SUMAS 50

El valor que más veces se repite es 54 con una frecuencia de 12, entonces decimos que la moda es Mo = 54.000.00 pesos diarios. .

Cantidad de Cigarrillos Consumidos por un Fumador en una Semana Dada

CANTIDAD Xi

FRECUENCIA Fi

18 1 19 2 20 1 21 2 22 1

Los valores de mayor frecuencia corresponden a 19 y 21, por lo tanto se trata de una distribución bimodal con Mo1=19 y Mo2=21 5.3.2 Cálculo de la Moda Cuando la Información está Agrupada en Intervalos Cuando la información se encuentra agrupada en intervalos de igual tamaño la moda se calcula con la siguiente expresión.

Afff

ffLIM

mmm

mm

o

11

1

2, donde:

Mo: Moda

Page 35: Curso de estadística

ESTADÍSTICA ÁLVARO VALENCIA OROZCO

35

LI: Límite inferior del intervalo modal fm: Frecuencia de la clase modal f(m-1) : Frecuencia de la clase premodal f(m+1) : Frecuencia de la clase posmodal A : Amplitud de los intervalos Ejemplo:

Resistencia de 100 Baldosas de la Fábrica “De Las Casas”

KG/CM² Xi fi 100 – 200 150 4 200 – 300 250 10 300 – 400 350 21 Clase premodal 400 – 500 450 33 Clase modal 500 – 600 550 18 Clase posmodal 600 – 700 650 9 700 - 800 750 5

SUMAS 100

44,44427

12400100*

1821)33(2

2133400

2 11

1A

fff

ffLIM

mmm

mm

o Kg/cm²

A pesar que el valor 444.44 no es un dato real de la información asumimos ese parámetro como el de mayor ocurrencia. CUESTIONARIO Y EJERCICIOS PROPUESTOS 1. ¿Qué es una medida de tendencia central? 2. ¿Cuáles son las principales medidas de tendencia central? 3. Defina: media aritmética mediana y moda. 4. ¿Cuándo se utiliza la media aritmética ponderada? 5. Enuncie las propiedades de la media aritmética 6. Para cada información de los ejercicios del capítulo 3, calcular e interpretar la media aritmética, la mediana y la moda. 7. La tripulación de un avión, en su itinerario compra los siguientes galones de gasolina: Ciudad X 200 galones a 4000 pesos el galón, Ciudad Y 250 galones a 3500 pesos el galón, Ciudad Z 300 galones a 3000 pesos el galón. ¿Cuál es el costo promedio de la gasolina comprada? 6. MEDIDAS DE POSICIÓN (PERCENTILES) En el Capitulo anterior, vimos lo referente a las medidas de tendencia central, las cuales, a su vez, son también medidas de posición ya que, de todas maneras ocupan un lugar dentro de la información. Nos ocuparemos ahora de ciertos parámetros posicionales muy útiles en la interpretación porcentual de la información. 6.1 CUARTILES Las cuartillas o cuartiles son valores posicionales que dividen la información en cuatro partes iguales, el primer cuartil deja el 25% de la información por debajo de él, y el 75% por encima, el segundo cuartil, al igual que la mediana, divide la información en dos partes iguales, y por último el tercer cuartil deja el 75% por debajo de sí, y el 25% por encima.

Page 36: Curso de estadística

ESTADÍSTICA ÁLVARO VALENCIA OROZCO

36

Se necesita, entonces calcular tres cuartillas ya que la cuarta queda automáticamente determinada.

3,2,141

kAf

fakn

LIQi

i

k , donde:

k : Oden del cuartil k = 1,2,3 LI:.Límite inferior del intervalo que contiene el cuartil fa(i-1): Frecuencia acumulada hasta el intervalo anterior al que contiene el cuartil fi : Frecuencia del intervalo que contiene el cuartil n : Número de observaciones A : Amplitud de los intervalos Ejemplo:

Resistencia de 100 Baldosas de la Fábrica “De Las Casas”

KG/CM² Xi fi fa 100 – 200 150 4 4 200 – 300 250 10 14 300 – 400 350 21 35 Contiene a Q1

400 – 500 450 33 68 Contiene a Q2

500 – 600 550 18 86 Contiene a Q3

600 – 700 650 9 95 700 - 800 750 5 100

SUMAS 100

Primer cuartil: 254

)100(1

41

knk , posición que debe ser ubicada en la frecuencia

acumulada, para determinar que clase contiene este cuartil.

38,352100*21

144

)100(1

30041

1

QAf

fakn

LIQi

i

k Kg/Cm²

El 25% de las baldosas resiste menos de 352.38 Kg/Cm² y el 75% tiene una resistencia superior. Como el segundo cuartil es lo mismo que la mediana: Me=Q2=445.45Kg/Cm² Calculemos la tercera cuartilla k=3 .

. 88,538100*

18

684

)100(3

50041

1

QAf

fakn

LIQi

i

k Kg/Cm²

El 75% de las baldosas tiene una resistencia inferior a 538.88 Kg/Cm² y el 25% una resistencia superior. 6.2 QUINTILES Los quintiles o quintillas dividen la información en cinco partes iguales, agrupándolas en porcentajes de 20, 40, 60, y 80 por ciento, en consecuencia debemos calcular cuatro parámetros:

4,3,2,151

kAf

fakn

LIQi

i

k

Calculemos por ejemplo la segunda quintilla para el ejercicio que traemos:

Page 37: Curso de estadística

ESTADÍSTICA ÁLVARO VALENCIA OROZCO

37

k=2, 15,415100*33

355

)100(2

40051

1

QAf

fakn

LIQi

i

k Kg/cm²

El 40% de las baldosas resiste menos de 415.15kg/cm2 y el 60% resiste más. 6.3 DECILES Similarmente, los deciles o decillas dividen la información en diez partes iguales, en cantidades porcentuales de 10 en 10.

9,.....,4,3,2,1101

kAf

fakn

LIDi

i

k

6.4 CENTILES Obviamente los centiles dividen la información en 100 partes, lo cual facilita la interpretación porcentual de una distribución de frecuencias.

99,.....,4,3,2,11001

kAf

fakn

LICi

i

k

6.5 RESUMEN En general para calcular cualquier percentil:

Af

far

kn

LIQi

i

k

1

, donde:

r: Número de partes en que se divide la información k: Orden del percentil k = 1,2,.....,r-1 LI: Límite inferior del intervalo que contiene el percentil fa(i-1): Frecuencia acumulada hasta el intervalo anterior al que contiene el percentil fi: Frecuencia del intervalo que contiene el percentil n: Número de observaciones A: Amplitud de los intervalos En nuestro ejercicio, si el gerente de la fábrica de baldosas desea ofrecer un garantía de resistencia mínima. Basado en la muestra que se ha obtenido, si no quiere remplazar ninguna pieza, lógicamente debe afirmar que el producto resiste 100 o más Kg/Cm². Pero si está dispuesto a reemplazar el 5% de su producción, entonces:

200 ,5100

)100(5 ,100 ,100 ,5 ,100 LI

r

knAnkr

21010200100*10

452005

1

QAf

far

kn

LIQi

i

k Kg/cm²

Se debe dar una garantía de 210kg/cm² de resistencia mínima. CUESTIONARIO Y EJERCICIOS PROPUESTOS 1. ¿Para qué se utilizan los percentiles? 2. ¿En cuántas partes se divide la información con: 2.1 Los cuartiles 2.2 Los quintiles

Page 38: Curso de estadística

ESTADÍSTICA ÁLVARO VALENCIA OROZCO

38

2.3 Los deciles 2.4 Los centiles 3. Para la información del ejercicio 4 de la sección 3.2 calcular e interpretar; 3.1 La primera y tercera cuartilla 3.2 El segundo y cuarto quintil 3.3 ¿Qué porcentaje hay entre la primera y tercera quintilla? 3.4 ¿Qué porcentaje hay entre la primera cuartilla y la segunda quintilla? 3.5 ¿Qué porcentaje hay entre la tercera cuartilla y el noveno decil? . . . . . . 7. MEDIDAS DE DISPERSIÓN En el análisis estadístico no basta el cálculo e interpretación de las medidas de tendencia central o de posición, ya que, por ejemplo, cuando pretendemos representar toda una información con la media aritmética, no estamos siendo absolutamente fieles a la realidad, pues suelen existir datos extremos inferiores y superiores a la media aritmética, los cuales, en honor a la verdad, no están siendo bien representados por este parámetro. En dos informaciones con igual media aritmética, no significa este hecho, que las distribuciones sean exactamente iguales, por lo tanto, debemos analizar el grado de homogeneidad entre sus datos. Por ejemplo, los valores 5, 50, 95 tiene igual media aritmética, y mediana que los valores 49, 50,51; sin embargo, para la primera información la media aritmética, se encuentra muy alejada de los valores extremos 5 y 95, cosa que no ocurre con la segunda información que posee igual media aritmética y mediana, vemos entonces que la primera información es mas heterogénea o dispersa que la segunda. Para medir el grado de dispersión de una variable, se utilizan principalmente los siguientes indicadores: 7.1 Rango o recorrido 7.2 Desviación media 7.3 Varianza y desviación típica o estándar 7.4 Coeficiente de variabilidad. 7.1 RANGO O RECORRIDO Es la medida de dispersión más sencilla ya que solo considera los dos valores extremos de una colección de datos, sin embargo, su mayor utilización está en el campo de la estadística no paramétrica. R = X max – Xmin Xmax, Xmin son el máximo y el mínimo valor de la variable X, respectivamente. En el ejemplo introductorio, vemos que el rango para la primera información es R1=95-5=90, mientras que R2=51-49=2, se hace pues manifiesta la gran dispersión de la primera información contra la homogeneidad de la segunda. 7.2 DESVIACIÓN MEDIA La desviación media, mide la distancia absoluta promedio entre cada uno de los datos, y el parámetro que caracteriza la información. Usualmente se considera la desviación media con respecto a la media aritmética:

n

fx i*x

DM

m

1

i

, donde

DM : Desviación media xi : Diferentes valores de la variable x fi : Número de veces que se repite la observación xi

Page 39: Curso de estadística

ESTADÍSTICA ÁLVARO VALENCIA OROZCO

39

x : Media aritmética de la información

n : Tamaño de la muestra. m : Número de agrupamientos o intervalos Ejemplo:

Salario de 50 Operarias de la Fabrica de Confecciones “La Hilacha”

SALARIO Xi

FRECUENCIA ABSOLUTA

fi

xxi

ii fxx *

50 1 4.1 4.1 51 3 3.1 9.3 52 5 2.1 10.5 53 9 1.1 9.9 54 12 0.1 1.2 55 10 0.9 9.0 56 5 1.9 9.5 57 3 2.9 8.7 58 2 3.9 7.8

SUMAS 50 70

4.150

70*x

DM

m

1

i

n

fx i

1.400 es el error promedio que se comete al remplazar los ingresos diarios de cada una de las 50 obreras por 54.100 pesos. 7.3 VARIANZA El problema de los signos en la desviación media, es eludido tomando los valores absolutos de las diferencias de los datos con respecto a la media aritmética. Ahora bien, la varianza obvia los signos elevando las diferencias al cuadrado, lo cual resulta ser más elegante, aparte de que es supremamente útil en el ajuste de modelos estadísticos que generalmente conllevan formas cuadráticas. La varianza es uno de los parámetros más importantes en estadística paramétrica, se puede decir que, teniendo conocimiento de la varianza de una población, se ha avanzado mucho en el conocimiento de la población misma. Numéricamente definimos la varianza, como desviación cuadrática media de los datos con respecto a la media aritmética:

n

fxx ii *

S

m

1

2

2, donde:

S2 : Varianza Xi : Valor de la variable X x : Media aritmética de la información

fi : Frecuencia absoluta de la observación xi

n : Tamaño de la muestra. m : Número de agrupamientos o intervalos

Salario/dia de 50 Operarias en la Fábrica de Confecciones

“La Hilacha” (Miles de Pesos) SALARIO

Xi

FRECUENCIA ABSOLUTA

Xifi

Page 40: Curso de estadística

ESTADÍSTICA ÁLVARO VALENCIA OROZCO

40

fi xxi 2xxi ii fxx *

2

50 1 50 -4.1 16.81 16.81 51 3 153 -3.1 9.61 28.83 52 5 260 -2.1 4.41 22.05 53 9 477 -1.1 1.21 10.89 54 12 648 0.1 0.01 0.12 55 10 550 0.9 0.81 8.10 56 5 280 1.9 3.61 10.05 57 3 171 2.9 8.41 25.23 58 2 116 3.9 15.21 30.42

SUMAS 50 160.50

21.350

50.160*

S

m

1

2

2

n

fxx ii

Como los datos están expresados en miles de pesos y la varianza se encuentra en forma cuadrática obtenemos una varianza de 3.210.000 pesos. Sin embargo para una mejor comprensión debemos recurrir a la desviación típica o estándar (S) definida como la raíz cuadrada de la varianza:

791,121,3

*

SS

m

1

2

2 Sn

fxx ii

El error estándar es de 1.791 pesos/diarios. En el ejemplo de las baldosas:

Resistencia de 100 Baldosas de La Fábrica “De Las Casas” KG/CM² Xi fi xifi xxi 2

xxi ii fxx *2

100 y menos de 200 150 4 600 -298 88804 355216 200 y menos de 300 250 10 2500 -198 39204 392040 300 y menos de 400 350 21 7350 -98 9604 201684

400 y menos de 500 450 33 14850 2 4 132 500 y menos de 600 550 18 9900 102 10404 187272 600 y menos de 700 650 9 5850 202 40804 367236

700 y menos de 800 750 5 3750 302 91204 456020 SUMAS 100 44800 1959600

14019596100

1959600*

SS

m

1

2

2 Sn

fxx ii

Kg/cm²

El error estándar es de 140 Kg/cm²

7.4 COEFICIENTE DE VARIABILIDAD Generalmente interesa establecer comparaciones de la dispersión, entre diferentes muestras que posean distintas magnitudes o unidades de medida.

Page 41: Curso de estadística

ESTADÍSTICA ÁLVARO VALENCIA OROZCO

41

El coeficiente de variabilidad tiene en cuenta el valor de la media aritmética, para establecer un número relativo, que hace comparable el grado de dispersión entre dos o más variables, y se define como:

%100*CVx

S

Comparemos la homogeneidad de las dos informaciones anteriores, las cuales tienen diferente unidad de medida.

Para el salario: %3.3%100*1.54

1791CVs

Para la resistencia: %25.31%100*448

140CVR

Concluimos que es mucho más dispersa la información correspondiente a la resistencia de las baldosas. CUESTIONARIO Y EJERCICIOS PROPUESTOS 1. ¿Cuál es la utilidad de las medidas de dispersión? 2. ¿Cuales son las principales medidas de dispersión? 3. ¿Cuál es la medida adecuada para comparar la dispersión entre varias variables que posean diferente magnitud o diferente unidad de medida? 4. Para cada una de las informaciones de los ejercicios de los capítulos anteriores, calcular e interpretar: 4.1 Rango 4.2 Desviación media 4.3 Coeficiente de variabilidad 8. REGRESIÓN Y CORRELACIÓN LINEAL Hasta ahora hemos hecho la tabulación y el análisis para una sola variable. Pero los investigadores, además de analizar una información en forma individual, generalmente se interesan en establecer cruces y buscar relaciones entre diferentes variables. 8.1 TABLAS DE DOBLE ENTRADA Para la presentación bidimensional de las variables "X, Y" se procede de la siguiente manera:

Se ordenan las variables "X, Y" respectivamente Se tabulan los valores X horizontalmente, y los valores Y verticalmente. Se buscan las frecuencias para cada par ordenado (xi, yj). Se suma horizontalmente para obtener las frecuencias de “Y” fyj, y verticalmente para obtener

las frecuencias de “X” fxi . xi : Valores de la variable X, i=1,2,....m yj : Valores de la variable Y, j=1,2,... k fxi : Frecuencia de la observación xi

fyj : Frecuencia de la observación yj

fij : Frecuencia conjunta de los valores (xi, yj) faxi : Frecuencia acumulada de la variable “X”, en el item i fayj : Frecuencia acumulada de la variable “Y”, en el item j frxi : Frecuencia relativa para la variable “X”, en el item i fryj : Frecuencia relativa para la variable “Y”, en el item j fraxi : Frecuencia relativa acumulada para la variable “X” frayj : Frecuencia relativa acumulada para la variable “Y”.

Tabla de Doble Entrada para la Representación de dos Variables “X, Y”

X Y

X1 X2 … Xi … Xm Fyj Fayj Fryj Frayj

Page 42: Curso de estadística

ESTADÍSTICA ÁLVARO VALENCIA OROZCO

42

Y1 F11 F21 … Fi1 … Fm1 Fy1 Fay1 Fry1 Fary1

Y2 F12 F22 … Fi1 … Fm2 Fy2 Fay2 Fry2 Fary2

.

. . .

.

. . .

.

. . .

.

. . .

.

. . .

.

. yj F1j F2j … Fij … Fmj Fyj Fayj Fryj Frayj

.

. . .

.

. . .

.

. . .

.

. . .

.

. . .

.

. yk F1k F2k … Fik … Fmk Fyk n Fryk 1.00 fxi Fx1 Fx2 … Fxi … Fxm n 1.00

Faxi Fax1 Fax2 … Faxi … n Frxi Frx1 Frx2 … Frxi … Frxm 1.00

Fraxi Frax1 Frax2 … Fraxi … 1.00

Como se puede advertir en la disposición de las frecuencias, la interpretación de la variable “Y”, puede hacerse analizando los relativos propios en forma horizontal, en tanto que el análisis de la variable “X” se hace en forma vertical. Ejemplo

Experiencia Laboral y Salario Diario de 50 Obreras de la Fábrica De Confecciones “La Hilacha”. “X”: Experiencia en Años,

“Y”: Salario Miles de Pesos X Y

2 3 4 5 6 7 8 9 Fyj Fayj Fryj Faryj

50 1 1 1 0.02 0.02 51 3 3 4 0.06 0.08 52 5 5 9 0.10 0.18 53 8 1 9 18 0.18 0.36 54 2 9 1 12 30 0.24 0.60 55 3 7 10 40 0.20 0.80 56 3 2 5 45 0.10 0.90 57 2 1 3 48 0.06 0.96 58 1 1 2 50 0.04 1.00 Fx1 1 3 5 10 13 11 5 2 50 1.00 Faxi 1 4 9 19 32 43 48 50 Frxi 0.02 0.06 0.10 0.20 0.26 0.22 0.10 0.04 1.00

Farxi 0.02 0.08 0.18 0.38 0.64 0.86 0.96 1.00

Analizando los relativos para cada una de las variables podemos sacar, entre otras, las siguientes conclusiones:

El 64% tiene una experiencia igual o inferior a 6 años. El 68% tiene una experiencia entre 5 y 7 años incluyendo sus extremos. El 60% gana 54.000 pesos diarios o menos. El 62% gana entre 53.000 y 55.000 pesos incluyendo sus extremos.

Las tablas de doble entrada también pueden usarse para variables cualitativas, o combinarse variables cualitativas con cuantitativas. Ejemplo:

Estado Civil y Número de Hijos de 50 Obreras de la Fabrica “La Hilacha" X: Estado Civil, Y : Número De Hijos.

X Y

casada soltera Unión libre

Viuda Fi Fa Fr Fra

Page 43: Curso de estadística

ESTADÍSTICA ÁLVARO VALENCIA OROZCO

43

0 11 11 11 0.22 0.22 1 9 2 1 12 23 0.24 0.46 2 4 9 2 2 17 40 0.34 0.80 3 5 1 1 2 9 49 0.18 0.98 4 1 1 50 0.02 1.00

Total 10 30 5 5 50 1.00 % 0.20 0.60 0.10 0.10 1.00

Realice la interpretación y análisis de esta tabla. 8.2 CORRELACIÓN En el análisis conjunto para dos o más variables es básica la búsqueda del tipo y grado de la relación que pueda existir entre ellas, o si por el contrario, las variables sean independientes entre sí y la relación que puedan mostrar se debe únicamente al azar, o a través de terceras variables. El sondeo del tipo y grado de la correlación, parte desde la misma presunción del investigador, teniendo presente que la búsqueda de relaciones entre variables debe ser lógica, es decir relacionar lo que sea razonable y no datos cuya asociación sea desde cualquier punto de vista absurda. Veamos algunas variables susceptibles de relacionar:

El peso y estatura de un grupo de adultos. Edad y peso de un grupo de niños. Ingresos y gastos de arrendamiento de un grupo de familias. Escolaridad e ingreso mensual de un grupo de empleados. Ventas y utilidades de un almacén de variedades.

En el cuestionario aplicado a las obreras de la "Hilacha", parece que se indaga por ciertas variables que puedan explicar el salario devengado por ellas; como podría ser, los años de experiencia, los años de estudio, las ausencias al trabajo, la evaluación del desempeño por parte de su supervisor, amén de otras variables que pueden tener influencia en la asignación salarial. Para fortalecer el indicio de correlación inicial, se grafica cada uno de los pares ordenados de las variables (xi, yj) en un plano cartesiano, para observar la “nube de puntos” o diagrama de dispersión, donde se advierte la tendencia o no, de la información representada. A continuación grafiquemos las relaciones entre cada par de variables asi:

1. Relación entre el salario y la escolaridad de cada una de las 50 obreras de la “hilacha” 2. Relación entre el salario y las ausencias de cada una de las 50 obreras de la “hilacha” durante el

mes de octubre. 3. Relación entre la edad y los gastos en educación de cada una de las 50 obreras de la “hilacha”

Page 44: Curso de estadística

ESTADÍSTICA ÁLVARO VALENCIA OROZCO

44

1. RELACIÓN ENTRE EL SALARIO Y LA ESCOLARIDAD DE LAS 50 OBRERAS DE "LA HILACHA"

ESCOLARI

DAD

SALARIO

ESCOLARI

DAD

SALARIO

ESCOLARI

DAD

SALARIO

ESCOLARI

DAD

SALARIO

ESCOLARI

DAD

SALARIO

5 52 6 54 8 55 6 56 3 52

5 54 3 51 6 55 4 53 9 57

4 55 7 54 3 52 8 57 8 56

4 54 7 55 6 55 5 54 3 51

3 53 5 54 3 53 3 53 9 58

8 56 8 56 9 57 3 50 5 55

3 54 3 52 5 54 5 55 5 53

9 58 4 54 5 55 3 52 4 54

3 51 4 53 4 53 4 53 5 53

3 54 9 55 4 55 4 54 6 56

Page 45: Curso de estadística

ESTADÍSTICA ÁLVARO VALENCIA OROZCO

45

2. RELACIÓN ENTRE EL SALARIO Y LAS AUSENCIAS DE LAS 50 OBRERAS DE "LA HILACHA" EN EL MES DE OCTUBRE

AUSENCIAS SALARIO AUSENCIAS SALARIO AUSENCIAS SALARIO AUSENCIAS SALARIO AUSENCIAS SALARIO

1 52 2 54 3 55 4 56 2 52

3 54 4 51 0 55 1 53 0 57

1 55 0 54 0 52 1 57 1 56

4 54 2 55 2 55 0 54 5 51

2 53 2 54 3 53 2 53 0 58

0 56 1 56 1 57 3 50 5 55

2 54 2 52 3 54 2 55 2 53

1 58 1 54 0 55 2 52 3 54

0 51 3 53 0 53 2 53 2 53

4 54 1 55 1 55 1 54 2 56

3. RELACIÓN ENTRE LA EDAD Y LOS GASTOS EN EDUCACIÓN DE LAS 50 OBRERAS DE "LA HILACHA"

EDAD GASTOS EDAD GASTOS EDAD GASTOS EDAD GASTOS EDAD GASTOS

24 5 28 3 28 4 33 4 26 11

24 6 25 6 31 4 32 6 38 3

Page 46: Curso de estadística

ESTADÍSTICA ÁLVARO VALENCIA OROZCO

46

27 8 27 1 22 7 32 2 38 5

25 9 30 1 25 3 31 3 31 6

24 3 27 2 25 7 30 6 39 3

28 1 36 3 40 3 23 7 36 4

29 2 26 2 39 13 30 6 35 2

35 0 29 5 38 8 26 6 29 3

30 10 26 5 35 8 28 8 28 7

27 9 28 4 33 9 27 8 29 3

A pesar de la ilustración visual que ofrecen las gráficas, solo podemos percibir la tendencia, mas no el grado o fortaleza de la relación, entre la variable independiente “X” y la variable dependiente “Y”. Para cuantificar la calidad de la dependencia, entre las dos variables, el indicador más acostumbrado es el Coeficiente de correlación, que denotaremos con la letra , que nos permite valorar si ésta es fuerte o débil, positiva o negativa, y que varía entre -1 y 1. Los signos se utilizan para la correlación lineal positiva y la correlación lineal negativa, respectivamente. El coeficiente de correlación lineal está dado por la expresión

en donde y

Cuando r toma un valor extremo, ya sea r=1 ó r=-1 existe una correlación perfecta positiva o negativa según el signo, como lo podemos corroborar en el siguiente ejemplo:

Aspiración Salarial, de Acuerdo a La Experiencia de las Obreras de la Fabrica de Confecciones “La Hilacha”

Experiencia (Años)

X

Salario (Miles de $)

Y

0 56 -5 -10 50 25 100

Page 47: Curso de estadística

ESTADÍSTICA ÁLVARO VALENCIA OROZCO

47

1 58 -4 -8 32 16 64 2 60 -3 -6 18 9 36 3 62 -2 -4 8 4 16 4 64 -1 -2 2 1 4 5 66 0 0 0 0 0 6 68 1 2 2 1 4 7 70 2 4 8 4 16 8 72 3 6 18 9 36 9 74 4 8 32 16 64

10 76 5 10 50 25 100

5

55X

X

66

726

Y

Y

220xy 110x 2 440y2

Hallemos ahora el coeficiente de correlación,

1220

220

48400

220

440*110

220r , Correlación perfecta positiva

Entre la experiencia y el salario actual hay una excelente correlación positiva. Sin embargo, no todas las relaciones son tan ideales, en el común de los casos –1< r <1. Empíricamente se afirma que:

1. Si 1r Correlación perfecta

2. Si 19.0 r ó 9.01 r Correlación excelente

3. Si 9.08.0 r ó 8.09.0 r Correlación buena

4. Si 8.06.0 r ó 6.08.0 r Correlación regular

5. Si 6.03.0 r ó 3.06.0 r Correlación mala

6. Si 3.03.0 r No hay correlación Existen desde luego, pruebas estadísticas que miden la bondad de un coeficiente de correlación con un determinado nivel de confiabilidad, pero no son tema de este curso.

EJERCICIOS

1. La siguiente tabla muestra el ingreso mensual (en cien miles de pesos) por las ventas realizadas (en cien miles de pesos) para un grupo de personas en un periodo determinado:

Ventas

X Ingresos

Y

150 15

201 17

225 20

305 21

370 19

380 23

450 21

510 22

560 25

Page 48: Curso de estadística

ESTADÍSTICA ÁLVARO VALENCIA OROZCO

48

600 24

685 27

725 30

735 27

a. Realice el diagrama de dispersión b. Construir una recta que se aproxime a los datos c. Hallar la ecuación de la recta que se aproxime a los datos. d. Halle el coeficiente de correlación lineal. e. Estime el ingreso de una persona cuyas ventas fueron de $50.000.000

2. Una compañía que tiene 15 tiendas ha recopilado datos en relación con los metros cuadrados

de área de ventas respecto a los ingresos mensuales. Trace una gráfica de los datos, y si parece apropiado un modelo lineal determine la ecuación de regresión y el coeficiente de correlación lineal..

3. Determine una ecuación que describa la relación con su respectivo coeficiente de correlación lineal

X Y

3.10 900

4.00 800

4.40 600

5.20 450

6.40 500

6.50 300

7.00 200

8.00 150

Tienda Metros 2 Ingreso

X Y

1 55 45

2 80 60

3 85 75

4 90 75

5 90 80

6 110 95

7 130 95

8 140 110

9 180 120

10 180 105

11 200 115

12 200 130

13 215 140

14 260 170

15 300 200

Page 49: Curso de estadística

ESTADÍSTICA ÁLVARO VALENCIA OROZCO

49

4. Determine una ecuación predictiva para calcular el monto del seguro, en función del ingreso anual con su respectivo coeficiente de correlación lineal para los siguientes datos:

Ingreso Prima

X Y

13 5

16 15

17 20

18 10

20 10

25 12

26 15

32 30

38 40

40 50

42 40

9. TASAS E ÍNDICES Como ya se dijo, el análisis de un fenómeno basado en las cifras absolutas, ofrece una idea general de su tendencia o comportamiento; pero para efectos de establecer comparaciones adecuadas del mismo fenómeno con otra región, o su ocurrencia a través del tiempo, se utilizan ciertos indicadores denominados tasas e índices. 9.1 TASA Una tasa es la resultante de una fracción, en donde el numerador está contenido dentro del denominador: Ejemplos:

1.

D: Tasa de deserción escolar. R: Número de retiros durante el año. M: Número total de matriculados durante el año.

2.

TE: Tasa de empleo. PEAO: Población económicamente activa ocupada. PEA : Población económicamente activa. Valga anotar que a las tasas se les debe multiplicar por una constante k, la cual generalmente es 100, 1000 o múltiplos de ellos, con el fin de convertirlos en porcentajes, por millares etc. En demografía, las tasas son de uso frecuente, entre otras, mencionaremos las siguientes:

3.

Donde: TM : Tasa de mortalidad. D : Número de defunciones en un periodo y área dada. P : Población total en esa área a mitad del periodo.

4.

Page 50: Curso de estadística

ESTADÍSTICA ÁLVARO VALENCIA OROZCO

50

Donde TN : Tasa de natalidad N : Número de nacidos vivos ocurridos en un periodo y área dada P : Población total del área a mitad del periodo.

5.

Donde: TC : Tasa de nupcialidad. M : Número de matrimonios efectuados en un periodo y área dada. P : Total de la población a mitad del periodo. El siguiente cuadro muestra la evolución de la tasa de desempleo en Colombia, resultados obtenidos de la encuesta nacional de hogares para los periodos comprendidos entre los años 1.990 –2.000

Tasas de Desempleo en Colombia 1.990-2.000

AÑO MES TASA AÑO MES TASA 1990 Marzo 10.1 1995 Septiembre 8.7

Junio 10.9 Diciembre 9.5 Septiembre 10.2 1996 Marzo 10.2 Diciembre 10.6 Junio 11.6

1991 Marzo 10.8 Septiembre 12.0 Junio 10.8 Diciembre 11.3 Septiembre 9.8 1997 Marzo 12.3 Diciembre 9.5 Junio 13.4

1992 Marzo 10.8 Septiembre 12.1 Junio 11.2 Diciembre 12.0 Septiembre 9.2 1998 Marzo 14.4 Diciembre 9.8 Junio 15.9

1993 Marzo 9.7 Septiembre 15.0 Junio 9.1 Diciembre 15.6 Septiembre 7.8 1999 Marzo 19.5 Diciembre 7.8 Junio 19.9 1994 Marzo 10.2 Septiembre 20.1 Junio 9.9 Diciembre 18.0 Septiembre 7.6 2000 Marzo 20.3 Diciembre 8.0 Junio 20.4 1995 Marzo 8.1 Septiembre 20.5 Junio 9.0 Diciembre 19.7

9.2 ÍNDICE Un número índice, como comúnmente se le llama, es un indicador de los cambios relativos de una o más variables a través del tiempo. Entre las principales aplicaciones de los números índice, está la de establecer comparaciones entre los indicadores de las diferentes zonas geográficas, profesiones, grupos étnicos etc. Para la construcción de un número índice, se procede ante todo, a fijar el periodo de referencia o "periodo base" de la serie temporal, teniendo presente que debe ser un periodo normal, esto es, que no se hayan presentado situaciones fortuitas (guerras, terremotos, incendios u otro tipo de imprevisto), que incidan en el valor de la variable para ese periodo. Además debe considerarse un periodo reciente que haga comparables los diferentes valores de las variables consideradas.

Page 51: Curso de estadística

ESTADÍSTICA ÁLVARO VALENCIA OROZCO

51

9.2.1 Índice Simple Un número índice simple, es aquel que se calcula para una sola variable, dividiendo cada uno de los valores de la serie cronológica, por el valor correspondiente al "periodo base" previamente definido. 9.2.1.1 Índice de Base Fija

, si la variable se refiere a precios

, si la variable se refiere a cantidades

: Índice de precios

: Precio del artículo en el periodo n : Precio del artículo en el periodo base : Índice de cantidades

: Cantidad del artículo en el periodo n : Cantidad del artículo en el periodo base

Precio Promedio del Kilovatio/Hora 1995-2001

Pagado por la Fabrica de Confecciones “La Hilacha” PRECIO ÍNDICE ÍNDICE

AÑO Kw/hora 1995 = 100% 1998 = 100% 1995 9 1.00 0.47 1996 12 1.33 0.63 1997 15 1.67 0.79 1998 19 2.11 1.00 1999 24 2.67 1.26 2000 30 3.33 1.58 2001 37 4.11 1.95

Consumo Promedio de Energía en

La Fábrica de Confecciones “La Hilacha” CANTIDAD ÍNDICE ÍNDICE

AÑO Kw/mes 1995 = 100% 1998 = 100% 1995 3.333,33 1.00 0.49 1996 6.666,67 2.00 0.97 1997 4.666,667 1.40 0.68 1998 6.842,11 2.05 1.00 1999 5.833,33 1.75 0.85 2000 4.666,67 1.40 0.68 2001 4.324,32 1.30 0.63

En la primera tabla hemos calculado los índices de precios simples, con base en 1995 y 1998 respectivamente, pero no se han tenido en cuenta las cantidades, mientras que en la segunda tabla se han calculado los índices de cantidades sin considerar los precios. Calculemos, ahora los índices del valor relativo, que considere tanto los precios como las cantidades:

Precio y Consumo Promedio de Energía en

Page 52: Curso de estadística

ESTADÍSTICA ÁLVARO VALENCIA OROZCO

52

La Fábrica de Confecciones “La Hilacha” PRECIO CANTIDAD ÍNDICE ÍNDICE

AÑO Kw/h Kw/mes pq 1995 = 100% 1998 = 100% 1995 9 3.333,33 30.000 1.00 0.23 1996 12 6.666,67 80.000 2.67 0.62 1997 15 4.666,67 70.000 2.33 0.54 1998 19 6.842,11 130.000 4.33 1.00 1999 24 5.833,33 140.000 4.67 1.08 2000 30 4.666,67 140.000 4.67 1.08 2001 37 4.324,32 160.000 5.33 1.23

9.2.1.2 Índice de Base Móvil Solo hemos considerado, los índices simples de base fija, esto es, con un periodo base determinado. Es común que interese comparar un índice con el índice del periodo inmediatamente anterior, en consecuencia se debe fijar el periodo base en el periodo anterior al referenciado, y así sucesivamente hasta completar la serie, al cual se le nombra índice de base móvil.

Variaciones del Salario Promedio Diario en La Fábrica de Confecciones “La Hilacha”

MILES ÍNDICE ÍNDICE AÑO $/día 1995 = 100% 100% = año

anterior VARIACIÓN

1995 18.70 1.00 - - 1996 23.80 1.27 1.27 0.273 1997 30.80 1.65 1.29 0.297 1998 38.50 2.06 1.25 0.250 1999 47.00 2.51 1.22 0.221 2000 50.20 2.68 1.07 0.068 2001 54.10 2.89 1.08 0.078

9.2.2 Índices Compuestos (Globales) Un número índice compuesto, muestra los cambios de un conjunto de variables, aunque sus unidades de medidas, cantidades y precios, en el tiempo, sean diferentes entre sí. Cuando hablamos por ejemplo de los índices indicadores del costo de la canasta familiar, se toman en cuenta muchos artículos cuyos consumos inciden en el costo de vida, con una ponderación o importancia diferente en cada caso. Colectivamente no es lo mismo un cambio en el precio de la carne, huevos o leche, que un cambio en el precio de los perfumes, joyas o cualquier otro artículo suntuoso. 9.2.2.1 Índice de Laspeyres Este índice asume como ponderaciones, en el cálculo del índice global, las cantidades de los artículos en el periodo base.

Donde:

: Índice de precios global (Laspeyres). : Cantidad del periodo base. : Precio del artículo en el periodo base : Precio del artículo en el periodo n

Índice de Precios de Cuatro Artículos

Valor de a los precios de Cantidad Precios

Año 1998 1998 1999 2000 2001 1998 1999 2000 2001

Page 53: Curso de estadística

ESTADÍSTICA ÁLVARO VALENCIA OROZCO

53

Artículo

A 5 10 12 14 15 50 60 70 75 B 10 20 24 25 25 200 240 250 250 C 15 10 10 11 12 150 150 165 180 D 20 25 27 28 30 500 540 560 600

Sumas 900 990 1045 1105 Índice 1.00 1.10 1.16 1.23

9.2.2.2 Índice de Paasche El estadístico Paasche, sugiere que las ponderaciones sean las cantidades utilizadas en el periodo n. Se obtiene entonces el siguiente indicador:

Este índice, es poco utilizado debido al dinamismo de , necesitando nuevas ponderaciones cada vez que se cambia de periodo. 9.2.2.3 Índice ideal de Fisher Se propone el promedio geométrico entre los dos índices anteriores:

Una de las principales aplicaciones de los índices de precios, es la de medir la deflación e inflación, que es la variación que existe en el poder adquisitivo del dinero. También podemos utilizar, los índices de precios al consumidor para determinar el salario real de un grupo de personas.

Salario Promedio Nominal y Real en la Fabrica “La Hilacha” ÍNDICE VARIACIÓN MILES/DÍA MILES/DÍA

AÑOS 1998 = 100% ANUAL NOMINAL REAL 1994 50.10 22.59 18.7 37.32 1995 59.86 19.46 23.8 39.76 1996 72.81 21.63 30.8 42.30 1997 85.69 17.68 38.5 44.93 1998 100.00 16.70 47.0 47.00 1999 109.27 9.23 50.2 45.94 2000 118.79 7.81 54.1 45.54

Dado el deterioro del salario real en los dos últimos años debería considerarse un generoso aumento. CUESTIONARIO Y EJERCICIOS PROPUESTOS 1. ¿Qué es una tasa? 2. ¿Qué es un índice? 3. ¿Para qué se utilizan los números índices? 4. ¿Cómo se construye un número índice simple? 5. ¿Cómo se construye un número índice compuesto?

Page 54: Curso de estadística

ESTADÍSTICA ÁLVARO VALENCIA OROZCO

54

6. Los precios y las cantidades de un artículo X vienen dados en la siguiente tabla:

AÑO PRECIOI CANTIDAD 1995 1200 400 1996 1500 400 1997 1800 410 1998 2200 430 1999 2600 430 2000 3000 440

Tomando como año base 1995, calcular para los otros años: 6.1 Los índices de precios. 6.2 Los índices de cantidades. 6.3 Los índices de valores. 7. A continuación se relacionan los precios y las cantidades del año base, de cuatro artículos diferentes:

CANTIDAD PRECIOS

AÑO 1997 1997 1998 1999 2000 2001 ARTÍCULO

A 180 200 250 300 350 400 B 100 50 60 70 80 90 C 400 100 120 130 150 180 D 120 20 30 30 40 40

Calcular el índice de Laspeyres 8.

Salario Mínimo Legal Diario en Colombia e Índice de Precios al Consumidor para el Año 2.000-2001

(Periodo Base Diciembre de 1998). AÑO MES VALOR ÍNDICE SALARIO NOMINAL 2000 1 110.64 260000 2000 2 113.19 260000 2000 3 115.12 260000 2000 4 116.27 260000 2000 5 116.88 260000 2000 6 116.85 260000 2000 7 116.81 260000 2000 8 117.18 260000 2000 9 117.68 260000 2000 10 117.86 260000 2000 11 118.24 260000 2000 12 118.79 260000 2001 1 120.04 286000 2001 2 122.31 286000 2001 3 124.12 286000 2001 4 125.54 286000 2001 5 126.07 286000 2001 6 126.12 286000

Calcular el salario real para cada uno de los meses.

Page 55: Curso de estadística

ESTADÍSTICA ÁLVARO VALENCIA OROZCO

55

10. PROBABILIDAD

INTRODUCCIÓN La probabilidad mide la frecuencia con la que aparece un resultado determinado cuando se realiza un experimento. Ejemplo: tiramos un dado al aire y queremos saber cuál es la probabilidad de que salga un 2, o que salga un número par, o que salga un número menor que 4. El experimento tiene que ser aleatorio, es decir, que pueden presentarse diversos resultados, dentro de un conjunto posible de soluciones, y esto aún realizando el experimento en las mismas condiciones. Por lo tanto, a priori no se conoce cuál de los resultados se va a presentar: Ejemplos: lanzamos una moneda al aire: el resultado puede ser cara o sello, pero no sabemos de antemano cuál de ellos va a salir. Hay experimentos que no son aleatorios y por lo tanto no se les puede aplicar las reglas de la probabilidad. Ejemplo: en lugar de tirar la moneda al aire, directamente seleccionamos la cara. Aquí no podemos hablar de probabilidades, sino que ha sido un resultado determinado por uno mismo. Antes de calcular las probabilidades de un experimento aleatorio hay que definir una serie de conceptos: Suceso elemental: hace referencia a cada una de las posibles soluciones que se pueden presentar. Ejemplo: al lanzar una moneda al aire, los sucesos elementales son la cara y el sello. Al lanzar un dado, los sucesos elementales son el 1, el 2, .., hasta el 6 Suceso compuesto: es un subconjunto de sucesos elementales. Ejemplo: lanzamos un dado y queremos que salga un número par. El suceso "numero par" es un suceso compuesto, integrado por 3 sucesos elementales: el 2, el 4 y el 6 O, por ejemplo, jugamos a la ruleta y queremos que salga "menor o igual que 18". Este es un suceso compuesto formado por 18 sucesos elementales (todos los números que van del 1 al 18). Al conjunto de todos los posibles sucesos elementales lo denominamos espacio muestral. Cada experimento aleatorio tiene definido su espacio muestral (es decir, un conjunto con todas las soluciones posibles). Ejemplo: si tiramos una moneda al aíre una sola vez, el espacio muestral será cara o sello. Si el experimento consiste en lanzar una moneda al aire dos veces, entonces el espacio muestral estaría formado por (cara-cara), (cara-sello), (sello-cara) y (sello-sello). RELACIÓN ENTRE SUCESOS Entre los sucesos compuestos se pueden establecer distintas relaciones: a) Un suceso puede estar contenido en otro: las posibles soluciones del primer suceso también lo son del segundo, pero este segundo suceso tiene además otras soluciones suyas propias. Ejemplo: lanzamos un dado y analizamos dos sucesos: a) que salga el número 6, y b) que salga un número par. Vemos que el suceso a) está contenido en el suceso b). Siempre que se da el suceso a) se da el suceso b), pero no al contrario. Por ejemplo, si el resultado fuera el 2, se cumpliría el suceso b), pero no el a). b) Dos sucesos pueden ser iguales: esto ocurre cuando siempre que se cumple uno de ellos se cumple obligatoriamente el otro y viceversa. Ejemplo: lanzamos un dado al aire y analizamos dos sucesos: a) que salga número par, y b) que salga múltiplo de 2. Vemos que las soluciones coinciden en ambos casos. c) Unión de dos o más sucesos: la unión será otro suceso formado por todos los elementos de los sucesos que se unen.

Page 56: Curso de estadística

ESTADÍSTICA ÁLVARO VALENCIA OROZCO

56

Ejemplo: lanzamos un dado al aire y analizamos dos sucesos: a) que salga número par y b) que el resultado sea mayor que 3. El suceso unión estaría formado por los siguientes resultados: el 2, el 4, el 5 y el 6 d) Intersección de sucesos: es aquel suceso compuesto por los elementos comunes de dos o más sucesos que se intersecan. Ejemplo: lanzamos un dado al aire, y analizamos dos sucesos: a) que salga número par, y b) que sea mayor que 4. La intersección de estos dos sucesos tiene un sólo elemento, el número 6 (es el único resultado común a ambos sucesos: es mayor que 4 y es número par). e) Sucesos incompatibles: son aquellos que no se pueden dar al mismo tiempo ya que no tienen elementos comunes (su intersección es el conjunto vacio). Ejemplo: lanzamos un dado al aire y analizamos dos sucesos: a) que salga un número menor que 3, y b) que salga el número 6. Es evidente que ambos no se pueden dar al mismo tiempo. f) Sucesos complementarios: son aquellos que si no se da uno, obligatoriamente se tiene que dar el otro. Ejemplo: lanzamos un dado al aire y analizamos dos sucesos: a) que salga un número par, y b) que salga un número impar. Vemos que si no se da el primero se tiene que dar el segundo (y viceversa). CÁLCULO DE PROBABILIDADES Probabilidad Como hemos comentado anteriormente, la probabilidad mide la mayor o menor posibilidad de que se dé un determinado resultado (suceso) cuando se realiza un experimento aleatorio. La probabilidad toma valores entre 0 y 1 (o expresados en tanto por ciento, entre 0% y 100%): El valor cero corresponde al suceso imposible: lanzamos un dado al aire y la probabilidad de que salga el número 7 es cero (al menos, si es un dado certificado por la OMD, "Organización Mundial de Dados"). El valor uno corresponde al suceso seguro: lanzamos un dado al aire y la probabilidad de que salga cualquier número del 1 al 6 es igual a uno (100%). El resto de sucesos tendrá probabilidades entre cero y uno: que será tanto mayor cuanto más probable sea que dicho suceso tenga lugar. ¿Cómo se mide la probabilidad? Uno de los métodos más utilizados es aplicando la Regla de Laplace: define la probabilidad de un suceso como el cociente entre casos favorables y casos posibles.

Veamos algunos ejemplos: a) Probabilidad de que al lanzar un dado salga el número 2: el caso favorable es tan sólo uno (que salga el dos), mientras que los casos posibles son seis (puede salir cualquier número del uno al seis). Por lo tanto:

(o lo que es lo mismo, 16,7% aproximadamente)

b) Probabilidad de que al lanzar un dado salga un número par: en este caso los casos favorables son tres (que salga el dos, el cuatro o el seis), mientras que los casos posibles siguen siendo seis. Por lo tanto:

(o lo que es lo mismo, 50%)

c) Probabilidad de que al lanzar un dado salga un número menor que 5: en este caso tenemos cuatro casos favorables (que salga el uno, el dos, el tres o el cuatro), frente a los seis casos posibles. Por lo tanto:

(o lo que es lo mismo, 66,7% aproximadamente)

Page 57: Curso de estadística

ESTADÍSTICA ÁLVARO VALENCIA OROZCO

57

Para poder aplicar la Regla de Laplace el experimento aleatorio tiene que cumplir dos requisitos: a) El número de resultados posibles (sucesos) tiene que ser finito. Si hubiera infinitos resultados, al aplicar la regla "casos favorables / casos posibles" el cociente siempre sería cero. b) Todos los sucesos tienen que tener la misma probabilidad. Si al lanzar un dado, algunas caras tuvieran mayor probabilidad de salir que otras, no podríamos aplicar esta regla. A la regla de Laplace también se le denomina "probabilidad a priori", ya que para aplicarla hay que conocer antes de realizar el experimento cuales son los posibles resultados y saber que todos tienen las mismas probabilidades. ¿Y si el experimento aleatorio no cumple los dos requisitos indicados, qué hacemos?, En este caso podemos acudir a otro modelo de cálculo de probabilidades que se basa en la experiencia (modelo frecuentista): Cuando se realiza un experimento aleatorio un número muy elevado de veces, las probabilidades de los diversos posibles sucesos empiezan a converger hacia valores determinados, que son sus respectivas probabilidades. Ejemplo: si lanzo una vez una moneda al aire y sale "cara", quiere decir que el suceso "cara" ha aparecido el 100% de las veces y el suceso "sello" el 0%. Si lanzo diez veces la moneda al aire, es posible que el suceso "cara" salga 7 veces y el suceso "sello" las 3 restantes. En este caso, la probabilidad del suceso "cara" ya no sería del 100%, sino que se habría reducido al 70%. Si repito este experimento un número elevado de veces, lo normal es que las probabilidades de los sucesos "cara" y "sello" se vayan aproximando al 50% cada una. Este 50% será la probabilidad de estos sucesos según el modelo frecuentista. En este modelo ya no será necesario que el número de soluciones sea finito, ni que todos los sucesos tengan la misma probabilidad. Ejemplo: si la moneda que utilizamos en el ejemplo anterior fuera defectuosa (o estuviera trucada), es posible que al repetir dicho experimento un número elevado de veces, la "cara" saliera con una frecuencia, por ejemplo, del 65% y el "sello" del 35%. Estos valores serían las probabilidades de estos dos sucesos según el modelo frecuentista. A esta definición de la probabilidad se le denomina probabilidad a posteriori, ya que tan sólo repitiendo un experimento un número elevado de veces podremos saber cuál es la probabilidad de cada suceso. PROBABILIDAD DE SUCESOS Al definir los sucesos hablamos de las diferentes relaciones que pueden guardar dos sucesos entre sí, así como de las posibles relaciones que se pueden establecer entre los mismos. Vamos a ver ahora cómo se refleja esto en el cálculo de probabilidades. a) Un suceso puede estar contenido en otro: entonces, la probabilidad del primer suceso será menor que la del suceso que lo contiene. Ejemplo: lanzamos un dado y analizamos dos sucesos: a) que salga el número 6, y b) que salga un número par. Dijimos que el suceso a) está contenido en el suceso b). P(A) = 1/6 = 0,166 P(B) = 3 / 6 = 0,50 Por lo tanto, podemos ver que la probabilidad del suceso contenido, suceso a), es menor que la probabilidad del suceso que lo contiene, suceso b). b) Dos sucesos pueden ser iguales: en este caso, las probabilidades de ambos sucesos son las mismas. Ejemplo: lanzamos un dado al aire y analizamos dos sucesos: a) que salga número par, y b) que salga múltiplo de 2. Las soluciones coinciden en ambos casos. P(A) = 3 / 6 = 0,50 P(B) = 3 / 6 = 0,50 c) Intersección de sucesos: es aquel suceso compuesto por los elementos comunes de los dos o más sucesos que se intersecan. La probabilidad será igual a la probabilidad de los elementos comunes. Ejemplo: lanzamos un dado al aire y analizamos dos sucesos: a) que salga número par, y b) que sea mayor que 3. La intersección de estos dos sucesos tiene dos elementos: el 4 y el 6.

Page 58: Curso de estadística

ESTADÍSTICA ÁLVARO VALENCIA OROZCO

58

Su probabilidad será por tanto:

d) Unión de dos o más sucesos: la probabilidad de la unión de dos sucesos es igual a la suma de las probabilidades individuales de los dos sucesos que se unen, menos la probabilidad del suceso intersección Ejemplo: lanzamos un dado al aire y analizamos dos sucesos: a) que salga número par, y b) que el resultado sea mayor que 3. El suceso unión estaría formado por los siguientes resultados: el 2, el 4, el 5 y el 6. P(A) = 3 / 6 = 0,50 P(B) = 3 / 6 = 0,50

Por lo tanto,

e) Sucesos incompatibles: la probabilidad de la unión de dos sucesos incompatibles será igual a la suma de las probabilidades de cada uno de los sucesos (ya que su intersección es el conjunto vacio y por lo tanto no hay que restarle nada). Ejemplo: lanzamos un dado al aire y analizamos dos sucesos: a) que salga un número menor que 3, y b) que salga el número 6. La probabilidad del suceso unión de estos dos sucesos será igual a: P(A) = 2 / 6 = 0,333 P(B) = 1 / 6 = 0,166 Por lo tanto,

f) Sucesos complementarios: la probabilidad de un suceso complementario a un suceso (A) es igual a 1 - P(A) Ejemplo: lanzamos un dado al aire. El suceso (A) es que salga un número par, luego su complementario, suceso (B), es que salga un número impar. La probabilidad del suceso (A) es igual a : P(A) = 3 / 6 = 0,50 Luego, la probabilidad del suceso (B) es igual a: P(B) = 1 - P(A) = 1 - 0,50 = 0,50 Se puede comprobar aplicando la regla de "casos favorables / casos posibles": P(B) = 3 / 6 = 0,50 g) Unión de sucesos complementarios: la probabilidad de la unión de dos sucesos complementarios es igual a 1. Ejemplo: seguimos con el ejemplo anterior: a) que salga un número par, y b) que salga un número impar. La probabilidad del suceso unión de estos dos sucesos será igual a: P(A) = 3 / 6 = 0,50 P(B) = 3 / 6 = 0,50 Por lo tanto, P(A U B) = 0,50 + 0,50 = 1 COMBINACIONES, VARIACIONES Y PERMUTACIONES Para aplicar la Regla de Laplace, el cálculo de los sucesos favorables y de los sucesos posibles a veces no plantea ningún problema, ya que son un número reducido y se pueden calcular con facilidad: Por ejemplo: Probabilidad de que al lanzar un dado salga el número 2. Tan sólo hay un caso favorable, mientras que los casos posibles son seis. Probabilidad de acertar al primer intento el horóscopo de una persona. Hay un caso favorable y 12 casos posibles.

Page 59: Curso de estadística

ESTADÍSTICA ÁLVARO VALENCIA OROZCO

59

Sin embargo, a veces calcular el número de casos favorables y casos posibles es complejo y hay que aplicar reglas matemáticas: Por ejemplo: 5 matrimonios se sientan aleatoriamente a cenar y queremos calcular la probabilidad de que al menos los miembros de un matrimonio se sienten juntos. En este caso, determinar el número de casos favorables y de casos posibles es complejo. Las reglas matemáticas que nos pueden ayudar son el cálculo de combinaciones, el cálculo de variaciones y el cálculo de permutaciones. a) Combinaciones: Se llama combinaciones de m elementos tomados de n en n (m > n) a todas las agrupaciones posibles que pueden hacerse con los m elementos de forma que: No entran todos los elementos. No importa el orden. No se repiten los elementos. Determinar el número de subgrupos de 1, 2, 3, etc. elementos que se pueden formar con los "n" elementos de una nuestra. Cada subgrupo se diferencia del resto en los elementos que lo componen, sin que influya el orden. Por ejemplo, calcular las posibles combinaciones de 2 elementos que se pueden formar con los números 1, 2 y 3. Se pueden establecer 3 parejas diferentes: (1,2), (1,3) y (2,3). En el cálculo de combinaciones las parejas (1,2) y (2,1) se consideran idénticas, por lo que sólo se cuentan una vez. b) Variaciones: Se llama variaciones de m elementos tomados de n en n (m > n) a todas las agrupaciones posibles que pueden hacerse con los m elementos de forma que: No entran todos los elementos. Si importa el orden. No se repiten los elementos. Calcular el número de subgrupos de 1, 2, 3, etc. elementos que se pueden establecer con los "n" elementos de una muestra. Cada subgrupo se diferencia del resto en los elementos que lo componen o en el orden de dichos elementos (es lo que le diferencia de las combinaciones). Por ejemplo, calcular las posibles variaciones de 2 elementos que se pueden establecer con los números 1, 2 y 3. Ahora tendríamos 6 posibles parejas: (1,2), (1,3), (2,1), (2,3), (3,1) y (3,3). En este caso los subgrupos (1,2) y (2,1) se consideran distintos. c) Permutaciones: Se llama permutaciones de m elementos (m = n) a las diferentes agrupaciones de esos m elementos de forma que: Sí entran todos los elementos. Sí importa el orden. No se repiten los elementos Calcular las posibles agrupaciones que se pueden establecer con todos los elementos de un grupo, por lo tanto, lo que diferencia a cada subgrupo del resto es el orden de los elementos. Por ejemplo, calcular las posibles formas en que se pueden ordenar los números 1, 2 y 3. Hay 6 posibles agrupaciones: (1, 2, 3), (1, 3, 2), (2, 1, 3), (2, 3, 1), (3, 1, 2) y (3, 2, 1) ¿Cómo se calculan? a) Combinaciones: Para calcular el número de combinaciones se aplica la siguiente fórmula:

El término " n ! " se denomina "factorial de n" y es la multiplicación de todos los números que van desde "n" hasta 1. Por ejemplo: 4 ! = 4 * 3 * 2 * 1 = 24 La expresión "Cm,n" representa las combinaciones de "m" elementos, formando subgrupos de "n" elementos.

Page 60: Curso de estadística

ESTADÍSTICA ÁLVARO VALENCIA OROZCO

60

Ejemplo: son las combinaciones de 10 elementos agrupándolos en subgrupos de 4

elementos:

Es decir, podríamos formar 210 subgrupos diferentes de 4 elementos, a partir de los 10 elementos. b) Variaciones: Para calcular el número de variaciones se aplica la siguiente fórmula:

La expresión "Vm,n" representa las variaciones de "m" elementos, formando subgrupos de "n" elementos. En este caso, un subgrupo se diferenciará del resto, bien por los elementos que lo forman, o bien por el orden de dichos elementos. Ejemplo: son las variaciones de 10 elementos agrupándolos en subgrupos de 4 elementos:

Es decir, podríamos formar 5.040 subgrupos diferentes de 4 elementos, a partir de los 10 elementos. c) Permutaciones: Para calcular el número de permutaciones se aplica la siguiente fórmula:

La expresión "Pm" representa las permutaciones de "m" elementos, tomando todos los elementos. Los subgrupos se diferenciaran únicamente por el orden de los elementos. Ejemplo: P10 son las permutaciones de 10 elementos:

Es decir, tendríamos 3.628.800 formas diferentes de agrupar 10 elementos. Vamos a analizar ahora que ocurriría con el cálculo de las combinaciones, de las variaciones o de las permutaciones en el supuesto de que al formar los subgrupos los elementos pudieran repetirse. Por ejemplo: tenemos bolas de 6 colores diferentes y queremos formar subgrupos en los que pudiera darse el caso de que 2, 3, 4 o todas las bolas del subgrupo tuvieran el mismo color. En este caso no podríamos utilizar las fórmulas que vimos anteriormente. a) Combinaciones con repetición: Se llama combinaciones de m elementos tomados de n en n (m > n) a todas las agrupaciones posibles que pueden hacerse con los m elementos de forma que: No entran todos los elementos. No importa el orden. Sí se repiten los elementos. Para calcular el número de combinaciones con repetición se aplica la siguiente fórmula:

Ejemplo: C'10,4 =10C'4 son las combinaciones de 10 elementos con repetición, agrupándolos en subgrupos de 4, en los que 2, 3 o los 4 elementos podrían estar repetidos:

Page 61: Curso de estadística

ESTADÍSTICA ÁLVARO VALENCIA OROZCO

61

Es decir, podríamos formar 715 subgrupos diferentes de 4 elementos. b) Variaciones con repetición: Se llama variaciones con repetición de m elementos tomados de n en n a los distintos grupos formados por n elementos de manera que: No entran todos los elementos si m > n. Pueden entrar todos los elementos si m = n. Sí importa el orden. Sí se repiten los elementos. Para calcular el número de variaciones con repetición se aplica la siguiente fórmula:

Ejemplo: V'10,4 = 10 V'4 son las variaciones de 10 elementos con repetición, agrupándolos en subgrupos de 4 elementos:

Es decir, podríamos formar 10.000 subgrupos diferentes de 4 elementos. c) Permutaciones con repetición: Permutaciones con repetición de m elementos donde el primer elemento se repite a veces, el segundo b veces, el tercero c veces, ...(m = a + b + c + ... = n) son los distintos grupos que pueden formarse con esos m elementos de forma que : Sí entran todos los elementos. Sí importa el orden. Sí se repiten los elementos. Para calcular el número de permutaciones con repetición se aplica la siguiente fórmula:

Son permutaciones de "m" elementos, en los que uno de ellos se repite " x1 " veces, otro " x2 " veces y así ... hasta uno que se repite " xk " veces. Ejemplo: Calcular las permutaciones de 10 elementos, en los que uno de ellos se repite en 2 ocasiones y otro se repite en 3 ocasiones:

Es decir, tendríamos 302,400 formas diferentes de agrupar estos 10 elementos. EJERCICIOS RESUELTOS Ejemplo 1: Rutas de viaje Dos caminos unen a las ciudades A y B, cuatro unen a B y C, y cinco unen a las ciudades C y D. Para conducir de A a B, luego a C y por último a D, ¿Cuántas rutas diferentes son posibles? Este es un proceso por etapas. La primera de AB tiene dos posibilidades, la segunda de BC tiene cuatro y la tercera de CD tiene cinco. Por el principio multiplicativo de conteo, el número total de rutas es 2 x 4 x 5 = 40. Ejemplo 2: Respuestas de examen ¿De cuántas maneras puede ser respondido un examen bajo cada una de las siguientes condiciones?

a. El examen consiste en tres preguntas de opción múltiple con cuatro opciones para cada una. Responder de manera sucesiva las tres preguntas es un proceso de tres etapas. La primera pregunta puede ser respondida de cualquiera de cuatro formas. Del mismo modo, cada una de las otras preguntas puede ser respondida en cuatro formas. Por el principio multiplicativo de conteo el número de maneras para responder el examen es: 4 x 4 x 4 = 4^3 = 64..

b. El examen consiste en tres preguntas de opción múltiple (con cuatro opciones para cada una) y cinco preguntas de falso-verdadero. Responder el examen puede ser considerado como un proceso de dos etapas. Primero podemos responder las preguntas de opción múltiple (ésta es la primera etapa), y después responder las preguntas de falso-verdadero (la segunda etapa).

Page 62: Curso de estadística

ESTADÍSTICA ÁLVARO VALENCIA OROZCO

62

De la parte (a), las preguntas de opción múltiple pueden ser respondidas de 64 formas. Cada una de las preguntas de falso-verdadero tiene dos opciones (falso o verdadero), de modo que el número total de maneras de responder las cinco preguntas es 2 x 2 x 2 x 2 x 2. Por el principio multiplicativo de conteo, el número de maneras en que todo el examen puede ser respondido es: (4 x 4 x 4)( 2 x 2 x 2 x 2 x 2) = 4^3 x 2^5 = 2.048.

Ejemplo 3: Funcionarios de un club Un club tiene 20 miembros. Los cargos de presidente, vicepresidente, secretario y tesorero deben ser cubiertos y ningún miembro puede servir en más de un cargo. ¿Cuántas listas diferentes de candidatos son posibles? Consideremos una lista de candidatos en el orden de presidente, vicepresidente, secretario y tesorero. Cada ordenamiento de cuatro candidatos constituye una lista de candidatos, de modo que el número de posibles listas 20V4. De la ecuación de variación tenemos:

Ejemplo 4: Placas de automóvil En Colombia, las placas de los autos tienen 3 letras seguidas de 3 dígitos. ¿Cuántas placas se pueden hacer si:

a. Se permite repetir letras. Se pueden hacer elecciones, una por cada letra o por cada dígito. Tracemos un cuadro para cada etapa:

26 26 26 10 10 10 Letras Dígitos

En la primera etapa se elige una letra de 26 posibles; en la segunda etapa, otra letra (de nuevo entre 26 opciones); en la tercera etapa, otra letra (26 opciones); en la cuarta un digito de 10 posibles; en la quinta, un dígito (de nuevo de entre 10 opciones) y en la sexta etapa, otro digito (10 opciones). Según el principio multiplicativo de conteo, la cantidad de placas distintas es: 26 x 26 x 26 x 10 x 10 x 10 = 17.576.000

b. No se permite repetir letras Si no se permite repetir letras, las opciones se pueden representar como sigue:

26 25 24 10 10 10 Letras Dígitos

En la primera etapa tenemos 26 letras para elegir, pero una vez seleccionada la primera letra, solo quedan 25 para elegir en la segunda etapa. Una vez elegidas las dos primeras, quedan 24 para elegir en la tercera etapa. Los dígitos se determinan como antes. Así, la cantidad de placas distintas en este caso es: 26 x 25 x 24 x 10 x 10 x 10 = 15.600.000

Ejemplo 5: Los seis corredores ¿De cuantas formas distintas puede terminar una competencia entre seis corredores? (Suponga que no hay empates.) Hay seis opciones distintas para el primer lugar, cinco para el segundo, porque después de haberse decidido el primer lugar solo quedan cinco corredores, hay cuatro opciones para el tercer lugar, y así sucesivamente. De acuerdo con el principio multiplicativo, la cantidad de opciones distintas en la que puede terminar esta carrera es: 6! = 6 x 5 x 4 x 3 x 2 x 1 = 720 Ejemplo 6: Las pelotas Calcule el número de formas distintas en que se pueden colocar 15 pelotas en una fila, si cuatro son rojas, tres son amarillas, seis son negras y dos son azules. Se trata de determinar el número de

Page 63: Curso de estadística

ESTADÍSTICA ÁLVARO VALENCIA OROZCO

63

permutaciones distinguibles de esas pelotas. De acuerdo con la fórmula de permutación con repetición, ese número es:

Ejemplo 7: Miembros del club Un club tiene nueve miembros, ¿De cuantas formas se puede elegir un comité de tres miembros entre los nueve del club? Se necesita calcular el número de formas de elegir tres miembros de los nueve. En este caso no importa el orden, porque el comité será igual sin importar como se ordenan sus miembros. Así, se desea conocer el número de combinaciones de nueve objetos (los miembros del club) tomados de tres en tres. El número es:

Ejemplo 8: Carrera de caballos Calcular la probabilidad de, en una carrera de 12 caballos, acertar los 3 que quedan primeros (sin importar cuál de ellos queda primero, cual segundo y cual tercero). Se aplica la Regla de Laplace. El caso favorable es tan sólo uno: los 3 caballos que entran en primer lugar. Los casos posibles se calculan como combinaciones de 12 elementos tomados de 3 en 3 (es decir, determinamos todos las posibles alternativas de 3 caballos que pueden entrar en las 3 primeras posiciones). Como el orden de estos 3 primeros caballos no importa, utilizamos combinaciones en lugar de variaciones. Por lo tanto, los casos posibles son:

Por lo que la probabilidad de acertar los 3 caballos ganadores es:

Ejemplo 9: Carrera de caballos Y si hubiera que acertar, no sólo los 3 caballos que ganan, sino el orden de su entrada en meta. El caso favorable sigue siendo uno: los 3 caballos que entran en primer lugar, colocados en su orden correspondiente. Los casos posibles se calculan ahora como variaciones (ya que el orden influye) de 12 elementos tomados de 3 en 3 (calculamos todas las posibles maneras en que los 12 caballos podrían ocupar las 3 primeras posiciones.

Por lo que la probabilidad de acertar los 3 caballos ganadores es:

Menor que en el ejemplo 8. Ya que no vale acertar que 3 caballos entran en primer lugar, sino que tenemos que acertar el orden de su entrada.

EJERCICIOS 1. Determine la probabilidad p, o un estimador de ella, para cada uno de los siguientes sucesos:

a. La aparición de un número impar en la tirada de un dado equilibrado. b. La aparición de al menos una cara en dos lanzamientos de una moneda. c. La obtención de 7 puntos en una sola tirada de un par de dados.

2. De una caja que contiene 6 bolas rojas, 4 blancas y 5 azules se extrae una al azar. Determine la probabilidad de que sea Roja. Blanca. Azul.

Page 64: Curso de estadística

ESTADÍSTICA ÁLVARO VALENCIA OROZCO

64

No roja Roja o blanca.

3. Se lanza un dado dos veces. Hallar la probabilidad de obtener 4, 5 ó 6 en el primero y 1, 2, 3 ó 4 en el segundo.

4. Se extraen sucesivamente tres bolas de una caja que contiene 6 bolas rojas, 4 blancas y 5 azules. De termine la probabilidad de que sean extraídas en el orden roja, blanca y azul si las extracciones son: a) con reemplazamiento y b) sin reemplazamiento.

5. Halle la probabilidad de obtener al menos un 4 en dos lanzamientos de un dado. 6. Una bolsa contiene 4 bolas blancas y 2 bolas negras; otra contiene 3 bolas blancas y 5 bolas

negras. Si se extrae una bola de cada bolsa, halle la probabilidad de que a) ambas bolas sean blancas b) ambas bolas sean negras c) una sea blanca y la otra negra d) una sea negra y la otra blanca.

7. Un monedero contiene 2 monedas de plata y 4 monedas de cobre, y un segundo monedero contiene 4 monedas de plata y 3 de cobre. Si se elige al azar una moneda de cada monedero, cuál es la probabilidad de que una sea de plata?.

8. De un total de 800 familias con 4 hijos cada una, qué porcentaje cabe esperar que tenga a) 2 niñas y 2 niños, b) al menos 1 niño, c) ninguna niña, d) a lo sumo 2 niñas.

9. La probabilidad de que un hombre viva dentro de 25 años es 3/5 y la probabilidad de que una mujer viva dentro de 25 años es 2/3. Halle la probabilidad de que dentro de 25 años: a) ambos vivan, b) viva solamente el hombre, c) viva solamente la mujer y d) al menos uno viva.

10. Determine la probabilidad o un estimador de ella para el suceso “un cerrojo no defectuoso a extraer de una población, si de 600 ya examinados, 12 fueron defectuosos”.