Modulo1 estadistica

INTRODUCCIÓN Este modulo le brinda la oportunidad de conocer e implementar diferentes técnicas tabulares y gráficas que le permitirán sintetizar y presentar la información, dependiendo de qué tipo sea. Encontrará actividades cuya finalidad es aplicar los conceptos que va estudiando. Tenga presente en ir realizando los cálculos planteados e interpretando los resultados. OBJETIVOS Al finalizar el modulo “estadística descriptiva” usted podrá:

1. Identificar y clasificar la información que desea analizar o resumir.

2. Diferenciar de acuerdo al tipo de variable, las herramientas que puede utilizar para describir un conjunto de datos.

3. Realizar gráficas y tablas en Excel, útiles para la presentación de informes.

4. Identificar la importancia de contar con información precisa y confiable.

5. Reconocer los diferentes mecanismos para la recolección de información.

1. Introducción 2. Algunas definiciones de estadísticas 3. Clases de variables 4. Escalas de medición 5. Representación de datos cuantitativos 6. Representación de datos cualitativos 7. Medidas de tendencia y variabilidad

Ideograma del módulo

Contenido

1. Introducción

Todos los días, por diferentes medios, escuchamos o leemos información referente a tasas, porcentajes, índices, promedios, resultados de encuestas, censos, entre otros. Todos estos temas están relacionados con la estadística o son estadísticas. Pero ¿qué es la estadística? Si buscamos en el diccionario1 podemos encontrar las siguientes definiciones

1. Estudio de los casos cuantitativos de la población, de los recursos naturales e

industriales, del tráfico o de cualquier otra manifestación de las sociedades humanas. 2. Rama de la matemática que utiliza grandes conjuntos de datos numéricos para obtener

inferencias basadas en el cálculo de probabilidades

Algunos autores la definen en un sentido amplio como el arte y la ciencia de reunir, analizar, presentar e interpretar datos2. No existe una definición universal, cada autor da una definición diferente, sin embargo la mayoría de las definiciones apuntan a que es un conjunto de técnicas utilizadas para la recolección, observación, exploración, organización, síntesis, análisis e interpretación de un conjunto de datos. Algunas de las herramientas estadísticas (que coinciden con ramas de la estadística) que se pueden utilizar para realizar análisis de datos son:

1 www.rae.es 2 Estadística para administración y economía. Volumen 1. Anderson, David. Pág.3.

Estadística

Descriptiva Probabilida

d

Muestreo, censos y

encuestas

Diseño de experimentos

Seies de Tiempo

RegresiónModelos

lineales

Estadìstica multivariad

a

Estadìstica no

paramétrica

Geoestadísitica

Bioestadìstica

Demografìa

Debido a esta gran variedad de temas, es que la estadística se ha vuelto tan importante dentro de cada una de las profesiones y en las diferentes actividades del campo laboral. En este curso se abordaran tres de éstas ramas y al final se dará una introducción a las demás, de tal manera que el estudioso pueda identificar los campos de acción de cada una y así profundizar en los que sean de su interés.

2. Algunas definiciones

La estadística se puede clasificar en dos ramas o fases grandes: la estadística descriptiva y la estadística inferencial.

Para profundizar los temas de este modulo, puede consultar cualquier libro de estadística en donde se encuentre el tema estadística descriptiva.

o Datos: son los hechos y números que se reúnen para ser sintetizados, analizados e interpretaos.

o Conjunto de datos: corresponde a la reunión de datos. o Elementos: objetos o personas que tienen la información a estudiar o Población: es el conjunto de elementos que tienen una característica común o Muestra: es un subconjunto de la población o Variable: característica de interés de los elementos.

Para aclarar estos conceptos, se tomara como ejemplo, los datos que se encuentran en el archivo de Excel, Datos simulados sobre empresas, los cuales corresponden a datos de 36 empresas que han sido simulados, con el fin de que el estudioso afiance los conceptos que se van dando en el modulo. Teniendo en cuenta que uno de los objetivos de este curso es que se familiarice con la herramienta Excel, antes de iniciar es necesario que conozca el manejo básico de éste, por lo se recomienda ver el video Introducción a Excel.

Aquí encontramos información referente a un conjunto de datos, donde los elementos son las empresas. En este caso supondremos que estas 36 empresas son todas las que se dedican al trabajo en el campo en una zona del país, es decir la población. La información que se tiene para cada una de las empresas son su venta y compra en un año determinado, la actividad, el tipo de propietario, el tipo de empresa y el número de empleados, estas son las variables con que se cuenta. Haga una descripción inicial de la información que allí se encuentra, ¿qué puede decir de cada variable?, ¿que podría hacer con cada una?, ¿cómo analizaría la información?. Guarde sus respuestas y a medida que vaya avanzando en el contenido del modulo, observe en que cambian sus apreciaciones iníciales o en que se complementan.

Estadística descriptiva: Describe, organiza, sintetiza, representa los datos de tal manera que se puedan identificar las principales características de éstos. Estadística inferencial: A partir de muestras, se emplean métodos para realizar estimaciones, predicciones, análisis en los que se busca dar explicación al comportamiento de los datos y así poder dar conclusiones para la toma de decisiones.

Como se definió anteriormente una muestra es un subconjunto de la población. Existen muestras probabilísticas y no probabilísticas. Cuando se quiere seleccionar una muestra probabilística es necesario definir el diseño muestral, dependiendo de las características de la población. Una vez definido se selecciona el tamaño de la muestra y luego se emplea un mecanismo de selección. El diseño muestral más sencillo corresponde a un MAS (muestreo aleatorio simple). Uno de los mecanismos de selección más utilizados bajo este diseño es conocido como coordinado negativo, que consiste en asignar a cada uno de los elementos de la población un número aleatorio y ordenar la información respecto a ese número. Luego se selecciona la muestra de tamaño n, tomando los primeros n elementos. Para seleccionar una muestra del total de las 36 empresas, supondremos que el tamaño de muestra es 10, en el archivo genere una columna con números aleatorios, organícelos y escoja los primeros 10 elementos, esos serán la muestra.

En el archivo selección de datos se encuentra una ayuda de cómo utilizar Excel para generar números aleatorios y seleccionar la muestra. Recuerde que puede complementar estas ayudas con las que tiene Excel sobre cada una de las

funciones.

El tema de muestreo no se tocará en este curso, sin embargo si desea indagar un poco más puede consultar el siguiente libro o cualquier otro de estadística que abarque el tema de muestreo. Titulo: Estadística y Muestreo

Autor: Ciro Martínez B.

3. Clases de variables Para analizar la información es necesario identificar el tipo de variables que se tiene, para así determinar las herramientas que pueden ser utilizadas. Los tipos de variables son: En el ejemplo que se está trabajando, las variables venta del año y compra del año son variables cuantitativas, que indican cuanto es la venta y compra de cada empresa. Además se puede calcular, por ejemplo, el total de ventas del año para la población, que corresponde a la suma de

Muestra probabilística: Cuando se utilizan mecanismos en los que se tienen en cuenta la probabilidad de selección de cada uno de los elementos de la población. Muestra no probabilística: Los elementos de la población se seleccionan a conveniencia de la persona que está estudiando la información.

Variables cualitativas: Cuando toma valores que se asocian con identificadores o nombres de una característica. Ejemplos: género, estrato socioeconómico o estado civil. Variables cuantitativas: Cuando toma cantidades numéricas con las que se pueden calcular operaciones aritméticas. Indican cuanto o cuantos. Ejemplos: edad, ingresos, temperatura.

los valores de la variable venta del año para todas las empresas, este valor da $807.734.010. (Hipervínculo al archivo Suma en Excel) Las variables actividad y tipo de propietario, son variables cualitativas. La variable actividad toma los valores: ganadería, agricultura y pesca. Antes de continuar, examine la variable tipo de empresa ¿que tipo de variable es?, ¿por qué?

La variable tipo de empresa da una clasificación de la empresa que toma los valores 1 y 2, sin embargo no se ha dado información sobre su significado. Las variables cuantitativas siempre toman valores numéricos y las varialbes cualitativas puden tomar valores numéricos y no numéricos. En ocasiones se utilizan números y se asigna una

etiqueta, en esta caso, esta variable es cualitativa, donde el número 1 equivale a empresa pequeña y 2 significa empresa grande.

Busque más ejemplos y clasifique las variables. Recuerde que en caso de tener preguntas puedes enviar correos o plantear la inquietud en el foro.

Las variables cuantitativas se pueden clasificar en dos grupos: discretas y continuas, dependiendo de su naturaleza matemática. Algunos ejemplos de variables discretas son: número de hijos en una familia, edad en años cumplidos, número de días trabajados. En cuanto a variables continuas podemos nombrar: peso de una persona, temperatura registrada, ingresos mensuales de un estudiante.

4. Escalas de medición Cuando se hace una medición se busca que sea válida y fiable. La validez hace referencia a que mide lo que debe medir, la fiabilidad quiere decir que si la medición es repetida se obtendrán los mismos resultados. Estas dos características están relacionadas principalmente con el instrumento utilizado para realizar la medición. Por ejemplo, si se necesita medir la temperatura de un líquido en una caldera, se puede utilizar como instrumento de medición un termómetro electrónico. Al realizar las mediciones nadie se dio cuenta que el termómetro estaba descalibrado por lo que los datos obtenidos fueron válidos porque corresponden a la temperatura, pero no son fiables debido a que el instrumento no media con certeza. Existen cuatro escalas de medición: nominal, ordinal, de intervalo y de razón, las cuales permiten dar una clasificación más grande a las variables. Escala nominal: Se relaciona con “nombrar” y consiste en asignar a los valores de la variable un símbolo o un número arbitrario, sin que exista una relación de orden o proporción. La idea es que cada elemento sea asignado a una categoría. Cuando la variable solo tiene dos categorías se le llama variable dicotómica y cuando tiene un mayor número de categorías se conoce como variable policotómica.

Variable discreta: Toma valores sobre un conjunto discreto, es decir no admite valores intermedios entre dos valores dados. Variable continua: Puede tomar cualquiera de los infinitos valores que hay en un intervalo, es decir admite valores intermedios entre dos valores dados.

En el ejemplo de las empresas las variables tipo de empresa, tipo de propietario y actividad tienen escala nominal. Las variables tipo de empresa y tipo de propietario son dicotómicas. Escala ordinal: También se puede encontrar como escala de orden jerárquico. Esta escala se relaciona con “nombrar” y “ordenar”, a diferencia de la escala nominal, aquí si existe un orden entre las categorías. En el ejemplo que se ha trabajado no se tiene ninguna variable de escala ordinal, sin embargo si se preguntara por el estrato socioeconómico en el que está ubicada la empresa se podría construir una. Otros ejemplos de variables de escala ordinal son:

La calificación que da un consumidor a un producto entre: excelente, bueno, regular, malo. El nivel de estudio de un empleado: bachiller, técnico, universitario.

Escala de intervalo: Se relaciona con “nombrar”, “ordenar” y “medir”. En esta escala el cero no es absoluto, es decir que no significa ausencia de valor, por lo que operaciones como multiplicación o división no tienen sentido. Por ejemplo cuando se mide la temperatura, los resultados en una prueba o variables referentes a fechas. Escala de razón: Se relaciona con “nombrar”, “ordenar” y “medir”. A diferencia de la escala de intervalo, el cero significa ausencia de la característica, por lo que las operaciones aritméticas tienen sentido. Las variables ventas y compras del año en el ejemplo trabajado están en ésta escala, donde el cero significa que no hubo ventas o compras. Actividad de refuerzo Se realizó una encuesta a los estudiantes de la Universidad Manuela Beltrán, algunas de las preguntas realizadas se encuentran a continuación. Clasifique cada una de acuerdo a las opciones que se dan Variable Cuantitativa Cualitativa Ordinal Intervalo Escala Edad en años cumplidos X X Ciudad de nacimiento X Semestre en el que se encuentra X X Estado civil X Ingresos en pesos X X Nota final de la materia X X

5. Representación de datos cualitativos Cuando se tiene un conjunto de datos, no es de interés mostrar la información para cada uno de los elementos sino realizar una síntesis de dicha información. Para esto se recurren a tablas o gráficos, en donde se pueda observar las principales características de cada una de las variables, dependiendo el tipo que ésta sea.

Recomendaciones al momento de presentar información Siempre que se presente información, ya sea tabulada o en gráficos es necesario:

1. Colocar títulos haciendo referencia a la información que allí se encuentra. 2. Incluir las unidades en que se encuentra la medición 3. Incluir la fuente de datos

No toda la información que se encuentra en Internet es confiable, por eso siempre verifique que el sitio que se está consultando sea fiable y contenga información oficial. Foro 1: Indague sobre los pasos que se deben seguir al plantear un trabajo de investigación o un proyecto, haciendo énfasis en la etapa de recolección de datos, contestando preguntas como ¿qué mecanismos de recolección existen?, ¿cómo detectar la confiabilidad de la información?. Recuerde que debe ser breve y concreto.

En el caso de que las variables sean cualitativas se pueden realizar tablas de frecuencias, diagrama de barras y diagrama circular. Una tabla de frecuencias es un esquema en el que se presenta cuantos elementos hay para cada una de las categorías de la variable. Tomando las variables cualitativas del ejemplo de las empresas, se cuenta el número de empresas cuya actividad es ganadería, las que se dedican a la agricultura y por último las que son de pesca. La tabla de frecuencias para esta variable es

Número de empresas por actividad Actividad Frecuencia Agricultura 12 Ganadería 12 Pesca 12 Total 36

Fuente: Datos simulados para 36 empresas Al observar el total de empresas por actividad, se evidencia que la distribución es equitativa, debido a que en cada actividad el número de empresas es igual. En una tabla de frecuencias no solo es necesario la frecuencia absoluta, sino la frecuencia relativa y la acumulada, las cuales se definen a continuación. Frecuencia absoluta: número de elementos que pertenecen a la categoría i. Se denota por 푓 .

Fuente de datos: de donde se obtiene la información. Existen dos tipos de fuentes: primaria y secundaria. La fuente de datos primaria corresponde a la información con la que cuenta la empresa, el investigador o persona que está realizando el estudio, generalmente recolectada por ellos mismos. Las fuentes secundarias, corresponde a información que ha sido publicada y recogida por otros. Por ejemplo, el gerente de una empresa está interesado en indagar como están los precios de los productos de su empresa comparados con los de la “competencia”, para esto recurre a las bases de datos de su empresa en las que se encuentran los precios de los diferentes productos, esta es una fuente primaria. Para poder comparar necesita información similar para las otras empresas, por lo que indaga en Internet y encuentra reportes con la información que él necesita, esta es una fuente secundaria.

Frecuencia relativa: proporción de individuos que pertenecen a la categoría i respecto al total de elementos. Se denota por 퐻 = , donde n es el total de elementos. Frecuencia absoluta acumulada: suma de la frecuencia absoluta hasta la categoría t. Se denota por 퐹 = ∑ 푓 . La suma sobre todas las categorías da el número total de elementos n. Frecuencia relativa acumulada: suma de la frecuencia relativa hasta la categoría t. Se denota por 퐻 = ∑ ℎ . La suma sobre todas las categorías da 1. Teniendo en cuenta estas definiciones la tabla de frecuencias para la variable actividad queda

Tabla de frecuencias para la variable Actividad i Actividad fi Fi hi Hi 1 Agricultura 12 12 0,3333 0,3333 2 Ganadería 12 24 0,3333 0,6667 3 Pesca 12 36 0,3333 1

Fuente: Datos simulados para 36 empresas

Para obtener la frecuencia absoluta de una variable se puede recurrir a las tablas dinámicas en Excel o a la función frecuencia.

En el archivo cálculo de frecuencias encuentras instrucciones para aprovechar Excel.

Calcule las tablas de frecuencias para las demás variables cualitativas del ejemplo. En ocasiones la frecuencia relativa se representa en términos de porcentaje, es decir se multiplica por 100. Una vez se tiene la información sintetizada se puede presentar en la tabla o por medio de gráficos. A continuación se presentan los gráficos más conocidos y utilizados para la presentación de este tipo de datos. Diagrama de barras Corresponde a un gráfico de barras horizontales o verticales, en donde la altura de las barras indica la frecuencia para cada una de las categorías. En uno de los ejes van las categorías y en el otro la frecuencia asociada a cada categoría. Un caso particular del gráfico de barras es el gráfico de pareto, en el que se presentan las categorías de mayor a menor frecuencia. A continuación se muestra un ejemplo de un diagrama de barras horizontales, para la variable estado civil. El gráfico de la derecha representa la frecuencia relativa en términos de porcentaje, mientras que el de la izquierda representa la frecuencia absoluta.

Cuando se presente información en términos de la frecuencia relativa siempre es necesario indicar cuál es el total de la población, para dar a los lectores una mayor interpretación de la información. Por ejemplo, si usted escucha que el 50% de las estudiantes del curso tienen una relación sentimental con el profesor ¿Qué pensaría?, y si le dicen que el total de estudiantes es 2, ¿Cambia su apreciación? Diagrama circular Este tipo de gráficos también es conocido como gráficas de tortas. Se utiliza para representar las frecuencias relativas o porcentuales. En este tipo de representación es muy importante colocar las claves que identifican cada categoría.

Para esos datos, se observa que la población se concentra en aquellos cuyo estado civil es unión libre y soltero.

Realice los gráficos para las variables del ejemplo de las empresas y de una breve conclusión sobre como es su comportamiento.

6. Representación de datos cuantitativos

Cuando las variables son cuantitativas, también es posible realizar una tabla de frecuencias. Se requiere definir unas clases que no se traslapen, de tal manera que cada uno de los elementos sea ubicado en una única clase. Es indispensable decidir cuantas clases, su ancho y limites. A continuación se dan algunas definiciones útiles para la elaboración de la tabla de frecuencias.

Ancho de intervalo: diferencia entre los límites superior e inferior del intervalo. Marca de clase: punto medio del intervalo de clase, se calcula como , donde LI y LS indican el valor del límite inferior y superior del intervalo, respectivamente. Pasos para construir una tabla de frecuencias

1. Determinar el número de clases. No existe una metodología para la determinación del

0

2

4

6

8

10

Casado(a) Soltero(a) Unión libre Viudo(a)

3

109

4

Frec

uenc

ia

Estado civil

Número de estudiantes de acuerdo a su estado civil

0%

10%

20%

30%

40%


12%

38%35%

15%

Porc

enta

je

Estado civil

Porcentaje de estudiantes de acuerdo a su estado civil

12%

38%35%

15%

Porcentaje de estudiantes de acuerdo a su estado civil


número de intervalos de clase, sin embargo en la literatura se encuentra que sea entre 5 y 20 clases, dependiendo del número de elementos que se tengan, este paso depende más de los objetivos planteados en el análisis.

2. Fijar la longitud de los intervalos. Para esto se toma el rango de los datos (corresponde a tomar la mayor y menor observación de la variable y restarlas) y se divide por el número de clases. Se recomienda tomar intervalos de igual longitud, para así reducir la probabilidad de que quien lea la información de conclusiones erróneas.

3. Establecer los límites de cada uno de los intervalos de clase. Hay que tener en cuenta que la observación más pequeña debe quedar contenida en el primer intervalo y la mayor observación en el último intervalo.

4. Contar las frecuencias por clase. Para cada intervalo de clase se cuenta el número de elementos que pertenecen a cada uno, es decir la frecuencia absoluta 푓 . Al igual que en el caso de datos cuantitativos, se calcula la frecuencia relativa y las frecuencias acumuladas.

Tomando la variable número de empleados del ejemplo de las empresas, se calcula el rango de los datos, para esto podemos utilizar las funciones mínimo y máximo de Excel, cuyas sintaxis son =min(rango de datos) y =max(rango de datos) respectivamente.

Información para el cálculo de la tabla de frecuencias Mínimo 3 Máximo 25 Rango 22 Número de elementos 36 Número de clases 5 Longitud de los intervalos 22/5=4,40

Tabla de frecuencias para la variable número de empleados

i Intervalos de clase

Marca de clase fi Fi hi Hi

1 [3 , 7.4) 5.2 10 10 0,28 0,28 2 [7.4 , 11.8) 9.6 6 16 0,17 0,44 3 [11.8 , 16.2) 14 8 24 0,22 0,67 4 [16.2 , 20.6) 18.4 5 29 0,14 0,81 5 [20.6 , 25] 22.8 7 36 0,19 1,00

Fuente: Datos simulados para 36 empresas Los gráficos más empleados para representar este tipo de variables son el histograma, el polígono de frecuencias y la ojiva. Histograma El histograma es una herramienta gráfica utilizada para representar las frecuencias. Con estos gráficos se busca examinar de una manera visual (que en ocasiones es más sencillo) si existen datos que se acumulan o concentran en una categoría en particular, la forma y variabilidad que tienen los datos.

A continuación se muestra dos histogramas como ejemplo, el del lado izquierdo nos indica que los datos sobre la variable edad se concentran hacia edades pequeñas entre 3 y 5 años, mientras que el histograma de la derecha indica que la población que se está estudiando se concentra en niños entre 7 y 10 años.

Polígono de frecuencias En este gráfico se coloca en el eje horizontal la marca de clase y en el eje vertical la frecuencia de cada intervalo de clase y se unen dichos puntos con una línea.

Ojiva Éste gráfico corresponde a un polígono de frecuencias pero graficando la marca de clase Vs la frecuencia acumulada.

0

2

4

6

8

10

12

5.2 9.6 14 18.4 22.8

Frec

uenc

ias

Edad

Histograma de frecuencias absolutas del número de empleados en las empresas

0

10

20

30

40

3 4 5 6 7 8 9 10

Frec

uenc

ia

Edad en años cumplidos

Histograma de frecuencias absolutas para la variable edad

0

10

20

30

40

3 4 5 6 7 8 9 10

Frec

uenc

ia

Edad en años cumplidos

Histograma de frecuencias absolutas para la variable edad

0,00

0,05

0,10

0,15

0,20

0,25

0,30

5.2 9.6 14 18.4 22.8

Frec

uenc

ia r

elat

iva

Edad

Poligono de frecuencias relativas del número de empleados en las empresas

Como conclusión general se puede decir que el número de empleados de las 36 empresas que se están estudiando no muestra concentraciones significativas en alguno de los intervalos de clase.

Calcule la tabla de frecuencias y los gráficos para las demás variables continuas del ejemplo de las empresas, utilizando 5, 7 y 9 clases para su construcción. ¿Cambian los resultados en cada caso?

Excel cuenta con herramientas de análisis complementarias con la que es posible realizar la tabla de frecuencias y el histograma. Para acceder a ella es necesario instalarla. En el archivo Herramientas de análisis complementarias encuentra como hacerlo. La función histograma le pide el rango de datos y el rango de clases. Este último campo puede no diligenciarlo y el programa asignará el número de intervalos de clase que crea conveniente. En el caso que desee un número de clases específico, debe escribir los límites superiores de los intervalos de clase en una columna y seleccionarlos en éste campo. Esta función saca la tabla de frecuencias absolutas y brinda la opción de mostrar la frecuencia relativa acumulada en porcentaje, organizar los intervalos de acuerdo a su frecuencia y graficar el histograma y la ojiva.

Lea la ayuda de Excel sobre esta función, realice ejercicios y en caso de duda, consulte a su tutor.

Aunque la función histograma se utiliza para el análisis de variables cuantitativas, puede ser usada en el caso de variables cualitativas asignando claves numéricas a cada categoría, como se hizo en el caso de la variable tipo de empresa, en el ejemplo que se ha trabajado. En el campo rango de clases se coloca el listado de las claves. Al momento de presentar la información no olvide indicar el significado de cada clave.

0,00

0,20

0,40

0,60

0,80

1,00

1,20

5.2 9.6 14 18.4 22.8

Frec

uenc

ia r

elat

iva

Edad

Ojiva de frecuencias relativas del número de empleados en las empresas

Existe otro tipo de gráfico, que es utilizado para explorar como se encuentra la distribución de los datos, es conocido como Diagrama de Tallos y Hojas. Averigüe como se construye y cuál es su utilidad. Entregue esto como un punto adicional de la Actividad 1.

Actividad 1. Cuando se tienen dos variables cuantitativas, se puede tener interés en indagar si existe algún tipo de relación entre éstas. A través de un diagrama de dispersión se puede examinar si entre dos variables existe una relación lineal, no lineal o no existe relación. Para hacer el diagrama de dispersión de X y Y dos variables cuantitativas, se grafican en un plano cartesiano las parejas de puntos (xi, yi), donde xi es el valor que toma la variable X y yi el valor de la variable Y para la observación i. En el ejemplo de las empresas, si se quisiera examinar la relación entre las variables ventas del año y compras del año, el diagrama de dispersión estaría conformado por 36 puntos (uno por cada empresa), las coordenadas del punto que identifica la empresa 1 seria (17.380.929, 10.192.412), donde el primer valor representa las ventas y el segundo la compras, a continuación se muestra el diagrama para estas variables, en el que no se observa algún patrón en los puntos graficados, por lo que es un indicio de que no existe una relación entre las dos variables.

Un diagrama de dispersión puede reflejar una relación lineal, cuando su tendencia se asemeja a la de una recta. En el gráfico se da un ejemplo de una relación lineal entre dos variables: estatura y peso de niños. Se observa que al aumentar el peso de los niños también aumenta su estatura, esto es lo que se conoce como una relación lineal directa o positiva. La línea roja está indicando la tendencia que presentan los datos, en donde es evidente que es una línea con pendiente positiva.

Una relación inversa o negativa es cuando al aumentar los valores de una de las variables, los de la otra disminuyen, es decir que la línea que indica la tendencia de los datos tiene una pendiente negativa. Con el diagrama de dispersión también es posible evidenciar un tipo de relación no lineal, por ejemplo, el gráfico de la derecha muestra la relación que existe entre la temperatura y el tiempo que demora en reproducirse un nuevo tipo de bacteria. Se observa que el tiempo de reproducción va aumentando al aumentar la temperatura hasta 132 grados, sin embargo en ese punto al disminuir la temperatura el tiempo de reproducción aumenta, la tendencia de los datos se asemeja a una parábola cóncava hacia abajo, como se define con la línea roja. Cuando en un diagrama se observa un patrón pero los puntos tienen gran dispersión, se dice que la relación entre las dos variables es débil.

0

10.000.000

20.000.000

30.000.000

40.000.000

50.000.000

0 10.000.000 20.000.000 30.000.000 40.000.000 50.000.000

Com

pras

Ventas

Diagrama de dispersión de las ventas y compras del año

120

125

130

135

140

145

25 30 35 40 45 50 55

Esta

tura

(en

cms)

Peso (en Kgs)

Diagrama de dispersión de la estatura y el peso de 44 niños

124

126

128

130

132

134

20 25 30 35 40 45 50 55

Tem

pera

tura

(en

ºC)

Tiempo de reproducción (en minutos)

Diagrama de dispersión de la temperatura y el tiempo de reproducción de un nuevo tipo de bacteria

Cuando no existe un tipo de relación entre las dos variables, no se observa ningún patrón en los puntos graficados, como el observado en el ejemplo de las empresas con las variables compras y ventas. Estos gráficos se pueden hacer en Excel, escogiendo gráfico de dispersión en la barra de herramientas de la opción Insertar en el menú principal.

7. Medidas de tendencia y variabilidad

Hasta este momento se han observado métodos que permiten resumir y presentar los datos de manera que el usuario pueda visualizar las características principales de los datos. Ahora se presentaran métodos numéricos para complementar los análisis. A un conjunto de datos se le examinan algunas características como su tendencia central, la variación con respecto a dicho centro y la forma en que se agrupan. Medidas de localización o tendencia Las medidas de tendencia sirven para identificar alrededor de que valor se agrupan los valores de la muestra o población. Las tres medidas más utilizadas son la media o promedio, la moda y la mediana. Media: se obtiene sumando todos los valores de la variable y dividiendo por el número total de elementos, es decir si 푥 representa el valor del dato i, para 푖 = 1, 2, … ,푛, entonces la media se define como

푥̅ =∑ 푥푛

Esta medida se deja influenciar de datos atípicos, por lo que no es aconsejable usarla cuando en al hacer el histograma nos damos cuenta que los datos se encuentran concentrados hacia algunos de los extremos, es decir cuando son asimétricas.

¿Qué es un promedio ponderado? ¿Cómo se calcula?

Ejemplo 2. Tomando el siguiente conjunto de 42 datos que corresponde a la edad que tenían los estudiantes que ingresaron a la UMB a una carrera en el primer semestre de 2009, cuando se graduaron.

18 16 17 15 15 16 17 17 18 15 17 15 18 17 16 17 15 18 15 16 17 17 18 18 17 15 16 17 18 18 15 17 15 16 15 16 17 17 17 17 18 18

La sintaxis de la función promedio en Excel es =promedio(rango de datos). El valor promedio de estos datos es 푥̅ = 16.6, es decir la edad promedio de los estudiantes al graduarse era de 16.6 años.

Dato atipico u outlier: hace referencia a datos extraños dentro del conjunto de datos, debido a que no sigue la tendencia del resto de observaciones. Se pueden presentar por errores en la medición

Mediana: Para su cálculo es necesario ordenar las observaciones de menor a mayor y corresponde al valor que divide los datos. La denotaremos por 푥. Si el número de elementos es impar la mediana corresponde al valor de la observación de la mitad. Para el siguiente conjunto de 7 datos, la mediana es 푥 = 15.

13 13 14 15 15 17 23 En el caso en que el número de observaciones es par, se promedia los valores de las observaciones de la mitad. Para el siguiente conjunto de 8 datos la mediana es el promedio de los valores 15 y 16, es decir 푥 = 15.5

13 13 14 15 16 17 23 24 A diferencia de la media, no se deja influenciar de valores atípicos o extremos debido a que su cálculo no depende del valor que tomen las observaciones sino del orden de éstas. La sintaxis de ésta función en Excel es =mediana(rango de datos). Para el ejemplo 2 el valor de la mediana es 17. Para observar cómo se deja influenciar la media por valores atípicos, tome en el ejemplo 2, la primera observación y asuma que la persona encargada de realizar la captura de los datos cometió un error y en lugar de 18 digitó 58. Al calcular la media y la mediana se obtiene 푥̅ = 17.6 y 푥 = 17. Es decir que el valor de la media se aumentó debido a la presencia de un dato extremo, mientras que la mediana no cambio. Por esta razón es necesario examinar la distribución de los datos para determinar la medida de localización adecuada a ser usada. Moda: Es el valor de los datos que tiene mayor frecuencia. Puede que no sea un valor único, cuando se presentan dos valores se dice que la distribución de los datos es bimodal y cuando tiene más de dos valores se dice multimodal. La sintaxis en Excel para calcularla es =moda(rango de datos). En el ejemplo 2, la moda coincide con la mediana, es decir 17. Los valores de las tres medidas de tendencia central se encuentran alrededor del 17, es decir que es un indicio de que la distribución de esos valores es simétrica alrededor del valor 17. Percentiles: Los percentiles son medidas de localización, pero no central. El p-ésimo percentil es un valor tal que por lo menos un p por ciento de las observaciones son iguales o menores a ese valor. El percentil 50 equivale a la mediana. Para encontrar el p-éimo percentil se ordenan las observaciones de menor a mayor, se calcula el índice 푖 = 푛 , donde n es el total de elementos y p el percentil de interés. Si i no es entero entones el entero inmediatamente mayor que i indica la posición del p-ésimo percentil. Cuando i

Dependiendo de la variable que se esté midiendo se hace necesario redondear la cifra. Por ejemplo si los datos correspondieran al número de varones nacidos en un periodo de tiempo, no tiene mucho sentido decir que en promedio nacieron 16.6 niños.

sea entero se toma como el p-ésimo percentil el promedio de los datos ubicados en las posiciones i e (i +1). Para calcular percentiles en Excel la sintaxis es =percentil(rango de datos; k) donde k es un número entre 0 y 1 que indica el percentil que se quiere calcular. Cuartiles Son los números que dividen los datos en cuatro partes porcentualmente iguales. Hay tres cuartiles

푄 = 푝푒푟푐푒푛푡푖푙 25푄 = 푝푒푟푐푒푛푡푖푙 50푄 = 푝푒푟푐푒푛푡푖푙 75

Deciles Son los números que dividen los datos en 10 partes porcentualmente iguales. Se denotan como 퐷 , i=1, 2, …, 10.

Con los datos de las empresas calcule para cada variable éstas medidas de localización y de un significado o interpretación al valor obtenido.

Medidas de variabilidad Las medidas de variablidad indican la oscilación o fluctuación de los valores de la variable. Estas medidas complementan la información que arroja las medidas de localización. Ejemplo 3

18 16 17 13 14 16 17 14 18 15 17 13 18 19 16 17 15 20 13 16 20 17 19 18 17 15 16 17 18 20 15 17 14 16 15 16 17 17 17 17 18 19

Suponga que estos datos corresponden a las edades que tenían cuando se graduaron, los 42 estudiantes de otra carrera. Al comparar éstos datos con los mostrados en el ejemplo 2, se observa que en ambos casos el valor promedio de graduación fue 16.6 años, sin embargo en el siguiente gráfico se evidencia que el grupo 2 que tiene mayor rango de edades, es decir mayor variabilidad.

0

2

4

6

8

10

12

14

16

13 14 15 16 17 18 19 20

Frec

uenc

ias

Edad

Comparación de edad de grauación (en años cumplidos) de dos grupos

Grupo 1

Grupo 2

A continuación se mencionarán algunas de las medidas de variabilidad más usadas. Rango Se define como

푅푎푛푔표 = 푉푎푙표푟 푚á푥푖푚표 − 푉푎푙표푟 푚í푛푖푚표 Es la medida más sencilla de calcular y sus unidades son las mismas de la variable de estudio. Debido a que solamente involucra en su cálculo dos valores de la variables se deja influenciar por valores extremos. Rara vez se utiliza como única medida de variabilidad. Rango interquartil Elimina la influencia de datos extremos. Se define como

푅푄 = 푄 − 푄 Varianza Se basa en la diferencia que hay entre cada observación y el valor promedio de los datos, se define como

푆 = ∑ (푥 − 푥̅)

푛 − 1

Esta medida es siempre positiva. Sus unidades son las del cuadrado de la variable. La sintaxis en Excel para calcular la varianza es =var(rango de datos) Desviación estándar Corresponde a la raíz cuadrada de la Varianza y tiene las mismas unidades que las observaciones. Su sintaxis en Excel es =desvest(rango de datos) Si en el análisis de las medidas de tendencia se encontró que la media no es una buena medida a ser usada, tampoco es conveniente usar la desviación debido a que su cálculo depende del promedio de los datos. Dentro de las funciones de análisis de datos en Excel, se encuentra una llamada Estadística descriptiva, al chequear la opción Resumen de estadísticas, arroja el total de observaciones leídas, la suma total, el mínimo, el máximo, el rango, la varianza, la desviación, la moda, la mediana y la media. También da resultados para el error típico, la curtosis y el coeficiente de asimetría. Indague el uso que se da a estas tres últimas medidas.

Con los datos de las empresas calcule para cada variable éstas medidas de variabilidad y de una conclusión general sobre los resultados que encontró en estos datos. ¿En que cambia el análisis que hizo al iniciar este modulo y el que acaba de hacer?

Descargue el archivo Datos parcial y guárdelo en su computador. Para contestar cada uno de los puntos del parcial, es necesario que usted realice diferentes operaciones, por cada punto del parcial incluya una hoja nueva y coloque el nombre de acuerdo al punto. Después de contestar las preguntas, envíe a su tutor el archivo en el que trabajó.

Modulo1 estadistica

Documents

Transcript of Modulo1 estadistica