Unidad 1 Distribuciones de Frecuencia

15
Unidad 1 Distribuciones De Frecuencia. 1.1 Conceptos de estadística y su clasificación. 1.2 Recopilación de datos. 1.3 Distribución de frecuencias. 1.3.1 Polígonos de frecuencia, histogramas y ojivas. 1.4 Medidas de tendencia central para un conjunto de datos y datos agrupados. 1.4.1 Media Media ponderada. 1.4.2 Mediana. 1.4.3 Moda. 1.4.4 Relación entre media mediana y moda. 1.5 Medidas de dispersión para un conjunto de datos y datos agrupados. 1.5.1 Rango. 1.5.2 Desviación media. 1.5.3 Varianza. 1.5.4 Desviación estándar.

Transcript of Unidad 1 Distribuciones de Frecuencia

Page 1: Unidad 1 Distribuciones de Frecuencia

Unidad 1 Distribuciones De Frecuencia.

1.1 Conceptos de estadística y su clasificación.

1.2 Recopilación de datos.

1.3 Distribución de frecuencias.

1.3.1 Polígonos de frecuencia, histogramas y ojivas.

1.4 Medidas de tendencia central para un conjunto de datos y datos agrupados.

1.4.1 Media Media ponderada.

1.4.2 Mediana.

1.4.3 Moda.

1.4.4 Relación entre media mediana y moda.

1.5 Medidas de dispersión para un conjunto de datos y datos agrupados.

1.5.1 Rango.

1.5.2 Desviación media.

1.5.3 Varianza.

1.5.4 Desviación estándar.

ESTADISTICA Y PROBABILIDAD

Page 2: Unidad 1 Distribuciones de Frecuencia

UNIDAD I: ESTADISTICA DESCRIPTIVA

1.1 CONCEPTOS DE ESTADÍSTICA Y SU CLASIFICACIÓN.

El término estadística se deriva de la palabra latina status (que significa "estado"). Los primeros usos de la estadística implicaron la compilación de datos y la elaboración de gráficas para describir diversos aspectos de un estado o de un país. En 1662, John Graunt publicó información estadística acerca de los nacimientos y los decesos. Al trabajo de Graunt siguieron estudios de tasas de mortalidad y de enfermedad, tamaño de poblaciones, ingresos y tasas de desempleo. Los hogares, gobiernos y negocios se apoyan bastante en datos estadísticos para dirigir sus acciones. Por ejemplo, se compilan datos cuidadosamente y con regularidad para establecer las tasas de desempleo, las tasas de inflación, los índices del consumidor y las tasas de nacimiento y muerte, y los líderes empresariales utilizan los datos resultantes para tomar decisiones que afectan las futuras contrataciones, los niveles de producción y la expansión hacia nuevos mercados.DEFINICIONESDatos son las observaciones recolectadas (como mediciones, géneros. respuestas de encuesta).Estadística es una colección de métodos para planear experimentos, obtener datos, y después organizar, resumir, presentar, analizar, interpretar y llegar a conclusiones basadas en los datos.Población es la colección completa de todos los elementos (puntuaciones, personas, mediciones, etcétera) a estudiar. Se dice que la colección es completa, pues incluye a todos los sujetos que se estudiarán.Censo es la colección de datos de cada uno de los miembros de la población.Muestra es un subconjunto de miembros seleccionados de una población.

Conceptos clave:Los datos muéstrales deben reunirse de una forma adecuada, como en un proceso de selección aleatoria. (Muestra aleatoria)Si los datos muéstrales no se reúnen de forma adecuada, resultarían tan inútiles que ninguna cantidad de tortura estadística podría salvarlos. (Muestra sesgada)

EstadísticaLa estadística es una ciencia formal que estudia la recolección, análisis e interpretación de datos de una muestra representativa, ya sea para ayudar en la toma de decisiones o para explicar condiciones regulares o irregulares de algún fenómeno o estudio aplicado, de ocurrencia en forma aleatoria o condicional. Sin embargo, la estadística es más que eso, es decir, es la herramienta fundamental que permite llevar a cabo el proceso relacionado con la investigación científica.

Distribución normalEs transversal a una amplia variedad de disciplinas, desde la física hasta las ciencias sociales, desde las ciencias de la salud hasta el control de calidad. Se usa para la toma de decisiones en áreas de negocios o instituciones gubernamentales.La estadística se divide en dos grandes áreas:La estadística descriptiva, se dedica a la descripción, visualización y resumen de datos originados a partir de los fenómenos de estudio. Los datos pueden ser resumidos numérica o gráficamente. Ejemplos básicos de parámetros estadísticos son: la media y la desviación estándar. Algunos ejemplos gráficos son: histograma, pirámide poblacional, gráfico circular, entre otros.La estadística inferencial, se dedica a la generación de los modelos, inferencias y predicciones asociadas a los fenómenos en cuestión teniendo en cuenta la aleatoriedad de las observaciones. Se usa para modelar patrones en los datos y extraer inferencias acerca de la población bajo estudio. Estas inferencias pueden tomar la forma de respuestas a preguntas si/no (prueba de hipótesis), estimaciones de unas características numéricas (estimación), pronósticos de futuras observaciones, descripciones de asociación (correlación) o modelamiento de relaciones entre variables (análisis de regresión). Otras técnicas de modelamiento incluyen anova, series de tiempo y minería de datos.

Page 3: Unidad 1 Distribuciones de Frecuencia

Ambas ramas (descriptiva e inferencial) comprenden la estadística aplicada. Hay también una disciplina llamada estadística matemática, la que se refiere a las bases teóricas de la materia. La palabra «estadísticas» también se refiere al resultado de aplicar un algoritmo estadístico a un conjunto de datos, como en estadísticas económicas, estadísticas criminales, entre otros.

1.2 RECOPILACIÓN DE DATOS.

Técnicas Para Hallar Datos

Los analistas utilizan una variedad de métodos a fin de recopilar los datos sobre una situación existente, como entrevistas, cuestionarios, inspección de registros (revisión en el sitio) y observación. Cada uno tiene ventajas y desventajas. Generalmente, se utilizan dos o tres para complementar el trabajo de cada una y ayudar a asegurar una investigación completa.

La Entrevista

Las entrevistas se utilizan para recabar información en forma verbal, a través de preguntas que propone el analista. Quienes responden pueden ser gerentes o empleados, los cuales son usuarios actuales del sistema existente, usuarios potenciales del sistema propuesto o aquellos que proporcionarán datos o serán afectados por la aplicación propuesta. El analista puede entrevistar al personal en forma individual o en grupos algunos analistas prefieren este método a las otras técnicas que se estudiarán más adelante. Sin embargo, las entrevistas no siempre son la mejor fuente de datos de aplicación.

Qué Es Una Encuesta?

Se ha dicho que Estados Unidos ya no es una "sociedad industrial", sino una "sociedad de información". Esto es, nuestros mayores problemas y tareas ya no giran principalmente en la producción de bienes y servicios necesarios para nuestra supervivencia y comodidad.

Nuestra "sociedad", requiere un rápido y preciso flujo de información sobre las preferencias, necesidades y comportamiento de sus miembros. Es en respuesta a esta necesidad crítica de información por el gobierno, el comercio y las instituciones sociales que tanta confianza se pone en las encuestas.

Hoy en día la palabra "encuesta" se usa más frecuentemente para describir un método de obtener información de una muestra de individuos. Esta "muestra" es usualmente sólo una fracción de la población bajo estudio.

Cuestionario

Los cuestionarios proporcionan una alternativa muy útil para la entrevista; si embargo, existen ciertas características que pueden ser apropiada en algunas situaciones e inapropiadas en otra. Al igual que la entrevistas, deben diseñarse cuidadosamente para una máxima efectividad.

La Observación

Otra técnica útil para el analista en su progreso de investigación, consiste en observar a las personas cuando efectúan su trabajo. Como técnica de investigación, la observación tiene amplia aceptación científica. Los sociólogos, sicólogos e ingenieros industriales utilizan extensamente ésta técnica con el fin de estudiar a las personas en sus actividades de grupo y como miembros de la organización. El propósito de la organización es múltiple: permite al analista determinar que se está haciendo, como se está haciendo, quien lo hace, cuando se lleva a cabo, cuanto tiempo toma, dónde se hace y por qué se hace.

Diagrama de Flujo

Page 4: Unidad 1 Distribuciones de Frecuencia

Es una representación pictórica de los pasos en proceso. Útil para determinar cómo funciona realmente el proceso para producir un resultado. El resultado puede ser un producto, un servicio, información o una combinación de los tres. Al examinar cómo los diferentes pasos es un proceso se relacionan entre sí, se puede descubrir con frecuencia las fuentes de problemas potenciales. Los diagramas de flujo se pueden aplicar a cualquier aspecto del proceso desde el flujo de materiales hasta los pasos para hacer la venta u ofrecer un producto. Con frecuencia este nivel de detalle no es necesario, pero cuando se necesita, el equipo completo de trabajo más pequeño puede agregar niveles según sea necesario durante el proyecto.

Diccionario De Datos

Los diccionarios de datos son el segundo componente del análisis del flujo de datos. En sí mismos los diagramas de flujo de datos no describen por completo el objeto de la investigación. El diccionario de datos proporciona información adicional sobre el sistema. Esta sección analiza que es un diccionario de datos, por qué se necesita en el análisis de flujo de datos y como desarrollarlo. Se utilizará el ejemplo del sistema de contabilidad para describir los diccionarios de datos.

Un diccionario de datos es una lista de todos los elementos incluido en el conjunto de los diagramas de flujo de datos que describen un sistema. Los elementos principales en un sistema, estudiados en las secciones anteriores, son el flujo de datos, el almacenamiento de datos y los procesos. El diccionario de datos almacena detalles y descripciones de estos elementos.

Si los analistas desean conocer cuántos caracteres hay en un dato, con qué otros nombres se le conoce en el sistema, o en donde se utilizan dentro del sistema deben ser capaces de encontrar la respuesta en un diccionario de datos desarrollado apropiadamente.

El diccionario de dato se desarrolla durante el análisis de flujo de datos y ayuda el analista involucrado en la determinación de los requerimientos de sistemas. Sin embargo, como se verá más adelante, también el contenido del diccionario de datos se utiliza durante el diseño del sistema.

En informática, base de datos acerca de la terminología que se utilizará en un sistema de información. Para comprender mejor el significado de un diccionario de datos, puede considerarse su contenido como "datos acerca de los datos"; es decir, descripciones de todos los demás objetos (archivos, programas, informes, sinónimos...) existentes en el sistema. Un diccionario de datos almacena la totalidad de los diversos esquemas y especificaciones de archivos, así como sus ubicaciones. Si es completo incluye también información acerca de qué programas utilizan qué datos, y qué usuarios están interesados en unos u otros informes. Por lo general, el diccionario de datos está integrado en el sistema de información que describe.

1.3 DISTRIBUCIÓN DE FRECUENCIAS.

En estadística, se le llama distribución de frecuencias a la agrupación de datos en categorías mutuamente excluyentes que indican el número de observaciones en cada categoría.1 Esto proporciona un valor añadido a la agrupación de datos. La distribución de frecuencias presenta las observaciones clasificadas de modo que se pueda ver el número existente en cada clase. Estas agrupaciones de datos suelen estar agrupadas en forma de tablas.

CaracterísticasUna distribución de frecuencias es un formato tabular en la que se organizan los datos en clases, es decir, en grupos de valores que describen una característica de los [datos] y muestra el número de observaciones del conjunto de datos que caen en cada una de las clases.La tabla de frecuencias ayuda a agrupar cualquier tipo de dato numérico. En principio, en la tabla de frecuencias se detalla cada uno de los valores diferentes en el conjunto de datos junto con el número de veces que aparece, es decir, su Frecuencia. Se puede complementar la frecuencia absoluta con la denominada frecuencia relativa, que indica la frecuencia en porcentaje sobre el

Page 5: Unidad 1 Distribuciones de Frecuencia

total de datos. En variables cuantitativas se distinguen por pudin otra parte la frecuencia simple y la frecuencia acumulada.La tabla de frecuencias puede representar gráficamente en un histograma (Diagrama De Barras). Normalmente en el eje vertical se coloca las frecuencias y en el horizontal los intervalos de valores.La distribución de frecuencias o tabla de frecuencias es una ordenación en forma de tabla de los datos estadísticos, asignando a cada dato su frecuencia correspondiente

1.3.1 POLÍGONOS DE FRECUENCIA, HISTOGRAMAS Y OJIVAS.Histograma

Concepto

Un histograma es un conjunto de rectángulos, cada uno de los cuales representa un intervalo de agrupación. Sus bases son iguales al intervalo de clase empleada en la distribución de frecuencias y las alturas son proporcionales a la frecuencia absoluta ni o relativa fi de la clase

El histograma es apropiado para datos continuos, medidos con una misma escala y se lo emplea cuando un diagrama de tallo y hojas es tedioso de construir.

Igualmente puede ayudar a detectar observaciones atípicas y cualquier brecha entre los datos

Especialmente se utiliza para analizar la dispersión que presentan unos datos

Histograma 1

Corresponde a la forma de campana habitual que representa la variabilidad debida a causas aleatorias. A su lado podemos apreciar una curva de frecuencias simétricas o en forma de campana, se caracteriza porque las observaciones equidistantes del máximo central tienen la misma frecuencia. En este caso corresponde con la curva de la normal o Gaussiana.

Histograma 2

Con dos máximos diferenciados, responde a una distribución denominada bimodal y se presenta cuando están mezclados datos de distinto origen centrados en valores distintos. De igual manera la curva de frecuencia bimodal tiene dos máximos, ya que representan a la misma colección de datos.

Histograma 3

Se denomina, por su forma, sesgado a la derecha, y responde a la variabilidad que presenta ciertas variables que no siguen una ley normal, como los tiempos de vida. En las curvas de frecuencias poco asimétricas, o segadas, la cola de la curva a un lado del máximo central es más larga que al otro lado. Si la cola mayor está a la derecha, la curva se dice asimétrica a la derecha o de asimétrica positiva.

Histograma 4

Parece faltarle una parte y por ello se le llama censurado o sesgado (en este caso, a la izquierda). No representa una variabilidad natural y por tanto hay que sospechar que se han eliminado algunos valores. Igual ocurre con las curvas de frecuencias poco asimétricas o sesgadas a la izquierda o de asimetría negativa.

Histogramas 5 y 6,

Page 6: Unidad 1 Distribuciones de Frecuencia

En los cuales aparecen datos que no siguen el patrón de comportamiento general (anomalías, errores, etc...). Su variabilidad puede atribuirse a alguna causa asignable que deberá ser identificada y eliminada.

POLIGONO DE FRECUENCIA

Concepto:

Un polígono de frecuencia es un gráfico que se obtiene uniendo con segmentos de recta los puntos que tienen proporcionalmente como abscisa a la marca de clase y como ordenada la frecuencia respectiva.

Se cierra en ambos extremos en las marcas adyacentes con frecuencia cero.

Características de los polígonos de frecuencias

No muestran frecuencias acumuladas.

Se prefiere para el tratamiento de datos cuantitativos.

El punto con mayor altura representa la mayor frecuencia.

El área bajo la curva representa el 100% de los datos. El polígono de frecuencia está diseñado para mantener la misma área de las columnas.

Analicemos una porción del gráfico para probar esta afirmación:

Observe que cada línea corta una porción de la columna, pero a su vez, agrega una porción adicional. Ambas porciones son iguales (triangulo rectángulos iguales), manteniendo el área global en el gráfico.

OJIVA

Concepto:

La ojiva es un polígono de frecuencias acumuladas, es decir, en las abscisas se colocan los límites superiores de cada intervalo de clase y en las ordenadas se coloca la frecuencia acumulada (absoluta o relativa) de la clase.

La ojiva es útil para:

Calcular el número o el porcentaje de observaciones que corresponden a un intervalo determinado de la variable

Calcula los percentiles de la distribución de los datos

Características de las ojivas:

Muestran frecuencias acumuladas.

Se prefiere para el tratamiento de datos cuantitativos.

El punto de inicio equivale a una frecuencia de 0.

Page 7: Unidad 1 Distribuciones de Frecuencia

El punto final equivale al 100% de los datos.

Interpretando la información en las ojivas

Dada su ventaja de representar frecuencias acumuladas, las ojivas se convierten en una herramienta vital para el análisis estadístico.

1.4 MEDIDAS DE TENDENCIA CENTRAL PARA UN CONJUNTO DE DATOS Y DATOS AGRUPADOS.

Medidas de tendencia centralAl describir grupos de observaciones, con frecuencia es conveniente resumir la información con un solo número. Este número que, para tal fin, suele situarse hacia el centro de la distribución de datos se denomina medida o parámetro de tendencia central o de centralización. Cuando se hace referencia únicamente a la posición de estos parámetros dentro de la distribución, independientemente de que ésta esté más o menos centrada, se habla de estas medidas como medidas de posición.1 En este caso se incluyen también los cuantiles entre estas medidas.Entre las medidas de tendencia central tenemos:Media .Media ponderada.Media geométrica.Media armónica.Mediana.Moda.Se debe tener en cuenta que existen variables cualitativas y variables cuantitativas, por lo que las medidas de posición o medidas de tendencia se usan de acuerdo al tipo de variable que se está observando, en este caso se observan variables cuantitativas.

1.4.1 MEDIA MEDIA PONDERADA.

La media ponderada es una medida de tendencia central, que es apropiada cuando en un conjunto de datos cada uno de ellos tiene una importancia relativa (o peso) respecto de los demás datos. Se obtiene del cociente entre la suma de los productos de cada dato por su peso o ponderación y la suma de los pesos.

1.4.2 MEDIANA.La mediana es un valor de la variable que deja por debajo de sí a la mitad de los datos, una vez que éstos están ordenados de menor a mayor.4 Por ejemplo, la mediana del número de hijos de un conjunto de trece familias, cuyos respectivos hijos son: 3, 4, 2, 3, 2, 1, 1, 2, 1, 1, 2, 1 y 1, es 2, puesto que, una vez ordenados los datos: 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 3, 3, 4, el que ocupa la posición central es 2:

En caso de un número par de datos, la mediana no correspondería a ningún valor de la variable, por lo que se conviene en tomar como mediana el valor intermedio entre los dos valores centrales. Por ejemplo, en el caso de doce datos como los siguientes:

Page 8: Unidad 1 Distribuciones de Frecuencia

Se toma como mediana 

Existen métodos de cálculo más rápidos para datos más. Del mismo modo, para valores agrupados en intervalos, se halla el "intervalo mediano" y, dentro de éste, se obtiene un valor concreto por interpolación.

Cálculo de la mediana para datos agrupados

Primero hallamos las frecuencias absolutas acumuladas Fi (ver tabla del margen derecho).

Así, aplicando la formula asociada a la mediana para n impar, obtenemos X(39+1)/2 = X20 y basándonos en la fórmula que hace referencia a las frecuencias absolutas:

Ni-1< n/2 < Ni = N19 < 19.5 < N20

Por tanto la mediana será el valor de la variable que ocupe el vigésimo lugar. En nuestro ejemplo, 21 (frecuencia absoluta acumulada para Xi = 5) > 19.5 con lo que Me = 5 puntos (es aconsejable no olvidar las unidades; en este caso como estamos hablando de calificaciones, serán puntos)

La mitad de la clase ha obtenido un 5 o menos, y la otra mitad un 5 o más.

Calculemos la Mediana:

Primero hallamos las frecuencias absolutas acumuladas Fi (ver tabla margen derecho).

Si volvemos a utilizar la fórmula asociada a la mediana para n par, obtenemos X(38/2) = X19 y basándonos en la fórmula que hace referencia a las frecuencias absolutas --> Ni-1< n/2 < Ni = N18 < 19 < N19

Con lo cual la mediana será la media aritmética de los valores de la variable que ocupen el decimonoveno y el vigésimo lugar.

En nuestro ejemplo, el lugar decimonoveno lo ocupa el 5 y el vigésimo el 6, (desde el vigésimo hasta el vigésimo octavo) con lo que Me = (5+6)/2 = 5,5 puntos.

1.4.3 MODA.

La moda se refiere al dato más repetido, el valor de la variable con mayor frecuencia absoluta.2 En cierto sentido la definición matemática corresponde con la locución "estar de moda", esto es, ser lo que más se lleva.

Su cálculo es extremadamente sencillo, pues sólo necesita un recuento. En variables continuas, expresadas en intervalos, existe el denominado intervalo modal o, en su defecto, si es necesario obtener un valor concreto de la variable, se recurre a la interpolación.

Por ejemplo, el número de personas en distintos vehículos en una carretera: 5-7-4-6-9-5-6-1-5-3-7. El número que más se repite es 5, entonces la moda es 5.

Hablaremos de una distribución bimodal de los datos, cuando encontremos dos modas, es decir, dos datos que tengan la misma frecuencia absoluta máxima. Cuando en una distribución de datos se encuentran tres o más modas, entonces es multimodal. Por último, si todas las variables tienen la misma frecuencia diremos que no hay moda.

Cuando tratamos con datos agrupados en intervalos, antes de calcular la moda, se ha de definir el intervalo modal. El intervalo modal es el de mayor frecuencia absoluta.

La moda, cuando los datos están agrupados, es un punto que divide el intervalo modal en dos partes de la forma p y c-p, siendo c la amplitud del intervalo, que verifiquen que:

Page 9: Unidad 1 Distribuciones de Frecuencia

Siendo   la frecuencia absoluta del intervalo modal y   y   las frecuencias absolutas de los intervalos anterior y posterior, respectivamente, al

Las calificaciones en la asignatura de Matemáticas de 39 alumnos de una clase viene dada por la siguiente tabla (debajo):

Calificaciones 1 2 3 4 5 6 7 8 9

Número de alumnos 2 2 4 5 8 9 3 4 2

Propiedades

Sus principales propiedades son:

Cálculo sencillo. Interpretación muy clara. Al depender sólo de las frecuencias, puede calcularse para variables cualitativas. Es por ello

el parámetro más utilizado cuando al resumir una población no es posible realizar otros cálculos, por ejemplo, cuando se enumeran en medios periodísticos las características más frecuentes de determinado sector social.

Su valor es independiente de la mayor parte de los datos, lo que la hace muy sensible a variaciones muéstrales. Por otra parte, en variables agrupadas en intervalos, su valor depende excesivamente del número de intervalos y de su amplitud.

Usa muy pocas observaciones, de tal modo que grandes variaciones en los datos fuera de la moda, no afectan en modo alguno a su valor.

No siempre se sitúa hacia el centro de la distribución. Puede haber más de una moda en el caso en que dos o más valores de la variable presenten

la misma frecuencia (distribuciones bimodales o multimodales).

1.4.4 RELACIÓN ENTRE MEDIA MEDIANA Y MODA.

Media: la media es el promedio de cierto número de datos, es como cuando sumas las calificaciones de todas tus materias y las divides entre el número de materias para ver tu promedio con los datos 4,3,2,1 la media es (4+3+2+1)/4 = 10/4 = 5/2 =2.5

Moda: la moda es el valor que más se repite en cierto número de datos, por ejemplo si tú ves tus calificaciones y son: 10, 9, 6, 9, 9, 9, 8, 10,7 la moda es 9, ya que es el valor que más se repite.

Mediana: es cuando acomodas tus datos del mayor a menor y tomas el valor de en medio, por ejemplo si tienes: 5, 6, 2, 3, 1, 4,7.Los acomodas y te quedan: 1, 2, 3, 4, 5, 6, 7, entonces el valor de en medio es el 4 y esa es tu mediana.

La relación que pueden tener, es que si tu moda, mediana, y media es la misma se dice que los datos siguen una distribución normal, es decir que tienen un comportamiento regular y puedes analizarlos estadísticamente de una manera más cómoda.

1.5 MEDIDAS DE DISPERSIÓN PARA UN CONJUNTO DE DATOS Y DATOS AGRUPADOS.

Page 10: Unidad 1 Distribuciones de Frecuencia

Al igual que sucede con cualquier conjunto de datos, la media, la mediana y la moda sólo nos revelan una parte de la información que necesitamos acerca de las características de los datos. Para aumentar nuestro entendimiento del patrón de los datos, debemos medir también su dispersión, extensión o variabilidad.La dispersión es importante porque:Proporciona información adicional que permite juzgar la confiabilidad de la medida de tendencia central. Si los datos se encuentran ampliamente dispersos, la posición central es menos representativa de los datos.Ya que existen problemas característicos para datos ampliamente dispersos, debemos ser capaces de distinguir que presentan esa dispersión antes de abordar esos problemas.Quizá se desee comparar las dispersiones de diferentes muestras. Si no se desea tener una amplia dispersión de valores con respecto al centro de distribución o esto presenta riesgos inaceptables, necesitamos tener habilidad de reconocerlo y evitar escoger distribuciones que tengan las dispersiones más grandes.Pero si hay dispersión en la mayoría de los datos, y debemos estar en capacidad de describirla. Ya que la dispersión ocurre frecuentemente y su grado de variabilidad es importante, ¿cómo medimos la variabilidad de una distribución empírica?. Vamos a considerar sólo algunas medidas de dispersión absolutas: el rango, la varianza, la desviación estándar y el coeficiente de variación.1.1.- EL RANGO O RECORRIDO ( R ):Es la medida de variabilidad más fácil de calcular. Para datos finitos o sin agrupar, el rango se define como la diferencia entre el valor más alto (Xn ó Xmax.) y el mas bajo (X1 ó Xmin) en un conjunto de datos.Rango para datos no agrupados;R = Xmáx.-Xmín = Xn-X1

1.5.1 RANGO.

En estadística descriptiva se denomina rango estadístico (R) o recorrido estadístico, a la diferencia entre el valor máximo y el valor mínimo; por ello, comparte unidades con los datos. Permite obtener una idea de la dispersión de los datos, cuanto mayor es el rango, más dispersos están los datos de un conjunto.

Por ejemplo, para una serie de datos de carácter cuantitativo, como lo es la estatura medida en centímetros, tendríamos:

es posible ordenar los datos como sigue:

donde la notación x(i) indica que se trata del elemento i-ésimo de la serie de datos. De este modo, el rango sería la diferencia entre el valor máximo (k) y el mínimo; o, lo que es lo mismo:

En nuestro ejemplo, con cinco valores, nos da que R = 185-155 = 30

1.5.2 DESVIACIÓN MEDIA.

En estadística la desviación absoluta promedio o, sencillamente desviación media o promedio de un conjunto de datos es la media de las desviaciones absolutas y es un resumen de la dispersión estadística. Se expresa, de acuerdo a esta fórmula:

Page 11: Unidad 1 Distribuciones de Frecuencia

La desviación absoluta respecto a la media,  , la desviación absoluta respecto a la mediana,  , y la desviación típica,  , de un mismo conjunto de valores cumplen la desigualdad:

Siempre ocurre que

donde el Rango es igual a:

El valor:

ocurre cuando los datos son exactamente iguales e iguales a la media aritmética. Por otro lado:

cuando solo hay dos valores en el conjunto de datos.

1.5.3 VARIANZA.

En teoría de probabilidad, la varianza (que suele representarse como \sigma^2) de una variable aleatoria es una medida de dispersión definida como la esperanza del cuadrado de la desviación de dicha variable respecto a su media.Está medida en unidades distintas de las de la variable. Por ejemplo, si la variable mide una distancia en metros, la varianza se expresa en metros al cuadrado. La desviación estándar es la raíz cuadrada de la varianza, es una medida de dispersión alternativa expresada en las mismas unidades de los datos de la variable objeto de estudio. La varianza tiene como valor mínimo 0.Hay que tener en cuenta que la varianza puede verse muy influida por los valores atípicos y no se aconseja su uso cuando las distribuciones de las variables aleatorias tienen colas pesadas. En tales casos se recomienda el uso de otras medidas de dispersión más robustas.El término varianza fue acuñado por Ronald Fisher en un artículo de 1918 titulado The Correlation Between Relatives on the Supposition of Mendelian Inheritance.

1.5.4 DESVIACIÓN ESTÁNDAR.

La desviación estándar o desviación típica (denotada con el símbolo σ o s, dependiendo de la procedencia del conjunto de datos) es una medida de dispersión para variables de razón (variables cuantitativas o cantidades racionales) y de intervalo. Se define como la raíz cuadrada de la varianza. Junto con este valor, la desviación típica es una medida (cuadrática) que informa de la media de distancias que tienen los datos respecto de su media aritmética, expresada en las mismas unidades que la variable.Para conocer con detalle un conjunto de datos, no basta con conocer las medidas de tendencia central, sino que necesitamos conocer también la desviación que presentan los datos en su distribución respecto de la media aritmética de dicha distribución, con objeto de tener una visión de

Page 12: Unidad 1 Distribuciones de Frecuencia

los mismos más acorde con la realidad al momento de describirlos e interpretarlos para la toma de decisiones.