Est-111-Material Didactico Unidad 4 Primera Parte

15
 Universidad Autônoma de Santo Domingo, UASD  Agosto, 2011 UNIDAD 4 Medidas de variabilidad o dispersión

Transcript of Est-111-Material Didactico Unidad 4 Primera Parte

7/23/2019 Est-111-Material Didactico Unidad 4 Primera Parte

http://slidepdf.com/reader/full/est-111-material-didactico-unidad-4-primera-parte 1/15

 

Universidad Autônoma de Santo Domingo, UASD

 Agosto, 2011

UNIDAD 4

Medidas de variabilidad o dispersión

7/23/2019 Est-111-Material Didactico Unidad 4 Primera Parte

http://slidepdf.com/reader/full/est-111-material-didactico-unidad-4-primera-parte 2/15

Contenidista: Francisco Roa Familia

2

Nombre del Curso Estadística General

Clave del Curso Est-111

Número de la Unidad IV

Autor de la Unidad Francisco Roa Familia

Índice 

I.  Introducción/Explicación de la unidadII.  Objetivo General

III.  Objetivos específicosIV.  Desarrollo del contenido  Rango o recorrido.  La varianza y la desviación estándar.  El coeficiente de variación.

V.  Bibliografía

I.  INTRODUCCION/EXPLICACION DE LA UNIDADEn esta unidad estudiaremos las medidas estadísticas de variabilidad

o dispersión. Son medidas que operan como complementarias a las

de tendencia central y a las de posición no central, en el proceso

de describir, comparar y analizar conjuntos de datos en relación a

variables de interés.

II. OBJETIVO GENERAL  Al finalizar esta unidad el estudiante conocerá y podrá aplicar, de

acuerdo a las circunstancias, la (s) más importante(s) medidas de

variabilidad o dispersión.

7/23/2019 Est-111-Material Didactico Unidad 4 Primera Parte

http://slidepdf.com/reader/full/est-111-material-didactico-unidad-4-primera-parte 3/15

Contenidista: Francisco Roa Familia

3

III.  OBJETIVOS ESPECÍFICOS

 Al finalizar esta unidad el estudiante estará en capacidad de calcular yaplicar, adecuadamente:

a) El rango o recorrido, rango intercuartílico.b) La varianza y la desviación estándarc) El coeficiente de variación.d) Las principales características de estas medidas.

1.  DESARROLLO DEL CONTENIDO:

  Medidas de variabilidad o dispersión

Son medidas estadísticas cuyo objetivo es determinar el grado en

que los valores de un conjunto se alejan o concentran, entre sí, o

alrededor de un valor central, que en la mayoría de los casos es el de

la media aritmética y cuando no, el de la mediana.

Las medidas de variabilidad se dividen en: Medidas de variabilidad

absolutas y Medidas de variabilidad relativas. Las medidas de variabilidad absolutas se utilizan, por lo regular, en

la descripción, análisis y comparación de conjuntos de valores con

promedios parecidos; y entre estas se encuentran el rango o

recorrido, la desviación media, la varianza y la desviación estándar. 

Las medidas de variabilidad relativa se utilizan en la descripción,

análisis y/o comparación de conjuntos con promedios muy

disímiles, y de esas nos interesa el Coeficiente de Variación (CV). 

a. Rango o recorrido (R)

7/23/2019 Est-111-Material Didactico Unidad 4 Primera Parte

http://slidepdf.com/reader/full/est-111-material-didactico-unidad-4-primera-parte 4/15

Contenidista: Francisco Roa Familia

4

Es el intervalo o tramo en que existen o se distribuyen los valores de un

conjunto. Es una medida de cuan concentrados o parecidos son entre sí las

magnitudes de los valores de un conjunto. Se obtiene con la simple diferenciaentre el valor mayor y el menor del conjunto considerado.

R = valor mayor – valor menor

Ejemplo

El valor (RD$) del gasto (y) en refrigerio en una muestra aleatoria de 5

estudiantes fue como sigue:

(yi): 50, 75, 105, 60, 80

n = 5

Valor mayor = 105; valor menor = 50

R = 105  – 50 = 55.

El R = 55

Este valor nos da la distancia o diferencia máxima entre los valores dell variable, en este caso el conjunto en refrigerio. En un conjunto de

valores, mientras mayor el valor del R  mayor variabilidad entre sus

valores. Pero esta medida tiene la debilidad de que ignora toda la

información en el conjunto, entre el valor más grande y el más

pequeño, y eso la hace una medida de poca capacidad descriptiva, por

lo que en muy pocas circunstancias resulte de interés.

La varianza

La varianza es una medida cuadrática (es decir expresada en valores elevados al

cuadrado) de la variabilidad o dispersión de los valores de un conjunto respecto a

su media aritmética.

7/23/2019 Est-111-Material Didactico Unidad 4 Primera Parte

http://slidepdf.com/reader/full/est-111-material-didactico-unidad-4-primera-parte 5/15

Contenidista: Francisco Roa Familia

5

Ya vimos que a la diferencia entre cada valor cualquiera (yi) y   la media aritmética

(ӯ ó µ, según sea de una muestra o de una  población) se conoce como

desviación, variación o discrepancia respecto a la media, y sabemos que esta se

representada por (yi _ӯ),  si corresponde a una muestra (n); y  si se trata de una

población o universo (N), se representa por (yi _µ). 

La varianza es la media aritmética  de los cuadrados de las diferencias,

discrepancias o desviaciones de los valores de un conjunto respecto a su media

aritmética. En ocasiones se utiliza a la mediana en lugar de la media.

La varianza para datos individuales

Si y1, y2, y3,. . ., yn  es el conjunto de valores de la variable y  en una muestra

aleatoria (n) e (ӯ)  su media aritmética, entonces, la varianza para datos

originales o individuales viene dada por:

S2 = ∑i

n(yi- ӯ)

2/(n-1) = [(y1- ӯ)

2+ (y2- ӯ)

2+(y3- ӯ)

2+. . . +(yn- ӯ)

2]/(n-1), donde n  es el

número de datos o valores que compone la muestra. Observe las similitudes y

diferencias entre la formula de la varianza con la de la desviación media. 

Al término (n-1) es conocido entre los estadísticos con el nombre de grados de

libertad (G.L), y tiene que ver con la cantidad de elecciones libres, es decir

elecciones aleatorias, de los valores de una muestra.

Esta verificado que para n ≥ 30 valores, el valor de la varianza es el mismo cuando

se calcula usando como denominador (n-1) o n.

7/23/2019 Est-111-Material Didactico Unidad 4 Primera Parte

http://slidepdf.com/reader/full/est-111-material-didactico-unidad-4-primera-parte 6/15

Contenidista: Francisco Roa Familia

6

Se ha verificado que para n<30 valores y con (n-1) y no n como denominador, la

varianza muestral (S2)  resulta ser un  estimador insesgado  (no sesgado) de la

varianza poblacional (σ 2). (σ 

2  es la letra griega mayúscula sigma, al cuadrado).

Ya hemos indicado que, en general, las aplicaciones estadísticas se realizan en

base a datos provenientes de muestras. Es decir que, en general, se calculan

estimadores (medidas estadísticas calculadas en muestras), no parámetros

(medidas calculadas en poblaciones o universos), pero que cuando se calculan los

estimadores es porque se tiene interés en conocer sus correspondientes

parámetros.

El procedimiento para la determinación del valor de un estimador  y el de su

parámetro difieren solo en la cantidad de valores involucrados en sus respectivoscálculos.

Una expresión apropiada para el cálculo de la varianza poblacional (σ 2), para

datos individuales u originales es:

σ 2

= ∑in  (yi- ӯ)

2/N = [(yi- ӯ)

2+ (yi- ӯ)

2+(yi- ӯ)

2+. . . +(yN- ӯ)

2]/ N, donde N es el

número total de valores en la población.

La diferencia con la fórmula para calcular la varianza muestral, su estimador, es

solo la cantidad de valores, es decir que solo cambia N por n.

Ejemplo

Calculemos la varianza de la  edad  de una muestra (n) de los estudiantes de

Ingeniería, registrada en nuestra Base_de_Datos_0, para lo que

necesitamos calcular primero la media aritmética:

ӯ = ∑inyi/n = (y1+ y2 + y3+. . . +yn)/n =

7/23/2019 Est-111-Material Didactico Unidad 4 Primera Parte

http://slidepdf.com/reader/full/est-111-material-didactico-unidad-4-primera-parte 7/15

Contenidista: Francisco Roa Familia

7

n = 49 estudiantes. 

ӯ = (y1+ y2 + y3+. . . + y49)/49 

ӯ = 23.2245 (ver Página 8 anterior).

Para aplicar la formula de la varianza con datos individuales u originales, vamos

a nuestro archivo Base_de_Datos_0, e igual que hicimos para calcular la

desviación media, creamos una columna para colocar los cuadrados de

las diferencias o variaciones entre cada valor de la variable y su media

aritmética  [(yi- ӯ)^2

],  y procedemos exactamente como lo hicimos para la

determinación de la desviación media. Eso se observa en la imagen que sigue:

Verifique que el primer resultado, y demás, en la columna bajo el encabezado

[(yi- ӯ)^2], se obtiene de aplicar esta expresión, por ejemplo donde y1 = 23 y la ӯ

= 23.2245, [(23-23.2245)^2

] = 0.0504.

Observe que la expresión del numerador de la ecuación de la varianza: ∑in (yi- ӯ)

= [(y1- ӯ)2+ (y2- ӯ)2+ (y3- ӯ)2+ . . . + (y49- ӯ)2 = 0.0504 + 0.0504 + 10.3973 + . . . +

4.9484 = 10.3973, se corresponde con la secuencia y sumatoria de los valores de

la columna cuyo encabezado es (yi- ӯ)^2

; es decir que ∑(yi- ӯ)^2

 dividida por 49,

como sigue:

7/23/2019 Est-111-Material Didactico Unidad 4 Primera Parte

http://slidepdf.com/reader/full/est-111-material-didactico-unidad-4-primera-parte 8/15

Contenidista: Francisco Roa Familia

8

S2 = ∑i

n (yi- ӯ)

2/(n-1) = [(y1- ӯ)

2+ (y2- ӯ)

2+ (y3- ӯ)

2+. . . + (y49- ӯ)

2 ]/49 = 10.3973/49 = 

S2 = ∑i

n (yi- ӯ)

2/n = 17.2

S2 = 17.2 

Y la desviación estándar es la raíz cuadrada de la varianza, es decir que:

S =   17.2  = 4.14 

La varianza para datos agrupados

Si y1, y2, y3,. . ., yk, son los k puntos medios y f 1, f 2, f 3,. . ., f k, las k frecuencias

correspondientes a las k clases de una distribución de frecuencias, entonces, la

varianza resulta de la aplicación de la expresión:

S2 = ∑i

n(yi- ӯ)

2 f i/(n-1) = [(y1- ӯ)

2 f 1+ (y2- ӯ)

2 f 2 + (y3- ӯ)

2 f 3+ . . . +(yk- ӯ)

2 f k]/ (n-1)

Ejemplo

Primero calculamos el valor de la media aritmética (ӯ), en este caso para datos

agrupados, porque tenemos que usarlo en la formula de la S2. Para eso volvamos

al ejemplo de la distribución de los estudiantes de Ingeniería según la edad,

calculada anteriormente, y que se la presentamos a continuación:

7/23/2019 Est-111-Material Didactico Unidad 4 Primera Parte

http://slidepdf.com/reader/full/est-111-material-didactico-unidad-4-primera-parte 9/15

Contenidista: Francisco Roa Familia

9

Revísese el procedimiento que sobre esa distribución hemos hecho para

calcular la media aritmética.

Usamos el valor de la media aritmética (ӯ  = 23.) en el procedimiento decálculo de la varianza. Apliquemos el modelo o expresión para el

cálculo de la varianza, para datos agrupados: 

S2 = ∑i

n(yi- ӯ)

2 f i/(n-1) = [(y1- ӯ)

2 f 1+ (y2- ӯ)

2 f 2+(y3- ӯ)

2 f 3+ . . . +(yk- ӯ)

2 f k]/ n =

Aquí utilizamos n y no (n-1), debido a que n > 30.

Aprovechemos parte de los cálculos hechos anteriormente para calcular a la

desviación media, como se presenta a continuación:

7/23/2019 Est-111-Material Didactico Unidad 4 Primera Parte

http://slidepdf.com/reader/full/est-111-material-didactico-unidad-4-primera-parte 10/15

Contenidista: Francisco Roa Familia

10

Ahora agreguemos una columna para el cálculo de la los cuadrados de las

diferencias o variaciones [(yi _ӯ)^2

], multiplicados por las frecuencias (f i), es decir

[(yi _ӯ)^2

(f i)], como se observa en la imagen, a continuación:

7/23/2019 Est-111-Material Didactico Unidad 4 Primera Parte

http://slidepdf.com/reader/full/est-111-material-didactico-unidad-4-primera-parte 11/15

Contenidista: Francisco Roa Familia

11

Obsérvese que la expresión del numerador de la fórmula para el cálculo de la

varianza: ∑(yi _ӯ)^2

f i = ∑in(yi- ӯ)

2 f i = (y1- ӯ)

2 f 1+ (y2- ӯ)

2 f 2+(y3- ӯ)

2 f 3+ . . . +(yk- ӯ)

2 f k  =

232,0032033 + 28,48860475 + . . . + 241,833601 + 189,7644003 = 808,53061, se

corresponde con la secuencia de los valores y la suma de estos en la columna de

la derecha, en el cuadro anterior.

Finalmente dividimos por n = 49:

S2 = ∑i

n(yi- ӯ)

2 f i/n = 808,53061 / 49 = 16.50

S2 = 16.50; S = 4.1

Así llegamos al final del proceso de calcular los valores a la varianza y a la

desviación estándar para datos agrupados en una distribución de frecuencias.

La varianza resulta expresada en unidades de medidas de la variable al cuadrado,

lo que dificulta la comprensión e interpretación de su valor. Su utilidad se limita

a la comparación entre la variabilidad de dos o más variables y para facilitar la

determinación de la desviación estándar (S). A un elevado valor de la varianza o

desviación estándar corresponde un alto grado de variabilidad, heterogeneidad,

diferencias o discrepancias colectivas de los valores considerados.

Recuerde que hemos señalado y reiterado que en el caso de la distribución de

frecuencias, cada punto medio representa a los valores incluidos en el intervalo o

clase considerado.

b. Desviación estándar o típica

La desviación estándar es la raíz cuadrada positiva de la varianza.

En el caso de la desviación estándar muestral es S= 2S  ; cuando se trata de la

desviación estándar poblacional σ = 2σ  

VarianzaS  

7/23/2019 Est-111-Material Didactico Unidad 4 Primera Parte

http://slidepdf.com/reader/full/est-111-material-didactico-unidad-4-primera-parte 12/15

Contenidista: Francisco Roa Familia

12

El valor de la varianza viene expresado en unidades de medidas al cuadrado, lo

que dificulta su comprensión e interpretación, sin embargo con la desviación

estándar se elimina esa dificultad al resultar expresada en unidades de medidas

lineales, al igual que la media aritmética, que es como vienen expresadas las

unidades de medidas de los valores originales.

En el ejemplo anterior, referido a la edad de los estudiantes de Ingeniería de la

universidad, el valor de la varianza  S2  = 16.50; y el valor de la desviación

estándar (S) = 4.1

Y para mas sobre las principales medidas de tendencia central y de variabilidad

les presento una serie de videos, a los que pueden acceder a través de

http://www.youtube.com/watch?v=dIgo6In-siI&NR=1. 

Características de la varianza y desviación estándar.

1.  La varianza y la desviación estándar son medidas que toman en cuenta la

magnitud de cada valor involucrado en sus cálculos.

2.  Al igual que la media aritmética, la varianza calculada usando la fórmula para

datos individuales y la fórmula para datos agrupados (sobre los mismos datos),

por lo regular, presenta diferencias. Pero diferencias despreciables. Diferencias

que se explican con que, en el caso de datos agrupados en una distribución de

frecuencias, los valores pierden su individualidad, y los puntos medios de los

intervalos o clases, ponderados por las frecuencias correspondientes, hacen de

representantes de los valores individuales, con la consiguiente y obvia

imprecisión. . . 

Uso de la varianza y la desviación estándar:

7/23/2019 Est-111-Material Didactico Unidad 4 Primera Parte

http://slidepdf.com/reader/full/est-111-material-didactico-unidad-4-primera-parte 13/15

Contenidista: Francisco Roa Familia

13

En el ámbito de aplicación de esta asignatura, la varianza (S2) se calcula con el

exclusivo propósito de facilitar la determinación del valor de la desviación

estándar o típica (S).

Empíricamente, la desviación estándar o típica es una medida de la distancia o

diferencia promedio entre los valores de un conjunto y su media aritmética. Y se

puede afirmar que el comportamiento natural de los valores de las variables,

esencialmente cuando su polígono de frecuencias tiende a tener forma de

campana, es tal que aparecen distribuidos según se describe a continuación:

Intervalo %

ӯ ± Sy

[ӯ _ Sy a  ӯ  + Sy] 

68.26

ӯ ±2Sy

[ӯ _ 2Sy a ӯ  + 2Sy] 

95.45

ӯ ±3Sy

[ӯ _ 3 Sy a  ӯ  + 3Sy] 

99.73

Donde  ӯ  es la media aritmética de la variable  y, y   Sy  su desviación

estándar o típica.

Esto significa que de los valores de una variable el 68.26 % aparecerá en el

intervalo definido por su media aritmética (ӯ) más o menos (±) una vez su

desviación estándar (Sy), es decir (ӯ ±1Sy);  que el 95.45% estará comprendido

entre su media aritmética y más o menos dos veces su desviación estándar (ӯ 

±2Sy)  y el 99.73% estará comprendido en el intervalo definido por su media

aritmética más o menos tres veces su desviación estándar (ӯ ±3Sy).  Es un

esquema a partir del cual podemos, en general, describir y analizar,

comparativamente a conjuntos de elementos o individuos en relación a variables

de interés.

7/23/2019 Est-111-Material Didactico Unidad 4 Primera Parte

http://slidepdf.com/reader/full/est-111-material-didactico-unidad-4-primera-parte 14/15

7/23/2019 Est-111-Material Didactico Unidad 4 Primera Parte

http://slidepdf.com/reader/full/est-111-material-didactico-unidad-4-primera-parte 15/15

Contenidista: Francisco Roa Familia

15

1. http://estadistica-uasd.blogspot.com/,  sitio Web del que somos co-

propietarios.

2. Enciclopedia virtual Wikipedia, 30 de nov. 2010 

http://es.wikipedia.org/wiki/Estad%C3%ADstica. 

3. BIBLIOTECA VIRTUAL de Derecho, Economía y Ciencias Socialeshttp://www.eumed.net/libros/2006a/rmss/00.htm (30 de nov. 2010) 

4. David R. Anderson. Denny J. Sweeney. Thomas A. Williams, enEstadística para Administración y Economía. D.R. 2008 por EditorialCENGAGE Learning Editores S.A., México, DF, 10ª. Edición.

5. Richard I. Levin y Bubin, David S, en Estadística para Administracióny Economía; 7ma. Edición; Editorial Pearson Educación, México,2004.

6. Allen L. Webster, en Estadística Aplicada a los negocios y a la

Economía. Editora IrWin-McGraw-Hill. Tercera edición; abril del año2004.

7. Carlos Custodio Guerrero, en Estadística Básica, Editorial Surco,4ta.edición, año 2008.

8. Alfonso García Barbancho, en Estadística Elemental Moderna. 9na.

Edición, noviembre 1993.Editorial Ariel, S.A, Córcega, 270,

Barcelona-8. ISBN:84 344 01401. Impreso en España.