Estadistica

20
UNIVERSIDAD POLITÉCNICA DE EL SALVADOR FACULTAD DE INGENIERÍA Y ARQUITECTURA ESCUELA DE INGENIERÍA EN CIENCIAS DE LA COMPUTACIÓN R PARA ESTADÍSTICA Guía Práctica de Aprendizaje No 4 “Medidas de Dispersión” Tema de referencia: Desviación Media, Desviación Típica, Varianza, Coeficiente de Variabilidad Competencia a formar: Iniciarse en el aprendizaje y ser capaz de continuarlo de manera autónoma aplicando la lógica del conocimiento racional. MISIÓN DE LA UNIVERSIDAD

description

ejercicios de para estadistica

Transcript of Estadistica

Page 1: Estadistica

UNIVERSIDAD POLITÉCNICA DE EL SALVADORFACULTAD DE INGENIERÍA Y ARQUITECTURA

ESCUELA DE INGENIERÍA EN CIENCIAS DE LA COMPUTACIÓN

R PARA ESTADÍSTICA

Guía Práctica de Aprendizaje No 4 “Medidas de Dispersión”

Tema de referencia: Desviación Media, Desviación Típica, Varianza, Coeficiente de Variabilidad

Competencia a formar: Iniciarse en el aprendizaje y ser capaz de continuarlo de manera autónoma aplicando la lógica del conocimiento racional.

MISIÓN DE LA UNIVERSIDAD

FORMAR PROFESIONALES CON ALTO SENTIDO CRÍTICO Y ÉTICO, CON CAPACIDAD DE AUTOFORMACIÓN Y CON LAS COMPETENCIAS TÉCNICO-CIENTÍFICAS REQUERIDAS PARA RESOLVER PROBLEMAS MEDIANTE SOLUCIONES ENFOCADAS EN EL DESARROLLO SOCIAL Y RESPETUOSAS DEL MEDIO AMBIENTE.

Page 2: Estadistica
Page 3: Estadistica

1. INTRODUCCIÓN

Cuando se trata de realizar análisis sobre tendencias a partir de una distribución de datos es importante desarrollar técnicas de análisis estadísticos de datos y cálculo de probabilidades.Para realizar análisis estadísticos de datos para distribuciones simples y agrupadas por medio del cálculo de medidas de centralización, posición y de dispersión, se debe desarrollar un estudio sobre temas como desviación media, desviación típica, varianza y coeficiente de variabilidad.

Mostraremos la teoría sobre los temas mencionados y para profundizar en ellos vamos a realizar casos prácticos para un mejor entendimiento.

2. OBJETIVO GENERAL

Calcular las medidas de dispersión de datos, tanto para distribuciones simples como para agrupadas.

3. OBJETIVO DE RENDIMIENTO

Utilizar R para casos prácticos en el estudio de las medidas de dispersión.

4. DURACIÓN DE LA PRÁCTICA : 2 Horas

5. MARCO TEÓRICO

Desviación media:

En estadística la desviación absoluta promedio o, sencillamente desviación media o promedio de un conjunto de datos es la media de las desviaciones absolutas y es un resumen de la dispersión estadística.

La desviación respecto a la media es la diferencia entre cada valor de la variable estadística y la media aritmética.

Di = xi -

Desviación media para datos simples:

La desviación media es la media aritmética de los valores absolutos de las desviaciones respecto a la media.

La desviación media se representa por

1

Page 4: Estadistica

Desviación media para datos agrupados:

Si los datos vienen agrupados en una tabla de frecuencias, la expresión de la desviación media es:

Desviación típica

La desviación estándar o desviación típica (denotada con el símbolo σ) es una medida de centralización o dispersión para variables de razón (ratio o cociente) y de intervalo, de gran utilidad en la estadística descriptiva.

Se define como la raíz cuadrada de la varianza. Junto con este valor, la desviación típica es una medida (cuadrática) que informa de la media de distancias que tienen los datos respecto de su media aritmética, expresada en las mismas unidades que la variable.

La desviación típica es la raíz cuadrada de la varianza.

Es decir, la raíz cuadrada de la media de los cuadrados de las puntuaciones de desviación.

La desviación típica se representa por σ.

Desviación típica para datos simples:

Desviación típica para datos agrupados:

2

Page 5: Estadistica

Propiedades de la desviación típica:

1. La desviación típica será siempre un valor positivo o cero, en el caso de que las puntuaciones sean iguales.

2. Si a todos los valores de la variable se les suma un número la desviación típica no varía.

3. Si todos los valores de la variable se multiplican por un número la desviación típica queda multiplicada por dicho número.

4. Si tenemos varias distribuciones con la misma media y conocemos sus respectivas desviaciones típicas se puede calcular la desviación típica total.

Observaciones sobre la desviación típica

1. La desviación típica, al igual que la media y la varianza, es un índice muy sensible a las puntuaciones extremas.

2. En los casos que no se pueda hallar la media tampoco será posible hallar la desviación típica.

3. Cuanta más pequeña sea la desviación típica mayor será la concentración de datos alrededor de la media.

Varianza

En teoría de probabilidad, la varianza (que suele representarse como ) de una variable aleatoria es una medida de dispersión definida como la esperanza del cuadrado de la desviación de dicha variable respecto a su media.

La varianza es la media aritmética del cuadrado de las desviaciones respecto a la media de una distribución estadística.

La varianza se representa por:

Varianza para datos simples:

Varianza para datos agrupados:

3

Page 6: Estadistica

Propiedades de la varianza

La varianza será siempre un valor positivo o cero, en el caso de que las puntuaciones sean iguales.

Si a todos los valores de la variable se les suma un número la varianza no varía.

Si todos los valores de la variable se multiplican por un número la varianza queda multiplicada por el cuadrado de dicho número.

Si tenemos varias distribuciones con la misma media y conocemos sus respectivas varianzas se puede calcular la varianza total.

Observaciones sobre la varianza

1. La varianza, al igual que la media, es un índice muy sensible a las puntuaciones extremas.

2. En los casos que no se pueda hallar la media tampoco será posible hallar la varianza.

3. La varianza no viene expresada en las mismas unidades que los datos, ya que las desviaciones están elevadas al cuadrado.

Coeficiente de variación

En estadística el coeficiente de variación a distintas escalas pero que están correlacionadas estadísticamente y sustantivamente con un factor en común. Es decir, ambas variables tienen una relación causal con ese factor. Su fórmula expresa la desviación estándar como porcentaje de la media aritmética, mostrando una mejor interpretación porcentual del grado de variabilidad que la desviación típica o estándar. Por otro lado presenta problemas ya que a diferencia de la desviación típica este coeficiente es variable ante cambios de origen. Por ello es importante que todos los valores sean positivos y su media dé, por tanto, un valor positivo. A mayor valor de coeficiente de variación (C.V.) mayor heterogeneidad de los valores de la variable; y a menor C.V., mayor homogeneidad en los valores de la variable. Suele representarse por medio de las siglas C.V.

El coeficiente de variación es la relación entre la desviación típica de una muestra y su media.

El coeficiente de variación se suele expresar en porcentajes:

El coeficiente de variación permite comparar las dispersiones de dos distribuciones distintas, siempre que sus medias sean positivas.

Se calcula para cada una de las distribuciones y los valores que se obtienen se comparan entre sí.

4

Page 7: Estadistica

La mayor dispersión corresponderá al valor del coeficiente de variación mayor.

6. FUENTES DE INFORMACIÓN

Estadística Aplicada a los negocios y la economía (Allen L. Webster) Estadística Elemental (Freund ,John E. ; Simon , Gary A.) Probabilidad y Estadística para Ingenieros (Miller, Irwin ; Freund , John; Johnson,

Richard.) http://www.r-project.org/

7. MATERIAL Y EQUIPO A UTILIZAR

Computadora Personal Guía de Práctica de laboratorio Software R

8. EJEMPLOS PARA EL DESARROLLO DE LA PRÁCTICA

Desviación media para datos simples:

En un examen de 20 preguntas, 8 alumnos obtuvieron la cantidad de respuestas correctas según el detalle siguiente: 9, 3, 8, 8, 9, 8, 9, 18.

Para calcular la desviación media se utiliza la fórmula siguiente:

Al sustituir los datos en la fórmula quedaría expresado así:

En R, primero se asigna la distribución a la variable x así: x<-c(9, 3, 8, 8, 9, 8, 9, 18), luego encontramos la media y la asignamos a una variable así: m<-mean(x), luego usamos la función abs() que es para el valor absoluto y con la expresión x-m hacemos la resta de cada valor de la distribución menos la media, por ultimo con la función sum() realizamos la sumatoria de todos los resultados de la resta y lo dividimos entre el total de números que compone la distribución, esto lo hacemos con la función length(), la formula final quedaría asi: sum(abs(x-m))/length(x), y la respuesta es desviación media 2.25, tal y como se muestran todos los pasos en el segmento de la pantalla de R siguiente:

5

Page 8: Estadistica

Desviación media para datos agrupados:

En una encuesta realizada a 21 familias relacionada a las remesas familiares que desde Estados Unidos se envían a El Salvador, se verificó las edades de los hijos que reciben las remesas, los envíos a hijos con edades entre los rangos de 10 y 15 años, son 3 familias, edades entre 15 y 20 son 5 familias, y así sucesivamente como se muestra en la tabla.

Calcular la desviación media de la distribución:

  xi fi xi * fi |xi - | |xi - | * fi

[10, 15) 12.5 3 37.5 9.286 27.858

[15, 20) 17.5 5 87.5 4.286 21.43

[20, 25) 22.5 7 157.5 0.714 4.998

[25, 30) 27.5 4 110 5.714 22.856

[30, 35) 32.5 2 65 10.174 21.428

    21 457.5   98.57

Según las fórmulas se resuelve:

En R, primero asignamos los valores de x, para este caso va de 12.5 a 32.5 y de 5 en 5 esa secuencia la asignamos con: x<-seq(12.5,32.5,5), luego obtenemos la media, para este caso no podemos utilizar la función mean() debido a que con esos 5 datos estamos representando 21 números, ya que cada uno de ellos se repite de acuerdo a la frecuencia por lo que la media la vamos a obtener sumando los resultados de multiplicar x con f(frecuencia) y dividiendo entre la suma de f, para eso hay que asignar los valores de f: f<-c(3,5,7,4,2), luego hacemos la fórmula para obtener la media que sería: m<-sum(x*f)/sum(f), por último hacemos la fórmula

6

Page 9: Estadistica

para obtener la desviación media así: sum(abs(x-m)*f)/sum(f), se muestra en la pantalla siguiente como hacerlo en R:

Desviación típica para datos simples:

En un examen de 20 preguntas, 8 alumnos obtuvieron la cantidad de respuestas correctas según el detalle siguiente: 9, 3, 8, 8, 9, 8, 9, 18.

Calcular la desviación típica. Para ello se utiliza la fórmula:

En R vamos a asignar la distribución a x así: x<-c(9, 3, 8, 8, 9, 8, 9, 18), luego vamos a ocupar la función sd() que es para obtener la desviación típica o estándar. El resultado se muestra en el segmento de pantalla siguiente en R:

Desviación típica para datos agrupados:

En el Ministerio de Salud se realizaron exámenes para detectar el virus del VIH, en la tabla siguiente se muestra por rangos de edades cuántas personas resultaron positivas:

Calcular la desviación típica de la distribución de la tabla:

  xi fi xi * fi xi2 * fi

[10, 20) 15 1 15 225

[20, 30) 25 8 200 5000

[30,40) 35 10 350 12 250

[40, 50) 45 9 405 18 225

[50, 60) 55 8 440 24 200

[60,70) 65 4 260 16 900

7

Page 10: Estadistica

[70, 80) 75 2 150 11 250

    42 1 820 88 050

En R, asignamos en x los datos así: x<-seq(15,75,10), luego asignamos los datos de la frecuencia así: f<-c(1,8,10,9,8,4,2), luego calculamos la media con: m<-sum(x*f)/sum(f) y por ultimo calculamos la desviación típica sqrt(sum((x-m)^2*f)/(sum(f)-1)), en la siguiente pantalla se muestra el resultado:

Varianza para datos simples:

En un examen de 20 preguntas, 8 alumnos obtuvieron la cantidad de respuestas correctas según el detalle siguiente: 9, 3, 8, 8, 9, 8, 9, 18.

Calcular la varianza. Utilizaremos la fórmula:

En R primero asignamos la distribución así: x<-c(9, 3, 8, 8, 9, 8, 9, 18), luego vamos a ocupar la función var(), que es para el cálculo de la varianza, tal como se muestra en la pantalla de R siguiente:

Varianza para datos agrupados:

Calcular la varianza de la distribución de la tabla resultado del examen del VIH mencionado anteriormente:

  xi fi xi* fi xi2 * fi

[10, 20) 15 1 15 225

[20, 30) 25 8 200 5000

8

Page 11: Estadistica

[30,40) 35 10 350 12 250

[40, 50) 45 9 405 18 225

[50, 60 55 8 440 24 200

[60,70) 65 4 260 16 900

[70, 80) 75 2 150 11 250

    42 1 820 88 050

En R, asignamos en x los datos así: x<-seq(15,75,10), luego asignamos los datos de la frecuencia así: f<-c(1,8,10,9,8,4,2), luego calculamos la media con: m<-sum(x*f)/sum(f) y por ultimo calculamos la varianza sum((x-m)^2*f)/(sum(f)-1), en la siguiente pantalla se muestra el resultado:

Coeficiente de variación:

Una distribución tiene = 140 y σ = 28.28 y otra = 150 y σ = 24. ¿Cuál de las dos presenta mayor dispersión?

Calculamos el primer coeficiente de variación y lo llamaremos cv1 así: cv1<-28.28/140*100, para ver el valor digitamos cv1 y presionamos la tecla enter, luego calculamos el segundo y lo llamaremos cv2, cv2<-24/150*100 tal como se muestra en la pantalla siguiente:

La primera distribución presenta mayor dispersión con el 20.2%.

9

Page 12: Estadistica

9. PRÁCTICA A DESARROLLAR

a. En un fin de semana se atendió en FOSALUD a 9 pacientes que presentaban síntomas de H1N1, las edades de los 9 son las siguientes: 7, 6, 5, 4, 11, 9, 10, 13,15. Calcular la desviación media de la distribución.

b. Se hizo un estudio para verificar las edades en las que se presentan mayores casos de enfermedades respiratorias, en la tabla se muestran los rangos de edades y cuántos enfermos hay entre esos rangos. Completar la tabla y calcular la desviación media de la distribución:

Valor de la media aritmética: 24.6

  xi fi xi * fi |xi - | |xi - | * fi

[10, 15) 12.5 3 37.5 12.1 36.3

[15, 20) 17.5 6 105 7.1 42.6

[20, 25) 22.5 2 45 2.1 4.2

[25, 30) 27.5 7 192.5 2.9 20.3

[30, 35) 32.5 8 260 7.9 63.2

    26 640 32.1 166.6

Desviación media=6.40

10

Page 13: Estadistica

calculo de la desviacion media.

Codigo:

> x<-seq(12.5,17.5,5)

> f<-c(3,6,2,7,8)

> sum(x*f)/sum(f)

[1] 15

Warning message:

In x * f : longer object length is not a multiple of shorter object length

> x<-seq(12.5,32.5,5)

> sum(x*f)/sum(f)

[1] 24.61538

> m<-sum(x*f)/sum(f)

> sum(abs(x-m)*f)/sum(f)

[1] 6.405325

c. Se hizo una encuesta para verificar las edades que más frecuentan un grupo de pacientes de la tercera edad que consulta por enfermedades cardiovasculares, las edades que más se repiten son: 65, 68, 70, 71, 73, 75, 76, 79, 82, 85. Calcular la desviación típica de la distribución.

11

Page 14: Estadistica

Código:

> x<-c(65.68,70,71,73,75,76,79,82,85)

> sd(x)

[1] 6.098656

Desviación típica: 6.09

d. En parque realizaron un estudio para poder determinar qué productos podrían venderse más, orientándose a la edad del visitante, para ello obtuvieron cuantos visitantes hay en un día por rango de edades, en la tabla se muestra el resultado. Completar la tabla y calcular la desviación típica de la distribución:

  xi fi xi * fi xi2 * fi

[10, 20) 15 4 60 900

[20, 30) 25 9 225 5625

[30,40) 35 3 105 3675

[40, 50) 45 8 360 16200

[50, 60) 55 1 55 3025

[60,70) 65 8 520 33800

[70, 80) 75 7 525 39375

    40 1850 102600

Media aritmética= 46.25

12

Page 15: Estadistica

Desviación típica= 20.90

Código= > x<-c(65.68,70,71,73,75,76,79,82,85)> sd(x)[1] 6.098656> x<-seq(15,75,10)> x[1] 15 25 35 45 55 65 75> f<-c(4,9,3,8,1,8,7)> m<-sum(x*f)/sum(x)> m[1] 5.873016> m<-sum(x*f)/sum(f)> m[1] 46.25sqrt(sum((x-m)^2*f)/(sum(f)-1))[1] 20.90117

e. En una carrera participaron 10 personas, los tiempos que tardaron en llegar a la meta la cual fue de 1km son: 3, 7, 4, 4, 9, 12, 10, 10, 11, 7 en minutos. Calcular la varianza de la distribución.

Varianza=

> x<-c(3,7,4,4,9,12,10,10,11,7)

> var(x)

[1] 10.23333

>

f. En una competencia de nado en el mar, los participantes se tardaron en recorrer la meta de 1km entre 10 y 70 minutos, en la tabla se muestra la cantidad de participantes que recorrieron la metra en un rango de minutos. Completar la tabla y calcular la varianza de la distribución:

  xi fi xi* fi xi2 * fi

[10, 20) 15 6 90 1350

[20, 30) 25 4 100 2500

[30,40) 35 8 280 9800

[40, 50) 45 9 405 18225

[50, 60 55 2 110 6050

13

Page 16: Estadistica

[60,70) 65 5 325 21125

[70, 80) 75 7 525 39375

    41 1835 98425

Varianza=396.5015

> x<-c(3,7,4,4,9,12,10,10,11,7)

> var(x)

[1] 10.23333

> x<-seq(15,75,10)

> x

[1] 15 25 35 45 55 65 75

> f<-c(6,4,8,9,2,5,7)

> m<-sum(x*f)/sum(f)

> m

[1] 44.7561

> sum((x-m)^2*f)/sum(f)-1

[1] 396.5015

>

g. ¿Cuál de las distribuciones de las que se muestran algunos datos a continuación presenta mayor dispersión?

= 250 y σ = 35.8 y otra = 275 y σ = 30

Fecha de entrega: Próximo Laboratorio

14