Seminario6

18
SEMINARIO 6 Análisis exploratorio de datos Tablas de frecuencias, resúmenes numéricos y gráficos.

Transcript of Seminario6

Page 1: Seminario6

SEMINARIO 6

Análisis exploratorio de datos Tablas de frecuencias, resúmenes

numéricos y gráficos.

Page 2: Seminario6

EJERCICIO 1

Selecciona dos variables cualitativas-factor del fichero “activossalud.RData”, descríbelas en tablas de frecuencias e interpreta al menos 3 aspectos en relación a la distribución de las

mismas.

Page 3: Seminario6

En primer lugar, importamos el conjunto de datos “activossalud” a R

Page 4: Seminario6

Seleccionamos dos variables cualitativas: “botellón” y “tabaco”

Page 5: Seminario6

Hacemos lo mismocon la variable“tabaco” de formaque obtenemos lamisma tabla que podemos comparar.

Page 6: Seminario6

• Comparando ambas tablas podemos ver como el 43,63% no ha fumado tabaco nunca, mientras que tan solo el 17,89% no ha hecho botellón en ninguna ocasión.

• Destaca el consumo de tabaco a diario, con un 17,30% de los encuestados, con una diferencia clara con respecto al botellón, del cual destaca su realización en los fines de semana con un 31,58%.

• El porcentaje de encuestados que a hecho botellón alguna vez es del 21,75%, mientras que en el caso del tabaco es del 19,03%

• Podemos concluir que el consumo de alcohol en forma de botellón está más generalizado que el consumo de tabaco, pero este sin embargo se consume de una forma más habitual con respecto al alcohol, que tiene su máximo durante los fines de semana.

• La comparación se ha realizado teniendo en cuenta los porcentajes y no según la frecuencia absoluta ya que el tamaño de la muestra puede ser diferente.

Page 7: Seminario6

EJERCICIO 2

Selecciona dos variables numéricas del fichero “activossalud.RData”, y mediante resúmenes

numéricos describe e interpreta la distribución de las mismas.

Page 8: Seminario6

Seleccionamos dos variables cuantitativas (peso y horas de práctica deportiva) y las comparamos según las medidas de

tendencia central, dispersión y posición.

Realizamos lo mismo con la variable“peso”

Page 9: Seminario6

HORAS DE PRÁCTICA DEPORTIVA

La media de horas de práctica deportiva en los alumnos estudiantes de enfermería es de 2,48 a la semana.La desviación típica es de 3,13, lo cual es indicativo de que los valores están algo dispersos ( alejados del valor de la media ) Cuartiles: El primer cuartil es de 0, lo que significa que el 25% de la muestra no

dedica ninguna hora a la práctica deportiva a la semana. El segundo cuartil es de 2, es decir, el 50% de la muestra dedica 2 horas o

menos a la práctica deportiva a la semana. El tercer cuartil es de 4, o lo que es lo mismo, el 75% de los encuestados

emplea 4 horas o menos a la práctica deportiva a la semana. El 100% de los encuestados realiza 16 horas de práctica deportiva a la semana o menos, por lo que podemos concluir que los límites se encuentran entre 0h y 16h. NA hace referencia al número de personas que no han respondido a esta cuestión (1)

Page 10: Seminario6

PESO

• La media del peso de la muestra es de 62,75 kilos.• La desviación típica es de 12,65 , lo que indica que los datos están bastante

dispersos(es decir, alejados del valor de la media)• Cuartiles El valor mínimo (0%) es de 38kg, es decir, que por debajo de este valor no se

encuentra ningún otro. El primer cuartil es de 54kg, es decir, el 25% de la muestra pesa 54kg o menos. El segundo cuartil es de 60kg, lo que indica que la mitad de la muestra pesa 60

kg o menos. El tercer cuartil es de 68kg, por lo que el 75% de los encuestados pesa 68kg o

menos. El cuarto cuartil, es de 130kg, es decir, todos los encuestados pesan igual o

menos de este valor. Podemos decir que los límites entre los que se encuentra el peso de la muestra están entre 38 y 130 kg

• Hay 16 personas que no han respondido a esta pregunta (NA)

Page 11: Seminario6

EJERCICIO 3

Realizar al menos un gráfico de cada tipo con variables adecuadamente seleccionadas del

fichero “activossalud.RData”, describe e interpreta la distribución los mismos.

Page 12: Seminario6

GRÁFICA DE SECTORES.

Nos muestra que prácticamente hayel mismo número de personas que realizan deporte como las que no lo realizan. Siendo un poco mayor la cantidad de los que sí lo hacen.

Para representarVariables cualitativas.

Page 13: Seminario6

GRÁFICO DE BARRASUtilizados en variables cualitativas, siendo útil su uso cuando

tienen más de dos categorías.Analizamos la frecuencia de la protección con preservativo.

Page 14: Seminario6

La mayoría de los encuestados usa siempre preservativo ( mas de 150 personas), mientras quealgo menos de 100 reconocen usarlo alguna vez.Menos significativas son el número de personas que no lo usan nunca ( entorno a 15 personas)y las que no han mantenido relaciones, (menos de 10)

Page 15: Seminario6

HISTOGRAMA DE FRECUENCIASUsados en variables numéricas.

Page 16: Seminario6

Los valores más concentrados se encuentran entre 50 y 70 kg, siendo el número de personas con peso inferior a 40kg muy bajo. Ningún encuestado tiene un peso entre 110 y 120kg.

Page 17: Seminario6

DIAGRAMA DE CAJAPara variables numéricas.

Page 18: Seminario6

Los bigotes son los valores máximos (1,90m)y mínimos (1,45m aprox.).El 50% de los casos miden entre 1,60m y 1,72mLa mediana es de 1,65mEl 75% de la muestra mide 1,72m o menos.Existen 3 valores atípicos, de 116, 103 y 259.