Presentación tarea seminario 6

31
TAREA SEMINARIO VI parte I Patricia Olmedo Leal

Transcript of Presentación tarea seminario 6

TAREA SEMINARIO VI

parte I

Patricia Olmedo Leal

Análisis exploratorio de datos

Tablas de frecuencias, resúmenes

numéricos y gráficos.

¿En que consiste el ejercicio 1?

Selecciona dos variables numéricas del fichero

“activossalud.RData”, y mediante resúmenes

numéricos describe e interpreta al menos 3 aspectos

la distribución de las mismas.

1. Abrimos R desde nuestro ordenador

Si lo hicimos de manera correcta, debe abrirse de automáticamente R-

Commander.

1. Debemos cargar los datos necesarios para esta

tarea, los cuales han debido ser previamente

descargados

Para ello clickeamos en Datos< Cargar datos

Posteriormente clikeamos en archivossalud.R.Data y abrimos dicho documento.

Entonces nos aparecerá lo siente en la pantalla:

Además podemos obserbar como son estos datos según lo que pone

abajo en mensajes: El conjunto de datos Datos tiene 291 filas y 38

columnas.

2, Seleccionamos la primera variable elegida:

Para ello debemos hacer click en:

Estadísticos< Resúmenes< Distribución de frecuencia

A continuación seleccionamos nuestra variable,, que en mi caso será Refrescos

3. Conclusiones de Refrescos:• Del total de la muestra que son 291, 73 no toman nunca refrescos, lo que

constituye un 25% y otro 25% lo hace menos de una vez a la semana por lo que no es un habito generalizado en la sociedad.

• Hay solo un 12% que son 35 lo hacen habitualmente.

• Del total de la muestra 43 personas aseguran tomar 3 o más veces refrescos a la semana, lo que sería un 14.78% .

• Hay un gran porcentaje de personas el 23% lo que son 67 personas que solo beben refresto 1 o 2 veces a la semana con lo cual podemos deducir que lo hacen solo cuando están fuera de casa o durante el fin de semana.

4. Seleccionamos la segunda variable elegida:

En mi caso la segunda variable escogida será "hacercomer".

Sería de la misma forma que acabamos de explicar: Estadísticos< Resúmenes<

Distribución de frecuciena< hacercomer< aceptar

5. Conclusiones de hacer de comer

(hacercomer)

• Del total de personas encestadas 291, hay 23 que no hacen nunca su cama lo que supone casi un 8% porciento, lo que teniendo en cuenta cual es el factor es un porcentaje demasiado elevado.

• Hay 30 personas que lo hacen algunas veces al año, que sería el 10,31% y casi podemos deducir que sería en aquellas situaciones en las que les daría vergüenza.

• 58 personas, es decir, el 19,93% la hacen dos o tres veces al mes, que también podemos decir que serían en situaciones comprometidas.

• El 19,24% de la muestra, lo que serían 56 personas la hacen 2 o 3 veces a la semana

• 24 personas solo hacen la cama los fines de semana, con lo cual podemos deducir que son aquellos que días entre semana están ocupados y se la hace otra persona.

• Solo 100 de los encuestados, lo que supone un 34,36% hace su cama a diario lo cual es un dato bajísimo

Con todos estos datos y teniendo en cuenta que es una muestra

grande pues se trata de 291 personas encuestadas podemos

deducir que por regla general la mayoría de la población no hace

su cama prácticamente nunca. Pues contando como regular sola a

las personas que tienen la cama hecho o bien a diario o bien 2o 3

veces a la semana constituirían solo el 53% de la muestra.

Ejercicio 2:

Consiste en seleccionar dos variables numéricas del fichero

"archivossalud.RData", y mediante resúmenes numéricos describe e

interpreta la distribución de la misma.

En mi caso yo he escogido las variables peso y altura

Sería de la siguiente forma: Estadísticos< Resúmenes<

Resúmenes numéricos< peso< acepta

Conclusiones Peso:

• La media de la variable es de 62.75571 y su desviación típica es de 12.65981.

• La mediana es d e60, ya que es el número que se correspondo con el

segundo cuartil, que deja el 50% de valores por enciama y el otro 50% por

debajo

• Es una varibel simétrica porque la media y la mediana tienen valores imilaes

• Hay 16 datos no disponibles

Seleccionamos ahora la altura: Estadísticos<

Resúmenes< Resúmenes numéricos<

altura< acepta

Conclusiones Altura

• La media de la varible es de 1.667; la desviación típica es de 0.08078101

• Hay un único dato del que no se conoce información

• La mediana es el valor 1.655, es la cifra que coincide con el segundo cuartil

diviviendo al varibledo en dos partes exactamente iguales deja el 50% por

arriba y el otro 50% por debajo

• La variable es simétirca porque hay poquísima diferencia entre la media y la

mediana.

Ejercicio 3.

Consiste en realizar al menos un grafico de cada tipo

con variables adecuadamente seleccionadas del

fichero "activossalud.RData", describe e interpreta la

distribución de los mismo

Tipos de gráficos:

• Grafico de sectores

Variables cualitativas

• Gráfico de barras

• Histogramas

Variable cuantitativa

• Diagramas de cajas

1. Gráfica de sectores:La variable seleccionada es Practica de deporte

Se realiza del siguiente modo: Gráficos< Gráficos de sectores<

practicadedeporte<Aceptar

El gráfico es este, de él podemos sacar como conclusión que algo

más de la mitad de la muestra practica deporte y que alrededor del

45% no practican nada de deporte.

Es poco significativa pues solo nos indica que entorno al 55% si

practica pero no con que frecuencia.

2. Gráfica de barrasLa variable seleccionada es: fruta

Se realiza del siguiente modo: Gráficos< Gráficos de barras<

fruta<Aceptar

El gráfico es el siguiente:

Conclusiones del gráfico de frutas:

El 10% aproximadamente no come fruta nunca o casi nunca mientras que el 23% lo hace una o dos veces a la semana. Además también podemos observar como hay un 23% aproximadamente que come tres o más veces a la semana pero no a diario. También hay más del 10% que come menos de una vez a la semana fruta. Observamos como el 32% de la población come fruta a diario.

Claramente se puede observar como más de la mitad de la población, aproximadamente el 78% aproximadamente come fruta una o dos veces a la semana o más, con lo cual, la fruta forma parte de su fruta y solo un 20 % que no come fruta practicamente.

3. Histograma

La variable seleccionada: comunicación familiar

La gráfica es la siguiente:

Conclusión del histograma de comunicación

familiar:

Del histograma podemos deducir que aproximadamente la

mitad de la población tienen comunicación familiar entre 6

y 8; el 35% aproximadamente entre alas 8 y las 10 y el 40%

entre 4 y 6.

Esta es una grafica que claramentes seguiría la curva

normal.

4. Diagrama de caja

La variable seleccionada: identificación

Conclusión del diagrama de caja de

identificación

Observamos que es una variable

simétrica ya que la media y la

mediana coinciden o están muy

próximas. Los datos se

distribuyen de forma similiar