Seminario 6

19
Seminario VI : Análisis exploratorio de datos. BEATRIZ ROJAS JIMÉNEZ 1º ENFERMERÍA VIRGEN DEL ROCÍO; SUBGRUPO 16 CURSO: 2015/16

Transcript of Seminario 6

Page 1: Seminario 6

Seminario VI: Análisis

exploratorio de datos.

BEATRIZ ROJAS JIMÉNEZ1º ENFERMERÍA VIRGEN DEL ROCÍO; SUBGRUPO 16

CURSO: 2015/16

Page 2: Seminario 6

Introducción

En este seminario vamos a trabajar con R Commander la primera parte de los análisis estadísticos: los análisis descriptivos o exploratorios.

Page 3: Seminario 6

Primer ejercicio:

Selecciona dos variables cualitativas-factor del fichero “activossalud.rdata”, descríbelas en tablas de frecuencias e interpreta al menos 3 aspectos en relación a la distribución de las mismas.

Page 4: Seminario 6

Antes de comenzar con el ejercicio debemos: ABRIR R JUNTO A R COMMANDER Y ESPECIFICAR EL DIRECTORIO DE TRABAJO.Fichero Cambiar directorio de trabajo… Elegir carpeta

Page 5: Seminario 6

CARGAR LOS DATOS CON LOS QUE VAMOS A TRABAJAR:Datos Cargar conjunto de datos… Elegir archivo [activossalud(1)]

Page 6: Seminario 6

1) Comenzamos con el primer ejercicio: primero debemos buscar las distribuciones de los datosEstadísticos Resúmenes Distribución de frecuencias… elegir las dos variables que utilizaremos (edad y botellón)

Page 7: Seminario 6

2) Nos aparece la tabla de frecuencias de las variables botellón y edad, vamos a interpretarlas.

BOTELLÓN EDAD

Beben solo 3 personas a diario (1,05%).

El 38,41% de las personas del estudio tienen 18 años (111 personas).

Solo los fines de semana beben 90 personas (31,58%).

Entre 21 – 22 años hay el 21,11% (61 personas).

Nunca beben 51 personas (17,89 %)

El 10,03 % de los estudiados tenían más de 25 años (29 personas).

Page 8: Seminario 6

Segundo ejercicio:

Selecciona dos variables numéricas del fichero “activossalud.rdata”, y mediante resúmenes numéricos describe e interpreta la distribución de las mismas.

Page 9: Seminario 6

1) Buscamos la tabla de frecuencias de datos cuantitativos.Estadística Resúmenes Resúmenes numéricos

2) Elegimos las variables que queremos describir de la tabla de frecuencias (altura y peso).

En estadísticos podemos seleccionar las medidas que queremos.

Page 10: Seminario 6

3) Describimos las dos variables:

ALTURA (metros) PESO (kg)La mediana coincide con el segundo cuartil (Q2) y sería 1,655.

La mediana coincidirá con Q2 y sería 60.

Sería una distribución asimétrica ya que la media no coincide con la mediana (1,667 ≠ 1,655).

Es una distribución asimétrica porque la media y la mediana no coinciden (62,75571 ≠ 60)

Tiene una desviación típica (sd) de 0,0807… Tiene una desviación típica de 12,6598…La muestra es de 290 individuos de los cuales, solo 1 no ha contestado.

La muestra consta de 275 individuos de los cuales, 16 no han constestado.

Rango intercuartílico (IQR) = 0,12Primer cuartil (Q1) = 1,6Tercer cuartil (Q3) = 1,72Altura máxima = 2 metrosAltura mínima = 1,46 metros

Rango intercuartílico (IQR) = 14Primer cuartil (Q1) = 54Tercer cuartil (Q3) = 68Peso Máximo = 130 KgPeso Mínimo = 38 Kg

Page 11: Seminario 6

Tercer ejercicio:

Realizar al menos un gráfico de cada tipo con variables adecuadamente seleccionadas del fichero “activossalud.rdata”, describe e interpreta la distribución los mismos.

Page 12: Seminario 6

GRÁFICO DE SECTORESGráficas Gráfica de sectores… Elegimos la variable (botellón)

Page 13: Seminario 6

a diario

solo los fines de semana2 o 3 veces a la semana

2 o 3 veces al mes

Algunas veces anual

Nunca

botellon

De esta muestra podemos sacar varias conclusiones:

• La mayoría de la muestra bebo sólo los fines de semana.

• Una mínima parte de la muestra bebe todos los días.

• Existe un gran número de la muestra que no bebe nunca.

Page 14: Seminario 6

DIAGRAMA DE BARRASGráficas Gráficas de barras Elegir varible (cerveza)

Page 15: Seminario 6

De la variable de cerveza podemos destacar que:• El primer hecho más

representativo es que una parte muy representativa de la muestra nunca bebe cerveza.

• Y el segundo, es que una mínima parte de la muestra bebe a diario cerveza.

diario 2 o 3 veces semana alguna vez nunca

cervezaFr

eque

ncy

020

4060

8010

0

Page 16: Seminario 6

HISTOGRAMAGráficas Histograma Elegir variable (altura)

Page 17: Seminario 6

altura

frequ

ency

1.5 1.6 1.7 1.8 1.9 2.0

010

2030

4050

6070

De esta variable de dulces podemos sacar varias conclusiones:• Es una distribución asimétrica, un poco

sesgada hacia la izquierda.• La altura más representativa se encuentra

entre 1,6 y 1,7 metros.• Existen pocos individuos que midan menos

de 1,5 metros y más de 1,9 metros-

Page 18: Seminario 6

DIAGRAMA DE CAJASGráficas Diagrama de cajas elegir variable (peso)

Page 19: Seminario 6

4060

8010

012

0

peso

103152

158

183193

199

259

266

De la variable peso podemos destacar que:• El peso máximo está alrededor de

90 Kg y el mínimo en 40 Kg.• La mediana se encontraría en 60.

Esta correspondería con Q2.• Q1 = 65• Q3 = 55• Las observaciones aberrantes o

datos atípicos serían todos los que se encuentran fuera de la caja.