Laura López, Marta de Juan, Laura Mallo. Grupo 72. LADE

24
Laura López, Marta de Juan, Laura Mallo. Grupo 72. LADE

description

TRABAJO DE INTRODUCCIÓN. A LA ESTADÍSTICA. Laura López, Marta de Juan, Laura Mallo. Grupo 72. LADE. INTRODUCCIÓN. Nuestro trabajo va a consistir en el análisis de dos variables cuantitativas continuas. Primeramente analizaremos cada una de ellas por separado y - PowerPoint PPT Presentation

Transcript of Laura López, Marta de Juan, Laura Mallo. Grupo 72. LADE

Page 1: Laura López, Marta de Juan, Laura Mallo.            Grupo 72. LADE

Laura López, Marta de Juan, Laura Mallo. Grupo 72. LADE

Page 2: Laura López, Marta de Juan, Laura Mallo.            Grupo 72. LADE

Nuestro trabajo va a consistir en el análisis de dos variablescuantitativas continuas.Primeramente analizaremos cada una de ellas por separado y posteriormente realizaremos un análisis conjunto de ambas variables.

La estructura del trabajo será la siguiente:La estructura del trabajo será la siguiente:Análisis de la primera variable continuaAnálisis de la segunda variable continuaAnálisis de ambas variables

INTRODUCCIÓN

Page 3: Laura López, Marta de Juan, Laura Mallo.            Grupo 72. LADE

Los datos del trabajo proceden de la base de datos de la página web del Instituto Nacional de Estadística ( INE ). Se trata de datos de carácter nacional y representan el gasto medio según el nivel de formación ( con o sin estudios universitarios) del sustentador principal en bienes y servicios de consumo perteneciente al período de 2006.

PRESENTACIÓN DE DATOS

Sin estudios o con estudios 1º grado

Estudios universitarios

Productos alimenticios

1364,22 1499,29

Bebidas no alcohólicas

86,93 100,96

Bebidas alcohólicas 46,85 78,06

Page 4: Laura López, Marta de Juan, Laura Mallo.            Grupo 72. LADE

Tabaco 123,51 110,05

Articulos de vestir 390,48 792,98

Calzados 126,37 225,21

Alquileres reales 111,23 329,85

Gastos corrientes de la vivienda

104,31 118,27

Otros servicios de la vivienda

161,77 350,75

Electricidad, gas… 271,52 351,73

Inmobiliario 90,16 318,14

Aparatos de calefaccion y cocina

94,06 146,14

Utensilios de cocina 29,06 35,35

Herramientas para jardin

18,64 30,30

Mantenimiento del hogar

141,39 566,37

Productos de farmacia 106,99 175,15

Page 5: Laura López, Marta de Juan, Laura Mallo.            Grupo 72. LADE

Servicios medicos 155,15 220,36

Compra de vehiculos 351,41 948,61

Utilizacion de vehiculos personales

584,02 1024,66

Servicio de transporte 75,07 259,50

Servicio postal 1,33 4,07

Equipos de telefono 4,98 9,35

Equipos de procesamientos de informacion

72,92 215,63

Bienes de ocio y cultura 2,12 35,36

Equipamientos recreativos 69,00 158,23

Servicios culturales 146,80 343,70

Prensa, librería y papelería.

66,33 226,37

Vacaciones 66,43 328,75

Educacion infantil y primaria

3,98 105,43

Page 6: Laura López, Marta de Juan, Laura Mallo.            Grupo 72. LADE

1.- ANÁLISIS DE LA PRIMERA VARIABLE CONTINUA

Se trata de la variable gasto medio por persona con estudios universitarios comprendidos entre 4,07 y 1499,29.

1.1.-Medidas de centralización-La media: representa el equilibrio o centro de gravedad de las observaciones.

-Media:305,2141.2-Medidas de dispersión

-Desviación típica: mide la dispersión de los datos con respecto a la media. A mayor desviación típica, mayor dispersión de los datos respecto a la media. Toma valores no negativos.

-Desviación típica:344,227-Varianza: es el cuadrado de la desviación típica

-Varianza:118492,0-Rango: indica la diferencia entre el mayor y el menor de los datos

-Rango:1495,22-Coeficiente de asimetría

-Coeficiente de asimetría:4,64031.Presenta una asimetría a la derecha, lo que significa que hay más datos pequeños.

Page 7: Laura López, Marta de Juan, Laura Mallo.            Grupo 72. LADE

-Curtosis : 4,98476. Como es positiva es leptocúrtica, lo que significa una menor dispersión ( mucho pico).-Máximo:1499,29-Mínimo:4,07

1.3.- DIAGRAMA DE CAJA

Box-and-Whisker Plot

0 3 0 0 6 0 0 9 0 0 1 2 0 0 1 5 0 0

Estudios universitarios

Como podemos observar en esta gráfico, los lados verticales de esta caja pasan por el primer yel tercer cuartil, y la línea vertical que aparece dentro del rectángulo, es la representada por la media. La caja del diagrama contiene la mitad central de los datos. Este es el gráfico de Caja y Bigotes para el gasto medio por persona con estudios universitarios. Es una buena herramienta que muestra varios aspectos sobre los datos.

Page 8: Laura López, Marta de Juan, Laura Mallo.            Grupo 72. LADE

La parte rectangular del gráfico se extiende desde el cuartil inferior hasta el cuartil superior , cubriendo la mitad central de la muestra. La línea central dentro de la Caja, muestra la localización de la mediana de la muestra. El signo “+” indica la localización de la media de la muestra. Los bigotes se extienden desde la caja hasta los valores mínimo y máximo de la muestra, excepto los datos atípicos o los datos atípicos lejanos, los cuales se representan por separado. Los datos atípicos son los que quedan a más de 1,5 veces el rango intercuartílico por encima o por debajo de la caja y se representan como pequeños cuadrados. Los datos atípicos lejanos se representan se representan como pequeños cuadrados con el signo más en su interior. En este caso existen 3 datos atípicos y 1 lejano.

1.4 – HISTOGRAMA

Histogram for Estudios universitarios

-100 200 500 800 1100 1400 1700

Estudios universitarios

0

3

6

9

12

15

frequenc

y

El histograma es un gráfico para la distribución de una variable cuantitativa continua que representa frecuencias mediante áreas.

Page 9: Laura López, Marta de Juan, Laura Mallo.            Grupo 72. LADE

En el gráfico se observa que lo que más predomina el gasto medio inferior a 500 €. Se puede comentar sobre este histograma cierta apreciación visual, tiene asimetría por la derecha.

1.5- GRÁFICO DE DISPERSIÓN.

Scatterplot for Estudios universitarios

0 300 600 900 1200 1500

Estudios universitarios

Este es el gráfico de dispersión o nube de puntos para gasto medio por persona con estudios universitarios.

Page 10: Laura López, Marta de Juan, Laura Mallo.            Grupo 72. LADE

1.6-TABLA DE FRECUENCIAS.

Tabla de Frecuencias para con estudios

Las frecuencias muestran el número de valores en cada intervalo, mientras que las frecuencias relativas muestran las proporciones en cada intervalo.

Clase Límite inferior

Límite superior

Marca Frecuen-cia

F.Relativa

F.Acumu-lada

F.Acum.Relativa

Menor o

Igual -100 0 0 0 0

1 -100 200 50 14 0,4667 14 0,4667

2 200 500 350 11 0,3667 25 0,3333

3 500 800 650 2 0,0667 27 0,9

4 800 1100 950 2 0,0667 29 0,9667

5 1100 1400 1250 0 0 29 0,9667

6 1400 1700 1550 1 0,0333 30 1

mayor 1700 0 0 30 1

Page 11: Laura López, Marta de Juan, Laura Mallo.            Grupo 72. LADE

1.7-DIAGRAMA DE TALLO Y HOJAS.

Diagrama de Tallo y Hojas para con: unidad = 100,0 1|2 representa 1200,0

14 0|00000001111111 (11) 0|22222333333 5 0|5

ALTO|792,98 948,61 1024,66 1499,29

Aquí se muestra la distribución de frecuencias para con estudios. El rango de datos ha sido dividido en intervalos de 3 (llamadostallos), cada uno representado por una fila de la tabla. El tallo seetiqueta utilizando los primeros dígitos de los valores que seencuentran dentro del intervalo. En cada fila, los valores de losdatos individuales son representados por un dígito (llamado hoja) a laderecha de la línea vertical. Esto nos da un histograma de los datos. Si hay cualquier punto que queda alejado de la mayoría de losotros (llamados datos atípicos), se sitúan en tallos altos y bajosseparados. En este caso, hay 4 datos atípicos. Los datos atípicosse representan en el gráfico de caja y bigotes. La columna de númerossituada más a la izquierda contiene el recuento acumulado desde laparte superior de la tabla hacia la inferior, deteniéndose en la filaque contiene la mediana.

Page 12: Laura López, Marta de Juan, Laura Mallo.            Grupo 72. LADE

2. ANÁLISIS DE LA SEGUNDA VARIABLE CONTINUA

Se trata de la variable gasto medio por persona con estudios universitarios comprendidos entre 1,33 y 1364,22 .2.1.-Medidas de centralización

-La media: representa el equilibrio o centro de gravedad de las observaciones.

-Media:162,3742.2-Medidas de dispersión

-Desviación típica: mide la dispersión de los datos con respecto a la media. A mayor desviación típica, mayor dispersión de los datos respecto a la media. Toma valores no negativos.

-Desviación típica:260,71-Varianza: es el cuadrado de la desviación típica

-Varianza:67969,6-Rango: indica la diferencia entre el mayor y el menor de los datos

-Rango:1362,89-Coeficiente de asimetría

-Coeficiente de asimetría:8,38314.Presenta una asimetría a la derecha, lo que significa que hay más datos pequeños.

Page 13: Laura López, Marta de Juan, Laura Mallo.            Grupo 72. LADE

-Curtosis : 4,98476. Como es positiva es leptocúrtica, lo que significa una menor dispersión (mucho pico).

-Máximo:1354,22-Mínimo:1,33

2.3.-DIAGRAMA DE CAJA.

Box-and-Whisker Plot

0 3 0 0 6 0 0 9 0 0 1 2 0 0 1 5 0 0

Sin estudios con estudios 1grado

Page 14: Laura López, Marta de Juan, Laura Mallo.            Grupo 72. LADE

Como podemos observar en esta gráfico, los lados verticales de esta caja pasan por el primer y el tercer cuartil, y la línea vertical que aparece dentro del rectángulo, es la representada por la media. La caja del diagrama contiene la mitad central de los datos. Este es el gráfico de Caja y Bigotes para el gasto medio por persona con estudios universitarios. Es una buena herramienta que muestra varios aspectos sobre los datos. La parte rectangular del gráfico se extiende desde el cuartil inferior hasta el cuartil superior , cubriendo la mitad central de la muestra. La línea central dentro de la Caja, muestra la localización de la mediana de la muestra. El signo “+” indica la localización de la media de la muestra. Los bigotes se extienden desde la caja hasta los valores mínimo y máximo de la muestra, excepto los datos atípicos o los datos atípicos lejanos, los cuales se representan por separado. Los datos atípicos son los que quedan a más de 1,5 veces el rango intercuartílico por encima o por debajo de la caja y se representan como pequeños cuadrados. Los datos atípicos lejanos se representan se representan como pequeños cuadrados con el signo más en su interior. En este caso existen 2 datos atípicos y 2 lejano.

2.4 – HISTOGRAMA.

Histogram for Sin estudios con estudios 1grado

-100 300 700 1100 1500

Sin estudios con estudios 1grado

0

5

10

15

20

25

frequenc

y

Page 15: Laura López, Marta de Juan, Laura Mallo.            Grupo 72. LADE

El histograma es un gráfico para la distribución de una variable cuantitativa continua que representa frecuencias mediante áreas. En el gráfico se observa que lo que más predomina el gasto medio inferior a 200€ . Se puede comentar sobre este histograma cierta apreciación visual, tiene asimetría por la derecha.

Scatterplot for Sin estudios con estudios 1grado

0 300 600 900 1200 1500

Sin estudios con estudios 1grado

2.5– GRÁFICO DE DISPERSIÓN.

Este es el gráfico de dispersión o nube de puntos para gasto medio por persona sin estudios Universitarios o estudios de primer grado.

Page 16: Laura López, Marta de Juan, Laura Mallo.            Grupo 72. LADE

2.6- TABLA DE FRECUENCIAS

Clase Límite inferior

Límite superior

Marca Frecuen-cia

F.Relativa

F.Acumu-lada

F.Acum.Relativa

Menor o

Igual -100 0 0 0 0

1 -100 166,66,7 33,3333 25 0,8333 25 0,8333

2 166,66,7

433,333 300 3 0,0333 28 0,9333

3 433,333 700 566,667 1 0 29 0,9

4 700 966,667 833,333 0 0 29 0,9667

5 966,667 1233,33 1100 0 0 29 0,9667

6 1233,33 1500 1366,67 1 0,0333 30 1

mayor 1500 0 0 30 1

Page 17: Laura López, Marta de Juan, Laura Mallo.            Grupo 72. LADE

2.7- DIAGRAMA DE TALLO Y HOJAS

Diagrama de Tallo y Hojas para sin: unidad = 10,0 1|2 representa 120,0

(16) 0|0000012466677899 14 1|001224456 5 2|7

ALTO|351,41 390,48 584,02 1364,22

Aquí se muestra la distribución de frecuencias para sin estudios. El rango de datos ha sido dividido en intervalos de 3 (llamadostallos), cada uno representado por una fila de la tabla. El tallo seetiqueta utilizando los primeros dígitos de los valores que seencuentran dentro del intervalo. En cada fila, los valores de losdatos individuales son representados por un dígito (llamado hoja) a laderecha de la línea vertical. Esto nos da un histograma de los datos. Si hay cualquier puntoque queda alejado de la mayoría de los otros (llamados datos atípicos ), se sitúan en tallos altos y bajos separados. En este caso, hay 4 datos atípicos . Los datos atípicos se representan en el gráfico de caja y bigotes. La columna de númerossituada más a la izquierda contiene el recuento acumulado desde laparte superior de la tabla hacia la inferior, deteniéndose en la filaque contiene la mediana.

Page 18: Laura López, Marta de Juan, Laura Mallo.            Grupo 72. LADE

3. ANÁLISIS DE DOS VARIABLES CUANTITATIVAS CONJUNTAS

Tenemos: Una variable cuantitativa continua: Gasto medio por persona con estudios universitarios

(€/persona)Una variable cuantitativa continua: gasto medio por persona sin estudios universitarios

(€/persona)

-Muestra 1 : Gasto medio por persona con estudios universitarios.-Muestra 2 : Gasto medio por persona sin estudios universitarios. -Muestra 1: 30 valores comprendidos desde 4,07 hasta 1499,29-Muestra 2: 30 valores comprendidos desde 1,33 hasta 1364,22

3.1- DIAGRAMA DE CAJA MÚLTIPLE.

Box-and-Whisker Plot

0 300 600 900 1200 1500

Estudios universitarios

Sin estudios con estudios 1grado

Existen 5 datos atípicos y 3 atípicos lejanos.

Page 19: Laura López, Marta de Juan, Laura Mallo.            Grupo 72. LADE

3.2- HISTOGRAMA CONJUNTO

Estudios universitarios

-100 200 500 800 1100 1400 1700

Sin estudios con estudios 1grado

25

15

5

5

15

25

frequ

ency

Page 20: Laura López, Marta de Juan, Laura Mallo.            Grupo 72. LADE

3.3- GRÁFICO DE DISPERSIÓN MÚLTIPLE.

Estudios universitarios

Sin estudios con estudios 1grado

Page 21: Laura López, Marta de Juan, Laura Mallo.            Grupo 72. LADE

3.4- RECTA DE REGRESIÓN.

Plot of Fitted Model

0 300 600 900 1200 1500

Sin estudios con estudios 1grado

0

300

600

900

1200

1500

Estu

dios

uni

vers

itario

s

La salida muestra los resultados de ajuste al modelo linear para describir la relación entre gasto medio y nivel de estudios.La ecuación del modelo ajustado, mostrado como una línea continua es: estudios universitarios=110,231+1,20083*sin estudios/con estudios 1er grado

Page 22: Laura López, Marta de Juan, Laura Mallo.            Grupo 72. LADE

Análisis de Regresión - Modelo Lineal Y = a + b*X-----------------------------------------------------------------------------Variable dependiente: con estudiosVariable independiente: sin estudios----------------------------------------------------------------------------- Error EstadísticoParámetro Estimación estándar T P-Valor-----------------------------------------------------------------------------Ordenada 110,231 31,4774 3,50191 0,0016Pendiente 1,20083 0,103739 11,5755 0,0000-----------------------------------------------------------------------------

Análisis de la Varianza-----------------------------------------------------------------------------Fuente Suma de cuadrados GL Cuadrado medio Cociente-F P-Valor-----------------------------------------------------------------------------Modelo 2,84233E6 1 2,84233E6 133,99 0,0000Residuo 593955,0 28 21212,7-----------------------------------------------------------------------------Total (Corr.) 3,43628E6 29

Interpretación: existe una correlación positiva, ya que en un principio a un mayorNivel de estudios, en general un trabajo mejor remunerado, lo que permitemayores ingresos para dedicarlo al consumo.

Page 23: Laura López, Marta de Juan, Laura Mallo.            Grupo 72. LADE

Coeficiente de Correlación = 0,909479R-cuadrado = 82,7152 porcentajeR-cuadrado (ajustado para g.l.) = 82,0979 porcentajeError estándar de est. = 145,646Error absoluto medio = 111,404Estadístico de Durbin-Watson = 1,7906 (P=0,2538)Autocorrelación residual en Lag 1 = 0,0486201

Dado que el p-valor en la tabla ANOVA es inferior a 0.01, existerelación estadísticamente significativa entre con estudios y sinestudios para un nivel de confianza del 99%.

El estadístico R-cuadrado indica que el modelo explica un 82,7152%de la variabilidad en con estudios. El coeficiente de correlación esigual a 0,909479, indicando una relación relativamente fuerte entrelas variables. El error estándar de la estimación muestra ladesviación típica de los residuos que es 145,646. Este valor puedeusarse para construir límites de la predicción para las nuevasobservaciones seleccionando la opción Predicciones del menú del texto.

El error absoluto medio (MAE) de 111,404 es el valor medio de losresiduos. El estadístico Durbin-Watson (DW) examina los residuos paradeterminar si hay alguna correlación significativa basada en el ordenen el que se han introducido los datos en el fichero. Dado que elp-valor es superior a 0.05, no hay indicio de autocorrelación serialen los residuos.

Page 24: Laura López, Marta de Juan, Laura Mallo.            Grupo 72. LADE

El error absoluto medio (MAE) de 111,404 es el valor medio de losresiduos. El estadístico Durbin-Watson (DW) examina los residuos paradeterminar si hay alguna correlación significativa basada en el ordenen el que se han introducido los datos en el fichero. Dado que elp-valor es superior a 0.05, no hay indicio de autocorrelación serialen los residuos.

Residuos Atípicos---------------------------------------------------------------------------- Y ResiduoFila X Y Predicha Residuo Estudentizado---------------------------------------------------------------------------- 1 1364,22 1499,29 1748,42 -249,133 -4,67 15 141,39 566,37 280,016 286,354 2,12 18 351,41 948,61 532,214 416,396 3,46----------------------------------------------------------------------------

Puntos Influyentes---------------------------------------------------------------------------- Y ResiduoFila X Y Predicha Estudentizado Influencia---------------------------------------------------------------------------- 1 1364,22 1499,29 1748,42 -4,67 0,766132----------------------------------------------------------------------------Influencia media de un punto = 0,0666667

3.5. Residuos atípicos y puntos influyentes.