Proyecto Final Estadistica

14
Organización de datos Trabajo colaborativo Organización de datos Entrega final del proyecto Autor GILMA ANGELICA GALVIS ORTIZ OSCAR JOSE JARAMILLO DOMINGUEZ POLITECNICO GRANCOLOBIANO

description

Proyecto Final Estadistica

Transcript of Proyecto Final Estadistica

Page 1: Proyecto Final Estadistica

Organización de datos

Trabajo colaborativo – Organización de datos

Entrega final del proyecto

Autor

GILMA ANGELICA GALVIS ORTIZ

OSCAR JOSE JARAMILLO DOMINGUEZ

POLITECNICO GRANCOLOBIANO

Page 2: Proyecto Final Estadistica

Organización de datos

Las tablas de frecuencias son agrupaciones de los datos de una determinada base, se

realizan con el fin de resumir la información para poder ser analizada, ya que viendo la

base de datos completa no es posibles obtener información concreta, específicamente si son

bases de datos muy grandes.

Los graficas que podemos obtener de cada una de las tablas de frecuencias, también nos

presentan en forma resumida los datos para cada variable.

En el siguiente trabajo se presentan tablas de frecuencias y gráficos para los diferentes

tipos de variables de la Encuesta de Hogares realizada por el Departamento Administrativo

Nacional de Estadística (DANE), con el fin de implementar los conceptos vistos

Método

Selección de una hoja de la base de datos del archivo en Excel, determinando la población

objeto de estudio y la muestra; para cada una de las variables presentadas se identifica la la

clasificación de la variable y la escala de medida.

Selección de una variable cuantitativa discreta, una cuantitativa continua y dos variables

cualitativas y construcción de las tablas de frecuencias y los gráficos correspondientes con

la ayuda de la hoja electrónica Excel.

Se realizan las medidas de tendencia central, localización y dispersión para cada una de las

variables y se analiza teniendo en cuenta el objetivo de la encuesta de hogares

Page 3: Proyecto Final Estadistica

Organización de datos

Resultados

1. Población objeto de estudio

Hogares colombianos

2. Muestra

Muestra formada por 633 hogares de estrato 2.

3. Clasificación de variables y escala

Variable Clasificación Escala

Número de orden (NID) Cualitativa Nominal

Número de personas en la familia (PE) Cuantitativa Discreta

Ingresos familiares anuales (ING)

Cuantitativa

Continua Razón

Gastos de alimentación anuales (AL)

Cuantitativa

Continua Razón

Gastos adicionales anuales (AD)

Cuantitativa

Continua Razón

Vivienda propia (V) Cualitativa Nominal

Tiene automóvil (A) Cualitativa Nominal

Tiene computador personal (O) Cualitativa Nominal

Municipio (M) Cualitativa Nominal

Page 4: Proyecto Final Estadistica

Organización de datos

4. Variables seleccionadas

4.1. Variable cuantitativa discreta – Número de personas en la familia

Número de

personas en

la familia

Número

de

hogares

Proporción

de hogares

Número

acumulado de

hogares

Proporción

acumulada de

hogares

1 118 0,186 118 0,186

2 175 0,276 293 0,463

3 162 0,256 455 0,719

4 125 0,197 580 0,916

5 46 0,073 626 0,989

6 7 0,011 633 1

633

0

50

100

150

200

1 2 3 4 5 6

Fre

cue

nci

as

Numero de personas por hogar

Número de hogares

Page 5: Proyecto Final Estadistica

Organización de datos

El gráfico Número de hogares relaciona el número de personas por familia y la

frecuencia con la que se presentan en la base de datos y el grafico proporción de

hogares relaciona el número de personas por familia y la proporción de hogares que

tienen determinado número de personas.

En estos gráficos podemos observar que en los hogares de estrato 2 hay 2 o 3

personas en su mayoría, no muy lejos de los hogares que tienen 1 y 4 personas.

También podemos notar que generalmente en este estrato no hay muchos hogares

que se integren de 5 o 6 personas.

0,000

0,050

0,100

0,150

0,200

0,250

0,300

1 2 3 4 5 6

Pro

po

rcio

n

Numero de personas por hogar

Proporción de hogares

0,000

0,200

0,400

0,600

0,800

1,000

1,200

1 2 3 4 5 6

Pro

po

rcio

n

Numero de personas por hogar

Proporción acumulada de hogares

Page 6: Proyecto Final Estadistica

Organización de datos

La proporción acumulada de hogares nos indica que hasta 4 personas por familia

hay un acumulado de aproximadamente el 90% de los hogares, es decir el 90% de

los hogares de estrato 2 se componen de hasta 4 integrantes.

4.2. Variable cuantitativa continua – Gastos de alimentación anuales

gastos de

alimentación

anuales

gastos

medios

número

de

hogares

proporción

de hogares

numero

acumulad

o de

hogares

proporción

acumulada

de hogares

Li Ls Xi nj hj Nj Hj

6367 6799,7 6583,35 8 0,0126 8 0,0126

6799,7 7232,4 7016,05 39 0,0616 47 0,0742

7232,4 7665,1 7448,75 72 0,1137 119 0,1880

7665,1 8097,8 7881,45 130 0,2054 249 0,3934

8097,8 8530,5 8314,15 148 0,2338 397 0,6272

8530,5 8963,2 8746,85 127 0,2006 524 0,8278

8963,2 9395,9 9179,55 65 0,1027 589 0,9305

9395,9 9828,6 9612,25 30 0,0474 619 0,9779

9828,6 10261,3 10044,95 8 0,0126 627 0,9905

10261,3 10694 10477,65 6 0,0095 633 1,0000

633

0

20

40

60

80

100

120

140

160

Nu

me

ro d

e h

oga

res

gastos medios

Frecuencia de hogares

Page 7: Proyecto Final Estadistica

Organización de datos

En este grafico podemos ver que no hay un intervalo en el cual se agrupen en su

mayoría los gastos de alimentación anuales. Podemos notar que se distribuyen en

varios intervalos las diferentes familias, el grafico tiene la forma de una distribución

normal y vemos que los gastos medios varían entre 7448,75 y 9179,55 para los

hogares de estrato 2.

En el polígono de frecuencias se unen los puntos medios de los intervalos, y

podemos notar, como en el grafico anterior, que esta variable tiende a distribuirse

normal acumulando la mayoría de hogares entre los 3 intervalos que se encuentran

entre 7665,1 y 8963,2 de gastos de alimentación anuales.

0

20

40

60

80

100

120

140

160

Nu

me

ro d

e h

oga

res

Gostos medios

Poligono de frecuencias

Page 8: Proyecto Final Estadistica

Organización de datos

Con las frecuencias acumuladas y el de ojiva podemos observar que en

aproximadamente el 90% de los hogares de estrato 2 gastan hasta 9179,55 en

alimentación anualmente, son muy pocos los hogares de estrato 2 que gastan más de

este dinero en alimentación anual.

0

100

200

300

400

500

600

700

nu

me

ro d

e h

oga

res

Gastos medios

Frecuencias acumuladas

0

100

200

300

400

500

600

700

Nu

me

ro d

e h

oga

res

Gastos medios

Ojiva

Page 9: Proyecto Final Estadistica

Organización de datos

4.3. Variables cualitativas:

4.3.1. Tiene automóvil

Tiene automóvil Número hogares % de hogares

Si (1) 246 38,863%

No (0) 387 61,137%

Total 633 100%

En el histograma vemos que la mayoría de las familias en la muestra de estrato

2 no tienen carro.

0

100

200

300

400

500

Si (1) No (0)

Tiene automóvil

Si (1) 39%

No (0) 61%

% de hogares que tienen automóvil

Page 10: Proyecto Final Estadistica

Organización de datos

En el grafico pastel podemos corroborar lo que nos dice el histograma de que

la mayoría de las familias de estrato 2 en la muestra no tienen carro, acá

además podemos ver que esa mayoría es un 61%

4.3.2. Vivienda propia

Vivienda propia Número hogares % de hogares

Si (1) 404 63,823%

No (0) 229 36,177%

Total 633 100%

La mayoría de familias en el estrato 2 de la muestra tienen vivienda propia, en

el diagrama pastel podemos ver que el porcentaje de hogares en esta muestra

que tienen vivienda propia es de 64%

0

100

200

300

400

500

Si (1) No (0)

Vivienda propia

Si (1) 64%

No (0) 36%

% de hogares que tienen vivienda propia

Page 11: Proyecto Final Estadistica

Organización de datos

MEDIDAS DE TENDENCIA, LOCALIZACIÓN Y DISPERSIÓN PARA

VARIABLES CUANTITATIVAS.

Forma de calcular las medidas de tendencia central, localización y dispersión para

algunas variables:

1. Para la variable numero de personas en la familia

Media

( ) ( ) ( ) ( ) ( ) ( )

Mediana

Al observar en la tabla de frecuencias, las frecuencias acumuladas para 1

son 118, para 2 son 293 y para 3 son 455.

Es decir que nuestra mediana es 3

Moda

Al observar la tabla de frecuencias, 2 tiene la mayor frecuencia (175), por lo

tanto la moda es 2.

2. Para la variable gastos alimentarios anuales

Media

Es calculada como la marca de clase * la frecuencia en cada clase y dividido

por el total de datos:

Page 12: Proyecto Final Estadistica

Organización de datos

[( ) ( ) ( ) ( ) (

) ( ) ( ) ( ) ( )

( ) ]

8304.58

Mediana

Observamos que la frecuencia acumulada

se encuentra en

el intervalo 5 y así calculamos:

Moda

Observamos el intervalo que tiene más frecuencias, en este caso

( ) ( )

( ) ( )

Las variables ingresos anuales y gastos adicionales anuales tienen el mismo

procedimiento que esta variable debido a que son datos cuantitativos

continuos.

Page 13: Proyecto Final Estadistica

Organización de datos

Resumen medidas de tendencia central, localización y dispersión para algunas

variables:

PE ING AL AD

Media 2,727 40927,74 8304,58 4100,18

Moda 2 41849,82 8297,51 4114,63

Q1 2 39752,97 7795,74 3663,86

Q2 3 40900,31 8295,15 4102,08

Q3 4 42599,83 8795,4 4540,56

Desviación 1,2383 5727,98 736,06 634,32

CV 45,41% 13,99% 8,86% 15,47%

En la tabla anterior se resumen las medidas de tendencia central de la muestra seleccionada,

es decir de los hogares de estrato 2.

Primero vamos a observar que tan homogéneos son los datos para cada una de las variables

seleccionadas, esto lo podemos mirar mediante el coeficiente de variación, en la lectura de

estos resultados podemos notar que para el numero de personas los datos son relativamente

homogéneos, se puede corroborar si observamos que la media es aproximadamente 3, así

como la mediana, pero la moda es 2; para el resto de las variables podemos hablar de datos

homogéneos ya que tienen un coeficiente de variación inferior a 25%.

El ingreso promedio de una familia de estrato 2 es de 40927,74 anuales de los cuales se

gasta aproximadamente 8304.58 anuales en alimentación y cerca de 4100.18 anuales en

gastos adicionales y podemos notar que los gastos son mayores en alimentación que en lo

que se consideran gastos adicionales.

Se observa que el 25% de las familias de estratos 2 obtienen como máximo un ingreso de

39752,97 además que el 75% de la población obtiene como máximo un ingreso de

42599,83 y que el máximo y mínimo ingreso que obtienen estas familias es de 43970 y

38007 respectivamente.

Acerca del gasto en alimentación se ve que la media es de 8304.58 y que el 25% y 75% del

ingreso de las familias de estrato 2 tienen un valor máximo de 7795,74 y 8795,4

respectivamente además

Page 14: Proyecto Final Estadistica

Organización de datos

Lista de referencias

Moore, D. (2004) Estadística aplicada básica. Mozart Art, S.L.

Hopkins, K. Hopkins, B.R. Glass, G. (1997). Estadística básica para las ciencias sociales y

del comportamiento. Tercera edición. Prentice Hall.