Proyecto Final Estadistica
-
Upload
angelica-galvis-ortiz -
Category
Documents
-
view
226 -
download
0
description
Transcript of Proyecto Final Estadistica
Organización de datos
Trabajo colaborativo – Organización de datos
Entrega final del proyecto
Autor
GILMA ANGELICA GALVIS ORTIZ
OSCAR JOSE JARAMILLO DOMINGUEZ
POLITECNICO GRANCOLOBIANO
Organización de datos
Las tablas de frecuencias son agrupaciones de los datos de una determinada base, se
realizan con el fin de resumir la información para poder ser analizada, ya que viendo la
base de datos completa no es posibles obtener información concreta, específicamente si son
bases de datos muy grandes.
Los graficas que podemos obtener de cada una de las tablas de frecuencias, también nos
presentan en forma resumida los datos para cada variable.
En el siguiente trabajo se presentan tablas de frecuencias y gráficos para los diferentes
tipos de variables de la Encuesta de Hogares realizada por el Departamento Administrativo
Nacional de Estadística (DANE), con el fin de implementar los conceptos vistos
Método
Selección de una hoja de la base de datos del archivo en Excel, determinando la población
objeto de estudio y la muestra; para cada una de las variables presentadas se identifica la la
clasificación de la variable y la escala de medida.
Selección de una variable cuantitativa discreta, una cuantitativa continua y dos variables
cualitativas y construcción de las tablas de frecuencias y los gráficos correspondientes con
la ayuda de la hoja electrónica Excel.
Se realizan las medidas de tendencia central, localización y dispersión para cada una de las
variables y se analiza teniendo en cuenta el objetivo de la encuesta de hogares
Organización de datos
Resultados
1. Población objeto de estudio
Hogares colombianos
2. Muestra
Muestra formada por 633 hogares de estrato 2.
3. Clasificación de variables y escala
Variable Clasificación Escala
Número de orden (NID) Cualitativa Nominal
Número de personas en la familia (PE) Cuantitativa Discreta
Ingresos familiares anuales (ING)
Cuantitativa
Continua Razón
Gastos de alimentación anuales (AL)
Cuantitativa
Continua Razón
Gastos adicionales anuales (AD)
Cuantitativa
Continua Razón
Vivienda propia (V) Cualitativa Nominal
Tiene automóvil (A) Cualitativa Nominal
Tiene computador personal (O) Cualitativa Nominal
Municipio (M) Cualitativa Nominal
Organización de datos
4. Variables seleccionadas
4.1. Variable cuantitativa discreta – Número de personas en la familia
Número de
personas en
la familia
Número
de
hogares
Proporción
de hogares
Número
acumulado de
hogares
Proporción
acumulada de
hogares
1 118 0,186 118 0,186
2 175 0,276 293 0,463
3 162 0,256 455 0,719
4 125 0,197 580 0,916
5 46 0,073 626 0,989
6 7 0,011 633 1
633
0
50
100
150
200
1 2 3 4 5 6
Fre
cue
nci
as
Numero de personas por hogar
Número de hogares
Organización de datos
El gráfico Número de hogares relaciona el número de personas por familia y la
frecuencia con la que se presentan en la base de datos y el grafico proporción de
hogares relaciona el número de personas por familia y la proporción de hogares que
tienen determinado número de personas.
En estos gráficos podemos observar que en los hogares de estrato 2 hay 2 o 3
personas en su mayoría, no muy lejos de los hogares que tienen 1 y 4 personas.
También podemos notar que generalmente en este estrato no hay muchos hogares
que se integren de 5 o 6 personas.
0,000
0,050
0,100
0,150
0,200
0,250
0,300
1 2 3 4 5 6
Pro
po
rcio
n
Numero de personas por hogar
Proporción de hogares
0,000
0,200
0,400
0,600
0,800
1,000
1,200
1 2 3 4 5 6
Pro
po
rcio
n
Numero de personas por hogar
Proporción acumulada de hogares
Organización de datos
La proporción acumulada de hogares nos indica que hasta 4 personas por familia
hay un acumulado de aproximadamente el 90% de los hogares, es decir el 90% de
los hogares de estrato 2 se componen de hasta 4 integrantes.
4.2. Variable cuantitativa continua – Gastos de alimentación anuales
gastos de
alimentación
anuales
gastos
medios
número
de
hogares
proporción
de hogares
numero
acumulad
o de
hogares
proporción
acumulada
de hogares
Li Ls Xi nj hj Nj Hj
6367 6799,7 6583,35 8 0,0126 8 0,0126
6799,7 7232,4 7016,05 39 0,0616 47 0,0742
7232,4 7665,1 7448,75 72 0,1137 119 0,1880
7665,1 8097,8 7881,45 130 0,2054 249 0,3934
8097,8 8530,5 8314,15 148 0,2338 397 0,6272
8530,5 8963,2 8746,85 127 0,2006 524 0,8278
8963,2 9395,9 9179,55 65 0,1027 589 0,9305
9395,9 9828,6 9612,25 30 0,0474 619 0,9779
9828,6 10261,3 10044,95 8 0,0126 627 0,9905
10261,3 10694 10477,65 6 0,0095 633 1,0000
633
0
20
40
60
80
100
120
140
160
Nu
me
ro d
e h
oga
res
gastos medios
Frecuencia de hogares
Organización de datos
En este grafico podemos ver que no hay un intervalo en el cual se agrupen en su
mayoría los gastos de alimentación anuales. Podemos notar que se distribuyen en
varios intervalos las diferentes familias, el grafico tiene la forma de una distribución
normal y vemos que los gastos medios varían entre 7448,75 y 9179,55 para los
hogares de estrato 2.
En el polígono de frecuencias se unen los puntos medios de los intervalos, y
podemos notar, como en el grafico anterior, que esta variable tiende a distribuirse
normal acumulando la mayoría de hogares entre los 3 intervalos que se encuentran
entre 7665,1 y 8963,2 de gastos de alimentación anuales.
0
20
40
60
80
100
120
140
160
Nu
me
ro d
e h
oga
res
Gostos medios
Poligono de frecuencias
Organización de datos
Con las frecuencias acumuladas y el de ojiva podemos observar que en
aproximadamente el 90% de los hogares de estrato 2 gastan hasta 9179,55 en
alimentación anualmente, son muy pocos los hogares de estrato 2 que gastan más de
este dinero en alimentación anual.
0
100
200
300
400
500
600
700
nu
me
ro d
e h
oga
res
Gastos medios
Frecuencias acumuladas
0
100
200
300
400
500
600
700
Nu
me
ro d
e h
oga
res
Gastos medios
Ojiva
Organización de datos
4.3. Variables cualitativas:
4.3.1. Tiene automóvil
Tiene automóvil Número hogares % de hogares
Si (1) 246 38,863%
No (0) 387 61,137%
Total 633 100%
En el histograma vemos que la mayoría de las familias en la muestra de estrato
2 no tienen carro.
0
100
200
300
400
500
Si (1) No (0)
Tiene automóvil
Si (1) 39%
No (0) 61%
% de hogares que tienen automóvil
Organización de datos
En el grafico pastel podemos corroborar lo que nos dice el histograma de que
la mayoría de las familias de estrato 2 en la muestra no tienen carro, acá
además podemos ver que esa mayoría es un 61%
4.3.2. Vivienda propia
Vivienda propia Número hogares % de hogares
Si (1) 404 63,823%
No (0) 229 36,177%
Total 633 100%
La mayoría de familias en el estrato 2 de la muestra tienen vivienda propia, en
el diagrama pastel podemos ver que el porcentaje de hogares en esta muestra
que tienen vivienda propia es de 64%
0
100
200
300
400
500
Si (1) No (0)
Vivienda propia
Si (1) 64%
No (0) 36%
% de hogares que tienen vivienda propia
Organización de datos
MEDIDAS DE TENDENCIA, LOCALIZACIÓN Y DISPERSIÓN PARA
VARIABLES CUANTITATIVAS.
Forma de calcular las medidas de tendencia central, localización y dispersión para
algunas variables:
1. Para la variable numero de personas en la familia
Media
( ) ( ) ( ) ( ) ( ) ( )
Mediana
Al observar en la tabla de frecuencias, las frecuencias acumuladas para 1
son 118, para 2 son 293 y para 3 son 455.
Es decir que nuestra mediana es 3
Moda
Al observar la tabla de frecuencias, 2 tiene la mayor frecuencia (175), por lo
tanto la moda es 2.
2. Para la variable gastos alimentarios anuales
Media
Es calculada como la marca de clase * la frecuencia en cada clase y dividido
por el total de datos:
∑
Organización de datos
[( ) ( ) ( ) ( ) (
) ( ) ( ) ( ) ( )
( ) ]
8304.58
Mediana
Observamos que la frecuencia acumulada
se encuentra en
el intervalo 5 y así calculamos:
Moda
Observamos el intervalo que tiene más frecuencias, en este caso
( ) ( )
( ) ( )
Las variables ingresos anuales y gastos adicionales anuales tienen el mismo
procedimiento que esta variable debido a que son datos cuantitativos
continuos.
Organización de datos
Resumen medidas de tendencia central, localización y dispersión para algunas
variables:
PE ING AL AD
Media 2,727 40927,74 8304,58 4100,18
Moda 2 41849,82 8297,51 4114,63
Q1 2 39752,97 7795,74 3663,86
Q2 3 40900,31 8295,15 4102,08
Q3 4 42599,83 8795,4 4540,56
Desviación 1,2383 5727,98 736,06 634,32
CV 45,41% 13,99% 8,86% 15,47%
En la tabla anterior se resumen las medidas de tendencia central de la muestra seleccionada,
es decir de los hogares de estrato 2.
Primero vamos a observar que tan homogéneos son los datos para cada una de las variables
seleccionadas, esto lo podemos mirar mediante el coeficiente de variación, en la lectura de
estos resultados podemos notar que para el numero de personas los datos son relativamente
homogéneos, se puede corroborar si observamos que la media es aproximadamente 3, así
como la mediana, pero la moda es 2; para el resto de las variables podemos hablar de datos
homogéneos ya que tienen un coeficiente de variación inferior a 25%.
El ingreso promedio de una familia de estrato 2 es de 40927,74 anuales de los cuales se
gasta aproximadamente 8304.58 anuales en alimentación y cerca de 4100.18 anuales en
gastos adicionales y podemos notar que los gastos son mayores en alimentación que en lo
que se consideran gastos adicionales.
Se observa que el 25% de las familias de estratos 2 obtienen como máximo un ingreso de
39752,97 además que el 75% de la población obtiene como máximo un ingreso de
42599,83 y que el máximo y mínimo ingreso que obtienen estas familias es de 43970 y
38007 respectivamente.
Acerca del gasto en alimentación se ve que la media es de 8304.58 y que el 25% y 75% del
ingreso de las familias de estrato 2 tienen un valor máximo de 7795,74 y 8795,4
respectivamente además
Organización de datos
Lista de referencias
Moore, D. (2004) Estadística aplicada básica. Mozart Art, S.L.
Hopkins, K. Hopkins, B.R. Glass, G. (1997). Estadística básica para las ciencias sociales y
del comportamiento. Tercera edición. Prentice Hall.