Indicadores y TécnicasCuantitativas
de Análisis Económico
Diploma en Economía para no Economistas
2009
Docentes:
Zuleika Ferre
Gabriela Fachola
Giorgina Piani
Análisis exploratorio de los datos
1. Estadística Descriptiva
Distintos formas de generación de la información
2. Técnicas de recolección de datos
Construcción de indicadores que muestren aspectos relevantes de la información
3. Indicadores económicos
Entender la combinación de estos indicadores en marcos conceptuales diversos.
4. Análisis de datos y modelos estadísticos
Derivar las conclusiones obtenidas a un conjunto de datos más amplio
Curso Estadística: Inferencia estadística y teoría de la probabilidad
Presentación
A modo de introducción …
La Estadística se ocupa de los métodos y procedimientos para recoger, clasificar, resumir, hallar regularidades y analizar los datos, de manera tal que sea posible, a partir de ellos, realizar inferencias válidas sobre los fenómenos bajo análisis
Esto permite: Entender su comportamiento Asociar riesgos a las decisiones que se toman bajo
condiciones de incertidumbre Realizar predicciones.
¿Qué entendemos por Estadística?
La estadística une dos campos de estudio:
1. El estudio sistemático de datos numéricos, comprendiendo el resumen y el análisis de la información contenida en ellos
2. La teoría del azar y de la incertidumbre: la teoría de la probabilidad
Descriptiva vs Inferencial
Objetivo: Describe los datos que se tienen porque
importan en sí mismos
La descripción de los datos que se tiene
importa como indicador del
comportamiento de un conjunto más
amplio
Caracterización del conjunto
de datos:
Sobre un conjunto cualquiera,
representativo o no de algo más amplio
Solo para conjuntos representativos de un
universo específico
Alcance de las conclusiones:
Acotada para ese conjunto de datos
Concluye para el universo a partir de
las observaciones que se tienen
Población y muestra
Población o universo: conjunto total objetos. – Ej: Estudiantes de la universidad, hogares de
una ciudad, empresas productoras de ciertos bienes y servicios.
Muestra: Subconjunto representativo de la población.
Un estadístico utiliza las observaciones de
la muestra (datos) para hacer inferencia acerca de la población.
La estadística y la economía La Estadística interviene en la
generación de datos económicos
La Estadística es el fundamento del análisis econométrico.
Econometría: es el estudio sistemático de fenómenos económicos mediante el uso de datos observados y, en general, en un marco de interpretación dado por la Teoría Económica
Tema 1
Análisis exploratorio de los datos
Estadística descriptiva
Estadística descriptiva Principal tarea: describir un conjunto de datos
usando ciertos instrumentos.
Su utilidad refiere a:
– La organización de datos de manera informativa, para que “hablen por sí mismos”
– La detección de errores o comportamientos excepcionales
– La simplificación del análisis de datos usando ciertas medidas de resumen que destacan sus características relevantes
– La posibilidad de brindar alguna evidencia que ayude a corroborar/rectificar los supuestos que se harán en caso de pretender hacer uso de la EI a partir de ese conjunto de datos
¿Qué observamos en los datos?1. Con qué frecuencia se observan los diferentes valores
obtenidos (definibles como un valor puntual o un conjunto de valores dentro de cierto intervalo)
2. La evolución del fenómeno de estudio en el tiempo o entre individuos. Se puede observar la forma del gráfico que resulta de considerar cada dato como un punto.
3. Dónde se concentran los valores observados, ¿cuál es el valor que en promedio se observa, cuál es el valor más frecuentemente observado y cuál es el valor que separa en dos todo el rango de valores observados? A estos indicadores se les conoce como medidas de tendencia central. Y, por último:
4. Qué tan dispersos están los datos respecto al valor promedio? Se observan más/menos valores menores/mayores al promedio y con qué concentración? Estas son medidas dispersión (desvío estándar, simetría y kurtosis).
Conceptos básicos
Variable: función que asocia ciertas características de un fenómeno a un número real o a un subconjunto de los reales
Dato estadístico: es el valor observado que tomó una variable
Unidad de observación: es el sujeto a partir del cual se recoge el dato estadístico
El recorrido/rango/dominio de las variables es el conjunto de valores posibles que toma la variable
Notación: Cuando hablemos de variable haremos
referencia a un símbolo (X, Y, A, B,...p, q, i)
En función del tipo de dominio, las variables se pueden clasificar en:
Clasificación de variables1. Variables cualitativas o
nominales: sólo admiten ser clasificadas en grupos homogéneos y numerables, a los que no se puede asignar un orden de prelación, de acuerdo a ningún criterio
Ejemplos: religión, raza, sexo, deporte practicado, ocupación, jefe de hogar, etc.
2. Variables ordinales: son las que, aún siendo nominales, son factibles de ordenar
Ejemplos: nivel educativo, nivel socioeconómico
3. Variables cuantitativas: tienen como recorrido cantidades numéricas, por lo que podemos operar aritméticamente con ellas. Dos categorías:
– Discretas - Pueden asumir un número finito de valores. Su dominio o rango de variación son los números naturales. Ejemplos número de habitaciones en un hogar, número
de hijos de una familia, etc.
– Continuas - Pueden asumir cualquier valor dentro de un intervalo acotado o no acotado, es decir, su dominio es infinito. Ejemplos: tasa de empleo, tasa de inflación, ingresos,
etc.
Observación: Hay variables que siendo continuas no son
observables más que como discretas: años de educación
Clasificación de variables
1. Descripción de Variables
Un primer paso…. Observar la frecuencia con que se observan los datos individuales o rangos de valores de esos datos
– A través de una tabla (frecuencia simple, frecuencia relativa
– La información también puede presentarse en términos de frecuencias acumuladas de los distintos valores
A través de gráficos: Valores de la variable en las abcisas y el número de veces que se repite ese valor en las ordenadas
Cuando los datos cubren un amplio rango de valores conviene reducir su número
Agrupando en una cantidad inferior de rangos o clases
Estas clases deben ser construidas de modo que sean exhaustivas y no redundantes, es decir, cada modalidad debe pertenecer a una y sólo una de las clases.
Datos agrupados
Ejemplo: Ingresos de los hogares
Tramos de ingresos[Li, Ui)
Frecuencia fi
FrecuenciaRelativa
F
FrecuenciaAcumulada
Facum
0 - 1000 109 2,4 2,4
1000 - 2000 290 6,4 8,9
2000 - 3000 519 11,5 20,4
3000 - 4000 570 12,7 33,0
4000 - 5000 605 13,4 46,5
5000 - 8000 863 19,2 65,6
8000 - 10000 545 12,1 77,7
10000 - 15000 520 11,5 89,3
15000 - 20000 242 5,4 94,6
20000 - 25000 133 3,0 97,6
30000 - 40000 54 1,2 98,8
40000 - 50000 24 0,5 99,3
50000 - 70000 31 0,7 100,0
Total (n) 4505 100,0
2. Análisis gráfico
Principales diagramas según el tipo de variable.
Tipo de variable Diagrama
Cualitativa Barras, sectores, pictogramas
Discreta Diferencial (barras)Integral (en escalera)
Continua Diferencial (histograma, polígono de frecuencias)Integral (diagramas acumulados)
Variable continua Histograma de ingresos del
hogar
0,0
5,0
10,0
15,0
20,0
25,0
Fre
cuen
cia
rela
tiva
Diagrama de barras para una variable cualitativaProfesiones de los profesionales de la salud.
Total del país - Año 2006
02000400060008000
10000120001400016000
Médicos Odontólogos QuimoFarmacéuticos
Parteras Enfermeras
Diagrama de tortas para una variable cualitativa
Fuente: INE
Pictogramas Pirámides población Uruguay
2000 y 2025
Histograma de frecuencias para una variable discreta.
Número de hijos
Diagrama para una variable continua
Tasa de desempleo por departamento Año 2002
5,0 10,0 15,0 20,0 25,0
Tasa de desempleo Año 2002 (%)
0
1
2
3
4
5
Ca
nti
da
d d
e d
ep
art
am
en
tos
(n
º)
Mean = 16,368Std. Dev. = 5,4587N = 19
La evolución temporal de una variable…
Tasa de desempleo – Total país
3. Medidas de posicióno tendencia central
El objetivo es encontrar un valor único que sea de alguna forma representativo del resto
Este único número puede ser considerado como típico de todos los datos
¿Alcanza con mirar mínimo-máximo?– Importancia de los casos atípicos
Media (aritmética)
N
ii
n xNN
xxxxx
1
321 1...
Como podemos ver, se trata de una suma ponderada, en la que todas las observaciones contribuyen a la suma y todas tienen el mismo ponderador 1/N.
Media para datos agrupados No sirve la fórmula anterior, a menos que se
elija algún valor que “represente” a todo el intervalo
Suele tomarse el punto medio: mi = (Li + Ui )/2
(Li límite inferior de la clase y Ui es el límite superior)
Por tanto la media para datos agrupados es:
k
iiimfN
x1
1
La Mediana
Mediana =
si N es impar
si N es par)(2/1 1)2/(2/ NN xx
2/)1( Nx
• Es el valor que separa en dos todo el rango observado de valores. Es decir, aquel valor para el cual el 50% de los datos resulta en valores menores o iguales a la mediana y el 50% restante es mayor o igual que la mediana.
• Si el número de datos es impar, la mediana es la observación central.
• Si se tiene un número de observaciones par, la mediana es el promedio de las dos observaciones centrales.
Mediana para datos agrupados
Donde:
Li = Limite inferior o frontera inferior del intervalo en el que se encuentra la mediana: intervalo mediano
n = Número de observaciones o frecuencia total facum(i-1)= frecuencia acumulada anterior al intervalo
mediano fmediana= Frecuencia simple del intervalo mediano A = Amplitud del intervalo en el que se encuentra la
mediana
Af
fn
LMmediana
iacum
ied
)1(2
Media y Mediana La media y la mediana difieren en la
forma en que sus valores son afectados por observaciones ubicadas relativamente lejos de la media (atípicos).
Unos pocos valores extremos tienen un alto impacto provocando que la media se desplace del centro de la distribución.
Ejemplo
EjemploLi - Ui fi A mi fi mi facum
0 - 10 60 10 5 300 60
10 - 20 80 10 15 1.200 140
20 - 30 30 10 25 750 170
30 - 100 20 70 65 1.300 190
100 - 500 10 400 300 3.000 200
n = 200 6.550
75,32200
550.61
1
k
iiimfN
xLa media aritmética es:
La mediana es: 151080
60100102 )1(
Af
fn
LMmediana
iacum
ied
Histograma
Media y Mediana Con lo cual encontramos en esos
casos que la media no es muy representativa de los valores de la distribución. El valor extremo “infla” el promedio
El modo o moda
Valor más frecuente en el caso de datos sin agrupar, y la clase con la frecuencia más alta (intervalo o clase modal) en el caso de datos agrupados
Cuartiles, deciles, percentiles Hay otras medidas de posición (no de tendencia
central) análogas a la mediana.
Cuartiles: Son los tres valores de la variable que dividen a un conjunto de datos ordenados en cuatro partes iguales.
Q1 = x(N+1)/4 - Q2 = mediana Q3 = x3(N+1)/4
Deciles: Divide a la distribución en 10
Percentiles: Dividen a la distribución en 100 porciones de tamaño igual.
Indicadores de actividad y precio del sector inmobiliario
4. Medidas de dispersión o variabilidad
Nuestro objetivo es medir la variabilidad de un conjunto de datos. Es posible hacerlo a través de distintas medidas:
1. Varianza
2. Desviación típica
3. Rango
4. Recorrido intercuartil
Varianza Una serie de medidas de dispersión se
basa en las distancias de cada observación respecto a la media
Interesa la distancia en términos absolutos, independientemente de si la observación es superior o inferior a la media.
El promedio del cuadrado de esas desviaciones respecto a la media es la varianza s2:
N
ii xf
Ns
1
22 )(1
Desviación standard Al tomar la raíz cuadrada de la
varianza obtenemos la desviación estándar, s.
Tiene las mismas unidades de medida que la media y que las observaciones
N
ii xf
Ns
1
2)(1
k
iii xmf
Ns
1
2)(1
La desviación estándar para datos agrupados es análoga a la de la media:
Rango y recorrido intercuartil
El rango, que se define como:Rango = xN − x1
El recorrido intercuartil queda definido como el intervalo entre el tercer y el primer cuartil:
RI = Q3 − Q1
y corresponde al rango en que están contenidas el 50% de las observaciones centrales
Coeficiente de variación Es una medida relativa de la dispersión
Útil para comparar dispersiones a escalas distintas
Es útil cuando queremos comparar la variación entre muestras o entre poblaciones.
Ejemplo: Población 1: s=10 Media=20 CV=0,50Población 2: s=20 Media=200 CV=0,10
x
sCV
Asimetría Relación entre el "cuerpo" de la
distribución (o aquella zona cercana a la media) y las "colas", o valores alejados de la media, donde en general tenemos un número menor de observaciones.
– Simetría– Distribución unimodal– Asimetría a la derecha– Asimetría a la izquierda
Distribución bimodal
0
2
4
6
8
10
12
1 2 3 4 5 6 7 8 9 100
2
4
6
8
10
12
1 2 3 4 5 6 7 8 9
Distribución simétrica
0
1
2
3
4
5
6
7
8
9
1 2 3 4 5 6 7 8 9
Asimetría a la derecha
Asimetría a la izquierda
0
2
4
6
8
10
12
1 2 3 4 5 6 7 8 9
Coeficiente de asimetría
Coef. de asimetría =
Si las desviaciones negativas pesan más que las positivas, el coeficiente de asimetría tendrá signo negativo (distribución asimétrica a la izquierda), mientras que valores positivos implican asimetría a la derecha (una distribución simétrica tiene un coeficiente de 0).
31
3)(1
s
xfN
N
ii
Kurtosis o apuntamiento La kurtosis describe la relación que
existe entre el cuerpo de una distribución y las colas.
La expresión para el coeficiente de kurtosis es la siguiente:
41
4)(1
s
xfN
N
ii
Valores reducidos implican que las colas de la distribución pesan poco con respecto al cuerpo (leptokurtica)
Valores altos implican una forma más "achatada": las colas tienen un peso importante con respecto al cuerpo de la distribución (platikúrtica)
0
1
2
3
4
5
6
7
8
9
10
1 2 3 4 5 6 7 8 9
0
1
2
3
4
5
6
7
8
9
10
1 2 3 4 5 6 7 8 9 10
Los cinco números resúmen
Una manera conveniente de describir el centro y la dispersión de un conjunto de datos consiste en la observación mínima, el primer cuartil, la mediana, el tercer cuartil y la observación máxima:
Mínimo Q1 Me Q2 Máximo
Diagramas de cajaDistribución del ingreso por sexo
1 2
e1
0
3000
6000
9000
12000
15000
pt1
1.2822.082905
1.2391.231 251
1.890266 389975 1.886
421.692
1.4372.1461.885
1.084 200
Relaciones entre dos variables
Variables cuantitativasNos preguntamos si dos variables, X e Y, están relacionados de alguna forma
Diagrama de dispersión
Muestra la relación entre dos variables cuantitativas medidas para los mismos individuos.
En los datos cada individuo aparece como un punto del diagrama cuya posición depende de los valores que toman las dos variables parta cada individuo.
Covarianza
Medida de asociación que se calcula como el promedio de los productos de las desviaciones.
))((1
1
yyxxN
s i
N
iiXY
Puede ser positiva o negativa y no está acotada. Depende de las unidades de medida de X e Y
Coeficiente de correlación
Esta comprendido entre -1 y 1 Si r es cero o cercano a cero entonces nula
o baja correlación Valores cercanos a 1 y -1 implican alta
correlación, positiva y negativa respectivamente.
YX
XYXY ss
sr
Precauciones
Variables latentes
Correlaciones espurias
Ejercicio
Variables cualitativas Podemos contar el número de casos que caen
en cada categoría y podemos comparar un grupo con otro.
Para ello elaboramos Tablas de contingencia:
– Son tablas de doble entrada en las que cada entrada representa un criterio de clasificación (esto es una variable categórica)
– Como resultado de esta clasificación, las frecuencias(el número o % de casos) aparecen organizadas en casillas que contienen información sobre la relación existente entre ambos criterios.
Ejemplo tabla bidimensionalN = 50
Distribución univariada – marginal (frecuencia de la variable)
Distribución conjunta
Para comparar entre grupos debemos normalizar los grupos en cuanto al tamaño (ya que 6 es relativo a 20, así como 11 es relativo a 30)
Para ello llevamos los valores a %
Proporción de hombres que consumen droga= 6/20 = 0,30
Porcentaje = 0,30 *100 = 30%
¿Qué porcentaje de hombres consume droga en comparación a las mujeres?
30% de los hombres consumen drogas, mientras que 37% de las mujeres lo hace.
Precaución: muchas veces el utilizar % puede darnos una idea de la magnitud del fenómeno mucho mayor de lo que es en realidad, especialmente en el caso de pocos datos. Lo recomendable es usarlos pero señalando el número de casos al interior de cada celda.
Todo cuadro debe tener:
1. Titulo general que describirá el contenido del cuadro
2. Nombre de cada columna3. Los datos4. Fuente de donde se obtuvo la
información5. Comentarios - nota de pie y encabezado
(si amerita)6. Puede ser ilustrado con un gráfico
Ejemplo:
Distribución de la población por consumo de droga según sexo
Fuente: Elaboración propia en base a datos de la Encuesta sobre consumo de drogas Año XX
Top Related