Download - Indicadores y Técnicas Cuantitativas de Análisis Económico Diploma en Economía para no Economistas 2009 Docentes: Zuleika Ferre Gabriela Fachola Giorgina.

Indicadores y TécnicasCuantitativas

de Análisis Económico

Diploma en Economía para no Economistas

2009

Docentes:

Zuleika Ferre

Gabriela Fachola

Giorgina Piani

Análisis exploratorio de los datos

1. Estadística Descriptiva

Distintos formas de generación de la información

2. Técnicas de recolección de datos

Construcción de indicadores que muestren aspectos relevantes de la información

3. Indicadores económicos

Entender la combinación de estos indicadores en marcos conceptuales diversos.

4. Análisis de datos y modelos estadísticos

Derivar las conclusiones obtenidas a un conjunto de datos más amplio

Curso Estadística: Inferencia estadística y teoría de la probabilidad

Presentación

A modo de introducción …

La Estadística se ocupa de los métodos y procedimientos para recoger, clasificar, resumir, hallar regularidades y analizar los datos, de manera tal que sea posible, a partir de ellos, realizar inferencias válidas sobre los fenómenos bajo análisis

Esto permite: Entender su comportamiento Asociar riesgos a las decisiones que se toman bajo

condiciones de incertidumbre Realizar predicciones.

¿Qué entendemos por Estadística?

La estadística une dos campos de estudio:

1. El estudio sistemático de datos numéricos, comprendiendo el resumen y el análisis de la información contenida en ellos

2. La teoría del azar y de la incertidumbre: la teoría de la probabilidad

Descriptiva vs Inferencial

Objetivo: Describe los datos que se tienen porque

importan en sí mismos

La descripción de los datos que se tiene

importa como indicador del

comportamiento de un conjunto más

amplio

Caracterización del conjunto

de datos:

Sobre un conjunto cualquiera,

representativo o no de algo más amplio

Solo para conjuntos representativos de un

universo específico

Alcance de las conclusiones:

Acotada para ese conjunto de datos

Concluye para el universo a partir de

las observaciones que se tienen

Población y muestra

Población o universo: conjunto total objetos. – Ej: Estudiantes de la universidad, hogares de

una ciudad, empresas productoras de ciertos bienes y servicios.

Muestra: Subconjunto representativo de la población.

Un estadístico utiliza las observaciones de

la muestra (datos) para hacer inferencia acerca de la población.

La estadística y la economía La Estadística interviene en la

generación de datos económicos

La Estadística es el fundamento del análisis econométrico.

Econometría: es el estudio sistemático de fenómenos económicos mediante el uso de datos observados y, en general, en un marco de interpretación dado por la Teoría Económica

Tema 1

Análisis exploratorio de los datos

Estadística descriptiva

Estadística descriptiva Principal tarea: describir un conjunto de datos

usando ciertos instrumentos.

Su utilidad refiere a:

– La organización de datos de manera informativa, para que “hablen por sí mismos”

– La detección de errores o comportamientos excepcionales

– La simplificación del análisis de datos usando ciertas medidas de resumen que destacan sus características relevantes

– La posibilidad de brindar alguna evidencia que ayude a corroborar/rectificar los supuestos que se harán en caso de pretender hacer uso de la EI a partir de ese conjunto de datos

¿Qué observamos en los datos?1. Con qué frecuencia se observan los diferentes valores

obtenidos (definibles como un valor puntual o un conjunto de valores dentro de cierto intervalo)

2. La evolución del fenómeno de estudio en el tiempo o entre individuos. Se puede observar la forma del gráfico que resulta de considerar cada dato como un punto.

3. Dónde se concentran los valores observados, ¿cuál es el valor que en promedio se observa, cuál es el valor más frecuentemente observado y cuál es el valor que separa en dos todo el rango de valores observados? A estos indicadores se les conoce como medidas de tendencia central. Y, por último:

4. Qué tan dispersos están los datos respecto al valor promedio? Se observan más/menos valores menores/mayores al promedio y con qué concentración? Estas son medidas dispersión (desvío estándar, simetría y kurtosis).

Conceptos básicos

Variable: función que asocia ciertas características de un fenómeno a un número real o a un subconjunto de los reales

Dato estadístico: es el valor observado que tomó una variable

Unidad de observación: es el sujeto a partir del cual se recoge el dato estadístico

El recorrido/rango/dominio de las variables es el conjunto de valores posibles que toma la variable

Notación: Cuando hablemos de variable haremos

referencia a un símbolo (X, Y, A, B,...p, q, i)

En función del tipo de dominio, las variables se pueden clasificar en:

Clasificación de variables1. Variables cualitativas o

nominales: sólo admiten ser clasificadas en grupos homogéneos y numerables, a los que no se puede asignar un orden de prelación, de acuerdo a ningún criterio

Ejemplos: religión, raza, sexo, deporte practicado, ocupación, jefe de hogar, etc.

2. Variables ordinales: son las que, aún siendo nominales, son factibles de ordenar

Ejemplos: nivel educativo, nivel socioeconómico

3. Variables cuantitativas: tienen como recorrido cantidades numéricas, por lo que podemos operar aritméticamente con ellas. Dos categorías:

– Discretas - Pueden asumir un número finito de valores. Su dominio o rango de variación son los números naturales. Ejemplos número de habitaciones en un hogar, número

de hijos de una familia, etc.

– Continuas - Pueden asumir cualquier valor dentro de un intervalo acotado o no acotado, es decir, su dominio es infinito. Ejemplos: tasa de empleo, tasa de inflación, ingresos,

etc.

Observación: Hay variables que siendo continuas no son

observables más que como discretas: años de educación

Clasificación de variables

1. Descripción de Variables

Un primer paso…. Observar la frecuencia con que se observan los datos individuales o rangos de valores de esos datos

– A través de una tabla (frecuencia simple, frecuencia relativa

– La información también puede presentarse en términos de frecuencias acumuladas de los distintos valores

A través de gráficos: Valores de la variable en las abcisas y el número de veces que se repite ese valor en las ordenadas

Cuando los datos cubren un amplio rango de valores conviene reducir su número

Agrupando en una cantidad inferior de rangos o clases

Estas clases deben ser construidas de modo que sean exhaustivas y no redundantes, es decir, cada modalidad debe pertenecer a una y sólo una de las clases.

Datos agrupados

Ejemplo: Ingresos de los hogares

Tramos de ingresos[Li, Ui)

Frecuencia fi

FrecuenciaRelativa

F

FrecuenciaAcumulada

Facum

0 - 1000 109 2,4 2,4

1000 - 2000 290 6,4 8,9

2000 - 3000 519 11,5 20,4

3000 - 4000 570 12,7 33,0

4000 - 5000 605 13,4 46,5

5000 - 8000 863 19,2 65,6

8000 - 10000 545 12,1 77,7

10000 - 15000 520 11,5 89,3

15000 - 20000 242 5,4 94,6

20000 - 25000 133 3,0 97,6

30000 - 40000 54 1,2 98,8

40000 - 50000 24 0,5 99,3

50000 - 70000 31 0,7 100,0

Total (n) 4505 100,0

2. Análisis gráfico

Principales diagramas según el tipo de variable.

Tipo de variable Diagrama

Cualitativa Barras, sectores, pictogramas

Discreta Diferencial (barras)Integral (en escalera)

Continua Diferencial (histograma, polígono de frecuencias)Integral (diagramas acumulados)

Variable continua Histograma de ingresos del

hogar

0,0

5,0

10,0

15,0

20,0

25,0

Fre

cuen

cia

rela

tiva

Diagrama de barras para una variable cualitativaProfesiones de los profesionales de la salud.

Total del país - Año 2006

02000400060008000

10000120001400016000

Médicos Odontólogos QuimoFarmacéuticos

Parteras Enfermeras

Diagrama de tortas para una variable cualitativa

Fuente: INE

Pictogramas Pirámides población Uruguay

2000 y 2025

Histograma de frecuencias para una variable discreta.

Número de hijos

Diagrama para una variable continua

Tasa de desempleo por departamento Año 2002

5,0 10,0 15,0 20,0 25,0

Tasa de desempleo Año 2002 (%)

0

1

2

3

4

5

Ca

nti

da

d d

e d

ep

art

am

en

tos

(n

º)

Mean = 16,368Std. Dev. = 5,4587N = 19

La evolución temporal de una variable…

Tasa de desempleo – Total país

3. Medidas de posicióno tendencia central

El objetivo es encontrar un valor único que sea de alguna forma representativo del resto

Este único número puede ser considerado como típico de todos los datos

¿Alcanza con mirar mínimo-máximo?– Importancia de los casos atípicos

Media (aritmética)

N

ii

n xNN

xxxxx

1

321 1...

Como podemos ver, se trata de una suma ponderada, en la que todas las observaciones contribuyen a la suma y todas tienen el mismo ponderador 1/N.

Media para datos agrupados No sirve la fórmula anterior, a menos que se

elija algún valor que “represente” a todo el intervalo

Suele tomarse el punto medio: mi = (Li + Ui )/2

(Li límite inferior de la clase y Ui es el límite superior)

Por tanto la media para datos agrupados es:

k

iiimfN

x1

1

La Mediana

Mediana =

si N es impar

si N es par)(2/1 1)2/(2/ NN xx

2/)1( Nx

• Es el valor que separa en dos todo el rango observado de valores. Es decir, aquel valor para el cual el 50% de los datos resulta en valores menores o iguales a la mediana y el 50% restante es mayor o igual que la mediana.

• Si el número de datos es impar, la mediana es la observación central.

• Si se tiene un número de observaciones par, la mediana es el promedio de las dos observaciones centrales.

Mediana para datos agrupados

Donde:

Li = Limite inferior o frontera inferior del intervalo en el que se encuentra la mediana: intervalo mediano

n = Número de observaciones o frecuencia total facum(i-1)= frecuencia acumulada anterior al intervalo

mediano fmediana= Frecuencia simple del intervalo mediano A = Amplitud del intervalo en el que se encuentra la

mediana

Af

fn

LMmediana

iacum

ied

)1(2

Media y Mediana La media y la mediana difieren en la

forma en que sus valores son afectados por observaciones ubicadas relativamente lejos de la media (atípicos).

Unos pocos valores extremos tienen un alto impacto provocando que la media se desplace del centro de la distribución.

Ejemplo

EjemploLi - Ui fi A mi fi mi facum

0 - 10 60 10 5 300 60

10 - 20 80 10 15 1.200 140

20 - 30 30 10 25 750 170

30 - 100 20 70 65 1.300 190

100 - 500 10 400 300 3.000 200

n = 200 6.550

75,32200

550.61

1

k

iiimfN

xLa media aritmética es:

La mediana es: 151080

60100102 )1(

Af

fn

LMmediana

iacum

ied

Histograma

Media y Mediana Con lo cual encontramos en esos

casos que la media no es muy representativa de los valores de la distribución. El valor extremo “infla” el promedio

El modo o moda

Valor más frecuente en el caso de datos sin agrupar, y la clase con la frecuencia más alta (intervalo o clase modal) en el caso de datos agrupados

Cuartiles, deciles, percentiles Hay otras medidas de posición (no de tendencia

central) análogas a la mediana.

Cuartiles: Son los tres valores de la variable que dividen a un conjunto de datos ordenados en cuatro partes iguales.

Q1 = x(N+1)/4 - Q2 = mediana Q3 = x3(N+1)/4

Deciles: Divide a la distribución en 10

Percentiles: Dividen a la distribución en 100 porciones de tamaño igual.

Indicadores de actividad y precio del sector inmobiliario

4. Medidas de dispersión o variabilidad

Nuestro objetivo es medir la variabilidad de un conjunto de datos. Es posible hacerlo a través de distintas medidas:

1. Varianza

2. Desviación típica

3. Rango

4. Recorrido intercuartil

Varianza Una serie de medidas de dispersión se

basa en las distancias de cada observación respecto a la media

Interesa la distancia en términos absolutos, independientemente de si la observación es superior o inferior a la media.

El promedio del cuadrado de esas desviaciones respecto a la media es la varianza s2:

N

ii xf

Ns

1

22 )(1

Desviación standard Al tomar la raíz cuadrada de la

varianza obtenemos la desviación estándar, s.

Tiene las mismas unidades de medida que la media y que las observaciones

N

ii xf

Ns

1

2)(1

k

iii xmf

Ns

1

2)(1

La desviación estándar para datos agrupados es análoga a la de la media:

Rango y recorrido intercuartil

El rango, que se define como:Rango = xN − x1

El recorrido intercuartil queda definido como el intervalo entre el tercer y el primer cuartil:

RI = Q3 − Q1

y corresponde al rango en que están contenidas el 50% de las observaciones centrales

Coeficiente de variación Es una medida relativa de la dispersión

Útil para comparar dispersiones a escalas distintas

Es útil cuando queremos comparar la variación entre muestras o entre poblaciones.

Ejemplo: Población 1: s=10 Media=20 CV=0,50Población 2: s=20 Media=200 CV=0,10

x

sCV

Asimetría Relación entre el "cuerpo" de la

distribución (o aquella zona cercana a la media) y las "colas", o valores alejados de la media, donde en general tenemos un número menor de observaciones.

– Simetría– Distribución unimodal– Asimetría a la derecha– Asimetría a la izquierda

Distribución bimodal

0

2

4

6

8

10

12

1 2 3 4 5 6 7 8 9 100

2

4

6

8

10

12

1 2 3 4 5 6 7 8 9

Distribución simétrica

0

1

2

3

4

5

6

7

8

9

1 2 3 4 5 6 7 8 9

Asimetría a la derecha

Asimetría a la izquierda

0

2

4

6

8

10

12

1 2 3 4 5 6 7 8 9

Coeficiente de asimetría

Coef. de asimetría =

Si las desviaciones negativas pesan más que las positivas, el coeficiente de asimetría tendrá signo negativo (distribución asimétrica a la izquierda), mientras que valores positivos implican asimetría a la derecha (una distribución simétrica tiene un coeficiente de 0).

31

3)(1

s

xfN

N

ii

Kurtosis o apuntamiento La kurtosis describe la relación que

existe entre el cuerpo de una distribución y las colas.

La expresión para el coeficiente de kurtosis es la siguiente:

41

4)(1

s

xfN

N

ii

Valores reducidos implican que las colas de la distribución pesan poco con respecto al cuerpo (leptokurtica)

Valores altos implican una forma más "achatada": las colas tienen un peso importante con respecto al cuerpo de la distribución (platikúrtica)

0

1

2

3

4

5

6

7

8

9

10

1 2 3 4 5 6 7 8 9

0

1

2

3

4

5

6

7

8

9

10

1 2 3 4 5 6 7 8 9 10

Los cinco números resúmen

Una manera conveniente de describir el centro y la dispersión de un conjunto de datos consiste en la observación mínima, el primer cuartil, la mediana, el tercer cuartil y la observación máxima:

Mínimo Q1 Me Q2 Máximo

Diagramas de cajaDistribución del ingreso por sexo

1 2

e1

0

3000

6000

9000

12000

15000

pt1

1.2822.082905

1.2391.231 251

1.890266 389975 1.886

421.692

1.4372.1461.885

1.084 200

Relaciones entre dos variables

Variables cuantitativasNos preguntamos si dos variables, X e Y, están relacionados de alguna forma

Diagrama de dispersión

Muestra la relación entre dos variables cuantitativas medidas para los mismos individuos.

En los datos cada individuo aparece como un punto del diagrama cuya posición depende de los valores que toman las dos variables parta cada individuo.

Covarianza

Medida de asociación que se calcula como el promedio de los productos de las desviaciones.

))((1

1

yyxxN

s i

N

iiXY

Puede ser positiva o negativa y no está acotada. Depende de las unidades de medida de X e Y

Coeficiente de correlación

Esta comprendido entre -1 y 1 Si r es cero o cercano a cero entonces nula

o baja correlación Valores cercanos a 1 y -1 implican alta

correlación, positiva y negativa respectivamente.

YX

XYXY ss

sr

Precauciones

Variables latentes

Correlaciones espurias

Ejercicio

Variables cualitativas Podemos contar el número de casos que caen

en cada categoría y podemos comparar un grupo con otro.

Para ello elaboramos Tablas de contingencia:

– Son tablas de doble entrada en las que cada entrada representa un criterio de clasificación (esto es una variable categórica)

– Como resultado de esta clasificación, las frecuencias(el número o % de casos) aparecen organizadas en casillas que contienen información sobre la relación existente entre ambos criterios.

Ejemplo tabla bidimensionalN = 50

Distribución univariada – marginal (frecuencia de la variable)

Distribución conjunta

Para comparar entre grupos debemos normalizar los grupos en cuanto al tamaño (ya que 6 es relativo a 20, así como 11 es relativo a 30)

Para ello llevamos los valores a %

Proporción de hombres que consumen droga= 6/20 = 0,30

Porcentaje = 0,30 *100 = 30%

¿Qué porcentaje de hombres consume droga en comparación a las mujeres?

30% de los hombres consumen drogas, mientras que 37% de las mujeres lo hace.

Precaución: muchas veces el utilizar % puede darnos una idea de la magnitud del fenómeno mucho mayor de lo que es en realidad, especialmente en el caso de pocos datos. Lo recomendable es usarlos pero señalando el número de casos al interior de cada celda.

Todo cuadro debe tener:

1. Titulo general que describirá el contenido del cuadro

2. Nombre de cada columna3. Los datos4. Fuente de donde se obtuvo la

información5. Comentarios - nota de pie y encabezado

(si amerita)6. Puede ser ilustrado con un gráfico

Ejemplo:

Distribución de la población por consumo de droga según sexo

Fuente: Elaboración propia en base a datos de la Encuesta sobre consumo de drogas Año XX