Manual Stata Basico - Juan Carlos Abanto Orihuela

8/20/2019 Manual Stata Basico - Juan Carlos Abanto Orihuela

1/79

StataBásico

Aplicado a la Investigación Económica

Juan Carlos Abanto Orihuela

25 de enero de 2013


2/79

2

Stata Básico


www.giddea.com

[email protected]

http://www.giddea.com/http://www.giddea.com/


3/79

Índice general

Índice general 3

1. Introducción al Stata 51.1. Iniciando Stata . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

1.2. Tipos de Archivos en Stata . . . . . . . . . . . . . . . . . . . . . 61.3. Estructura Básica de Stata . . . . . . . . . . . . . . . . . . . . . 61.4. Principales Comandos de Trabajo y Análisis . . . . . . . . . . . 7

1.4.1. Las Bitácoras . . . . . . . . . . . . . . . . . . . . . . . . 71.4.2. La Base de Datos . . . . . . . . . . . . . . . . . . . . . . 71.4.3. Append, Merge, Collapse . . . . . . . . . . . . . . . . . . 9

2. Manejo de Datos 152.1. Cargando los Datos en Stata . . . . . . . . . . . . . . . . . . . . 152.2. Etiquetas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15

2.3. Comando IF . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 172.4. Comando SUMMARIZE . . . . . . . . . . . . . . . . . . . . . . 182.5. Comando SPLIT . . . . . . . . . . . . . . . . . . . . . . . . . . 182.6. Creando Variables . . . . . . . . . . . . . . . . . . . . . . . . . . 192.7. KEEP y DROP . . . . . . . . . . . . . . . . . . . . . . . . . . . 222.8. Reestructurando los Datos . . . . . . . . . . . . . . . . . . . . . 242.9. Muestreos Probabiĺısticos . . . . . . . . . . . . . . . . . . . . . . 262.10. Generación de Números Aleatorios . . . . . . . . . . . . . . . . 262.11. Percentiles, Cuartiles, Deciles . . . . . . . . . . . . . . . . . . . 27

3. Análisis Grafico con Stata 31

3.1. Visualizando Algunos Comandos . . . . . . . . . . . . . . . . . 313.2. TWOWAY . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 333.3. TWOWAY y SCATTERPLOT . . . . . . . . . . . . . . . . . . 383.4. Combinando TWOWAY Y SCATTERPLOT . . . . . . . . . . . 40

3.4.1. Filtro de Gráficos . . . . . . . . . . . . . . . . . . . . . . 403.4.2. Unión de Gráficos . . . . . . . . . . . . . . . . . . . . . . 40

3.5. Opciones para Edición de Gráficos . . . . . . . . . . . . . . . . . 433.6. Trabajando con Esquemas y Gráficos Adicionales . . . . . . . . 47

3


4/79

4 ÍNDICE GENERAL

3.6.1. Esquemas . . . . . . . . . . . . . . . . . . . . . . . . . . 473.6.2. Gráficos de Barras Verticales . . . . . . . . . . . . . . . . 493.6.3. Gráficos de Barras Horizontales . . . . . . . . . . . . . . 493.6.4. Gráficos de Cajas . . . . . . . . . . . . . . . . . . . . . . 50

3.6.5. Gráficos de Pastel . . . . . . . . . . . . . . . . . . . . . . 51

4. Análisis de Regresión Lineal 554.1. Regresión Lineal . . . . . . . . . . . . . . . . . . . . . . . . . . 554.2. Diagnostico de los Resultados . . . . . . . . . . . . . . . . . . . 59

4.2.1. Efecto Influencia . . . . . . . . . . . . . . . . . . . . . . 594.3. Normalidad del Residuo . . . . . . . . . . . . . . . . . . . . . . 624.4. Homocedasticidad del Residuo . . . . . . . . . . . . . . . . . . . 634.5. Multicolinealidad . . . . . . . . . . . . . . . . . . . . . . . . . . 644.6. Linealidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 644.7. Especificación del modelo . . . . . . . . . . . . . . . . . . . . . 65

4.8. Independencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66

5. Variables Categóricas 695.1. Estimacíon con Variables Categóricas . . . . . . . . . . . . . . . 695.2. El Comando Xi . . . . . . . . . . . . . . . . . . . . . . . . . . . 705.3. Pruebas de Hipótesis . . . . . . . . . . . . . . . . . . . . . . . . 725.4. Creacíon de Variables Dummys . . . . . . . . . . . . . . . . . . 755.5. Bucles y Programas . . . . . . . . . . . . . . . . . . . . . . . . . 75

Bibliografı́a 79

Stata Básico


www.giddea.com

[email protected]



5/79

Sesión 1Introducción al Stata

1.1. Iniciando Stata

Stata es una poderosa herramienta en aplicaciones económicas. Puede ayu-darnos a analizar fácil y eficientemente, series de tiempo, paneles, y data desección cruzada. Nos dará las herramientas que necesitamos para organizar ymanejar un gran tamaño de data, obteniendo resultados de análisis estadı́sti-cos.

En esta sesión introduciremos las nociones básicas del software, para pos-teriormente realizar un análisis estad́ıstico y familiarizarnos con el manejo ymodificación de la base de datos.

Veamos como se presenta Stata al iniciarse. (ver Figura 1.1)

Figura 1.1: Pantalla de Inicio

5


6/79

6 1. Introducción al Stata

Los comandos de stata están implementados en el menú el cual esta organizadopor tópicos. Ası́ nosotros podemos trabajar interactivamente y de manera muysimple, sin embargo sigue siendo útil el uso de comandos para realizar el análisisdado que da pie al manejo de programas, o estructuras de programaci ón. (ver

Figura 1.2)

Figura 1.2: Barra de Comandos

1.2. Tipos de Archivos en Stata

En STATA, distinguimos 3 tipos de archivos importantes:Archivo de extensión dta, para la generación de base de datos, en ella se

almacenara información de las variables con su respectiva extensión.

Archivo de extensión log, smcl, para la generación de bitácoras, en ella seguardaran los resultados de manera ordenada, sin tener que pasarlos a ningúntipo de archivo de texto.

Archivo de extensión do, que es un archivo de ejecución, donde se elaborael programa.

Archivo de extensión gph, para la generación de gráficos almacenados en

la carpeta de trabajo

1.3. Estructura Básica de Stata

Siempre que trabajemos en STATA, es recomendable que mantengamoscierta estructura. (ver Figura 1.3)

Stata Básico


www.giddea.com

[email protected]



7/79

1.4. Principales Comandos de Traba jo y Análisis 7

Figura 1.3: Estructura Básica

1.4. Principales Comandos de Trabajo y Análi-

sis

Ahora veamos los principales comandos de trabajo, los cuales harán quelos futuros análisis econométricos sean simples de realizar.

1.4.1. Las Bitácoras

En estos objetos se guardara la información tal y cual aparecen en la ven-tana Result, aunque también podrı́amos indicarle al programa que deseamossolo guardar los comandos y no los resultados.

log using clase1.logo tambíen

cmdlog using clase1.log

1.4.2. La Base de Datos

El uso de la base de datos es vital para nuestro an álisis, a continuaciónpresentamos los comandos que nos enseñara a trabajar con esta.

use auto.dta

Stata Básico


www.giddea.com

[email protected]



8/79


use auto.dta if foreign==1

use auto.dta in 1/10

use make mpg using auto.dta

save auto01.dta

Repasemos lo que hemos aprendido:Ya sabemos como limpiar la memoria de Stata, también sabemos como ampliaresta memoria para trabajar con data de gran capacidad. Sabemos como fijarel path de trabajo, como crear una rutina y como cargar la base de datos anuestro espacio de trabajo. Ahora vamos a trabajar con la base de datos paraempezar nuestro análisis.

use auto01.dta

browse

replace mpg=20 if mpg==19

save, replace

list make

list make price

describe

codebook

summarize mpg weight

summarize mpg weight if foreign

summarize price if mpg=21.3

summarize price, detail

tabulate mpg

table mpg

table rep78, contents(n mpg)

table rep78, contents(n mpg mean mpg sd mpg median mpg)table rep78, c(n mpg mean mpg sd mpg median mpg) format(%9.2f)

sort mpg

gsort mpg

gsort -mpg

sort foreign

by foreign: summarize price

Stata Básico


www.giddea.com

[email protected]



9/79

1.4. Principales Comandos de Traba jo y Análisis 9

count

count if foreign==0

count if foreign==1

by foreign: count

generate orden=_n

rename orden num_obs

by foreign: egen prom_mill=mean(mpg)

drop num_obs

keep make price mpg prom_mill

1.4.3. Append, Merge, Collapse

El comando append y merge nos ayudara a unir bases de datos integrándo-las en una sola. Append, pegara hacia abajo o verticalmente y Merge, pegarahacia el costado o de forma horizontal.

clear

use base1, clear

list

use base2, clear

list

use base3, clear

list

use base4, clear

list

Vamos a empezar observando cada una de las bases de datos que tenemos,veamos la figura1.4 Empecemos nuestra tarea en Stata, podemos observar que

Figura 1.4: Bases de Datos

Stata Básico


www.giddea.com

[email protected]



10/79


la base de datos Base1 tiene los mismos campos (columnas) que la base dedatos Base2, pero diferentes filas, seria útil, unir ambas bases.

Abramos entonces, la base de datos Base1 y peguemosla con la base dedatos Base2, una unión vertical.

use base1.dta, clear

list

append using base2

list

save base12.dta, replace

list

Hagamos lo mismo con las bases de datos Base3 y Base4 y observemos losresultados:


list

append using base4

list


list

¿Por qué la variable la variable sexo se añadió 2 veces como columna?¿porqué no se unió en una sola columna?


list

rename Sexo sexo

list



list

append using base4

list


Ahora si resulto bien la unión vertical. Veamos la base12 que teńıamos

antes.Ahora mi inteŕes es fusionar ambas bases de datos, para ello, primero de-bemos ordenar ambas bases según la variable con la que vamos a fusionar (lavariable común).


list

sort nombre

list

Stata Básico


www.giddea.com

[email protected]



11/79

1.4. Principales Comandos de Trabajo y Análisis 11

save base034s.dta, replace


list

sort nombrelist

save base12s.dta, replace

Ya tenemos las 2 bases de datos ordenadas, ahora vamos a fusionarlas

clear

use base12s.dta, clear

list

merge nombre using base034s.dta

list

save basetotal.dta, replace

La figura1.5 nos muestra la base de datos total.

Figura 1.5: Base Total

Podemos tabular la variable merge para ver si se pegaron correctamente lasbases de datos, o también observar la columna final merge en caso de baseschicas como esta.

tab _merge

Analicemos los resultados. Hay tres posibles valores que puede tomar estavariable según lo muestra la figura1.6. Si toma el valor de 1 nos indicara quees una observación que solo se encuentra en la base matriz, si toma el valorde 2 nos indicara que es una observación que proviene de la base esclava, y sitoma el valor de 3, nos indicara que la observaci ón proviene de ambas bases.

Stata Básico


www.giddea.com

[email protected]



12/79


Figura 1.6: tab merge

El comando collapse sirve para convertir una base de datos que contiene va-riables para diversas unidades de estudio, en una base de datos que contieneestad́ısticos de dichas variables (medias, medianas, sumas etc). Permite obte-ner estad́ısticos para unidades más grandes (en un sentido jerárquico), comopor ejemplo, pasar de datos por individuo a datos por hogar, de datos por

distritos a datos por provincia (agregación)En el comando se especifican aquellas variables que se ”colapsan” y las con-

diciones que se imponen para dicha transformación. Algunas variables puedenser colapsadas según su suma, otras según su media, etc. (ver figura1.7)

Aquellas variables que no se especifican desaparecen automáticamente dela base de datos. Este comando crea una nueva base de datos y cierra la basede partida. Si deseamos quedarnos con esta base debemos grabarla.

Figura 1.7: Estructura del comando “split”

Basado en los WDI, genere una base de datos con los totales de CO2 emi-tidos por región, para el año 2002. Genere también una base con la poblaciónmundial a lo largo del tiempo.

Stata Básico


www.giddea.com

[email protected]



13/79

1.4. Principales Comandos de Trabajo y Análisis 13

use kids, clear

list

collapse age

list

use kids, clear

collapse age, by(famid)

list

use kids, clear

collapse(mean) avgage=age, by(famid)

list

use kids, clear

collapse (mean) avgage=age avgwt=wt, by(famid)

list

use kids, clear

collapse (mean) avgage=age avgwt=wt (count) numkids=birth, by(famid)

list

use kids, clear

tabulate sex, generate(sexdum)

list famid sex sexdum1 sexdum2

collapse (count) numkids=birth (sum) girls=sexdum1 boys=sexdum2, by(famid)list famid boys girls numkids

Basado en los WDI, genere una base de datos con los totales de CO2 emi-tidos por región, para el año 2002. Genere también una base con la poblaciónmundial a lo largo del tiempo.

use wdi,clear

collapse (sum) co2 if year==2002, by(region)

graph hbar (asis) co2, over(region)

use wdi, clear

collapse (sum) pop, by(year)

Stata Básico


www.giddea.com

[email protected]



14/79


RETO 1

La base “enaho01-2004-300-oct-nov.dta” contiene datos del módulo 300 dela ENAHO recopilados entre octubre y noviembre de 2004, mientras que“enaho01-2004-300-dic.dta” contiene los datos del mismo módulo para di-ciembre de ese mismo año. Ambas bases están a nivel de individuos. Se pide juntar estos datos en un solo archivo que debe ser grabado con el nombre:“Personas.dta”.

A la base “Personas.dta” añada las siguientes variables:

Las 5 variables de Necesidades Básicas Insatisfechas (nbi1 al nbi5) desdela base de datos “enaho01-2004-100.dta”. Recuerde que esta base fuerecopilada a nivel de hogares en el mismo periodo.

La variable sobre tipo de vivienda (p101).

Usando el archivo “enaho01-2004-300-oct-nov.dta” (módulo de educación anivel de individuos) realice las siguiente tarea:

Obtenga una nueva base (colapsada) que contenga para cada hogar:el promedio de edad de sus miembros (ver p208a), el porcentaje dehombres en el hogar (ver p207), el máximo nivel educativo aprobadopor algún miembro del hogar (ver p301a).

Stata Básico


www.giddea.com

[email protected]



15/79

Sesión 2Manejo de Datos

2.1. Cargando los Datos en Stata

Ahora vamos a empezar el tratamiento de los datos pero antes, hagamos

un pequeño ejercicio con la base de datos auto.dta

use auto.dta

describe

summarize

generate price2=2*price

describe

save auto2.dta


save auto2.dta

save auto2.dta, replace


use auto.dta

use auto.dta, clear

clear

2.2. Etiquetas

Aprendamos a etiquetar a nuestras bases de datos o variables para poder

identificarlas en un futuro y aśı poder trabajar de forma mas ordenada.use auto.dta

describe

label data "Este archivo contiene datos de autos para el a~no 1978"

describe

label variable rep78 "Record de reparación en 1978"

label variable price "Precio del carro en 1958"

label variable mpg "Millas por galon para el carro"

15


16/79

16 2. Manejo de Datos

label variable foreign "Origen del carro, extranjero o domestico"

describe

label define foreignl 0 "domestico" 1 "extranjero"

label values foreign foreignldescribe

table foreign

ttest mpg, by(foreign)

save auto3.dta

Hagamos un ejercicio similar con la base de datos iraninos.dta

clear

use iraninos.dta

set more offlabel define sexow 0 "mujer"

label define sexow 1 "hombre", add

describe

browse

label values sexo sexow

describe

browse

label drop sexow

label define getareow 0 "prematuro"

label define getareow 1 "rec.nac.", add

label define getareow 2 "lactante", add

label define getareow 3 "escolares", add

label values getareo getareow

label define oliguriaw 0 "no oliguria"

label define oliguriaw 1 "oliguria", add

label values oliguria oliguriaw

label define congenitow 0 "no congenito"

label define congenitow 1 "congenito", addlabel values congenito congenitow

label define sepsisw 0 "no sepsis"

label define sepsisw 1 "sepsis", add

label values sepsis sepsisw

label define tipodaow 0 "asfixia neonat"

Stata Básico


www.giddea.com

[email protected]



17/79

2.3. Comando IF 17

label define tipodaow 1 "nta", add

label define tipodaow 2 "nti", add

label define tipodaow 3 "nefro tox", add

label values tipodao tipodaow

label define finalw 0 "vivo"

label define finalw 1 "muerto", add

label values final finalw

Observemos que la variable dependiente en esta base de datos es final,muerte de una persona debido a una falla renal aguda. Las variables explicati-vas serian sepsis y tipodaño, mientras que las de control serian sexo, getareo.Probablemente oliguria y congenito sean variables que me indiquen el nivelespecifico de la enfermedad (serian variables no tan claras en este ejemplo).

2.3. Comando IF

La estructura del comando IF es fácil de recordar, la figura2.1 nos muestrael esquema base.

Figura 2.1: Estructura del comando “if”

clearuse auto.dta

keep make rep78 foreign mpg price

tabulate rep78 foreign

tabulate rep78 foreign if (rep78 >=4)

tabulate rep78 foreign if (rep78 >=4), column nofreq

list if (rep78 >= 4)

list if (rep78 >= 4) & !missing(rep78)

summarize price if (rep78 == 1) | (rep78 == 2)summarize price if (rep78 = 3)

summarize price if (rep78 >= 3) & !missing(rep78)

Cabe resaltar que luego de la sentencia “if” usamos “ & ” para decir “y”,usamos “ == ” para decir “igual a”, y usamos “ ! ” para negar algo o decir“no”.

Stata Básico


www.giddea.com

[email protected]



18/79


2.4. Comando SUMMARIZE

Esta estructura es mas compleja y más dif́ıcil de recordar, sin embargo lasiguiente forma general (ver figura2.2), nos ayudara a recordarla y usarla de

manera más apropiada.

Figura 2.2: Estructura del comando “summarize”

use auto

summarize

summarize price mpg

summarize mpg price if (foreign == 1)

summarize mpg price if (foreign == 1) & (mpg


19/79

2.6. Creando Variables 19

Figura 2.3: Estructura del comando “split”

Figura 2.4: Base Documentos

use "split y destring", clear

split documento, parse("-") destring

use "split y destring", clear

split documento, parse("-")

destring documento2, replace

Si deseáramos concatenar dos variables cualquiera sean estas, y generaruna variable tipo string, el comando a usar deberá ser:

egen docum=concat(documento1 documento2), punct("/")

Donde la opción punct permite especificar el separador entre las distintaspartes al conformar una única variable. Por ejemplo, espacio será punct(“ ”),o coma , punct(,) o guión , punct(-).

2.6. Creando Variables

Trabajemos con la base de datos auto, y con la variable length (longituddel auto en pulgadas)

use auto, clear

summarize length

generate length_feet = length / 12

Stata Básico


www.giddea.com

[email protected]



20/79


generate length_feet = length / 12

replace length_feet = length / 12

summarize length lenght_feet

generate length2 = length^2

summarize length2generate loglen = log(length)

summarize loglen

summarize length

generate zlength = (length - 187.93) / 22.27

summarize zlength

Observemos la variable mpg (millaje por galón)

tabulate mpg

No nos es muy fácil el análisis de esta variable, podŕıamos mejorar supresentación si la clasificáramos por rangos.

generate mpg3 = .

replace mpg3 = 1 if (mpg = 19) & (mpg = 24) & (mpg


21/79

2.6. Creando Variables 21

generate mpgfd = mpg

recode mpgfd min/18=0 19/max=1 if foreign==0

recode mpgfd min/24=0 25/max=1 if foreign==1

by foreign: tabulate mpg mpgfd

El comando recode cambia los valores de una variable de acuerdo a lasreglas especificadas.

recode opiniongob (1=4 nada) (2=3 poco) (3=2 "mas o menos") ///

(4=1 bastante) (.=0 "no opina"), gen(opina)

También podemos usar una extensión del commando generate, egen me per-mitirá crear expresiones mas complejas aun, tales como medias, desviacionesestándar, máximos, mı́nimos, etc.

egen minimo_p=min(price)

egen median_p=median(price)egen std_p=std(price), mean(0) std(1)

Nota1: Tipo de Datos

En Stata existen dos clases de datos a usar:

Datos numéricos, dentro de estos podemos encontrar la siguiente clasifica-ción:

Figura 2.5: Datos Tipo Numéricos

Datos cadena de texto, dentro de estos podemos encontrar la siguiente cla-sificación:

Figura 2.6: Datos Tipo Cadena

Stata Básico


www.giddea.com

[email protected]



22/79


Lógicamente debemos considerar que un uso de datos con mayor poderde almacenaje se traducirá en mayor tamaño de bytes usados, lo cual restaraespacio a nuestro disco de almacenaje.

Generemos algunas variables como ejemplo:

generate double x=2

generate str2 y="maria"

list y

¿Qué notamos?, ¿Cómo saber rápidamente si una variable es de ciertotipo? Si deseáramos convertir una variable string a una variable numérica ouna variable numérica a una string, podŕıamos usar los comandos encode ydecode, veamos esto:

clear

use auto.dta

encode make, generate(A)

label list A

describe make A

decode A, generate(B)

describe make A B

O también podŕıamos usar la siguiente sentencia:

generate str2 Z="am"

generate int P=real(Z)

describe Z P

2.7. KEEP y DROP

A veces no desearemos tener todas las variables en el espacio de trabajo,muchas veces desearemos trabajar solo con algunas variables de nuestra basede datos.

use auto

describe

keep make mpg price

describe

use auto, clear

drop displacement gear_ratio

describe

Stata Básico


www.giddea.com

[email protected]



23/79

2.7. KEEP y DROP 23

use auto , clear

tabulate rep78 , missing

drop if missing(rep78)

tabulate rep78 , missing

use auto , clear

keep if (rep78


24/79


clear

use make mpg price rep78 using auto.dta if (rep78


25/79

2.8. Reestructurando los Datos 25

reshape wide

list

reshape long

list

Veamos una base de datos que nos brinda información sobre los las alturasde un conjunto de niños de 1 y 2 años de edad

use ni~noaltpes, clear

list codfam nacimiento alt1 alt2

Figura 2.9: Base “niñoaltpes”

Veamos como podemos transformar esta base de datos a una forma “long”.¿Cuál es la ráız de la variable que será convertida de la forma wide a la formalong? ¿Qué variables identifican a los individuos en la estructura wide? ¿Cómo

llamaremos a la variable que contendrá a los sufijos de la variable raı́z?reshape long alt, i( codfam nacimiento) j(edad)

list codfam nacimiento edad alt

use ni~noaltpes,clear

list codfam nacimiento alt1 alt2 pes1 pes2

reshape long alt pes, i( codfam nacimiento) j(edad)

list codfam nacimiento edad alt pes

use ingpadmad.dta, clear

list

A nosotros nos podŕıa interesar que la variable “nombre” y la variable “ing”se estructuren de una forma long, pero los sufijos “p” y “m” son del tipo cadenao string, ya no son números. ¿Cómo podemos estructurar nuestro comando eneste caso?

reshape long nombre ing, i(codfam) j(padmad) string

list

Stata Básico


www.giddea.com

[email protected]



26/79


Figura 2.10: Base “ingpadmad”

2.9. Muestreos Probabiĺısticos

En las encuestas, las observaciones son escogidas a partir de un proce-so aleatorio. Aśı, las probabilidades de selección para distintas observacionespueden diferir en función a la forma como se lleve a cabo dicho proceso deselección aleatorio.

Las ponderaciones de muestreo son iguales (o proporcionales) al inverso dela probabilidad de selección. En otras palabras, los ponderadores (o factoresde expansión) pueden ser interpretados como el número de elementos de lapoblación que el elemento muestreado representa. En consecuencia, no teneren cuenta los ponderadores de la muestra en los procedimientos estad́ısticosgenera estimaciones sesgadas al valor verdadero de la población. Aśı mismo,su omisión altera las desviaciones estándar de nuestras estimaciones.

Los factores de expansión nos permiten pasar de la muestra al conjunto dela población. Ellos son necesarios también para tener en cuenta las diferentestasas de muestreo según dominios geográficos, etc.

La mayoŕıa de comandos de stata pueden ponderar datos. Stata proporcio-

na cuatro tipos de ponderaciones, la que más se emplea es la asociada a losfactores de expansión, que se indica con la opción pweight que permite identi-ficar los pesos que indican la inversa de la probabilidad de que la observaciónsea incluida debido al diseño del muestreo.

table x1 x2 [pweight=pesopob]

table x1 x2 [pw=pesopob]

2.10. Generación de Números Aleatorios

Crearemos un archivo vaćıo para 100 observaciones:

set obs 100

Generamos números aleatorios con distribución uniformes U(0,1)

gen x = uniform()

Luego generamos números aleatorios con distribución normal N(0,1)

Stata Básico


www.giddea.com

[email protected]



27/79

2.11. Percentiles, Cuartiles, Deciles 27

gen y = invnorm(uniform())

Para generar una variable con distribución uniforme U(a,b)

generate y = a + (b-a) * uniform()

Para generar una variable con distribución normal N(u,ô)

generate z = u + ô * invnorm(uniform())

Generemos una variable notas, igual a U(0,20) + N(0,1)

gen notas = 20*uniform() + invnorm(uniform())

Trunquemosla en el rango de 0 a 20

replace notas = clip(notas, 0, 20)

format notas %3.1f

Generemos una variable sexo que sea 1 si es hombre y 0 si es mujer

gen sexo = uniform() > 0.5

Generemos una variable ingreso que valla del 2000 al 2007

gen ingreso = 2000 + floor(8*uniform())

2.11. Percentiles, Cuartiles, Deciles

Las medidas de posición son muy importantes en el análisis estadı́stico,probabiĺıstica y regresional.

Los cuartiles son medidas estad́ısticas de posición que tienen la propiedadde dividir la serie estad́ıstica en cuatro grupos de números iguales de términos.

De manera similar los deciles dividen a la serie en diez partes iguales y lospercentiles dividen a los términos de la serie en cien grupos iguales. Aśı comola mediana divide la serie o distribución en dos partes iguales, existen trescuartiles, nueve deciles y noventa y nueve percentiles que dividen en cuatro,diez y cien partes iguales a la distribución.

De estas tres últimas medidas de posición los cuartiles son las de mayor

aplicación.Se emplean generalmente en la determinación de estratos o grupos corres-

pondientes a fenómenos socio-económicos, monetarios o teóricos.

XTILE

El comando xtile genera una variable categórica (eg: 1, 2, 3) según el cuantilen que se encuentra cada observación.

Stata Básico


www.giddea.com

[email protected]



28/79


xtile nuevavar = variable , nquantiles(#)

xtile tercio = notas, n(3)

PCTILE

El comando pctile genera una variable con los puntos de corte entre cadacuantil.

pctile nuevavar = variable , nquantiles(#)

pctile cortes = notas, n(3)

Por ejemplo, generemos una variable décimo que sea 1 si es décimo superior,y 0 caso contrario. Hágalo de 2 formas distintas

xtile es_decimo = notas, n(10)

replace es_decimo= (es_decimo==10)

summarize notas, detail

gen es_decimo = notas > r(p90)

pctile corte_dec = notas, n(10)

gen es_decimo = notas > corte_dec[9]

Muestre en las notas, el promedio, el máximo, el mı́nimo, por sexo. Muestrela probabilidad de ser décimo superior, por año de ingreso

tab es_decimo tercio

tabstat notas, by(es_decimo)

tabstat notas, by(sexo) stat(mean max min)

tabstat es_decimo, by(ingreso) format(%3.2f)

Stata Básico


www.giddea.com

[email protected]



29/79

2.11. Percentiles, Cuartiles, Deciles 29

RETO 2

El sostenido crecimiento de la econoḿıa peruana en los últimos años haprovocado que en la actualidad observemos un boom de inversiones a nivel des-

centralizado. Aśı, diversas actividades económicas que antes se desarrollabansolo en Lima han empezado a mirar el interior del páıs como plazas alternativaspara expandir sus negocios. Con este fin, la recientemente fundada empresa deconsultoŕıa Grupo IDDEA S.A.C. le ha pedido su colaboración para desarrollarlas siguientes tareas en Stata.

En el módulo “sumarias” (que contiene variables calculadas de ingreso ygasto) se le pide identificar cada hogar con el nombre de la localidad querepresenta según la variable “ubigeo” (distrito). Además, en este módulo de-berá crear una nueva variable que indique el departamento al que pertenececada hogar (esta variable debe tener un value map con los nombres de los

24 departamentos y el Callao). Para esta tarea usted cuenta con la base dedatos ubigeo.dta.

Con una sola instrucción (un solo comando) muestre las siguientes estad́ısti-cas descriptivas para el gasto per capita en todos los departamentos del paı́s(percentil 99, media, desviación estándar, rango).

El INEI calcula las estad́ısticas de pobreza bajo el método del gasto, pa-ra lo cual utilizará la variable “gasto total” y la dividirá entre el total depersonas en el hogar para calcular el gasto per capita. Luego generará unavariable que valga uno en caso el hogar supere la ĺınea de pobreza per capita

(linea06) y cero en caso contrario. Finalmente, se le pide estimar para cadadepartamento cual es el nivel de pobreza considerando que un individuo espobre si pertenece a un hogar pobre.

Con el módulo de educación construya una tabla que muestre para cada do-minio geográfico el porcentaje de personas según nivel educativo alcanzado,para lo cual considerará solo tres niveles: 1, al menos primaria incompleta,2, Al menos secundaria completa y 3, superior.

Al módulo educación añada la variable gasto per cápita, calculado en la basesumaria como el cociente entre gasto total y total de miembros del hogar.Luego, cree una variable que contenga los cuartiles (1,2,3,4) del gasto percapita y construya una tabla cruzada entre el nivel educativo y la nuevavariable que ha creado para todas aquellas personas que no residen en LimaMetropolitana.

Stata Básico


www.giddea.com

[email protected]



30/79


Stata Básico


www.giddea.com

[email protected]



31/79

Sesión 3Análisis Grafico con Stata

Ahora vamos a trabajar con los principales gráficos en Stata. Muchos deestos gráficos son de bastante utilidad para observar los problemas inherentesal análisis de regresión que observaremos en la próxima sección.

3.1. Visualizando Algunos Comandos

clear

use auto.dta

histogram mpg

Figura 3.1: Histograma

graph box mpggraph box mpg, by(foreign)

31


32/79

32 3. Análisis Grafico con Stata

Figura 3.2: Grafico de Cajas

Figura 3.3: Scatter y Ajuste Lineal

Figura 3.4: Grafico Matricial

Stata Básico


www.giddea.com

[email protected]



33/79

3.2. TWOWAY 33

3.2. TWOWAY

El S&P 500 es el ı́ndice más seguido para tener una idea del desempeñogeneral de las acciones estadounidenses. Este ı́ndice consiste de las acciones de

500 empresas que fueron seleccionadas por su tamaño, liquidez (qué tan fáciles comprar o vender sus t́ıtulos) y representatividad por actividad económi-ca, incluyendo 400 industriales, 20 del sector transporte, 40 de servicios y 40financieras. Sólo se toman en cuenta empresas estadounidenses. Vale la penadestacar que el peso de cada acción dentro del ı́ndice corresponde a la propor-ción que representa el valor de mercado de la empresa dentro del total de las500 empresas que conforman el ı́ndice. El valor de mercado del capital es igualal precio por acción multiplicado por el número total de acciones.

Usemos la base de datos S&P 500.(ver figura3.5

clear

use s&p.dta

describe

Figura 3.5: Índice S&P

Stata Básico


www.giddea.com

[email protected]



34/79


Figura 3.6: Opciones del “twoway”



Stata Básico


www.giddea.com

[email protected]



35/79

3.2. TWOWAY 35


Stata Básico


www.giddea.com

[email protected]



36/79


Usemos una nueva base de datos:

clear

use highschool.dta

describe

Figura 3.10: Base Highschool

graph twoway histogram read

graph twoway kdensity read

graph twoway (histogram read) (kdensity read)

graph twoway function y=normden(x), range(-4 4)

Figura 3.11: Histograma y Kernel

Stata Básico


www.giddea.com

[email protected]



37/79

3.2. TWOWAY 37

Figura 3.12: Más opciones del “twoway”

Stata Básico


www.giddea.com

[email protected]



38/79


3.3. TWOWAY y SCATTERPLOT

twoway scatter read write , scheme(economist)

twoway scatter write read, msymbol(square) msize(small) mcolor(black)

twoway scatter write read, mfcolor(red) mlcolor(black) mlwidth(medthick)

twoway scatter read write if id


39/79

3.3. TWOWAY y SCATTERPLOT 39

Figura 3.13: Connect

Figura 3.14: Connect sort cmissing

Stata Básico


www.giddea.com

[email protected]



40/79


3.4. Combinando TWOWAY Y SCATTERPLOT

3.4.1. Filtro de Gráficos

twoway scatter read write, by(female)

twoway scatter read write, by(female ses)

twoway scatter read write, by(ses female, cols(2))

Figura 3.15: Opción “by”

3.4.2. Unión de Gráficos

twoway (scatter read write) (lfit read write) , ytitle(Nota ///

de lectura)

Stata Básico


www.giddea.com

[email protected]



41/79

3.4. Combinando TWOWAY Y SCATTERPLOT 41

Figura 3.16: Opción “ytitle” de un grafico

twoway (scatter read write) (lfit read write), name(scatter)

twoway (scatter read write, mlabel(id)) (lfit read write, ///

range(30 70)), by(ses female) ytitle(Nota de lectura)

Figura 3.17: Nombre a un grafico

twoway (scatter read write) (scatter math write)

twoway (scatter read write) (scatter math write) (lfit read ///

write) (lfit math write)

Stata Básico


www.giddea.com

[email protected]



42/79



write) (lfit math write), legend(label(3 "Ajuste Lineal") ///

label(4 "Ajuste Lineal")) legend(order(1 3 2 4))


write, pstyle(p1) range(25 80) ) (lfit math write, ///

pstyle(p2) range(25 80) ), legend(label(3 "Ajuste Lineal") ///

label(4 "Ajuste Lineal")) legend(order(1 3 2 4))

Figura 3.18: Editando la legenda de un grafico

separate write, by(female)

graph twoway (scatter write0 read) (scatter write1 read), ///

ytitle(Nota de Escritura) legend(order(1 "Hombres" 2 "Mujeres"))

graph twoway (scatter write0 read) (scatter write1 read) ///

(lfit write0 read) (lfit write1 read), ytitle(Nota de ///

Escritura) legend(order(1 "Hombres" 2 "Mujeres" 3 "Aj. ///

Lineal Hombres" 4 " Aj. Lineal Mujeres"))

Stata Básico


www.giddea.com

[email protected]



43/79

3.5. Opciones para Edición de Gráficos 43

Figura 3.19: Ordenando la legenda de un grafico

3.5. Opciones para Edición de Gráficos

El esquema siguiente nos ayudara a entender los principales comandos deedición de gráficos. Podemos guiarnos de estos para poder tener una mejor

presentación en nuestros gráficos.

graph twoway scatter read write, title("Grafica de Dispersión ///

entre Lectura y Escritura")

Figura 3.20: Antes de la edición

Stata Básico


www.giddea.com

[email protected]



44/79


graph twoway scatter read write, ///

ytitle(Nota del Examen de Escritura) ///

xtitle(Nota del Examen de Lectura)

graph twoway scatter read write, ///title("Grafica de Dispersión entre Lectura y Escritura ", ///

size(large) color(red) position(12) ring(1)) ///




title("Grafica de Dispersión entre Lectura y Escritura ", ///

size(large) color(red) position(12) ring(1) box bcolor(white) ///

blcolor(red) bmargin(medium)) ///




title("Grafica de Dispersión entre Lectura y Escritura " ///

"Muestra de 200 Estudiantes", linegap(3) size(large) color(red) ///

position(12) ring(1) box bcolor(white) blcolor(red) ///

bmargin(medium)) ///







xtitle(Nota del Examen de Lectura) ///

subtitle("Muestra de 200 Estudiantes") ///

note(Datos de Escuela Secundaria y Superior) ///

caption(Grupo IDDEA.SAC)





xtitle(Nota del Examen de Lectura) ///

subtitle("Muestra de 200 Estudiantes") ///

note(Datos de Escuela Secundaria y Superior, size(medium) ///

Stata Básico


www.giddea.com

[email protected]



45/79

3.5. Opciones para Edición de Gráficos 45

position(5))

caption(Grupo IDDEA.SAC, size(vsmall) position(5))


title("Grafica de Dispersión entre Lectura y Escritura ", ///size(large) color(red) position(12) ring(9) box bcolor(white) ///


ytitle(Nota del Examen de Escritura, color(white)) ///

xtitle(Nota del Examen de Lectura, color(white)) ///

subtitle("Muestra de 200 Estudiantes", color(white)) ///

note(Datos de Escuela Secundaria y Superior, color(white) ///

size(medium) position(5)) ///

caption(Grupo IDDEA.SAC,color(green) size(small) position(5)) ///

graphregion( color(navy) ) ///

plotregion( fcolor(teal) )

Figura 3.21: Después de la edición

Stata Básico


www.giddea.com

[email protected]



46/79


use encuesta.dta

graph hbar commute, over(division)

graph hbar commute, over(division) asyvar

graph bar propval100, over(nsw) over(division) nofill asyvars ///

ylabel(0(10)80)

twoway scatter ownhome propval100, xlabel(#10) ylabel(#5)

twoway scatter ownhome propval100, xscale(alt)

twoway scatter propval100 rent700 ownhome, ylabel(0(10)100) ///

yscale(alt)

twoway (scatter propval100 ownhome) (scatter rent700 ownhome, ///

yaxis(2))

twoway scatter ownhome propval100 [aweight=rent700], msize(small) ///

scheme(vg_outm) yscale(alt) xscale(alt)

Figura 3.22: Grafico de burbujas

use s&p.dta

Stata Básico


www.giddea.com

[email protected]



47/79

3.6. Trabajando con Esquemas y Gráficos Adicionales 47

tw (rarea high low date) (spike volmil date)

tw (rarea high low date) (spike volmil date, yaxis(2))

tw (rarea high low date) (spike volmil date, yaxis(2)), ///yscale(range(500 1400) axis(1))

tw (rarea high low date) (spike volmil date, yaxis(2)), ///

yscale(range(500 1400) axis(1)) yscale(range(0 5) axis(2))

tw (rarea high low date) (spike volmil date, yaxis(2)), ///

yscale(range(500 1400) axis(1)) yscale(range(0 5) axis(2)) ///

scheme(vg_teal)

Figura 3.23: Diferentes escalas

3.6. Trabajando con Esquemas y Gráficos Adi-

cionales

3.6.1. Esquemas

use encuesta.dta

scatter propval100 rent700 ownhome, scheme(vg_blue)

Stata Básico


www.giddea.com

[email protected]



48/79


Figura 3.24: Scatter y esquema vg blue

Stata Básico


www.giddea.com

[email protected]



49/79


3.6.2. Gráficos de Barras Verticales

use nlsw.dta

graph bar ttl_exp

graph bar prev_exp tenure ttl_exp

graph bar (median) prev_exp tenure ttl_exp

graph bar (median) prev_exp tenure (mean )ttl_exp

graph bar (mean) meanwage=wage (median ) medwage=wage

graph bar prev_exp tenure, over(occ5)

graph bar prev_exp tenure, over(occ5) percentages

graph bar prev_exp tenure, over(occ5) percentages stack

use highshool.dta

graph bar write, over( race) over( female) over( ses) ///

legend(rows(1) stack) blabel(bar, format(%4.1f) size(vsmall)) ///bargap(10) percent scheme(vg_blue)

Figura 3.25: Bar y esquema vg green

3.6.3. Gráficos de Barras Horizontales

use nlsw.dta

graph hbar wage, over(occ5)

graph hbar wage, over(occ5) over(collgrad)

graph hbar wage,over(urban2) over(occ5) over(collgrad)

Stata Básico


www.giddea.com

[email protected]



50/79


graph hbar wage,over(urban3) over(union) missing

graph hbar wage,over(grade4) over(union)

graph hbar wage,over(grade4, gap(*.3)) over(union)

graph hbar wage,over(grade4, gap(*3)) over(union)

graph hbar wage,over(occ7)graph hbar wage,over(occ7, sort(1))

graph hbar wage,over(occ7, sort(1) descending)

graph hbar wage hours,over(occ7)

graph hbar wage hours,over(occ7, sort(1))

graph hbar wage hours,over(occ7, sort(2))

graph hbar wage hours,over(occ7, sort(2)) over(married)

graph hbar wage hours,over(occ7, sort(2)) over(married, ///

descending) asyvars

graph hbar wage hours,over(occ7, sort(2)) over(married, ///

descending) asyvars stack

graph hbar wage,over(occ7, label(alternate)) over(collgrad)

Figura 3.26: Hbar y esquema vg rose

3.6.4. Gráficos de Cajas

use nlsw.dta

graph box wage, over(grade4)

graph box wage, over(grade4) nooutsides

graph box wage, over(grade4) nooutsides over(union)

graph box wage, over(grade4) nooutsides over(union) ///

Stata Básico


www.giddea.com

[email protected]



51/79


asyvars

graph box wage, over(grade4) nooutsides over(union) ///

asyvars over(urban2)

graph hbox tenure, nooutsides over(occ7)

graph hbox tenure, nooutsides over(occ7, sort(1))graph hbox prev_exp tenure, nooutsides over(occ7, ///

sort(1))

graph hbox prev_exp tenure, nooutsides over(occ7, ///

sort(1)) over(collgrade)

graph hbox prev_exp tenure, nooutsides over(occ7, ///

sort(1)) over(collgrad)

graph hbox ttl_exp tenure, nooutsides over(urban2) ///

over(married) by(union)


over(married) by(union, total)


over(married) by(union, total row(1))


over(married) by(union, total cols(1))

Figura 3.27: Hbox y esquema vg teal

3.6.5. Gráficos de Pastel

use nlsw.dta

graph pie, over(occ7)

Stata Básico


www.giddea.com

[email protected]



52/79


graph pie, over(union)

graph pie, over(union) missing


graph pie, over(occ7) noclockwise

graph pie, over(occ7) noclockwise sortgraph pie, over(occ7) sort pie(3, explode)

graph pie, over(occ7) sort pie(3, explode color(cyan)) ///

pie(7, explode(5) color(gold))


graph pie, over(occ7) plabel(_all sum)

graph pie, over(occ7) plabel(_all sum) scheme(economist)

graph pie, over(occ7) plabel(_all percent) scheme(economist)

graph pie, over(occ7) plabel(_all name) scheme(economist)

graph pie, over(occ7) plabel(_all name, gap(-5)) ///

plabel(_all percent, gap(5) format("%2.0f")) scheme(economist)

graph pie, over(occ7) plabel(_all name, gap(-5)) ///

plabel(_all percent, gap(5) format("%2.0f")) ///

legend(title(Ocupación) position(9) cols(1) stack) ///

scheme(economist)

Figura 3.28: Pie y esquema economist

Stata Básico


www.giddea.com

[email protected]



53/79


RETO 3

CLASIFICACIÓN DE RIESGOSLa base de datos “deudores”, tiene información acerca de la edad, sexo,

distrito, ingresos, deuda, y calificación de la deuda, para 19,000 deudores.

¿Cuál es la edad promedio de la muestra? Analice la distribución de la edad,con un histograma.

¿Qué AFP tiene más clientes? Realice una grafica sustentando su respuesta.

Genere una dummy mal pagador, que sea 1 si el deudor est á atrasado consus deudas

¿Que % de hombres y mujeres son mal pagadores? ¿Quienes ganan más, enpromedio?

¿A qué edad las personas se atrasan menos? Realice una grafica sustentandosu respuesta.

Genere una nueva base de datos a nivel de distrito, con el número de perso-nas, el salario promedio, y el % de deudores atrasados.

Guarde solo los distritos con al menos 100 personas.

¿Qué distritos son los más ricos? ¿En cuáles la gente es peor pagadora?Realice una grafica sustentando sus resultados.

Stata Básico


www.giddea.com

[email protected]



54/79


Stata Básico


www.giddea.com

[email protected]



55/79

Sesión 4Análisis de Regresión Lineal

4.1. Regresión Lineal

Ahora vamos a trabajar con las herramientas que hemos aprendido y va-

mos a generar relaciones econométricas. Empecemos con evaluar una regresiónMCO.

use elemapi.dta

regress api00 acs_k3 meals full

Nuestras expectativas son que un mejor rendimiento académico, este rela-cionado con un tamaño de clase pequeño, pocos estudiantes recibiendo comida

55


56/79

56 4. Análisis de Regresión Lineal

gratuita, y un alto porcentaje de profesores que tengan sus credenciales deenseñanza completa.


Ahora debemos observar los coeficientes de los resultados de nuestra regre-sión, y su significancia. Estos coeficientes deben ser coherentes con nuestrasexpectativas. ¿Qué es lo que observamos?

Antes de decir que esta regresión es correcta debemos hacer un conjuntode pruebas.

describe

list in 1/5

list api00 acs_k3 meals full in 1/10

codebook api00 acs_k3 meals full yr_rnd

summarize api00 acs_k3 meals full

summarize acs_k3, detail

tabulate acs_k3

list snum dnum acs_k3 if acs_k3 < 0

list dnum snum api00 acs_k3 meals full if dnum == 140

histogram acs_k3

graph box acs_k3

stem acs_k3

stem full

tabulate full

tabulate dnum if full


57/79

4.1. Regresión Lineal 57


Luego de corregir la data podemos volver a estimar la regression y observar:

use elemapi2.dtaregress api00 acs_k3 meals full

Digamos que estamos interesados en saber cual es la relaci ón entre el nu-mero de estudiantes y el rendimiento académico.

regress api00 enroll

Primero debemos fijarnos en el test F, y ver si es significativo, lo cual nosmostrara la significancia del modelo. El R2 nos dirá que tanto de la varianzade nuestra variable endógena, es explicado por los regresores. Luego debemosobservar la significancia de los parámetros, ver si sus signos son acorde con lateoŕıa. La constante es el valor predecido para cuando nuestra explicativa seacero.

Podemos observar también que Stata nos presenta la descomposición de lavarianza. La varianza total esta particionada en la varianza explicada por lasvariables independientes (model) y la varianza que no es explicada por dichasvariables(residual). Sabemos que existe una suma de cuadrados asociada a lastres partes de la varianza. Conceptualmente estas son:

SST =

(y − ȳ)2

SSR =

(y−

ŷ)

2

SSM =

(ŷ − ȳ)2

Aśı pues se puede comprobar que SST=SSM+SSR, además debemos recordartambién que R2=SSM/SST.Tambíen podemos observar los grados de libertad, asociados con cada partede las varianzas. La varianza total tiene N-1 gl, los gl del modelo son K-1, losgl del residuo simplemente es la diferencia entre el total menos el modelo.Observamos también las medias cuadráticas, es decir la división de la suma decuadrados entre sus gl. Con estas nosotros podemos calcular el valor del test

F=MSM/MSR, lo cual nos da el ajuste del modelo.El Root MSE es la desviación estandar del error (ráız cuadrada de MSR).

Obtengamos los valores predichos o estimados para el rendimiento académi-co con nuestro modelo y guardemos dichos valores en la variable fv

predict fv

Veamos los valores estimados y los reales:

Stata Básico


www.giddea.com

[email protected]



58/79


list api00 fv in 1/10

scatter api00 enroll

twoway (scatter api00 enroll) (lfit api00 enroll)

Veamos los outliers

twoway (scatter api00 enroll, mlabel(snum)) (lfit api00 enroll)

Ahora obtengamos el residuo de la regresión

predict e, residual

Ups, problemas en los coeficientes y sus significado, entonces ¿Qué hacer?

regress api00 ell meals yr_rnd mobility acs_k3 acs_46 full ///

emer enroll, beta

De esta manera podemos comparar un coeficiente con otro, dado que todostienen la misma medida ahora.

Un nuevo comando, busquemos en la red.

findit listcoef

listcoef

Observación SD=desviación estándar observada, desviación estándar de lavariable Y

SD del Error= desviación estándar del error: MSE (error estándar de la pre-dicción) bstdx=coeficientes de la regresión con las variables x(estandarizadas)y la variable Y(en su unidad original)bstdy=coeficientes de la regresión con las variables x(en su unidad original) yla variable Y(estandarizada)bstdxy=coeficientes de la regresión con las variables x(estandarizadas) y lavariable Y(estandarizada)

Veamos una prueba de hipótesis

test ell==0

test ell

Veamos una prueba de hipótesis conjunta

test acs_k3 acs_46

Veamos la correlación entre las variables

correlate api00 ell meals yr_rnd mobility acs_k3 acs_46 full ///

emer enroll

Stata Básico


www.giddea.com

[email protected]



59/79

4.2. Diagnostico de los Resultados 59

Veamos otra opción para correlacionar variables

pwcorr api00 ell meals yr_rnd mobility acs_k3 acs_46 full ///

emer enroll, obs sig

La normalidad Solo el residuo necesita tener una distribución normal, no lasvariables para que se validen los test. Los coeficientes estimados no requierenuna normalidad de residuos.

Seria bueno sin embargo poseer variables que posean una distribución nor-mal.

histogram enroll

histogram enroll, normal bin(20)

histogram enroll, normal bin(20) xlabel(0(100)1600)

kdensity enroll, normal

graph box enrollsymplot enroll

qnorm enroll

pnorm enroll

Veamos todas las posibilidades

ladder enroll

gladder enroll

Ajustemos a nuestra mejor eleccion

generate lenroll = log(enroll)hist lenroll, normal

4.2. Diagnostico de los Resultados

4.2.1. Efecto Influencia

Ahora vamos a centrarnos en el diagnostico de nuestros resultados. Vemoslos problemas que podŕıan presentarse. Para ello debemos considerar los efectos

de outliers (una observación con un amplio residuo, que indica una muestrapeculiar o un error en la data), leverage (medida de cuan lejos una variableindependiente esta desviada de su media, puede afectar los coeficientes dela regresión) y el efecto influencia (observación que al removerla, cambia laestimación de los coeficientes radicalmente. dicho problema se le atribuye a unleverage o a un outlier)

Usemos para esto, la base de datos diseñada por Alan Agresti y BarbaraFinlay (Prentice Hall, 1997).

Stata Básico


www.giddea.com

[email protected]



60/79


use crimen.dta

describe

sum crimenes asesinatos pcturb pctblanco pctnivedu pobreza soltero

graph matrix crimenes pcturb pobreza soltero

Figura 4.1: Crimenes, pcturb, pobreza y soltero

Observamos algunas irregularidades. Vemos en muchos gráficos puntos queestán apartados del resto ¿de que estados serán?

scatter crimenes pcturb, mlabel(estado)

scatter crimenes pobreza, mlabel(estado)

scatter crı́menes soltero, mlabel(estado)

¿Qué observamos?

regress crimenes pcturb pobreza soltero

predict r, rstudent

stem r

sort r

list estadoid estado r in 1/10

list estadoid estado r in -10/l

findit hilo

hilo r estado

Stata Básico


www.giddea.com

[email protected]



61/79

4.2. Diagnostico de los Resultados 61

list r crimenes pcturb pobreza soltero if abs(r) > 2

predict lev, leverage

stem levhilo lev estado, show(5) high

Analizar aquellos puntos con leverage mayores a (2k+2)/n

display (2*3+2)/51

list crimenes pcturb pobreza soltero estado lev if lev >.156

Veamos el leverage y los residuos cuadrados

lvr2plot, mlabel( estado)

list estado crimenes pcturb pobreza soltero if estado=="dc" | ///

estado=="ms"

Veamos los Cook’s D

predict d, cooksd

list crimenes pcturb pobreza soltero estado d if d>4/51

Veamos la influencia

predict dfit, dfits

list crimenes pcturb pobreza soltero estado dfit if abs(dfit)> ///

2*sqrt(3/51)

Evaluemos que pasaŕıa con los coeficientes si se borrara la informaciónen algunas variables, ¿estos cambiaŕıan? Es decir, ¿nuestros coeficientes sonrobustos o no?

dfbeta

list estado DFpcturb DFpobreza DFsoltero in 1/5

El valor de dfbeta para una observación, significara que de ser incluida enel análisis (comparativamente a no ser incluida) incrementara el coeficiente debeta, en dicho valor multiplicado por el error estándar del beta correspondiente.

Un dfbeta mayor a 2/sqrt(n) necesita ser investigado.display 2/sqrt(51)

scatter DFpcturb DFpobreza DFsoltero estadoid, ylabel(-1(.5)3) ///

yline(.28 -.28)

scatter DFpcturb DFpobreza DFsoltero estadoid, ylabel(-1(.5)3) ///

yline(.28 -.28) mlabel(estado estado estado)

list DFsoltero estado crimenes pcturb pobreza soltero if ///

abs( DFsoltero) > 2/sqrt(51)

Stata Básico


www.giddea.com

[email protected]



62/79


Veamos el efecto influencia a través de regresiones parciales, de maneragrafica.

avplot soltero, mlabel( estado)

avplots

regress

regress crimenes pcturb pobreza soltero if estado !="dc"

Si bien podemos buscar outliers con variables pertenecientes al modelo,también podemos hacerlo con variables que no están incluidas en el modelo.

regress crimenes pcturb pobreza soltero

avplot pctblanco

regress crimenes pcturb pobreza soltero pctblanco

4.3. Normalidad del Residuo

La normalidad del residuo es requerida por muchas investigaciones si no-sotros deseamos validar las pruebas de hipótesis sobre t-value y F-value. Ojo,la no normalidad del residuo no invalidad la regresión. Una regresión validarequiere que el residuo sea idéntica e independientemente distribuida, no re-quiere que las variables explicativas sean distribuidas de forma normal. Si nocomo explicaŕıamos el uso de variables dummys en nuestras regresiones.

use elemapi2,clear

regress api00 meals ell emer

predict r, resid

Análisis grafico de normalidad

kdensity r, normal

pnorm r

qnorm r

Stata Básico


www.giddea.com

[email protected]



63/79

4.4. Homocedasticidad del Residuo 63

Test de NormalidadTest de Lawrence C. Hamilton

findit iqr

iqr r

Test de Shapiro-Wilk W (Ho: Normalidad)

swilk r

4.4. Homocedasticidad del Residuo

Supuesto crucial en un modelo MCO, la varianza de sus residuos debe serconstante. Si la varianza no es constante entonces hay heterocedasticidad que

bien podŕıa ser modelada a través de un modelo de volatilidad.Detección

rvfplot, yline(0)

Figura 4.2: Homocedasticidad del residuo

Test de Heterocedasticidad (Ho: Varianza constante)

Test de White

estat imtest

Test de Breusch y Pagan

Stata Básico


www.giddea.com

[email protected]



64/79


estat hettest

El análisis grafico no nos muestra un problema serio de heterocedasticidad.Aśı que no lo corregiremos por ahora.

4.5. Multicolinealidad

Cuando dos variables explicativas están altamente relacionadas, podemoshablar de multicolinealidad. Para detectar la multicolinealidad nosotros usa-remos el factor de inflación de varianza (VIF) Aquella variable cuyo vif seamayor a 10 deberá ser investigada.

regress api00 meals ell emer

vif

regress api00 acs_k3 avg_ed grad_sch col_grad some_col

vif

¿Qué podriamos decir de esta regresión?, ¿porqué presentaria problemasde multicolinealidad?

regress api00 acs_k3 grad_sch col_grad some_col

vif

findit collin

collin acs_k3 avg_ed grad_sch col_grad some_col

collin acs_k3 grad_sch col_grad some_col

4.6. Linealidad

Uno de los supuestos del Modelo Lineal General es la linealidad de par á-metros especificada en mi regresión. Si estamos frente a un ajuste no lineal,entonces nosotros tendremos problemas dado que estamos forzando una ĺıneacomo ajuste de nuestra relación no lineal.

Analicemos solo a una variable.regress api00 enroll

twoway (scatter api00 enroll) (lfit api00 enroll) (lowess api00 enroll)

regress api00 meals some_col

predict r, resid

scatter r meals

scatter r some_col

Stata Básico


www.giddea.com

[email protected]



65/79

4.7. Especificación del modelo 65

No se vio una clara no linealidad, entonces usemos algo mas efectivo

acprplot meals, lowess lsopts(bwidth(1))

acprplot some_col, lowess lsopts(bwidth(1))

Tampoco se ve un problema grave de no linealidad. Usemos una data masinteresante.

use nations.dta

describe

regress birth gnpcap urban

acprplot gnpcap, lowess

acprplot urban, lowess

graph matrix birth gnpcap urban, half

kdensity gnpcap, normal

Transformemos un dato

generate lggnp=log(gnpcap)

label variable lggnp "log-10 of gnpcap"

kdensity lggnp, normal

Regresionemos con el dato transformado

regress birth lggnp urban

acprplot lggnp, lowess

4.7. Especificación del modelo

Un error en la especificación del modelo puede ocurrir cuando uno o masvariables relevantes son omitidas del modelo o una o mas variables relevantesson incluidas en el modelo. Una mala especificación puede afectar los paráme-tros estimados.

Digamos que estamos corriendo una regresión entre el tamaño de la clase y

el rendimiento académico, un incremento en la primera influirá incrementandola segunda, evaluaremos la especificación del modelo, para ello usaremos lossiguientes comandos

use elemapi2, clear

regress api00 acs_k3

Un par de métodos Linktest, esta basado en la idea de que si el modelo estabien especificado, entonces no debeŕıamos encontrar variables independientes

Stata Básico


www.giddea.com

[email protected]



66/79


que sean significativas. El comando crea 2 variables nuevas, una variable es-timada, y el cuadrado de dicha estimación. Se evalúa el modelo con ambasvariables, la estimación y hat debeŕıa ser significativa pues es el valor esti-mado, pero su cuadrado no debeŕıa serlo, pues de estar bien especificado el

modelo, la estimación al cuadrado no debeŕıa tener mucho poder explicativo.

Linktest

Ovtest

regress api00 acs_k3 full

linktest

ovtest

regress api00 acs_k3 full meals

linktest

ovtest

4.8. Independencia

Los errores asociados a una observación no debeŕıan estar asociados a loserrores de alguna otra observación. En nuestro caso, al haber recolectado da-tos de 8 tipos de escuela es probable que estudiantes dentro de sus escuelastiendan a ser mas parecidos que estudiantes de otra escuela, esto produciŕıaerrores no independientes. El problema de autocorrelacion es muy común en

series de tiempo, en la cual nosotros evaluamos el test DW para ver la auto-correlación de primer orden. Si quisiéramos especificar este análisis en nuestradata, podrı́amos considerar a la variable snum como el tiempo

use elemapi2, clear

tsset snum

regress api00 enroll

dwstat

predict r, resid

scatter r snum

¿Qué observamos?

Stata Básico


www.giddea.com

[email protected]



67/79

4.8. Independencia 67

RETO 4

Trabajar con el archivo “gobusa5089.dta” y contestar las siguientes pregun-tas:

¿Identificar las variables y opinar respecto a cada variable, realizarun análisis gráfico y estad́ıstico para comprender la base de datos?.¿Identificar las variables de polı́tica y las variables apoĺıticas?

¿Elaborar una tabla de correlaciones entre la variable tax y las variablespoĺıticas y comentar los resultados sobresalientes?.

Responder a lo siguiente: ¿Quíenes cobran más impuestos, los esta-dos con gobiernos divididos o los estados con gobiernos unificados?,¿qué tan seguro estás de su respuesta?.

Marco teórico mı́nimo. Existen varias teoŕıas respecto del impacto de losfactores polı́ticos y económicos sobre la poĺıtica tributaria en cada estado:

Las teoŕıas apoĺıticas dicen que las variables socioeconómicas y de-mográficos (ingreso, población, grupos de edad) son los principales de-terminantes de los impuestos.

Entre las teorı́as polı́ticas, algunos dicen que los factores poĺıticos par-tidistas (partido en el gobierno y/o congreso local, mayoŕıa demócrataen el congreso o no, etc.) también son importantes.

Mientras que otros dicen que son las variables poĺıticas no-partidistas

(gobierno dividido, margen de la primera fuerza en el congreso local,etc.) las que afectan los impuestos, y no tanto la ideoloǵıa o identidaddel partido en el poder (demócrata vs. republicano).

Especifica al menos tres regresiones (con errores estándar robustos) para lavariable tax y compara sus resultados. Interpreta brevemente los coeficien-tes, su bondad de ajuste, etc. y explica cuál de ellos es preferible a los otros.(Tip: no incluyas la variable spend en tu regresión).

Pruebas de hipótesis

Controlando por otros factores, la relación entre población e impuestoses no lineal.

Controlando por otros factores, los gobernadores demócratas cobranmás impuestos que los no demócratas.

Manteniendo otros factores constantes, los estados con mayoŕıa demócra-ta en el congreso local cobran más impuestos que los gobiernos sinmayoŕıa demócrata.

Stata Básico


www.giddea.com

[email protected]



68/79


Manteniendo otros factores constantes, los gobiernos divididos cobranmenos impuestos que los gobiernos no divididos.

El impacto del gobierno dividido cambia si sólo consideramos el perı́odo1975-1989 en la regresión.

Manteniendo otros factores constantes, una vez que controlamos porquíen tiene la mayoŕıa en el congreso (demmaj1), el margen de estamayoŕıa (dem1) no tiene un impacto en los impuestos.

Interpretando regresiones:

¿Cuál es la bondad de ajuste de un modelo sin variables poĺıticas? ¿Cuántopoder explicativo adicional se consigue al incluir las variables poĺıticas?¿Qué variables poĺıticas importan más, las partidistas o las no partidistas?(ojo, esta pregunta requiere cierta interpretación de la R2 ajustada de variosmodelos, aśı como la magnitud y significancia de tus coeficientes).

Predicciones:

¿Cuánto cambian los impuestos per cápita si el ingreso per cápita aumenta enuna desviación estándar? Calcula este cambio en dólares y como proporciónde los impuestos promedio de la muestra.

¿Cuánto cambian los impuestos cuando la mayoŕıa demócrata en el congresolocal pasa de 10 a 30 %? Calcula este cambio en dólares y como proporciónde los impuestos promedio de la muestra.

Stata Básico


www.giddea.com

[email protected]



69/79

Sesión 5Variables Categóricas

5.1. Estimación con Variables Categóricas

Hab́ıamos usado variables continuas anteriormente, sin embargo es posible

usar variables categóricas en un análisis de regresión pero requiere un trabajoextra en la interpretación, el análisis y diagnostico de los resultados.

use elemapi2.dta, clear

describe api00 some_col yr_rnd mealcat

codebook api00

codebook some_col

codebook yr_rnd

codebook mealcat

Uso de variables dummy Regresionemos el rendimiento académico con lavariable que nos indica si el alumno esta en el programa year-round o no

regress api00 yr_rnd

twoway (scatter api00 yr_rnd) (lfit api00 yr_rnd)

tabulate yr_rnd, sum(api00)

Observamos un parámetro negativo en la regresión, para nuestra variabledummy. Esto significa que si dicha variable toma el valor de cero la medida delrendimiento de los alumnos será su media considerando solo a aquellos alumnosque no están en el programa o sistema de enseñanza, mientras que si la variabletoma el valor de uno, la medida del rendimiento será la media considerandosolo a aquellos alumnos que si están bajo este sistema de enseñanza.

ttest api00, by(yr_rnd)

anova api00 yr_rnd

display 10.7815^2

codebook mealcat

regress api00 mealcat

69


70/79

70 5. Variables Categóricas

Pero esta variable mealcat es una variable intervalo, podrı́amos generar tresvariables a partir de esta, de tal forma que podamos definir a cada sub variablecomo un valor cada vez que mealcat pertenezca a cierto intervalo.

tabulate mealcat, gen(mealcat)

list mealcat mealcat1 mealcat2 mealcat3 in 1/10, nolabel

regress api00 mealcat2 mealcat3

La constante es la media para el grupo1. El coeficiente de mealcat2 es lamedia del grupo 2 menos la media del grupo1, y el coeficiente de mealcat3 esla media del grupo3 menos la media del grupo1.

Los resultados nos dicen que los tres grupos difieren de sus medidas derendimientos.

test mealcat2 mealcat3tabulate mealcat, summarize(api00)

5.2. El Comando Xi

Lo mismo podemos hacer con el comando “xi”,

xi : regress api00 i.mealcat

test _Imealcat_2 _Imealcat_3

Si deseáramos omitir el tercer grupo y no el primero, entonces debeŕıamosusar el siguiente comando:

char mealcat[omit] 3


Nosotros podemos hacer el mismo análisis usando el comando “anova”

anova api00 mealcat

anova, regress

Aqúı vemos que siempre la ultima categoŕıa es borrada y reemplazada conla constante.Los beneficios del comando “anova” es que te da el efecto total de meal-

cat sin necesitar el uso del comando test como lo haćıamos con el comando“regress”.

Volvamos a nuestras regresiones:

regress api00 yr_rnd


Stata Básico


www.giddea.com

[email protected]



71/79

5.2. El Comando Xi 71

Y ahora vamos a estimar el rendimiento académico usando una variabledicotomica mas:

xi : regress api00 i.mealcat yr_rnd

test _Imealcat_1 _Imealcat_2

anova api00 yr_rnd mealcat

anova, regress

Dado que este modelo solo tiene efectos principales, sin interacciones, lainterpretación del coeficiente de ”yr rnd”, es la diferencia entre escuelas consistema year round y escuelas sin ese sistema de enseñanza, el primer coeficientepara la variable “mealcat” es la diferencia entre mealcat=1 y mealcat=3, elsegundo es la diferencia entre mealcat=2 y mealcat=3 (siendo mealcat=3 lavariable categórica de referencia y la cual es estimada por la variable)

Finalmente los resultados indican que las diferencias entre un sistema deenseñanza year-round y un sistema de enseñanza sin year-round es significativoy las diferencias entre los tres grupos mealcat también son significativos.

Veamos algunas interacciones con las variables categóricas:

xi : regress api00 i.mealcat*yr_rnd

Ahora incluiremos la interacción entre mealcat y yr rnd Y testeamos lasignificancia:

test _ImeaXyr_rn_1 _ImeaXyr_rn_2

Si deseamos testear el efecto de yr rnd para mealcat=1:

test _b[yr_rnd] +_b[_ImeaXyr_rn_1] ==0

Puedo ver un testeo sobre todos los efectos principales e iteraciones sin lanecesidad de recurrir al comando test:

anova api00 yr_rnd mealcat yr_rnd*mealcat

regress api00 yr_rnd some_col

predict yhat

scatter yhat some_col

Stata Básico


www.giddea.com

[email protected]



72/79


Para correr un Anova necesitamos indicarle que la variable a evaluar tienecaracterı́sticas de continuidad:

anova api00 yr_rnd some_col, cont(some_col)

INTERACCIONES

regress api00 some_col if yr_rnd==0

predict yhat0 if yr_rnd==0

scatter yhat0 api00 some_col if yr_rnd==0, connect(l i)

msymbol(i o) sort

regress api00 some_col if yr_rnd==1

predict yhat1 if yr_rnd==1

scatter yhat1 api00 some_col if yr_rnd==1, connect(l i)

msymbol(i o) sort

5.3. Pruebas de Hipótesis

El GPA (Grade Point Average, o promedio de notas) es una medida de lacalidad de su traba jo académico a nivel universitario. Algunos patrones suelenutilizar al GPA como un factor clave cuando les ofrezcan trabajo a egresadosde la universidad. Es por eso que resulta de suma importancia mantener unbuen GPA durante toda su carrera universitaria.

El examen de aptitud SAT (Scholastic Aptitude Test - Examen de apti-

tudes escolares) es un examen estandarizado para admisión a universidadesen EEUU. El rango de este, varia entre los 600 y 2400 puntos, consta de 3secciones, matemática, lectura critica, y escritura.

use GPA.dta, clear

desc

sum

reg colgpa sat verbmath tothrs hsperc hsize, robust

reg colgpa sat verbmath tothrs hsperc hsize hsizesq, robust

display _b[hsize] / (2*_b[hsizesq])

¿Si el SAT score aumenta 100 puntos, que tan probable es que el GPAaumente 0.25 puntos?

display (_b[sat] - .0025) / _se[sat]

display ttail(4130, 15.52)




Stata Básico


www.giddea.com

[email protected]



73/79

5.3. Pruebas de Hipótesis 73

Afortunadamente, Stata hace pruebas de hipótesis de manera muy “intui-tiva”

test sat = .0025

Otras pruebas:

test sat = .002

test sat = .0014

reg colgpa sat verbmath tothrs hsperc hsize hsizesq, robust

¿Qué pasa con la regresión si solo tomamos las primeras 2000 observacionesde la muestra?

reg colgpa sat verbmath tothrs hsperc hsize hsizesq ///

if _n


74/79


use Salario2.dta,

Manual Stata Basico - Juan Carlos Abanto Orihuela

Documents

Transcript of Manual Stata Basico - Juan Carlos Abanto Orihuela