Manual Stata Basico - Juan Carlos Abanto Orihuela
-
Upload
faridrodriguez -
Category
Documents
-
view
352 -
download
7
Transcript of Manual Stata Basico - Juan Carlos Abanto Orihuela
-
8/20/2019 Manual Stata Basico - Juan Carlos Abanto Orihuela
1/79
StataBásico
Aplicado a la Investigación Económica
Juan Carlos Abanto Orihuela
25 de enero de 2013
-
8/20/2019 Manual Stata Basico - Juan Carlos Abanto Orihuela
2/79
2
Stata Básico
Aplicado a la Investigación Económica
www.giddea.com
http://www.giddea.com/http://www.giddea.com/
-
8/20/2019 Manual Stata Basico - Juan Carlos Abanto Orihuela
3/79
Índice general
Índice general 3
1. Introducción al Stata 51.1. Iniciando Stata . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.2. Tipos de Archivos en Stata . . . . . . . . . . . . . . . . . . . . . 61.3. Estructura Básica de Stata . . . . . . . . . . . . . . . . . . . . . 61.4. Principales Comandos de Trabajo y Análisis . . . . . . . . . . . 7
1.4.1. Las Bitácoras . . . . . . . . . . . . . . . . . . . . . . . . 71.4.2. La Base de Datos . . . . . . . . . . . . . . . . . . . . . . 71.4.3. Append, Merge, Collapse . . . . . . . . . . . . . . . . . . 9
2. Manejo de Datos 152.1. Cargando los Datos en Stata . . . . . . . . . . . . . . . . . . . . 152.2. Etiquetas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
2.3. Comando IF . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 172.4. Comando SUMMARIZE . . . . . . . . . . . . . . . . . . . . . . 182.5. Comando SPLIT . . . . . . . . . . . . . . . . . . . . . . . . . . 182.6. Creando Variables . . . . . . . . . . . . . . . . . . . . . . . . . . 192.7. KEEP y DROP . . . . . . . . . . . . . . . . . . . . . . . . . . . 222.8. Reestructurando los Datos . . . . . . . . . . . . . . . . . . . . . 242.9. Muestreos Probabiĺısticos . . . . . . . . . . . . . . . . . . . . . . 262.10. Generación de Números Aleatorios . . . . . . . . . . . . . . . . 262.11. Percentiles, Cuartiles, Deciles . . . . . . . . . . . . . . . . . . . 27
3. Análisis Grafico con Stata 31
3.1. Visualizando Algunos Comandos . . . . . . . . . . . . . . . . . 313.2. TWOWAY . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 333.3. TWOWAY y SCATTERPLOT . . . . . . . . . . . . . . . . . . 383.4. Combinando TWOWAY Y SCATTERPLOT . . . . . . . . . . . 40
3.4.1. Filtro de Gráficos . . . . . . . . . . . . . . . . . . . . . . 403.4.2. Unión de Gráficos . . . . . . . . . . . . . . . . . . . . . . 40
3.5. Opciones para Edición de Gráficos . . . . . . . . . . . . . . . . . 433.6. Trabajando con Esquemas y Gráficos Adicionales . . . . . . . . 47
3
-
8/20/2019 Manual Stata Basico - Juan Carlos Abanto Orihuela
4/79
4 ÍNDICE GENERAL
3.6.1. Esquemas . . . . . . . . . . . . . . . . . . . . . . . . . . 473.6.2. Gráficos de Barras Verticales . . . . . . . . . . . . . . . . 493.6.3. Gráficos de Barras Horizontales . . . . . . . . . . . . . . 493.6.4. Gráficos de Cajas . . . . . . . . . . . . . . . . . . . . . . 50
3.6.5. Gráficos de Pastel . . . . . . . . . . . . . . . . . . . . . . 51
4. Análisis de Regresión Lineal 554.1. Regresión Lineal . . . . . . . . . . . . . . . . . . . . . . . . . . 554.2. Diagnostico de los Resultados . . . . . . . . . . . . . . . . . . . 59
4.2.1. Efecto Influencia . . . . . . . . . . . . . . . . . . . . . . 594.3. Normalidad del Residuo . . . . . . . . . . . . . . . . . . . . . . 624.4. Homocedasticidad del Residuo . . . . . . . . . . . . . . . . . . . 634.5. Multicolinealidad . . . . . . . . . . . . . . . . . . . . . . . . . . 644.6. Linealidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 644.7. Especificación del modelo . . . . . . . . . . . . . . . . . . . . . 65
4.8. Independencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66
5. Variables Categóricas 695.1. Estimacíon con Variables Categóricas . . . . . . . . . . . . . . . 695.2. El Comando Xi . . . . . . . . . . . . . . . . . . . . . . . . . . . 705.3. Pruebas de Hipótesis . . . . . . . . . . . . . . . . . . . . . . . . 725.4. Creacíon de Variables Dummys . . . . . . . . . . . . . . . . . . 755.5. Bucles y Programas . . . . . . . . . . . . . . . . . . . . . . . . . 75
Bibliografı́a 79
Stata Básico
Aplicado a la Investigación Económica
www.giddea.com
http://www.giddea.com/http://www.giddea.com/
-
8/20/2019 Manual Stata Basico - Juan Carlos Abanto Orihuela
5/79
Sesión 1Introducción al Stata
1.1. Iniciando Stata
Stata es una poderosa herramienta en aplicaciones económicas. Puede ayu-darnos a analizar fácil y eficientemente, series de tiempo, paneles, y data desección cruzada. Nos dará las herramientas que necesitamos para organizar ymanejar un gran tamaño de data, obteniendo resultados de análisis estadı́sti-cos.
En esta sesión introduciremos las nociones básicas del software, para pos-teriormente realizar un análisis estad́ıstico y familiarizarnos con el manejo ymodificación de la base de datos.
Veamos como se presenta Stata al iniciarse. (ver Figura 1.1)
Figura 1.1: Pantalla de Inicio
5
-
8/20/2019 Manual Stata Basico - Juan Carlos Abanto Orihuela
6/79
6 1. Introducción al Stata
Los comandos de stata están implementados en el menú el cual esta organizadopor tópicos. Ası́ nosotros podemos trabajar interactivamente y de manera muysimple, sin embargo sigue siendo útil el uso de comandos para realizar el análisisdado que da pie al manejo de programas, o estructuras de programaci ón. (ver
Figura 1.2)
Figura 1.2: Barra de Comandos
1.2. Tipos de Archivos en Stata
En STATA, distinguimos 3 tipos de archivos importantes:Archivo de extensión dta, para la generación de base de datos, en ella se
almacenara información de las variables con su respectiva extensión.
Archivo de extensión log, smcl, para la generación de bitácoras, en ella seguardaran los resultados de manera ordenada, sin tener que pasarlos a ningúntipo de archivo de texto.
Archivo de extensión do, que es un archivo de ejecución, donde se elaborael programa.
Archivo de extensión gph, para la generación de gráficos almacenados en
la carpeta de trabajo
1.3. Estructura Básica de Stata
Siempre que trabajemos en STATA, es recomendable que mantengamoscierta estructura. (ver Figura 1.3)
Stata Básico
Aplicado a la Investigación Económica
www.giddea.com
http://www.giddea.com/http://www.giddea.com/
-
8/20/2019 Manual Stata Basico - Juan Carlos Abanto Orihuela
7/79
1.4. Principales Comandos de Traba jo y Análisis 7
Figura 1.3: Estructura Básica
1.4. Principales Comandos de Trabajo y Análi-
sis
Ahora veamos los principales comandos de trabajo, los cuales harán quelos futuros análisis econométricos sean simples de realizar.
1.4.1. Las Bitácoras
En estos objetos se guardara la información tal y cual aparecen en la ven-tana Result, aunque también podrı́amos indicarle al programa que deseamossolo guardar los comandos y no los resultados.
log using clase1.logo tambíen
cmdlog using clase1.log
1.4.2. La Base de Datos
El uso de la base de datos es vital para nuestro an álisis, a continuaciónpresentamos los comandos que nos enseñara a trabajar con esta.
use auto.dta
Stata Básico
Aplicado a la Investigación Económica
www.giddea.com
http://www.giddea.com/http://www.giddea.com/
-
8/20/2019 Manual Stata Basico - Juan Carlos Abanto Orihuela
8/79
8 1. Introducción al Stata
use auto.dta if foreign==1
use auto.dta in 1/10
use make mpg using auto.dta
save auto01.dta
Repasemos lo que hemos aprendido:Ya sabemos como limpiar la memoria de Stata, también sabemos como ampliaresta memoria para trabajar con data de gran capacidad. Sabemos como fijarel path de trabajo, como crear una rutina y como cargar la base de datos anuestro espacio de trabajo. Ahora vamos a trabajar con la base de datos paraempezar nuestro análisis.
use auto01.dta
browse
replace mpg=20 if mpg==19
save, replace
list make
list make price
describe
codebook
summarize mpg weight
summarize mpg weight if foreign
summarize price if mpg=21.3
summarize price, detail
tabulate mpg
table mpg
table rep78, contents(n mpg)
table rep78, contents(n mpg mean mpg sd mpg median mpg)table rep78, c(n mpg mean mpg sd mpg median mpg) format(%9.2f)
sort mpg
gsort mpg
gsort -mpg
sort foreign
by foreign: summarize price
Stata Básico
Aplicado a la Investigación Económica
www.giddea.com
http://www.giddea.com/http://www.giddea.com/
-
8/20/2019 Manual Stata Basico - Juan Carlos Abanto Orihuela
9/79
1.4. Principales Comandos de Traba jo y Análisis 9
count
count if foreign==0
count if foreign==1
by foreign: count
generate orden=_n
rename orden num_obs
by foreign: egen prom_mill=mean(mpg)
drop num_obs
keep make price mpg prom_mill
1.4.3. Append, Merge, Collapse
El comando append y merge nos ayudara a unir bases de datos integrándo-las en una sola. Append, pegara hacia abajo o verticalmente y Merge, pegarahacia el costado o de forma horizontal.
clear
use base1, clear
list
use base2, clear
list
use base3, clear
list
use base4, clear
list
Vamos a empezar observando cada una de las bases de datos que tenemos,veamos la figura1.4 Empecemos nuestra tarea en Stata, podemos observar que
Figura 1.4: Bases de Datos
Stata Básico
Aplicado a la Investigación Económica
www.giddea.com
http://www.giddea.com/http://www.giddea.com/
-
8/20/2019 Manual Stata Basico - Juan Carlos Abanto Orihuela
10/79
10 1. Introducción al Stata
la base de datos Base1 tiene los mismos campos (columnas) que la base dedatos Base2, pero diferentes filas, seria útil, unir ambas bases.
Abramos entonces, la base de datos Base1 y peguemosla con la base dedatos Base2, una unión vertical.
use base1.dta, clear
list
append using base2
list
save base12.dta, replace
list
Hagamos lo mismo con las bases de datos Base3 y Base4 y observemos losresultados:
use base3.dta, clear
list
append using base4
list
save base34.dta, replace
list
¿Por qué la variable la variable sexo se añadió 2 veces como columna?¿porqué no se unió en una sola columna?
use base3.dta, clear
list
rename Sexo sexo
list
save base03.dta, replace
use base03.dta, clear
list
append using base4
list
save base034.dta, replace
Ahora si resulto bien la unión vertical. Veamos la base12 que teńıamos
antes.Ahora mi inteŕes es fusionar ambas bases de datos, para ello, primero de-bemos ordenar ambas bases según la variable con la que vamos a fusionar (lavariable común).
use base034.dta, clear
list
sort nombre
list
Stata Básico
Aplicado a la Investigación Económica
www.giddea.com
http://www.giddea.com/http://www.giddea.com/
-
8/20/2019 Manual Stata Basico - Juan Carlos Abanto Orihuela
11/79
1.4. Principales Comandos de Trabajo y Análisis 11
save base034s.dta, replace
use base12.dta, clear
list
sort nombrelist
save base12s.dta, replace
Ya tenemos las 2 bases de datos ordenadas, ahora vamos a fusionarlas
clear
use base12s.dta, clear
list
merge nombre using base034s.dta
list
save basetotal.dta, replace
La figura1.5 nos muestra la base de datos total.
Figura 1.5: Base Total
Podemos tabular la variable merge para ver si se pegaron correctamente lasbases de datos, o también observar la columna final merge en caso de baseschicas como esta.
tab _merge
Analicemos los resultados. Hay tres posibles valores que puede tomar estavariable según lo muestra la figura1.6. Si toma el valor de 1 nos indicara quees una observación que solo se encuentra en la base matriz, si toma el valorde 2 nos indicara que es una observación que proviene de la base esclava, y sitoma el valor de 3, nos indicara que la observaci ón proviene de ambas bases.
Stata Básico
Aplicado a la Investigación Económica
www.giddea.com
http://www.giddea.com/http://www.giddea.com/
-
8/20/2019 Manual Stata Basico - Juan Carlos Abanto Orihuela
12/79
12 1. Introducción al Stata
Figura 1.6: tab merge
El comando collapse sirve para convertir una base de datos que contiene va-riables para diversas unidades de estudio, en una base de datos que contieneestad́ısticos de dichas variables (medias, medianas, sumas etc). Permite obte-ner estad́ısticos para unidades más grandes (en un sentido jerárquico), comopor ejemplo, pasar de datos por individuo a datos por hogar, de datos por
distritos a datos por provincia (agregación)En el comando se especifican aquellas variables que se ”colapsan” y las con-
diciones que se imponen para dicha transformación. Algunas variables puedenser colapsadas según su suma, otras según su media, etc. (ver figura1.7)
Aquellas variables que no se especifican desaparecen automáticamente dela base de datos. Este comando crea una nueva base de datos y cierra la basede partida. Si deseamos quedarnos con esta base debemos grabarla.
Figura 1.7: Estructura del comando “split”
Basado en los WDI, genere una base de datos con los totales de CO2 emi-tidos por región, para el año 2002. Genere también una base con la poblaciónmundial a lo largo del tiempo.
Stata Básico
Aplicado a la Investigación Económica
www.giddea.com
http://www.giddea.com/http://www.giddea.com/
-
8/20/2019 Manual Stata Basico - Juan Carlos Abanto Orihuela
13/79
1.4. Principales Comandos de Trabajo y Análisis 13
use kids, clear
list
collapse age
list
use kids, clear
collapse age, by(famid)
list
use kids, clear
collapse(mean) avgage=age, by(famid)
list
use kids, clear
collapse (mean) avgage=age avgwt=wt, by(famid)
list
use kids, clear
collapse (mean) avgage=age avgwt=wt (count) numkids=birth, by(famid)
list
use kids, clear
tabulate sex, generate(sexdum)
list famid sex sexdum1 sexdum2
collapse (count) numkids=birth (sum) girls=sexdum1 boys=sexdum2, by(famid)list famid boys girls numkids
Basado en los WDI, genere una base de datos con los totales de CO2 emi-tidos por región, para el año 2002. Genere también una base con la poblaciónmundial a lo largo del tiempo.
use wdi,clear
collapse (sum) co2 if year==2002, by(region)
graph hbar (asis) co2, over(region)
use wdi, clear
collapse (sum) pop, by(year)
Stata Básico
Aplicado a la Investigación Económica
www.giddea.com
http://www.giddea.com/http://www.giddea.com/
-
8/20/2019 Manual Stata Basico - Juan Carlos Abanto Orihuela
14/79
14 1. Introducción al Stata
RETO 1
La base “enaho01-2004-300-oct-nov.dta” contiene datos del módulo 300 dela ENAHO recopilados entre octubre y noviembre de 2004, mientras que“enaho01-2004-300-dic.dta” contiene los datos del mismo módulo para di-ciembre de ese mismo año. Ambas bases están a nivel de individuos. Se pide juntar estos datos en un solo archivo que debe ser grabado con el nombre:“Personas.dta”.
A la base “Personas.dta” añada las siguientes variables:
Las 5 variables de Necesidades Básicas Insatisfechas (nbi1 al nbi5) desdela base de datos “enaho01-2004-100.dta”. Recuerde que esta base fuerecopilada a nivel de hogares en el mismo periodo.
La variable sobre tipo de vivienda (p101).
Usando el archivo “enaho01-2004-300-oct-nov.dta” (módulo de educación anivel de individuos) realice las siguiente tarea:
Obtenga una nueva base (colapsada) que contenga para cada hogar:el promedio de edad de sus miembros (ver p208a), el porcentaje dehombres en el hogar (ver p207), el máximo nivel educativo aprobadopor algún miembro del hogar (ver p301a).
Stata Básico
Aplicado a la Investigación Económica
www.giddea.com
http://www.giddea.com/http://www.giddea.com/
-
8/20/2019 Manual Stata Basico - Juan Carlos Abanto Orihuela
15/79
Sesión 2Manejo de Datos
2.1. Cargando los Datos en Stata
Ahora vamos a empezar el tratamiento de los datos pero antes, hagamos
un pequeño ejercicio con la base de datos auto.dta
use auto.dta
describe
summarize
generate price2=2*price
describe
save auto2.dta
generate price3=3*price
save auto2.dta
save auto2.dta, replace
generate price4=4*price
use auto.dta
use auto.dta, clear
clear
2.2. Etiquetas
Aprendamos a etiquetar a nuestras bases de datos o variables para poder
identificarlas en un futuro y aśı poder trabajar de forma mas ordenada.use auto.dta
describe
label data "Este archivo contiene datos de autos para el a~no 1978"
describe
label variable rep78 "Record de reparación en 1978"
label variable price "Precio del carro en 1958"
label variable mpg "Millas por galon para el carro"
15
-
8/20/2019 Manual Stata Basico - Juan Carlos Abanto Orihuela
16/79
16 2. Manejo de Datos
label variable foreign "Origen del carro, extranjero o domestico"
describe
label define foreignl 0 "domestico" 1 "extranjero"
label values foreign foreignldescribe
table foreign
ttest mpg, by(foreign)
save auto3.dta
Hagamos un ejercicio similar con la base de datos iraninos.dta
clear
use iraninos.dta
set more offlabel define sexow 0 "mujer"
label define sexow 1 "hombre", add
describe
browse
label values sexo sexow
describe
browse
label drop sexow
label define getareow 0 "prematuro"
label define getareow 1 "rec.nac.", add
label define getareow 2 "lactante", add
label define getareow 3 "escolares", add
label values getareo getareow
label define oliguriaw 0 "no oliguria"
label define oliguriaw 1 "oliguria", add
label values oliguria oliguriaw
label define congenitow 0 "no congenito"
label define congenitow 1 "congenito", addlabel values congenito congenitow
label define sepsisw 0 "no sepsis"
label define sepsisw 1 "sepsis", add
label values sepsis sepsisw
label define tipodaow 0 "asfixia neonat"
Stata Básico
Aplicado a la Investigación Económica
www.giddea.com
http://www.giddea.com/http://www.giddea.com/
-
8/20/2019 Manual Stata Basico - Juan Carlos Abanto Orihuela
17/79
2.3. Comando IF 17
label define tipodaow 1 "nta", add
label define tipodaow 2 "nti", add
label define tipodaow 3 "nefro tox", add
label values tipodao tipodaow
label define finalw 0 "vivo"
label define finalw 1 "muerto", add
label values final finalw
Observemos que la variable dependiente en esta base de datos es final,muerte de una persona debido a una falla renal aguda. Las variables explicati-vas serian sepsis y tipodaño, mientras que las de control serian sexo, getareo.Probablemente oliguria y congenito sean variables que me indiquen el nivelespecifico de la enfermedad (serian variables no tan claras en este ejemplo).
2.3. Comando IF
La estructura del comando IF es fácil de recordar, la figura2.1 nos muestrael esquema base.
Figura 2.1: Estructura del comando “if”
clearuse auto.dta
keep make rep78 foreign mpg price
tabulate rep78 foreign
tabulate rep78 foreign if (rep78 >=4)
tabulate rep78 foreign if (rep78 >=4), column nofreq
list if (rep78 >= 4)
list if (rep78 >= 4) & !missing(rep78)
summarize price if (rep78 == 1) | (rep78 == 2)summarize price if (rep78 = 3)
summarize price if (rep78 >= 3) & !missing(rep78)
Cabe resaltar que luego de la sentencia “if” usamos “ & ” para decir “y”,usamos “ == ” para decir “igual a”, y usamos “ ! ” para negar algo o decir“no”.
Stata Básico
Aplicado a la Investigación Económica
www.giddea.com
http://www.giddea.com/http://www.giddea.com/
-
8/20/2019 Manual Stata Basico - Juan Carlos Abanto Orihuela
18/79
18 2. Manejo de Datos
2.4. Comando SUMMARIZE
Esta estructura es mas compleja y más dif́ıcil de recordar, sin embargo lasiguiente forma general (ver figura2.2), nos ayudara a recordarla y usarla de
manera más apropiada.
Figura 2.2: Estructura del comando “summarize”
use auto
summarize
summarize price mpg
summarize mpg price if (foreign == 1)
summarize mpg price if (foreign == 1) & (mpg
-
8/20/2019 Manual Stata Basico - Juan Carlos Abanto Orihuela
19/79
2.6. Creando Variables 19
Figura 2.3: Estructura del comando “split”
Figura 2.4: Base Documentos
use "split y destring", clear
split documento, parse("-") destring
use "split y destring", clear
split documento, parse("-")
destring documento2, replace
Si deseáramos concatenar dos variables cualquiera sean estas, y generaruna variable tipo string, el comando a usar deberá ser:
egen docum=concat(documento1 documento2), punct("/")
Donde la opción punct permite especificar el separador entre las distintaspartes al conformar una única variable. Por ejemplo, espacio será punct(“ ”),o coma , punct(,) o guión , punct(-).
2.6. Creando Variables
Trabajemos con la base de datos auto, y con la variable length (longituddel auto en pulgadas)
use auto, clear
summarize length
generate length_feet = length / 12
Stata Básico
Aplicado a la Investigación Económica
www.giddea.com
http://www.giddea.com/http://www.giddea.com/
-
8/20/2019 Manual Stata Basico - Juan Carlos Abanto Orihuela
20/79
20 2. Manejo de Datos
generate length_feet = length / 12
replace length_feet = length / 12
summarize length lenght_feet
generate length2 = length^2
summarize length2generate loglen = log(length)
summarize loglen
summarize length
generate zlength = (length - 187.93) / 22.27
summarize zlength
Observemos la variable mpg (millaje por galón)
tabulate mpg
No nos es muy fácil el análisis de esta variable, podŕıamos mejorar supresentación si la clasificáramos por rangos.
generate mpg3 = .
replace mpg3 = 1 if (mpg = 19) & (mpg = 24) & (mpg
-
8/20/2019 Manual Stata Basico - Juan Carlos Abanto Orihuela
21/79
2.6. Creando Variables 21
generate mpgfd = mpg
recode mpgfd min/18=0 19/max=1 if foreign==0
recode mpgfd min/24=0 25/max=1 if foreign==1
by foreign: tabulate mpg mpgfd
El comando recode cambia los valores de una variable de acuerdo a lasreglas especificadas.
recode opiniongob (1=4 nada) (2=3 poco) (3=2 "mas o menos") ///
(4=1 bastante) (.=0 "no opina"), gen(opina)
También podemos usar una extensión del commando generate, egen me per-mitirá crear expresiones mas complejas aun, tales como medias, desviacionesestándar, máximos, mı́nimos, etc.
egen minimo_p=min(price)
egen median_p=median(price)egen std_p=std(price), mean(0) std(1)
Nota1: Tipo de Datos
En Stata existen dos clases de datos a usar:
Datos numéricos, dentro de estos podemos encontrar la siguiente clasifica-ción:
Figura 2.5: Datos Tipo Numéricos
Datos cadena de texto, dentro de estos podemos encontrar la siguiente cla-sificación:
Figura 2.6: Datos Tipo Cadena
Stata Básico
Aplicado a la Investigación Económica
www.giddea.com
http://www.giddea.com/http://www.giddea.com/
-
8/20/2019 Manual Stata Basico - Juan Carlos Abanto Orihuela
22/79
22 2. Manejo de Datos
Lógicamente debemos considerar que un uso de datos con mayor poderde almacenaje se traducirá en mayor tamaño de bytes usados, lo cual restaraespacio a nuestro disco de almacenaje.
Generemos algunas variables como ejemplo:
generate double x=2
generate str2 y="maria"
list y
¿Qué notamos?, ¿Cómo saber rápidamente si una variable es de ciertotipo? Si deseáramos convertir una variable string a una variable numérica ouna variable numérica a una string, podŕıamos usar los comandos encode ydecode, veamos esto:
clear
use auto.dta
encode make, generate(A)
label list A
describe make A
decode A, generate(B)
describe make A B
O también podŕıamos usar la siguiente sentencia:
generate str2 Z="am"
generate int P=real(Z)
describe Z P
2.7. KEEP y DROP
A veces no desearemos tener todas las variables en el espacio de trabajo,muchas veces desearemos trabajar solo con algunas variables de nuestra basede datos.
use auto
describe
keep make mpg price
describe
use auto, clear
drop displacement gear_ratio
describe
Stata Básico
Aplicado a la Investigación Económica
www.giddea.com
http://www.giddea.com/http://www.giddea.com/
-
8/20/2019 Manual Stata Basico - Juan Carlos Abanto Orihuela
23/79
2.7. KEEP y DROP 23
use auto , clear
tabulate rep78 , missing
drop if missing(rep78)
tabulate rep78 , missing
use auto , clear
keep if (rep78
-
8/20/2019 Manual Stata Basico - Juan Carlos Abanto Orihuela
24/79
24 2. Manejo de Datos
clear
use make mpg price rep78 using auto.dta if (rep78
-
8/20/2019 Manual Stata Basico - Juan Carlos Abanto Orihuela
25/79
2.8. Reestructurando los Datos 25
reshape wide
list
reshape long
list
Veamos una base de datos que nos brinda información sobre los las alturasde un conjunto de niños de 1 y 2 años de edad
use ni~noaltpes, clear
list codfam nacimiento alt1 alt2
Figura 2.9: Base “niñoaltpes”
Veamos como podemos transformar esta base de datos a una forma “long”.¿Cuál es la ráız de la variable que será convertida de la forma wide a la formalong? ¿Qué variables identifican a los individuos en la estructura wide? ¿Cómo
llamaremos a la variable que contendrá a los sufijos de la variable raı́z?reshape long alt, i( codfam nacimiento) j(edad)
list codfam nacimiento edad alt
use ni~noaltpes,clear
list codfam nacimiento alt1 alt2 pes1 pes2
reshape long alt pes, i( codfam nacimiento) j(edad)
list codfam nacimiento edad alt pes
use ingpadmad.dta, clear
list
A nosotros nos podŕıa interesar que la variable “nombre” y la variable “ing”se estructuren de una forma long, pero los sufijos “p” y “m” son del tipo cadenao string, ya no son números. ¿Cómo podemos estructurar nuestro comando eneste caso?
reshape long nombre ing, i(codfam) j(padmad) string
list
Stata Básico
Aplicado a la Investigación Económica
www.giddea.com
http://www.giddea.com/http://www.giddea.com/
-
8/20/2019 Manual Stata Basico - Juan Carlos Abanto Orihuela
26/79
26 2. Manejo de Datos
Figura 2.10: Base “ingpadmad”
2.9. Muestreos Probabiĺısticos
En las encuestas, las observaciones son escogidas a partir de un proce-so aleatorio. Aśı, las probabilidades de selección para distintas observacionespueden diferir en función a la forma como se lleve a cabo dicho proceso deselección aleatorio.
Las ponderaciones de muestreo son iguales (o proporcionales) al inverso dela probabilidad de selección. En otras palabras, los ponderadores (o factoresde expansión) pueden ser interpretados como el número de elementos de lapoblación que el elemento muestreado representa. En consecuencia, no teneren cuenta los ponderadores de la muestra en los procedimientos estad́ısticosgenera estimaciones sesgadas al valor verdadero de la población. Aśı mismo,su omisión altera las desviaciones estándar de nuestras estimaciones.
Los factores de expansión nos permiten pasar de la muestra al conjunto dela población. Ellos son necesarios también para tener en cuenta las diferentestasas de muestreo según dominios geográficos, etc.
La mayoŕıa de comandos de stata pueden ponderar datos. Stata proporcio-
na cuatro tipos de ponderaciones, la que más se emplea es la asociada a losfactores de expansión, que se indica con la opción pweight que permite identi-ficar los pesos que indican la inversa de la probabilidad de que la observaciónsea incluida debido al diseño del muestreo.
table x1 x2 [pweight=pesopob]
table x1 x2 [pw=pesopob]
2.10. Generación de Números Aleatorios
Crearemos un archivo vaćıo para 100 observaciones:
set obs 100
Generamos números aleatorios con distribución uniformes U(0,1)
gen x = uniform()
Luego generamos números aleatorios con distribución normal N(0,1)
Stata Básico
Aplicado a la Investigación Económica
www.giddea.com
http://www.giddea.com/http://www.giddea.com/
-
8/20/2019 Manual Stata Basico - Juan Carlos Abanto Orihuela
27/79
2.11. Percentiles, Cuartiles, Deciles 27
gen y = invnorm(uniform())
Para generar una variable con distribución uniforme U(a,b)
generate y = a + (b-a) * uniform()
Para generar una variable con distribución normal N(u,ô)
generate z = u + ô * invnorm(uniform())
Generemos una variable notas, igual a U(0,20) + N(0,1)
gen notas = 20*uniform() + invnorm(uniform())
Trunquemosla en el rango de 0 a 20
replace notas = clip(notas, 0, 20)
format notas %3.1f
Generemos una variable sexo que sea 1 si es hombre y 0 si es mujer
gen sexo = uniform() > 0.5
Generemos una variable ingreso que valla del 2000 al 2007
gen ingreso = 2000 + floor(8*uniform())
2.11. Percentiles, Cuartiles, Deciles
Las medidas de posición son muy importantes en el análisis estadı́stico,probabiĺıstica y regresional.
Los cuartiles son medidas estad́ısticas de posición que tienen la propiedadde dividir la serie estad́ıstica en cuatro grupos de números iguales de términos.
De manera similar los deciles dividen a la serie en diez partes iguales y lospercentiles dividen a los términos de la serie en cien grupos iguales. Aśı comola mediana divide la serie o distribución en dos partes iguales, existen trescuartiles, nueve deciles y noventa y nueve percentiles que dividen en cuatro,diez y cien partes iguales a la distribución.
De estas tres últimas medidas de posición los cuartiles son las de mayor
aplicación.Se emplean generalmente en la determinación de estratos o grupos corres-
pondientes a fenómenos socio-económicos, monetarios o teóricos.
XTILE
El comando xtile genera una variable categórica (eg: 1, 2, 3) según el cuantilen que se encuentra cada observación.
Stata Básico
Aplicado a la Investigación Económica
www.giddea.com
http://www.giddea.com/http://www.giddea.com/
-
8/20/2019 Manual Stata Basico - Juan Carlos Abanto Orihuela
28/79
28 2. Manejo de Datos
xtile nuevavar = variable , nquantiles(#)
xtile tercio = notas, n(3)
PCTILE
El comando pctile genera una variable con los puntos de corte entre cadacuantil.
pctile nuevavar = variable , nquantiles(#)
pctile cortes = notas, n(3)
Por ejemplo, generemos una variable décimo que sea 1 si es décimo superior,y 0 caso contrario. Hágalo de 2 formas distintas
xtile es_decimo = notas, n(10)
replace es_decimo= (es_decimo==10)
summarize notas, detail
gen es_decimo = notas > r(p90)
pctile corte_dec = notas, n(10)
gen es_decimo = notas > corte_dec[9]
Muestre en las notas, el promedio, el máximo, el mı́nimo, por sexo. Muestrela probabilidad de ser décimo superior, por año de ingreso
tab es_decimo tercio
tabstat notas, by(es_decimo)
tabstat notas, by(sexo) stat(mean max min)
tabstat es_decimo, by(ingreso) format(%3.2f)
Stata Básico
Aplicado a la Investigación Económica
www.giddea.com
http://www.giddea.com/http://www.giddea.com/
-
8/20/2019 Manual Stata Basico - Juan Carlos Abanto Orihuela
29/79
2.11. Percentiles, Cuartiles, Deciles 29
RETO 2
El sostenido crecimiento de la econoḿıa peruana en los últimos años haprovocado que en la actualidad observemos un boom de inversiones a nivel des-
centralizado. Aśı, diversas actividades económicas que antes se desarrollabansolo en Lima han empezado a mirar el interior del páıs como plazas alternativaspara expandir sus negocios. Con este fin, la recientemente fundada empresa deconsultoŕıa Grupo IDDEA S.A.C. le ha pedido su colaboración para desarrollarlas siguientes tareas en Stata.
En el módulo “sumarias” (que contiene variables calculadas de ingreso ygasto) se le pide identificar cada hogar con el nombre de la localidad querepresenta según la variable “ubigeo” (distrito). Además, en este módulo de-berá crear una nueva variable que indique el departamento al que pertenececada hogar (esta variable debe tener un value map con los nombres de los
24 departamentos y el Callao). Para esta tarea usted cuenta con la base dedatos ubigeo.dta.
Con una sola instrucción (un solo comando) muestre las siguientes estad́ısti-cas descriptivas para el gasto per capita en todos los departamentos del paı́s(percentil 99, media, desviación estándar, rango).
El INEI calcula las estad́ısticas de pobreza bajo el método del gasto, pa-ra lo cual utilizará la variable “gasto total” y la dividirá entre el total depersonas en el hogar para calcular el gasto per capita. Luego generará unavariable que valga uno en caso el hogar supere la ĺınea de pobreza per capita
(linea06) y cero en caso contrario. Finalmente, se le pide estimar para cadadepartamento cual es el nivel de pobreza considerando que un individuo espobre si pertenece a un hogar pobre.
Con el módulo de educación construya una tabla que muestre para cada do-minio geográfico el porcentaje de personas según nivel educativo alcanzado,para lo cual considerará solo tres niveles: 1, al menos primaria incompleta,2, Al menos secundaria completa y 3, superior.
Al módulo educación añada la variable gasto per cápita, calculado en la basesumaria como el cociente entre gasto total y total de miembros del hogar.Luego, cree una variable que contenga los cuartiles (1,2,3,4) del gasto percapita y construya una tabla cruzada entre el nivel educativo y la nuevavariable que ha creado para todas aquellas personas que no residen en LimaMetropolitana.
Stata Básico
Aplicado a la Investigación Económica
www.giddea.com
http://www.giddea.com/http://www.giddea.com/
-
8/20/2019 Manual Stata Basico - Juan Carlos Abanto Orihuela
30/79
30 2. Manejo de Datos
Stata Básico
Aplicado a la Investigación Económica
www.giddea.com
http://www.giddea.com/http://www.giddea.com/
-
8/20/2019 Manual Stata Basico - Juan Carlos Abanto Orihuela
31/79
Sesión 3Análisis Grafico con Stata
Ahora vamos a trabajar con los principales gráficos en Stata. Muchos deestos gráficos son de bastante utilidad para observar los problemas inherentesal análisis de regresión que observaremos en la próxima sección.
3.1. Visualizando Algunos Comandos
clear
use auto.dta
histogram mpg
Figura 3.1: Histograma
graph box mpggraph box mpg, by(foreign)
31
-
8/20/2019 Manual Stata Basico - Juan Carlos Abanto Orihuela
32/79
32 3. Análisis Grafico con Stata
Figura 3.2: Grafico de Cajas
Figura 3.3: Scatter y Ajuste Lineal
Figura 3.4: Grafico Matricial
Stata Básico
Aplicado a la Investigación Económica
www.giddea.com
http://www.giddea.com/http://www.giddea.com/
-
8/20/2019 Manual Stata Basico - Juan Carlos Abanto Orihuela
33/79
3.2. TWOWAY 33
3.2. TWOWAY
El S&P 500 es el ı́ndice más seguido para tener una idea del desempeñogeneral de las acciones estadounidenses. Este ı́ndice consiste de las acciones de
500 empresas que fueron seleccionadas por su tamaño, liquidez (qué tan fáciles comprar o vender sus t́ıtulos) y representatividad por actividad económi-ca, incluyendo 400 industriales, 20 del sector transporte, 40 de servicios y 40financieras. Sólo se toman en cuenta empresas estadounidenses. Vale la penadestacar que el peso de cada acción dentro del ı́ndice corresponde a la propor-ción que representa el valor de mercado de la empresa dentro del total de las500 empresas que conforman el ı́ndice. El valor de mercado del capital es igualal precio por acción multiplicado por el número total de acciones.
Usemos la base de datos S&P 500.(ver figura3.5
clear
use s&p.dta
describe
Figura 3.5: Índice S&P
Stata Básico
Aplicado a la Investigación Económica
www.giddea.com
http://www.giddea.com/http://www.giddea.com/
-
8/20/2019 Manual Stata Basico - Juan Carlos Abanto Orihuela
34/79
34 3. Análisis Grafico con Stata
Figura 3.6: Opciones del “twoway”
Figura 3.7: Opciones del “twoway”
Figura 3.8: Opciones del “twoway”
Stata Básico
Aplicado a la Investigación Económica
www.giddea.com
http://www.giddea.com/http://www.giddea.com/
-
8/20/2019 Manual Stata Basico - Juan Carlos Abanto Orihuela
35/79
3.2. TWOWAY 35
Figura 3.9: Opciones del “twoway”
Stata Básico
Aplicado a la Investigación Económica
www.giddea.com
http://www.giddea.com/http://www.giddea.com/
-
8/20/2019 Manual Stata Basico - Juan Carlos Abanto Orihuela
36/79
36 3. Análisis Grafico con Stata
Usemos una nueva base de datos:
clear
use highschool.dta
describe
Figura 3.10: Base Highschool
graph twoway histogram read
graph twoway kdensity read
graph twoway (histogram read) (kdensity read)
graph twoway function y=normden(x), range(-4 4)
Figura 3.11: Histograma y Kernel
Stata Básico
Aplicado a la Investigación Económica
www.giddea.com
http://www.giddea.com/http://www.giddea.com/
-
8/20/2019 Manual Stata Basico - Juan Carlos Abanto Orihuela
37/79
3.2. TWOWAY 37
Figura 3.12: Más opciones del “twoway”
Stata Básico
Aplicado a la Investigación Económica
www.giddea.com
http://www.giddea.com/http://www.giddea.com/
-
8/20/2019 Manual Stata Basico - Juan Carlos Abanto Orihuela
38/79
38 3. Análisis Grafico con Stata
3.3. TWOWAY y SCATTERPLOT
twoway scatter read write , scheme(economist)
twoway scatter write read, msymbol(square) msize(small) mcolor(black)
twoway scatter write read, mfcolor(red) mlcolor(black) mlwidth(medthick)
twoway scatter read write if id
-
8/20/2019 Manual Stata Basico - Juan Carlos Abanto Orihuela
39/79
3.3. TWOWAY y SCATTERPLOT 39
Figura 3.13: Connect
Figura 3.14: Connect sort cmissing
Stata Básico
Aplicado a la Investigación Económica
www.giddea.com
http://www.giddea.com/http://www.giddea.com/
-
8/20/2019 Manual Stata Basico - Juan Carlos Abanto Orihuela
40/79
40 3. Análisis Grafico con Stata
3.4. Combinando TWOWAY Y SCATTERPLOT
3.4.1. Filtro de Gráficos
twoway scatter read write, by(female)
twoway scatter read write, by(female ses)
twoway scatter read write, by(ses female, cols(2))
Figura 3.15: Opción “by”
3.4.2. Unión de Gráficos
twoway (scatter read write) (lfit read write) , ytitle(Nota ///
de lectura)
Stata Básico
Aplicado a la Investigación Económica
www.giddea.com
http://www.giddea.com/http://www.giddea.com/
-
8/20/2019 Manual Stata Basico - Juan Carlos Abanto Orihuela
41/79
3.4. Combinando TWOWAY Y SCATTERPLOT 41
Figura 3.16: Opción “ytitle” de un grafico
twoway (scatter read write) (lfit read write), name(scatter)
twoway (scatter read write, mlabel(id)) (lfit read write, ///
range(30 70)), by(ses female) ytitle(Nota de lectura)
Figura 3.17: Nombre a un grafico
twoway (scatter read write) (scatter math write)
twoway (scatter read write) (scatter math write) (lfit read ///
write) (lfit math write)
Stata Básico
Aplicado a la Investigación Económica
www.giddea.com
http://www.giddea.com/http://www.giddea.com/
-
8/20/2019 Manual Stata Basico - Juan Carlos Abanto Orihuela
42/79
42 3. Análisis Grafico con Stata
twoway (scatter read write) (scatter math write) (lfit read ///
write) (lfit math write), legend(label(3 "Ajuste Lineal") ///
label(4 "Ajuste Lineal")) legend(order(1 3 2 4))
twoway (scatter read write) (scatter math write) (lfit read ///
write, pstyle(p1) range(25 80) ) (lfit math write, ///
pstyle(p2) range(25 80) ), legend(label(3 "Ajuste Lineal") ///
label(4 "Ajuste Lineal")) legend(order(1 3 2 4))
Figura 3.18: Editando la legenda de un grafico
separate write, by(female)
graph twoway (scatter write0 read) (scatter write1 read), ///
ytitle(Nota de Escritura) legend(order(1 "Hombres" 2 "Mujeres"))
graph twoway (scatter write0 read) (scatter write1 read) ///
(lfit write0 read) (lfit write1 read), ytitle(Nota de ///
Escritura) legend(order(1 "Hombres" 2 "Mujeres" 3 "Aj. ///
Lineal Hombres" 4 " Aj. Lineal Mujeres"))
Stata Básico
Aplicado a la Investigación Económica
www.giddea.com
http://www.giddea.com/http://www.giddea.com/
-
8/20/2019 Manual Stata Basico - Juan Carlos Abanto Orihuela
43/79
3.5. Opciones para Edición de Gráficos 43
Figura 3.19: Ordenando la legenda de un grafico
3.5. Opciones para Edición de Gráficos
El esquema siguiente nos ayudara a entender los principales comandos deedición de gráficos. Podemos guiarnos de estos para poder tener una mejor
presentación en nuestros gráficos.
graph twoway scatter read write, title("Grafica de Dispersión ///
entre Lectura y Escritura")
Figura 3.20: Antes de la edición
Stata Básico
Aplicado a la Investigación Económica
www.giddea.com
http://www.giddea.com/http://www.giddea.com/
-
8/20/2019 Manual Stata Basico - Juan Carlos Abanto Orihuela
44/79
44 3. Análisis Grafico con Stata
graph twoway scatter read write, ///
ytitle(Nota del Examen de Escritura) ///
xtitle(Nota del Examen de Lectura)
graph twoway scatter read write, ///title("Grafica de Dispersión entre Lectura y Escritura ", ///
size(large) color(red) position(12) ring(1)) ///
ytitle(Nota del Examen de Escritura) ///
xtitle(Nota del Examen de Lectura)
graph twoway scatter read write, ///
title("Grafica de Dispersión entre Lectura y Escritura ", ///
size(large) color(red) position(12) ring(1) box bcolor(white) ///
blcolor(red) bmargin(medium)) ///
ytitle(Nota del Examen de Escritura) ///
xtitle(Nota del Examen de Lectura)
graph twoway scatter read write, ///
title("Grafica de Dispersión entre Lectura y Escritura " ///
"Muestra de 200 Estudiantes", linegap(3) size(large) color(red) ///
position(12) ring(1) box bcolor(white) blcolor(red) ///
bmargin(medium)) ///
ytitle(Nota del Examen de Escritura) ///
xtitle(Nota del Examen de Lectura)
graph twoway scatter read write, ///title("Grafica de Dispersión entre Lectura y Escritura ", ///
size(large) color(red) position(12) ring(9) box bcolor(white) ///
blcolor(red) bmargin(medium)) ///
ytitle(Nota del Examen de Escritura) ///
xtitle(Nota del Examen de Lectura) ///
subtitle("Muestra de 200 Estudiantes") ///
note(Datos de Escuela Secundaria y Superior) ///
caption(Grupo IDDEA.SAC)
graph twoway scatter read write, ///title("Grafica de Dispersión entre Lectura y Escritura ", ///
size(large) color(red) position(12) ring(9) box bcolor(white) ///
blcolor(red) bmargin(medium)) ///
ytitle(Nota del Examen de Escritura) ///
xtitle(Nota del Examen de Lectura) ///
subtitle("Muestra de 200 Estudiantes") ///
note(Datos de Escuela Secundaria y Superior, size(medium) ///
Stata Básico
Aplicado a la Investigación Económica
www.giddea.com
http://www.giddea.com/http://www.giddea.com/
-
8/20/2019 Manual Stata Basico - Juan Carlos Abanto Orihuela
45/79
3.5. Opciones para Edición de Gráficos 45
position(5))
caption(Grupo IDDEA.SAC, size(vsmall) position(5))
graph twoway scatter read write, ///
title("Grafica de Dispersión entre Lectura y Escritura ", ///size(large) color(red) position(12) ring(9) box bcolor(white) ///
blcolor(red) bmargin(medium)) ///
ytitle(Nota del Examen de Escritura, color(white)) ///
xtitle(Nota del Examen de Lectura, color(white)) ///
subtitle("Muestra de 200 Estudiantes", color(white)) ///
note(Datos de Escuela Secundaria y Superior, color(white) ///
size(medium) position(5)) ///
caption(Grupo IDDEA.SAC,color(green) size(small) position(5)) ///
graphregion( color(navy) ) ///
plotregion( fcolor(teal) )
Figura 3.21: Después de la edición
Stata Básico
Aplicado a la Investigación Económica
www.giddea.com
http://www.giddea.com/http://www.giddea.com/
-
8/20/2019 Manual Stata Basico - Juan Carlos Abanto Orihuela
46/79
46 3. Análisis Grafico con Stata
use encuesta.dta
graph hbar commute, over(division)
graph hbar commute, over(division) asyvar
graph bar propval100, over(nsw) over(division) nofill asyvars ///
ylabel(0(10)80)
twoway scatter ownhome propval100, xlabel(#10) ylabel(#5)
twoway scatter ownhome propval100, xscale(alt)
twoway scatter propval100 rent700 ownhome, ylabel(0(10)100) ///
yscale(alt)
twoway (scatter propval100 ownhome) (scatter rent700 ownhome, ///
yaxis(2))
twoway scatter ownhome propval100 [aweight=rent700], msize(small) ///
scheme(vg_outm) yscale(alt) xscale(alt)
Figura 3.22: Grafico de burbujas
use s&p.dta
Stata Básico
Aplicado a la Investigación Económica
www.giddea.com
http://www.giddea.com/http://www.giddea.com/
-
8/20/2019 Manual Stata Basico - Juan Carlos Abanto Orihuela
47/79
3.6. Trabajando con Esquemas y Gráficos Adicionales 47
tw (rarea high low date) (spike volmil date)
tw (rarea high low date) (spike volmil date, yaxis(2))
tw (rarea high low date) (spike volmil date, yaxis(2)), ///yscale(range(500 1400) axis(1))
tw (rarea high low date) (spike volmil date, yaxis(2)), ///
yscale(range(500 1400) axis(1)) yscale(range(0 5) axis(2))
tw (rarea high low date) (spike volmil date, yaxis(2)), ///
yscale(range(500 1400) axis(1)) yscale(range(0 5) axis(2)) ///
scheme(vg_teal)
Figura 3.23: Diferentes escalas
3.6. Trabajando con Esquemas y Gráficos Adi-
cionales
3.6.1. Esquemas
use encuesta.dta
scatter propval100 rent700 ownhome, scheme(vg_blue)
Stata Básico
Aplicado a la Investigación Económica
www.giddea.com
http://www.giddea.com/http://www.giddea.com/
-
8/20/2019 Manual Stata Basico - Juan Carlos Abanto Orihuela
48/79
48 3. Análisis Grafico con Stata
Figura 3.24: Scatter y esquema vg blue
Stata Básico
Aplicado a la Investigación Económica
www.giddea.com
http://www.giddea.com/http://www.giddea.com/
-
8/20/2019 Manual Stata Basico - Juan Carlos Abanto Orihuela
49/79
3.6. Trabajando con Esquemas y Gráficos Adicionales 49
3.6.2. Gráficos de Barras Verticales
use nlsw.dta
graph bar ttl_exp
graph bar prev_exp tenure ttl_exp
graph bar (median) prev_exp tenure ttl_exp
graph bar (median) prev_exp tenure (mean )ttl_exp
graph bar (mean) meanwage=wage (median ) medwage=wage
graph bar prev_exp tenure, over(occ5)
graph bar prev_exp tenure, over(occ5) percentages
graph bar prev_exp tenure, over(occ5) percentages stack
use highshool.dta
graph bar write, over( race) over( female) over( ses) ///
legend(rows(1) stack) blabel(bar, format(%4.1f) size(vsmall)) ///bargap(10) percent scheme(vg_blue)
Figura 3.25: Bar y esquema vg green
3.6.3. Gráficos de Barras Horizontales
use nlsw.dta
graph hbar wage, over(occ5)
graph hbar wage, over(occ5) over(collgrad)
graph hbar wage,over(urban2) over(occ5) over(collgrad)
Stata Básico
Aplicado a la Investigación Económica
www.giddea.com
http://www.giddea.com/http://www.giddea.com/
-
8/20/2019 Manual Stata Basico - Juan Carlos Abanto Orihuela
50/79
50 3. Análisis Grafico con Stata
graph hbar wage,over(urban3) over(union) missing
graph hbar wage,over(grade4) over(union)
graph hbar wage,over(grade4, gap(*.3)) over(union)
graph hbar wage,over(grade4, gap(*3)) over(union)
graph hbar wage,over(occ7)graph hbar wage,over(occ7, sort(1))
graph hbar wage,over(occ7, sort(1) descending)
graph hbar wage hours,over(occ7)
graph hbar wage hours,over(occ7, sort(1))
graph hbar wage hours,over(occ7, sort(2))
graph hbar wage hours,over(occ7, sort(2)) over(married)
graph hbar wage hours,over(occ7, sort(2)) over(married, ///
descending) asyvars
graph hbar wage hours,over(occ7, sort(2)) over(married, ///
descending) asyvars stack
graph hbar wage,over(occ7, label(alternate)) over(collgrad)
Figura 3.26: Hbar y esquema vg rose
3.6.4. Gráficos de Cajas
use nlsw.dta
graph box wage, over(grade4)
graph box wage, over(grade4) nooutsides
graph box wage, over(grade4) nooutsides over(union)
graph box wage, over(grade4) nooutsides over(union) ///
Stata Básico
Aplicado a la Investigación Económica
www.giddea.com
http://www.giddea.com/http://www.giddea.com/
-
8/20/2019 Manual Stata Basico - Juan Carlos Abanto Orihuela
51/79
3.6. Trabajando con Esquemas y Gráficos Adicionales 51
asyvars
graph box wage, over(grade4) nooutsides over(union) ///
asyvars over(urban2)
graph hbox tenure, nooutsides over(occ7)
graph hbox tenure, nooutsides over(occ7, sort(1))graph hbox prev_exp tenure, nooutsides over(occ7, ///
sort(1))
graph hbox prev_exp tenure, nooutsides over(occ7, ///
sort(1)) over(collgrade)
graph hbox prev_exp tenure, nooutsides over(occ7, ///
sort(1)) over(collgrad)
graph hbox ttl_exp tenure, nooutsides over(urban2) ///
over(married) by(union)
graph hbox ttl_exp tenure, nooutsides over(urban2) ///
over(married) by(union, total)
graph hbox ttl_exp tenure, nooutsides over(urban2) ///
over(married) by(union, total row(1))
graph hbox ttl_exp tenure, nooutsides over(urban2) ///
over(married) by(union, total cols(1))
Figura 3.27: Hbox y esquema vg teal
3.6.5. Gráficos de Pastel
use nlsw.dta
graph pie, over(occ7)
Stata Básico
Aplicado a la Investigación Económica
www.giddea.com
http://www.giddea.com/http://www.giddea.com/
-
8/20/2019 Manual Stata Basico - Juan Carlos Abanto Orihuela
52/79
52 3. Análisis Grafico con Stata
graph pie, over(union)
graph pie, over(union) missing
graph pie, over(occ7)
graph pie, over(occ7) noclockwise
graph pie, over(occ7) noclockwise sortgraph pie, over(occ7) sort pie(3, explode)
graph pie, over(occ7) sort pie(3, explode color(cyan)) ///
pie(7, explode(5) color(gold))
graph pie, over(occ7)
graph pie, over(occ7) plabel(_all sum)
graph pie, over(occ7) plabel(_all sum) scheme(economist)
graph pie, over(occ7) plabel(_all percent) scheme(economist)
graph pie, over(occ7) plabel(_all name) scheme(economist)
graph pie, over(occ7) plabel(_all name, gap(-5)) ///
plabel(_all percent, gap(5) format("%2.0f")) scheme(economist)
graph pie, over(occ7) plabel(_all name, gap(-5)) ///
plabel(_all percent, gap(5) format("%2.0f")) ///
legend(title(Ocupación) position(9) cols(1) stack) ///
scheme(economist)
Figura 3.28: Pie y esquema economist
Stata Básico
Aplicado a la Investigación Económica
www.giddea.com
http://www.giddea.com/http://www.giddea.com/
-
8/20/2019 Manual Stata Basico - Juan Carlos Abanto Orihuela
53/79
3.6. Trabajando con Esquemas y Gráficos Adicionales 53
RETO 3
CLASIFICACIÓN DE RIESGOSLa base de datos “deudores”, tiene información acerca de la edad, sexo,
distrito, ingresos, deuda, y calificación de la deuda, para 19,000 deudores.
¿Cuál es la edad promedio de la muestra? Analice la distribución de la edad,con un histograma.
¿Qué AFP tiene más clientes? Realice una grafica sustentando su respuesta.
Genere una dummy mal pagador, que sea 1 si el deudor est á atrasado consus deudas
¿Que % de hombres y mujeres son mal pagadores? ¿Quienes ganan más, enpromedio?
¿A qué edad las personas se atrasan menos? Realice una grafica sustentandosu respuesta.
Genere una nueva base de datos a nivel de distrito, con el número de perso-nas, el salario promedio, y el % de deudores atrasados.
Guarde solo los distritos con al menos 100 personas.
¿Qué distritos son los más ricos? ¿En cuáles la gente es peor pagadora?Realice una grafica sustentando sus resultados.
Stata Básico
Aplicado a la Investigación Económica
www.giddea.com
http://www.giddea.com/http://www.giddea.com/
-
8/20/2019 Manual Stata Basico - Juan Carlos Abanto Orihuela
54/79
54 3. Análisis Grafico con Stata
Stata Básico
Aplicado a la Investigación Económica
www.giddea.com
http://www.giddea.com/http://www.giddea.com/
-
8/20/2019 Manual Stata Basico - Juan Carlos Abanto Orihuela
55/79
Sesión 4Análisis de Regresión Lineal
4.1. Regresión Lineal
Ahora vamos a trabajar con las herramientas que hemos aprendido y va-
mos a generar relaciones econométricas. Empecemos con evaluar una regresiónMCO.
use elemapi.dta
regress api00 acs_k3 meals full
Nuestras expectativas son que un mejor rendimiento académico, este rela-cionado con un tamaño de clase pequeño, pocos estudiantes recibiendo comida
55
-
8/20/2019 Manual Stata Basico - Juan Carlos Abanto Orihuela
56/79
56 4. Análisis de Regresión Lineal
gratuita, y un alto porcentaje de profesores que tengan sus credenciales deenseñanza completa.
regress api00 acs_k3 meals full
Ahora debemos observar los coeficientes de los resultados de nuestra regre-sión, y su significancia. Estos coeficientes deben ser coherentes con nuestrasexpectativas. ¿Qué es lo que observamos?
Antes de decir que esta regresión es correcta debemos hacer un conjuntode pruebas.
describe
list in 1/5
list api00 acs_k3 meals full in 1/10
codebook api00 acs_k3 meals full yr_rnd
summarize api00 acs_k3 meals full
summarize acs_k3, detail
tabulate acs_k3
list snum dnum acs_k3 if acs_k3 < 0
list dnum snum api00 acs_k3 meals full if dnum == 140
histogram acs_k3
graph box acs_k3
stem acs_k3
stem full
tabulate full
tabulate dnum if full
-
8/20/2019 Manual Stata Basico - Juan Carlos Abanto Orihuela
57/79
4.1. Regresión Lineal 57
regress api00 acs_k3 meals full
Luego de corregir la data podemos volver a estimar la regression y observar:
use elemapi2.dtaregress api00 acs_k3 meals full
Digamos que estamos interesados en saber cual es la relaci ón entre el nu-mero de estudiantes y el rendimiento académico.
regress api00 enroll
Primero debemos fijarnos en el test F, y ver si es significativo, lo cual nosmostrara la significancia del modelo. El R2 nos dirá que tanto de la varianzade nuestra variable endógena, es explicado por los regresores. Luego debemosobservar la significancia de los parámetros, ver si sus signos son acorde con lateoŕıa. La constante es el valor predecido para cuando nuestra explicativa seacero.
Podemos observar también que Stata nos presenta la descomposición de lavarianza. La varianza total esta particionada en la varianza explicada por lasvariables independientes (model) y la varianza que no es explicada por dichasvariables(residual). Sabemos que existe una suma de cuadrados asociada a lastres partes de la varianza. Conceptualmente estas son:
SST =
(y − ȳ)2
SSR =
(y−
ŷ)
2
SSM =
(ŷ − ȳ)2
Aśı pues se puede comprobar que SST=SSM+SSR, además debemos recordartambién que R2=SSM/SST.Tambíen podemos observar los grados de libertad, asociados con cada partede las varianzas. La varianza total tiene N-1 gl, los gl del modelo son K-1, losgl del residuo simplemente es la diferencia entre el total menos el modelo.Observamos también las medias cuadráticas, es decir la división de la suma decuadrados entre sus gl. Con estas nosotros podemos calcular el valor del test
F=MSM/MSR, lo cual nos da el ajuste del modelo.El Root MSE es la desviación estandar del error (ráız cuadrada de MSR).
Obtengamos los valores predichos o estimados para el rendimiento académi-co con nuestro modelo y guardemos dichos valores en la variable fv
predict fv
Veamos los valores estimados y los reales:
Stata Básico
Aplicado a la Investigación Económica
www.giddea.com
http://www.giddea.com/http://www.giddea.com/
-
8/20/2019 Manual Stata Basico - Juan Carlos Abanto Orihuela
58/79
58 4. Análisis de Regresión Lineal
list api00 fv in 1/10
scatter api00 enroll
twoway (scatter api00 enroll) (lfit api00 enroll)
Veamos los outliers
twoway (scatter api00 enroll, mlabel(snum)) (lfit api00 enroll)
Ahora obtengamos el residuo de la regresión
predict e, residual
Ups, problemas en los coeficientes y sus significado, entonces ¿Qué hacer?
regress api00 ell meals yr_rnd mobility acs_k3 acs_46 full ///
emer enroll, beta
De esta manera podemos comparar un coeficiente con otro, dado que todostienen la misma medida ahora.
Un nuevo comando, busquemos en la red.
findit listcoef
listcoef
Observación SD=desviación estándar observada, desviación estándar de lavariable Y
SD del Error= desviación estándar del error: MSE (error estándar de la pre-dicción) bstdx=coeficientes de la regresión con las variables x(estandarizadas)y la variable Y(en su unidad original)bstdy=coeficientes de la regresión con las variables x(en su unidad original) yla variable Y(estandarizada)bstdxy=coeficientes de la regresión con las variables x(estandarizadas) y lavariable Y(estandarizada)
Veamos una prueba de hipótesis
test ell==0
test ell
Veamos una prueba de hipótesis conjunta
test acs_k3 acs_46
Veamos la correlación entre las variables
correlate api00 ell meals yr_rnd mobility acs_k3 acs_46 full ///
emer enroll
Stata Básico
Aplicado a la Investigación Económica
www.giddea.com
http://www.giddea.com/http://www.giddea.com/
-
8/20/2019 Manual Stata Basico - Juan Carlos Abanto Orihuela
59/79
4.2. Diagnostico de los Resultados 59
Veamos otra opción para correlacionar variables
pwcorr api00 ell meals yr_rnd mobility acs_k3 acs_46 full ///
emer enroll, obs sig
La normalidad Solo el residuo necesita tener una distribución normal, no lasvariables para que se validen los test. Los coeficientes estimados no requierenuna normalidad de residuos.
Seria bueno sin embargo poseer variables que posean una distribución nor-mal.
histogram enroll
histogram enroll, normal bin(20)
histogram enroll, normal bin(20) xlabel(0(100)1600)
kdensity enroll, normal
graph box enrollsymplot enroll
qnorm enroll
pnorm enroll
Veamos todas las posibilidades
ladder enroll
gladder enroll
Ajustemos a nuestra mejor eleccion
generate lenroll = log(enroll)hist lenroll, normal
4.2. Diagnostico de los Resultados
4.2.1. Efecto Influencia
Ahora vamos a centrarnos en el diagnostico de nuestros resultados. Vemoslos problemas que podŕıan presentarse. Para ello debemos considerar los efectos
de outliers (una observación con un amplio residuo, que indica una muestrapeculiar o un error en la data), leverage (medida de cuan lejos una variableindependiente esta desviada de su media, puede afectar los coeficientes dela regresión) y el efecto influencia (observación que al removerla, cambia laestimación de los coeficientes radicalmente. dicho problema se le atribuye a unleverage o a un outlier)
Usemos para esto, la base de datos diseñada por Alan Agresti y BarbaraFinlay (Prentice Hall, 1997).
Stata Básico
Aplicado a la Investigación Económica
www.giddea.com
http://www.giddea.com/http://www.giddea.com/
-
8/20/2019 Manual Stata Basico - Juan Carlos Abanto Orihuela
60/79
60 4. Análisis de Regresión Lineal
use crimen.dta
describe
sum crimenes asesinatos pcturb pctblanco pctnivedu pobreza soltero
graph matrix crimenes pcturb pobreza soltero
Figura 4.1: Crimenes, pcturb, pobreza y soltero
Observamos algunas irregularidades. Vemos en muchos gráficos puntos queestán apartados del resto ¿de que estados serán?
scatter crimenes pcturb, mlabel(estado)
scatter crimenes pobreza, mlabel(estado)
scatter crı́menes soltero, mlabel(estado)
¿Qué observamos?
regress crimenes pcturb pobreza soltero
predict r, rstudent
stem r
sort r
list estadoid estado r in 1/10
list estadoid estado r in -10/l
findit hilo
hilo r estado
Stata Básico
Aplicado a la Investigación Económica
www.giddea.com
http://www.giddea.com/http://www.giddea.com/
-
8/20/2019 Manual Stata Basico - Juan Carlos Abanto Orihuela
61/79
4.2. Diagnostico de los Resultados 61
list r crimenes pcturb pobreza soltero if abs(r) > 2
predict lev, leverage
stem levhilo lev estado, show(5) high
Analizar aquellos puntos con leverage mayores a (2k+2)/n
display (2*3+2)/51
list crimenes pcturb pobreza soltero estado lev if lev >.156
Veamos el leverage y los residuos cuadrados
lvr2plot, mlabel( estado)
list estado crimenes pcturb pobreza soltero if estado=="dc" | ///
estado=="ms"
Veamos los Cook’s D
predict d, cooksd
list crimenes pcturb pobreza soltero estado d if d>4/51
Veamos la influencia
predict dfit, dfits
list crimenes pcturb pobreza soltero estado dfit if abs(dfit)> ///
2*sqrt(3/51)
Evaluemos que pasaŕıa con los coeficientes si se borrara la informaciónen algunas variables, ¿estos cambiaŕıan? Es decir, ¿nuestros coeficientes sonrobustos o no?
dfbeta
list estado DFpcturb DFpobreza DFsoltero in 1/5
El valor de dfbeta para una observación, significara que de ser incluida enel análisis (comparativamente a no ser incluida) incrementara el coeficiente debeta, en dicho valor multiplicado por el error estándar del beta correspondiente.
Un dfbeta mayor a 2/sqrt(n) necesita ser investigado.display 2/sqrt(51)
scatter DFpcturb DFpobreza DFsoltero estadoid, ylabel(-1(.5)3) ///
yline(.28 -.28)
scatter DFpcturb DFpobreza DFsoltero estadoid, ylabel(-1(.5)3) ///
yline(.28 -.28) mlabel(estado estado estado)
list DFsoltero estado crimenes pcturb pobreza soltero if ///
abs( DFsoltero) > 2/sqrt(51)
Stata Básico
Aplicado a la Investigación Económica
www.giddea.com
http://www.giddea.com/http://www.giddea.com/
-
8/20/2019 Manual Stata Basico - Juan Carlos Abanto Orihuela
62/79
62 4. Análisis de Regresión Lineal
Veamos el efecto influencia a través de regresiones parciales, de maneragrafica.
avplot soltero, mlabel( estado)
avplots
regress
regress crimenes pcturb pobreza soltero if estado !="dc"
Si bien podemos buscar outliers con variables pertenecientes al modelo,también podemos hacerlo con variables que no están incluidas en el modelo.
regress crimenes pcturb pobreza soltero
avplot pctblanco
regress crimenes pcturb pobreza soltero pctblanco
4.3. Normalidad del Residuo
La normalidad del residuo es requerida por muchas investigaciones si no-sotros deseamos validar las pruebas de hipótesis sobre t-value y F-value. Ojo,la no normalidad del residuo no invalidad la regresión. Una regresión validarequiere que el residuo sea idéntica e independientemente distribuida, no re-quiere que las variables explicativas sean distribuidas de forma normal. Si nocomo explicaŕıamos el uso de variables dummys en nuestras regresiones.
use elemapi2,clear
regress api00 meals ell emer
predict r, resid
Análisis grafico de normalidad
kdensity r, normal
pnorm r
qnorm r
Stata Básico
Aplicado a la Investigación Económica
www.giddea.com
http://www.giddea.com/http://www.giddea.com/
-
8/20/2019 Manual Stata Basico - Juan Carlos Abanto Orihuela
63/79
4.4. Homocedasticidad del Residuo 63
Test de NormalidadTest de Lawrence C. Hamilton
findit iqr
iqr r
Test de Shapiro-Wilk W (Ho: Normalidad)
swilk r
4.4. Homocedasticidad del Residuo
Supuesto crucial en un modelo MCO, la varianza de sus residuos debe serconstante. Si la varianza no es constante entonces hay heterocedasticidad que
bien podŕıa ser modelada a través de un modelo de volatilidad.Detección
rvfplot, yline(0)
Figura 4.2: Homocedasticidad del residuo
Test de Heterocedasticidad (Ho: Varianza constante)
Test de White
estat imtest
Test de Breusch y Pagan
Stata Básico
Aplicado a la Investigación Económica
www.giddea.com
http://www.giddea.com/http://www.giddea.com/
-
8/20/2019 Manual Stata Basico - Juan Carlos Abanto Orihuela
64/79
64 4. Análisis de Regresión Lineal
estat hettest
El análisis grafico no nos muestra un problema serio de heterocedasticidad.Aśı que no lo corregiremos por ahora.
4.5. Multicolinealidad
Cuando dos variables explicativas están altamente relacionadas, podemoshablar de multicolinealidad. Para detectar la multicolinealidad nosotros usa-remos el factor de inflación de varianza (VIF) Aquella variable cuyo vif seamayor a 10 deberá ser investigada.
regress api00 meals ell emer
vif
regress api00 acs_k3 avg_ed grad_sch col_grad some_col
vif
¿Qué podriamos decir de esta regresión?, ¿porqué presentaria problemasde multicolinealidad?
regress api00 acs_k3 grad_sch col_grad some_col
vif
findit collin
collin acs_k3 avg_ed grad_sch col_grad some_col
collin acs_k3 grad_sch col_grad some_col
4.6. Linealidad
Uno de los supuestos del Modelo Lineal General es la linealidad de par á-metros especificada en mi regresión. Si estamos frente a un ajuste no lineal,entonces nosotros tendremos problemas dado que estamos forzando una ĺıneacomo ajuste de nuestra relación no lineal.
Analicemos solo a una variable.regress api00 enroll
twoway (scatter api00 enroll) (lfit api00 enroll) (lowess api00 enroll)
regress api00 meals some_col
predict r, resid
scatter r meals
scatter r some_col
Stata Básico
Aplicado a la Investigación Económica
www.giddea.com
http://www.giddea.com/http://www.giddea.com/
-
8/20/2019 Manual Stata Basico - Juan Carlos Abanto Orihuela
65/79
4.7. Especificación del modelo 65
No se vio una clara no linealidad, entonces usemos algo mas efectivo
acprplot meals, lowess lsopts(bwidth(1))
acprplot some_col, lowess lsopts(bwidth(1))
Tampoco se ve un problema grave de no linealidad. Usemos una data masinteresante.
use nations.dta
describe
regress birth gnpcap urban
acprplot gnpcap, lowess
acprplot urban, lowess
graph matrix birth gnpcap urban, half
kdensity gnpcap, normal
Transformemos un dato
generate lggnp=log(gnpcap)
label variable lggnp "log-10 of gnpcap"
kdensity lggnp, normal
Regresionemos con el dato transformado
regress birth lggnp urban
acprplot lggnp, lowess
4.7. Especificación del modelo
Un error en la especificación del modelo puede ocurrir cuando uno o masvariables relevantes son omitidas del modelo o una o mas variables relevantesson incluidas en el modelo. Una mala especificación puede afectar los paráme-tros estimados.
Digamos que estamos corriendo una regresión entre el tamaño de la clase y
el rendimiento académico, un incremento en la primera influirá incrementandola segunda, evaluaremos la especificación del modelo, para ello usaremos lossiguientes comandos
use elemapi2, clear
regress api00 acs_k3
Un par de métodos Linktest, esta basado en la idea de que si el modelo estabien especificado, entonces no debeŕıamos encontrar variables independientes
Stata Básico
Aplicado a la Investigación Económica
www.giddea.com
http://www.giddea.com/http://www.giddea.com/
-
8/20/2019 Manual Stata Basico - Juan Carlos Abanto Orihuela
66/79
66 4. Análisis de Regresión Lineal
que sean significativas. El comando crea 2 variables nuevas, una variable es-timada, y el cuadrado de dicha estimación. Se evalúa el modelo con ambasvariables, la estimación y hat debeŕıa ser significativa pues es el valor esti-mado, pero su cuadrado no debeŕıa serlo, pues de estar bien especificado el
modelo, la estimación al cuadrado no debeŕıa tener mucho poder explicativo.
Linktest
Ovtest
regress api00 acs_k3 full
linktest
ovtest
regress api00 acs_k3 full meals
linktest
ovtest
4.8. Independencia
Los errores asociados a una observación no debeŕıan estar asociados a loserrores de alguna otra observación. En nuestro caso, al haber recolectado da-tos de 8 tipos de escuela es probable que estudiantes dentro de sus escuelastiendan a ser mas parecidos que estudiantes de otra escuela, esto produciŕıaerrores no independientes. El problema de autocorrelacion es muy común en
series de tiempo, en la cual nosotros evaluamos el test DW para ver la auto-correlación de primer orden. Si quisiéramos especificar este análisis en nuestradata, podrı́amos considerar a la variable snum como el tiempo
use elemapi2, clear
tsset snum
regress api00 enroll
dwstat
predict r, resid
scatter r snum
¿Qué observamos?
Stata Básico
Aplicado a la Investigación Económica
www.giddea.com
http://www.giddea.com/http://www.giddea.com/
-
8/20/2019 Manual Stata Basico - Juan Carlos Abanto Orihuela
67/79
4.8. Independencia 67
RETO 4
Trabajar con el archivo “gobusa5089.dta” y contestar las siguientes pregun-tas:
¿Identificar las variables y opinar respecto a cada variable, realizarun análisis gráfico y estad́ıstico para comprender la base de datos?.¿Identificar las variables de polı́tica y las variables apoĺıticas?
¿Elaborar una tabla de correlaciones entre la variable tax y las variablespoĺıticas y comentar los resultados sobresalientes?.
Responder a lo siguiente: ¿Quíenes cobran más impuestos, los esta-dos con gobiernos divididos o los estados con gobiernos unificados?,¿qué tan seguro estás de su respuesta?.
Marco teórico mı́nimo. Existen varias teoŕıas respecto del impacto de losfactores polı́ticos y económicos sobre la poĺıtica tributaria en cada estado:
Las teoŕıas apoĺıticas dicen que las variables socioeconómicas y de-mográficos (ingreso, población, grupos de edad) son los principales de-terminantes de los impuestos.
Entre las teorı́as polı́ticas, algunos dicen que los factores poĺıticos par-tidistas (partido en el gobierno y/o congreso local, mayoŕıa demócrataen el congreso o no, etc.) también son importantes.
Mientras que otros dicen que son las variables poĺıticas no-partidistas
(gobierno dividido, margen de la primera fuerza en el congreso local,etc.) las que afectan los impuestos, y no tanto la ideoloǵıa o identidaddel partido en el poder (demócrata vs. republicano).
Especifica al menos tres regresiones (con errores estándar robustos) para lavariable tax y compara sus resultados. Interpreta brevemente los coeficien-tes, su bondad de ajuste, etc. y explica cuál de ellos es preferible a los otros.(Tip: no incluyas la variable spend en tu regresión).
Pruebas de hipótesis
Controlando por otros factores, la relación entre población e impuestoses no lineal.
Controlando por otros factores, los gobernadores demócratas cobranmás impuestos que los no demócratas.
Manteniendo otros factores constantes, los estados con mayoŕıa demócra-ta en el congreso local cobran más impuestos que los gobiernos sinmayoŕıa demócrata.
Stata Básico
Aplicado a la Investigación Económica
www.giddea.com
http://www.giddea.com/http://www.giddea.com/
-
8/20/2019 Manual Stata Basico - Juan Carlos Abanto Orihuela
68/79
68 4. Análisis de Regresión Lineal
Manteniendo otros factores constantes, los gobiernos divididos cobranmenos impuestos que los gobiernos no divididos.
El impacto del gobierno dividido cambia si sólo consideramos el perı́odo1975-1989 en la regresión.
Manteniendo otros factores constantes, una vez que controlamos porquíen tiene la mayoŕıa en el congreso (demmaj1), el margen de estamayoŕıa (dem1) no tiene un impacto en los impuestos.
Interpretando regresiones:
¿Cuál es la bondad de ajuste de un modelo sin variables poĺıticas? ¿Cuántopoder explicativo adicional se consigue al incluir las variables poĺıticas?¿Qué variables poĺıticas importan más, las partidistas o las no partidistas?(ojo, esta pregunta requiere cierta interpretación de la R2 ajustada de variosmodelos, aśı como la magnitud y significancia de tus coeficientes).
Predicciones:
¿Cuánto cambian los impuestos per cápita si el ingreso per cápita aumenta enuna desviación estándar? Calcula este cambio en dólares y como proporciónde los impuestos promedio de la muestra.
¿Cuánto cambian los impuestos cuando la mayoŕıa demócrata en el congresolocal pasa de 10 a 30 %? Calcula este cambio en dólares y como proporciónde los impuestos promedio de la muestra.
Stata Básico
Aplicado a la Investigación Económica
www.giddea.com
http://www.giddea.com/http://www.giddea.com/
-
8/20/2019 Manual Stata Basico - Juan Carlos Abanto Orihuela
69/79
Sesión 5Variables Categóricas
5.1. Estimación con Variables Categóricas
Hab́ıamos usado variables continuas anteriormente, sin embargo es posible
usar variables categóricas en un análisis de regresión pero requiere un trabajoextra en la interpretación, el análisis y diagnostico de los resultados.
use elemapi2.dta, clear
describe api00 some_col yr_rnd mealcat
codebook api00
codebook some_col
codebook yr_rnd
codebook mealcat
Uso de variables dummy Regresionemos el rendimiento académico con lavariable que nos indica si el alumno esta en el programa year-round o no
regress api00 yr_rnd
twoway (scatter api00 yr_rnd) (lfit api00 yr_rnd)
tabulate yr_rnd, sum(api00)
Observamos un parámetro negativo en la regresión, para nuestra variabledummy. Esto significa que si dicha variable toma el valor de cero la medida delrendimiento de los alumnos será su media considerando solo a aquellos alumnosque no están en el programa o sistema de enseñanza, mientras que si la variabletoma el valor de uno, la medida del rendimiento será la media considerandosolo a aquellos alumnos que si están bajo este sistema de enseñanza.
ttest api00, by(yr_rnd)
anova api00 yr_rnd
display 10.7815^2
codebook mealcat
regress api00 mealcat
69
-
8/20/2019 Manual Stata Basico - Juan Carlos Abanto Orihuela
70/79
70 5. Variables Categóricas
Pero esta variable mealcat es una variable intervalo, podrı́amos generar tresvariables a partir de esta, de tal forma que podamos definir a cada sub variablecomo un valor cada vez que mealcat pertenezca a cierto intervalo.
tabulate mealcat, gen(mealcat)
list mealcat mealcat1 mealcat2 mealcat3 in 1/10, nolabel
regress api00 mealcat2 mealcat3
La constante es la media para el grupo1. El coeficiente de mealcat2 es lamedia del grupo 2 menos la media del grupo1, y el coeficiente de mealcat3 esla media del grupo3 menos la media del grupo1.
Los resultados nos dicen que los tres grupos difieren de sus medidas derendimientos.
test mealcat2 mealcat3tabulate mealcat, summarize(api00)
5.2. El Comando Xi
Lo mismo podemos hacer con el comando “xi”,
xi : regress api00 i.mealcat
test _Imealcat_2 _Imealcat_3
Si deseáramos omitir el tercer grupo y no el primero, entonces debeŕıamosusar el siguiente comando:
char mealcat[omit] 3
xi : regress api00 i.mealcat
Nosotros podemos hacer el mismo análisis usando el comando “anova”
anova api00 mealcat
anova, regress
Aqúı vemos que siempre la ultima categoŕıa es borrada y reemplazada conla constante.Los beneficios del comando “anova” es que te da el efecto total de meal-
cat sin necesitar el uso del comando test como lo haćıamos con el comando“regress”.
Volvamos a nuestras regresiones:
regress api00 yr_rnd
xi : regress api00 i.mealcat
Stata Básico
Aplicado a la Investigación Económica
www.giddea.com
http://www.giddea.com/http://www.giddea.com/
-
8/20/2019 Manual Stata Basico - Juan Carlos Abanto Orihuela
71/79
5.2. El Comando Xi 71
Y ahora vamos a estimar el rendimiento académico usando una variabledicotomica mas:
xi : regress api00 i.mealcat yr_rnd
test _Imealcat_1 _Imealcat_2
anova api00 yr_rnd mealcat
anova, regress
Dado que este modelo solo tiene efectos principales, sin interacciones, lainterpretación del coeficiente de ”yr rnd”, es la diferencia entre escuelas consistema year round y escuelas sin ese sistema de enseñanza, el primer coeficientepara la variable “mealcat” es la diferencia entre mealcat=1 y mealcat=3, elsegundo es la diferencia entre mealcat=2 y mealcat=3 (siendo mealcat=3 lavariable categórica de referencia y la cual es estimada por la variable)
Finalmente los resultados indican que las diferencias entre un sistema deenseñanza year-round y un sistema de enseñanza sin year-round es significativoy las diferencias entre los tres grupos mealcat también son significativos.
Veamos algunas interacciones con las variables categóricas:
xi : regress api00 i.mealcat*yr_rnd
Ahora incluiremos la interacción entre mealcat y yr rnd Y testeamos lasignificancia:
test _ImeaXyr_rn_1 _ImeaXyr_rn_2
Si deseamos testear el efecto de yr rnd para mealcat=1:
test _b[yr_rnd] +_b[_ImeaXyr_rn_1] ==0
Puedo ver un testeo sobre todos los efectos principales e iteraciones sin lanecesidad de recurrir al comando test:
anova api00 yr_rnd mealcat yr_rnd*mealcat
regress api00 yr_rnd some_col
predict yhat
scatter yhat some_col
Stata Básico
Aplicado a la Investigación Económica
www.giddea.com
http://www.giddea.com/http://www.giddea.com/
-
8/20/2019 Manual Stata Basico - Juan Carlos Abanto Orihuela
72/79
72 5. Variables Categóricas
Para correr un Anova necesitamos indicarle que la variable a evaluar tienecaracterı́sticas de continuidad:
anova api00 yr_rnd some_col, cont(some_col)
INTERACCIONES
regress api00 some_col if yr_rnd==0
predict yhat0 if yr_rnd==0
scatter yhat0 api00 some_col if yr_rnd==0, connect(l i)
msymbol(i o) sort
regress api00 some_col if yr_rnd==1
predict yhat1 if yr_rnd==1
scatter yhat1 api00 some_col if yr_rnd==1, connect(l i)
msymbol(i o) sort
5.3. Pruebas de Hipótesis
El GPA (Grade Point Average, o promedio de notas) es una medida de lacalidad de su traba jo académico a nivel universitario. Algunos patrones suelenutilizar al GPA como un factor clave cuando les ofrezcan trabajo a egresadosde la universidad. Es por eso que resulta de suma importancia mantener unbuen GPA durante toda su carrera universitaria.
El examen de aptitud SAT (Scholastic Aptitude Test - Examen de apti-
tudes escolares) es un examen estandarizado para admisión a universidadesen EEUU. El rango de este, varia entre los 600 y 2400 puntos, consta de 3secciones, matemática, lectura critica, y escritura.
use GPA.dta, clear
desc
sum
reg colgpa sat verbmath tothrs hsperc hsize, robust
reg colgpa sat verbmath tothrs hsperc hsize hsizesq, robust
display _b[hsize] / (2*_b[hsizesq])
¿Si el SAT score aumenta 100 puntos, que tan probable es que el GPAaumente 0.25 puntos?
display (_b[sat] - .0025) / _se[sat]
display ttail(4130, 15.52)
display ttail(4130, 1.52)
display ttail(413, 1.52)
display ttail(41, 1.52)
Stata Básico
Aplicado a la Investigación Económica
www.giddea.com
http://www.giddea.com/http://www.giddea.com/
-
8/20/2019 Manual Stata Basico - Juan Carlos Abanto Orihuela
73/79
5.3. Pruebas de Hipótesis 73
Afortunadamente, Stata hace pruebas de hipótesis de manera muy “intui-tiva”
test sat = .0025
Otras pruebas:
test sat = .002
test sat = .0014
reg colgpa sat verbmath tothrs hsperc hsize hsizesq, robust
¿Qué pasa con la regresión si solo tomamos las primeras 2000 observacionesde la muestra?
reg colgpa sat verbmath tothrs hsperc hsize hsizesq ///
if _n
-
8/20/2019 Manual Stata Basico - Juan Carlos Abanto Orihuela
74/79
74 5. Variables Categóricas
use Salario2.dta,