Manual Stata Basico - Juan Carlos Abanto Orihuela

download Manual Stata Basico - Juan Carlos Abanto Orihuela

of 29

Transcript of Manual Stata Basico - Juan Carlos Abanto Orihuela

  • 8/20/2019 Manual Stata Basico - Juan Carlos Abanto Orihuela

    1/79

    StataBásico

    Aplicado a la Investigación Económica

    Juan Carlos Abanto Orihuela

    25 de enero de 2013

  • 8/20/2019 Manual Stata Basico - Juan Carlos Abanto Orihuela

    2/79

    2

    Stata Básico

    Aplicado a la Investigación Económica

    www.giddea.com

    [email protected]

    http://www.giddea.com/http://www.giddea.com/

  • 8/20/2019 Manual Stata Basico - Juan Carlos Abanto Orihuela

    3/79

    Índice general

    Índice general   3

    1. Introducción al Stata   51.1. Iniciando Stata   . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

    1.2. Tipos de Archivos en Stata . . . . . . . . . . . . . . . . . . . . . 61.3. Estructura Básica de Stata . . . . . . . . . . . . . . . . . . . . . 61.4. Principales Comandos de Trabajo y Análisis   . . . . . . . . . . . 7

    1.4.1. Las Bitácoras   . . . . . . . . . . . . . . . . . . . . . . . . 71.4.2. La Base de Datos   . . . . . . . . . . . . . . . . . . . . . . 71.4.3. Append, Merge, Collapse . . . . . . . . . . . . . . . . . . 9

    2. Manejo de Datos   152.1. Cargando los Datos en Stata  . . . . . . . . . . . . . . . . . . . . 152.2. Etiquetas   . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15

    2.3. Comando IF  . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 172.4. Comando SUMMARIZE   . . . . . . . . . . . . . . . . . . . . . . 182.5. Comando SPLIT   . . . . . . . . . . . . . . . . . . . . . . . . . . 182.6. Creando Variables . . . . . . . . . . . . . . . . . . . . . . . . . . 192.7. KEEP y DROP   . . . . . . . . . . . . . . . . . . . . . . . . . . . 222.8. Reestructurando los Datos   . . . . . . . . . . . . . . . . . . . . . 242.9. Muestreos Probabiĺısticos . . . . . . . . . . . . . . . . . . . . . . 262.10. Generación de Números Aleatorios   . . . . . . . . . . . . . . . . 262.11. Percentiles, Cuartiles, Deciles   . . . . . . . . . . . . . . . . . . . 27

    3. Análisis Grafico con Stata   31

    3.1. Visualizando Algunos Comandos   . . . . . . . . . . . . . . . . . 313.2. TWOWAY . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 333.3. TWOWAY y SCATTERPLOT   . . . . . . . . . . . . . . . . . . 383.4. Combinando TWOWAY Y SCATTERPLOT   . . . . . . . . . . . 40

    3.4.1. Filtro de Gráficos   . . . . . . . . . . . . . . . . . . . . . . 403.4.2. Unión de Gráficos . . . . . . . . . . . . . . . . . . . . . . 40

    3.5. Opciones para Edición de Gráficos . . . . . . . . . . . . . . . . . 433.6. Trabajando con Esquemas y Gráficos Adicionales   . . . . . . . . 47

    3

  • 8/20/2019 Manual Stata Basico - Juan Carlos Abanto Orihuela

    4/79

    4   ÍNDICE GENERAL

    3.6.1. Esquemas   . . . . . . . . . . . . . . . . . . . . . . . . . . 473.6.2. Gráficos de Barras Verticales . . . . . . . . . . . . . . . . 493.6.3. Gráficos de Barras Horizontales   . . . . . . . . . . . . . . 493.6.4. Gráficos de Cajas   . . . . . . . . . . . . . . . . . . . . . . 50

    3.6.5. Gráficos de Pastel . . . . . . . . . . . . . . . . . . . . . . 51

    4. Análisis de Regresión Lineal   554.1. Regresión Lineal   . . . . . . . . . . . . . . . . . . . . . . . . . . 554.2. Diagnostico de los Resultados   . . . . . . . . . . . . . . . . . . . 59

    4.2.1. Efecto Influencia   . . . . . . . . . . . . . . . . . . . . . . 594.3. Normalidad del Residuo   . . . . . . . . . . . . . . . . . . . . . . 624.4. Homocedasticidad del Residuo   . . . . . . . . . . . . . . . . . . . 634.5. Multicolinealidad   . . . . . . . . . . . . . . . . . . . . . . . . . . 644.6. Linealidad   . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 644.7. Especificación del modelo   . . . . . . . . . . . . . . . . . . . . . 65

    4.8. Independencia   . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66

    5. Variables Categóricas   695.1. Estimacíon con Variables Categóricas   . . . . . . . . . . . . . . . 695.2. El Comando Xi   . . . . . . . . . . . . . . . . . . . . . . . . . . . 705.3. Pruebas de Hipótesis   . . . . . . . . . . . . . . . . . . . . . . . . 725.4. Creacíon de Variables Dummys   . . . . . . . . . . . . . . . . . . 755.5. Bucles y Programas . . . . . . . . . . . . . . . . . . . . . . . . . 75

    Bibliografı́a   79

    Stata Básico

    Aplicado a la Investigación Económica

    www.giddea.com

    [email protected]

    http://www.giddea.com/http://www.giddea.com/

  • 8/20/2019 Manual Stata Basico - Juan Carlos Abanto Orihuela

    5/79

    Sesión   1Introducción al Stata

    1.1. Iniciando Stata

    Stata es una poderosa herramienta en aplicaciones económicas. Puede ayu-darnos a analizar fácil y eficientemente, series de tiempo, paneles, y data desección cruzada. Nos dará las herramientas que necesitamos para organizar ymanejar un gran tamaño de data, obteniendo resultados de análisis estadı́sti-cos.

    En esta sesión introduciremos las nociones básicas del software, para pos-teriormente realizar un análisis estad́ıstico y familiarizarnos con el manejo ymodificación de la base de datos.

    Veamos como se presenta Stata al iniciarse. (ver Figura 1.1)

    Figura 1.1: Pantalla de Inicio

    5

  • 8/20/2019 Manual Stata Basico - Juan Carlos Abanto Orihuela

    6/79

    6 1. Introducción al Stata

    Los comandos de stata están implementados en el menú el cual esta organizadopor tópicos. Ası́ nosotros podemos trabajar interactivamente y de manera muysimple, sin embargo sigue siendo útil el uso de comandos para realizar el análisisdado que da pie al manejo de programas, o estructuras de programaci ón. (ver

    Figura 1.2)

    Figura 1.2: Barra de Comandos

    1.2. Tipos de Archivos en Stata

    En STATA, distinguimos 3 tipos de archivos importantes:Archivo de extensión dta, para la generación de base de datos, en ella se

    almacenara información de las variables con su respectiva extensión.

    Archivo de extensión log, smcl, para la generación de bitácoras, en ella seguardaran los resultados de manera ordenada, sin tener que pasarlos a ningúntipo de archivo de texto.

    Archivo de extensión do, que es un archivo de ejecución, donde se elaborael programa.

    Archivo de extensión gph, para la generación de gráficos almacenados en

    la carpeta de trabajo

    1.3. Estructura Básica de Stata

    Siempre que trabajemos en STATA, es recomendable que mantengamoscierta estructura. (ver Figura 1.3)

    Stata Básico

    Aplicado a la Investigación Económica

    www.giddea.com

    [email protected]

    http://www.giddea.com/http://www.giddea.com/

  • 8/20/2019 Manual Stata Basico - Juan Carlos Abanto Orihuela

    7/79

    1.4. Principales Comandos de Traba jo y Análisis 7

    Figura 1.3: Estructura Básica

    1.4. Principales Comandos de Trabajo y Análi-

    sis

    Ahora veamos los principales comandos de trabajo, los cuales harán quelos futuros análisis econométricos sean simples de realizar.

    1.4.1. Las Bitácoras

    En estos objetos se guardara la información tal y cual aparecen en la ven-tana Result, aunque también podrı́amos indicarle al programa que deseamossolo guardar los comandos y no los resultados.

    log using clase1.logo tambíen

    cmdlog using clase1.log

    1.4.2. La Base de Datos

    El uso de la base de datos es vital para nuestro an álisis, a continuaciónpresentamos los comandos que nos enseñara a trabajar con esta.

    use auto.dta

    Stata Básico

    Aplicado a la Investigación Económica

    www.giddea.com

    [email protected]

    http://www.giddea.com/http://www.giddea.com/

  • 8/20/2019 Manual Stata Basico - Juan Carlos Abanto Orihuela

    8/79

    8 1. Introducción al Stata

    use auto.dta if foreign==1

    use auto.dta in 1/10

    use make mpg using auto.dta

    save auto01.dta

    Repasemos lo que hemos aprendido:Ya sabemos como limpiar la memoria de Stata, también sabemos como ampliaresta memoria para trabajar con data de gran capacidad. Sabemos como fijarel path de trabajo, como crear una rutina y como cargar la base de datos anuestro espacio de trabajo. Ahora vamos a trabajar con la base de datos paraempezar nuestro análisis.

    use auto01.dta

    browse

    replace mpg=20 if mpg==19

    save, replace

    list make

    list make price

    describe

    codebook

    summarize mpg weight

    summarize mpg weight if foreign

    summarize price if mpg=21.3

    summarize price, detail

    tabulate mpg

    table mpg

    table rep78, contents(n mpg)

    table rep78, contents(n mpg mean mpg sd mpg median mpg)table rep78, c(n mpg mean mpg sd mpg median mpg) format(%9.2f)

    sort mpg

    gsort mpg

    gsort -mpg

    sort foreign

    by foreign: summarize price

    Stata Básico

    Aplicado a la Investigación Económica

    www.giddea.com

    [email protected]

    http://www.giddea.com/http://www.giddea.com/

  • 8/20/2019 Manual Stata Basico - Juan Carlos Abanto Orihuela

    9/79

    1.4. Principales Comandos de Traba jo y Análisis 9

    count

    count if foreign==0

    count if foreign==1

    by foreign: count

    generate orden=_n

    rename orden num_obs

    by foreign: egen prom_mill=mean(mpg)

    drop num_obs

    keep make price mpg prom_mill

    1.4.3. Append, Merge, Collapse

    El comando append y merge nos ayudara a unir bases de datos integrándo-las en una sola. Append, pegara hacia abajo o verticalmente y Merge, pegarahacia el costado o de forma horizontal.

    clear

    use base1, clear

    list

    use base2, clear

    list

    use base3, clear

    list

    use base4, clear

    list

    Vamos a empezar observando cada una de las bases de datos que tenemos,veamos la figura1.4 Empecemos nuestra tarea en Stata, podemos observar que

    Figura 1.4: Bases de Datos

    Stata Básico

    Aplicado a la Investigación Económica

    www.giddea.com

    [email protected]

    http://www.giddea.com/http://www.giddea.com/

  • 8/20/2019 Manual Stata Basico - Juan Carlos Abanto Orihuela

    10/79

    10 1. Introducción al Stata

    la base de datos Base1 tiene los mismos campos (columnas) que la base dedatos Base2, pero diferentes filas, seria útil, unir ambas bases.

    Abramos entonces, la base de datos Base1 y peguemosla con la base dedatos Base2, una unión vertical.

    use base1.dta, clear

    list

    append using base2

    list

    save base12.dta, replace

    list

    Hagamos lo mismo con las bases de datos Base3 y Base4 y observemos losresultados:

    use base3.dta, clear

    list

    append using base4

    list

    save base34.dta, replace

    list

    ¿Por qué la variable la variable sexo se añadió 2 veces como columna?¿porqué no se unió en una sola columna?

    use base3.dta, clear

    list

    rename Sexo sexo

    list

    save base03.dta, replace

    use base03.dta, clear

    list

    append using base4

    list

    save base034.dta, replace

    Ahora si resulto bien la unión vertical. Veamos la base12 que teńıamos

    antes.Ahora mi inteŕes es fusionar ambas bases de datos, para ello, primero de-bemos ordenar ambas bases según la variable con la que vamos a fusionar (lavariable común).

    use base034.dta, clear

    list

    sort nombre

    list

    Stata Básico

    Aplicado a la Investigación Económica

    www.giddea.com

    [email protected]

    http://www.giddea.com/http://www.giddea.com/

  • 8/20/2019 Manual Stata Basico - Juan Carlos Abanto Orihuela

    11/79

    1.4. Principales Comandos de Trabajo y Análisis 11

    save base034s.dta, replace

    use base12.dta, clear

    list

    sort nombrelist

    save base12s.dta, replace

    Ya tenemos las 2 bases de datos ordenadas, ahora vamos a fusionarlas

    clear

    use base12s.dta, clear

    list

     merge nombre using base034s.dta

    list

    save basetotal.dta, replace

    La figura1.5 nos muestra la base de datos total.

    Figura 1.5: Base Total

    Podemos tabular la variable merge para ver si se pegaron correctamente lasbases de datos, o también observar la columna final merge en caso de baseschicas como esta.

    tab _merge

    Analicemos los resultados. Hay tres posibles valores que puede tomar estavariable según lo muestra la figura1.6. Si toma el valor de 1 nos indicara quees una observación que solo se encuentra en la base matriz, si toma el valorde 2 nos indicara que es una observación que proviene de la base esclava, y sitoma el valor de 3, nos indicara que la observaci ón proviene de ambas bases.

    Stata Básico

    Aplicado a la Investigación Económica

    www.giddea.com

    [email protected]

    http://www.giddea.com/http://www.giddea.com/

  • 8/20/2019 Manual Stata Basico - Juan Carlos Abanto Orihuela

    12/79

    12 1. Introducción al Stata

    Figura 1.6: tab merge

    El comando collapse sirve para convertir una base de datos que contiene va-riables para diversas unidades de estudio, en una base de datos que contieneestad́ısticos de dichas variables (medias, medianas, sumas etc). Permite obte-ner estad́ısticos para unidades más grandes (en un sentido jerárquico), comopor ejemplo, pasar de datos por individuo a datos por hogar, de datos por

    distritos a datos por provincia (agregación)En el comando se especifican aquellas variables que se ”colapsan” y las con-

    diciones que se imponen para dicha transformación. Algunas variables puedenser colapsadas según su suma, otras según su media, etc. (ver figura1.7)

    Aquellas variables que no se especifican desaparecen automáticamente dela base de datos. Este comando crea una nueva base de datos y cierra la basede partida. Si deseamos quedarnos con esta base debemos grabarla.

    Figura 1.7: Estructura del comando “split”

    Basado en los WDI, genere una base de datos con los totales de CO2 emi-tidos por región, para el año 2002. Genere también una base con la poblaciónmundial a lo largo del tiempo.

    Stata Básico

    Aplicado a la Investigación Económica

    www.giddea.com

    [email protected]

    http://www.giddea.com/http://www.giddea.com/

  • 8/20/2019 Manual Stata Basico - Juan Carlos Abanto Orihuela

    13/79

    1.4. Principales Comandos de Trabajo y Análisis 13

    use kids, clear

    list

    collapse age

    list

    use kids, clear

    collapse age, by(famid)

    list

    use kids, clear

    collapse(mean) avgage=age, by(famid)

    list

    use kids, clear

    collapse (mean) avgage=age avgwt=wt, by(famid)

    list

    use kids, clear

    collapse (mean) avgage=age avgwt=wt (count) numkids=birth, by(famid)

    list

    use kids, clear

    tabulate sex, generate(sexdum)

    list famid sex sexdum1 sexdum2

    collapse (count) numkids=birth (sum) girls=sexdum1 boys=sexdum2, by(famid)list famid boys girls numkids

    Basado en los WDI, genere una base de datos con los totales de CO2 emi-tidos por región, para el año 2002. Genere también una base con la poblaciónmundial a lo largo del tiempo.

    use wdi,clear

    collapse (sum) co2 if year==2002, by(region)

    graph hbar (asis) co2, over(region)

    use wdi, clear

    collapse (sum) pop, by(year)

    Stata Básico

    Aplicado a la Investigación Económica

    www.giddea.com

    [email protected]

    http://www.giddea.com/http://www.giddea.com/

  • 8/20/2019 Manual Stata Basico - Juan Carlos Abanto Orihuela

    14/79

    14 1. Introducción al Stata

    RETO 1

     La base “enaho01-2004-300-oct-nov.dta” contiene datos del módulo 300 dela ENAHO recopilados entre octubre y noviembre de 2004, mientras que“enaho01-2004-300-dic.dta” contiene los datos del mismo módulo para di-ciembre de ese mismo año. Ambas bases están a nivel de individuos. Se pide juntar estos datos en un solo archivo que debe ser grabado con el nombre:“Personas.dta”.

     A la base “Personas.dta” añada las siguientes variables:

    Las 5 variables de Necesidades Básicas Insatisfechas (nbi1 al nbi5) desdela base de datos “enaho01-2004-100.dta”. Recuerde que esta base fuerecopilada a nivel de hogares en el mismo periodo.

    La variable sobre tipo de vivienda (p101).

      Usando el archivo “enaho01-2004-300-oct-nov.dta” (módulo de educación anivel de individuos) realice las siguiente tarea:

    Obtenga una nueva base (colapsada) que contenga para cada hogar:el promedio de edad de sus miembros (ver p208a), el porcentaje dehombres en el hogar (ver p207), el máximo nivel educativo aprobadopor algún miembro del hogar (ver p301a).

    Stata Básico

    Aplicado a la Investigación Económica

    www.giddea.com

    [email protected]

    http://www.giddea.com/http://www.giddea.com/

  • 8/20/2019 Manual Stata Basico - Juan Carlos Abanto Orihuela

    15/79

    Sesión   2Manejo de Datos

    2.1. Cargando los Datos en Stata

    Ahora vamos a empezar el tratamiento de los datos pero antes, hagamos

    un pequeño ejercicio con la base de datos auto.dta

    use auto.dta

    describe

    summarize

    generate price2=2*price

    describe

    save auto2.dta

    generate price3=3*price

    save auto2.dta

    save auto2.dta, replace

    generate price4=4*price

    use auto.dta

    use auto.dta, clear

    clear

    2.2. Etiquetas

    Aprendamos a etiquetar a nuestras bases de datos o variables para poder

    identificarlas en un futuro y aśı poder trabajar de forma mas ordenada.use auto.dta

    describe

    label data "Este archivo contiene datos de autos para el a~no 1978"

    describe

    label variable rep78 "Record de reparación en 1978"

    label variable price "Precio del carro en 1958"

    label variable mpg "Millas por galon para el carro"

    15

  • 8/20/2019 Manual Stata Basico - Juan Carlos Abanto Orihuela

    16/79

    16 2. Manejo de Datos

    label variable foreign "Origen del carro, extranjero o domestico"

    describe

    label define foreignl 0 "domestico" 1 "extranjero"

    label values foreign foreignldescribe

    table foreign

    ttest mpg, by(foreign)

    save auto3.dta

    Hagamos un ejercicio similar con la base de datos iraninos.dta

    clear

    use iraninos.dta

    set more offlabel define sexow 0 "mujer"

    label define sexow 1 "hombre", add

    describe

    browse

    label values sexo sexow

    describe

    browse

    label drop sexow

    label define getareow 0 "prematuro"

    label define getareow 1 "rec.nac.", add

    label define getareow 2 "lactante", add

    label define getareow 3 "escolares", add

    label values getareo getareow

    label define oliguriaw 0 "no oliguria"

    label define oliguriaw 1 "oliguria", add

    label values oliguria oliguriaw

    label define congenitow 0 "no congenito"

    label define congenitow 1 "congenito", addlabel values congenito congenitow

    label define sepsisw 0 "no sepsis"

    label define sepsisw 1 "sepsis", add

    label values sepsis sepsisw

    label define tipodaow 0 "asfixia neonat"

    Stata Básico

    Aplicado a la Investigación Económica

    www.giddea.com

    [email protected]

    http://www.giddea.com/http://www.giddea.com/

  • 8/20/2019 Manual Stata Basico - Juan Carlos Abanto Orihuela

    17/79

    2.3. Comando IF 17

    label define tipodaow 1 "nta", add

    label define tipodaow 2 "nti", add

    label define tipodaow 3 "nefro tox", add

    label values tipodao tipodaow

    label define finalw 0 "vivo"

    label define finalw 1 "muerto", add

    label values final finalw

    Observemos que la variable dependiente en esta base de datos es final,muerte de una persona debido a una falla renal aguda. Las variables explicati-vas serian sepsis y tipodaño, mientras que las de control serian sexo, getareo.Probablemente oliguria y congenito sean variables que me indiquen el nivelespecifico de la enfermedad (serian variables no tan claras en este ejemplo).

    2.3. Comando IF

    La estructura del comando IF es fácil de recordar, la figura2.1 nos muestrael esquema base.

    Figura 2.1: Estructura del comando “if”

    clearuse auto.dta

    keep make rep78 foreign mpg price

    tabulate rep78 foreign

    tabulate rep78 foreign if (rep78 >=4)

    tabulate rep78 foreign if (rep78 >=4), column nofreq 

    list if (rep78 >= 4)

    list if (rep78 >= 4) & !missing(rep78)

    summarize price if (rep78 == 1) | (rep78 == 2)summarize price if (rep78 = 3)

    summarize price if (rep78 >= 3) & !missing(rep78)

    Cabe resaltar que luego de la sentencia “if” usamos “ & ” para decir “y”,usamos “ == ” para decir “igual a”, y usamos “ ! ” para negar algo o decir“no”.

    Stata Básico

    Aplicado a la Investigación Económica

    www.giddea.com

    [email protected]

    http://www.giddea.com/http://www.giddea.com/

  • 8/20/2019 Manual Stata Basico - Juan Carlos Abanto Orihuela

    18/79

    18 2. Manejo de Datos

    2.4. Comando SUMMARIZE

    Esta estructura es mas compleja y más dif́ıcil de recordar, sin embargo lasiguiente forma general (ver figura2.2), nos ayudara a recordarla y usarla de

    manera más apropiada.

    Figura 2.2: Estructura del comando “summarize”

    use auto

    summarize

    summarize price mpg

    summarize mpg price if (foreign == 1)

    summarize mpg price if (foreign == 1) & (mpg

  • 8/20/2019 Manual Stata Basico - Juan Carlos Abanto Orihuela

    19/79

    2.6. Creando Variables 19

    Figura 2.3: Estructura del comando “split”

    Figura 2.4: Base Documentos

    use "split y destring", clear

    split documento, parse("-") destring

    use "split y destring", clear

    split documento, parse("-")

    destring documento2, replace

    Si deseáramos concatenar dos variables cualquiera sean estas, y generaruna variable tipo string, el comando a usar deberá ser:

    egen docum=concat(documento1 documento2), punct("/")

    Donde la opción punct permite especificar el separador entre las distintaspartes al conformar una única variable. Por ejemplo, espacio será punct(“ ”),o coma , punct(,) o guión , punct(-).

    2.6. Creando Variables

    Trabajemos con la base de datos auto, y con la variable length (longituddel auto en pulgadas)

    use auto, clear

    summarize length

    generate length_feet = length / 12

    Stata Básico

    Aplicado a la Investigación Económica

    www.giddea.com

    [email protected]

    http://www.giddea.com/http://www.giddea.com/

  • 8/20/2019 Manual Stata Basico - Juan Carlos Abanto Orihuela

    20/79

    20 2. Manejo de Datos

    generate length_feet = length / 12

    replace length_feet = length / 12

    summarize length lenght_feet

    generate length2 = length^2

    summarize length2generate loglen = log(length)

    summarize loglen

    summarize length

    generate zlength = (length - 187.93) / 22.27

    summarize zlength

    Observemos la variable mpg (millaje por galón)

    tabulate mpg

    No nos es muy fácil el análisis de esta variable, podŕıamos mejorar supresentación si la clasificáramos por rangos.

    generate mpg3 = .

    replace mpg3 = 1 if (mpg = 19) & (mpg = 24) & (mpg

  • 8/20/2019 Manual Stata Basico - Juan Carlos Abanto Orihuela

    21/79

    2.6. Creando Variables 21

    generate mpgfd = mpg

    recode mpgfd min/18=0 19/max=1 if foreign==0

    recode mpgfd min/24=0 25/max=1 if foreign==1

    by foreign: tabulate mpg mpgfd

    El comando recode cambia los valores de una variable de acuerdo a lasreglas especificadas.

    recode opiniongob (1=4 nada) (2=3 poco) (3=2 "mas o menos") ///

    (4=1 bastante) (.=0 "no opina"), gen(opina)

    También podemos usar una extensión del commando generate, egen me per-mitirá crear expresiones mas complejas aun, tales como medias, desviacionesestándar, máximos, mı́nimos, etc.

    egen minimo_p=min(price)

    egen median_p=median(price)egen std_p=std(price), mean(0) std(1)

    Nota1: Tipo de Datos

    En Stata existen dos clases de datos a usar:

      Datos numéricos, dentro de estos podemos encontrar la siguiente clasifica-ción:

    Figura 2.5: Datos Tipo Numéricos

     Datos cadena de texto, dentro de estos podemos encontrar la siguiente cla-sificación:

    Figura 2.6: Datos Tipo Cadena

    Stata Básico

    Aplicado a la Investigación Económica

    www.giddea.com

    [email protected]

    http://www.giddea.com/http://www.giddea.com/

  • 8/20/2019 Manual Stata Basico - Juan Carlos Abanto Orihuela

    22/79

    22 2. Manejo de Datos

    Lógicamente debemos considerar que un uso de datos con mayor poderde almacenaje se traducirá en mayor tamaño de bytes usados, lo cual restaraespacio a nuestro disco de almacenaje.

    Generemos algunas variables como ejemplo:

    generate double x=2

    generate str2 y="maria"

    list y

    ¿Qué notamos?, ¿Cómo saber rápidamente si una variable es de ciertotipo? Si deseáramos convertir una variable string a una variable numérica ouna variable numérica a una string, podŕıamos usar los comandos encode ydecode, veamos esto:

    clear

    use auto.dta

    encode make, generate(A)

    label list A

    describe make A

    decode A, generate(B)

    describe make A B

    O también podŕıamos usar la siguiente sentencia:

    generate str2 Z="am"

    generate int P=real(Z)

    describe Z P

    2.7. KEEP y DROP

    A veces no desearemos tener todas las variables en el espacio de trabajo,muchas veces desearemos trabajar solo con algunas variables de nuestra basede datos.

    use auto

    describe

    keep make mpg price

    describe

    use auto, clear

    drop displacement gear_ratio

    describe

    Stata Básico

    Aplicado a la Investigación Económica

    www.giddea.com

    [email protected]

    http://www.giddea.com/http://www.giddea.com/

  • 8/20/2019 Manual Stata Basico - Juan Carlos Abanto Orihuela

    23/79

    2.7. KEEP y DROP 23

    use auto , clear

    tabulate rep78 , missing

    drop if missing(rep78)

    tabulate rep78 , missing

    use auto , clear

    keep if (rep78

  • 8/20/2019 Manual Stata Basico - Juan Carlos Abanto Orihuela

    24/79

    24 2. Manejo de Datos

    clear

    use make mpg price rep78 using auto.dta if (rep78

  • 8/20/2019 Manual Stata Basico - Juan Carlos Abanto Orihuela

    25/79

    2.8. Reestructurando los Datos 25

    reshape wide

    list

    reshape long

    list

    Veamos una base de datos que nos brinda información sobre los las alturasde un conjunto de niños de 1 y 2 años de edad

    use ni~noaltpes, clear

    list codfam nacimiento alt1 alt2

    Figura 2.9: Base “niñoaltpes”

    Veamos como podemos transformar esta base de datos a una forma “long”.¿Cuál es la ráız de la variable que será convertida de la forma wide a la formalong? ¿Qué variables identifican a los individuos en la estructura wide? ¿Cómo

    llamaremos a la variable que contendrá a los sufijos de la variable raı́z?reshape long alt, i( codfam nacimiento) j(edad)

    list codfam nacimiento edad alt

    use ni~noaltpes,clear

    list codfam nacimiento alt1 alt2 pes1 pes2

    reshape long alt pes, i( codfam nacimiento) j(edad)

    list codfam nacimiento edad alt pes

    use ingpadmad.dta, clear

    list

    A nosotros nos podŕıa interesar que la variable “nombre” y la variable “ing”se estructuren de una forma long, pero los sufijos “p” y “m” son del tipo cadenao string, ya no son números. ¿Cómo podemos estructurar nuestro comando eneste caso?

    reshape long nombre ing, i(codfam) j(padmad) string

    list

    Stata Básico

    Aplicado a la Investigación Económica

    www.giddea.com

    [email protected]

    http://www.giddea.com/http://www.giddea.com/

  • 8/20/2019 Manual Stata Basico - Juan Carlos Abanto Orihuela

    26/79

    26 2. Manejo de Datos

    Figura 2.10: Base “ingpadmad”

    2.9. Muestreos Probabiĺısticos

    En las encuestas, las observaciones son escogidas a partir de un proce-so aleatorio. Aśı, las probabilidades de selección para distintas observacionespueden diferir en función a la forma como se lleve a cabo dicho proceso deselección aleatorio.

    Las ponderaciones de muestreo son iguales (o proporcionales) al inverso dela probabilidad de selección. En otras palabras, los ponderadores (o factoresde expansión) pueden ser interpretados como el número de elementos de lapoblación que el elemento muestreado representa. En consecuencia, no teneren cuenta los ponderadores de la muestra en los procedimientos estad́ısticosgenera estimaciones sesgadas al valor verdadero de la población. Aśı mismo,su omisión altera las desviaciones estándar de nuestras estimaciones.

    Los factores de expansión nos permiten pasar de la muestra al conjunto dela población. Ellos son necesarios también para tener en cuenta las diferentestasas de muestreo según dominios geográficos, etc.

    La mayoŕıa de comandos de stata pueden ponderar datos. Stata proporcio-

    na cuatro tipos de ponderaciones, la que más se emplea es la asociada a losfactores de expansión, que se indica con la opción pweight que permite identi-ficar los pesos que indican la inversa de la probabilidad de que la observaciónsea incluida debido al diseño del muestreo.

    table x1 x2 [pweight=pesopob]

    table x1 x2 [pw=pesopob]

    2.10. Generación de Números Aleatorios

    Crearemos un archivo vaćıo para 100 observaciones:

    set obs 100

    Generamos números aleatorios con distribución uniformes U(0,1)

    gen x = uniform()

    Luego generamos números aleatorios con distribución normal N(0,1)

    Stata Básico

    Aplicado a la Investigación Económica

    www.giddea.com

    [email protected]

    http://www.giddea.com/http://www.giddea.com/

  • 8/20/2019 Manual Stata Basico - Juan Carlos Abanto Orihuela

    27/79

    2.11. Percentiles, Cuartiles, Deciles 27

    gen y = invnorm(uniform())

    Para generar una variable con distribución uniforme U(a,b)

    generate y = a + (b-a) * uniform()

    Para generar una variable con distribución normal N(u,ô)

    generate z = u + ô * invnorm(uniform())

    Generemos una variable notas, igual a U(0,20) + N(0,1)

    gen notas = 20*uniform() + invnorm(uniform())

    Trunquemosla en el rango de 0 a 20

    replace notas = clip(notas, 0, 20)

    format notas %3.1f

    Generemos una variable sexo que sea 1 si es hombre y 0 si es mujer

    gen sexo = uniform() > 0.5

    Generemos una variable ingreso que valla del 2000 al 2007

    gen ingreso = 2000 + floor(8*uniform())

    2.11. Percentiles, Cuartiles, Deciles

    Las medidas de posición son muy importantes en el análisis estadı́stico,probabiĺıstica y regresional.

    Los cuartiles son medidas estad́ısticas de posición que tienen la propiedadde dividir la serie estad́ıstica en cuatro grupos de números iguales de términos.

    De manera similar los deciles dividen a la serie en diez partes iguales y lospercentiles dividen a los términos de la serie en cien grupos iguales. Aśı comola mediana divide la serie o distribución en dos partes iguales, existen trescuartiles, nueve deciles y noventa y nueve percentiles que dividen en cuatro,diez y cien partes iguales a la distribución.

    De estas tres últimas medidas de posición los cuartiles son las de mayor

    aplicación.Se emplean generalmente en la determinación de estratos o grupos corres-

    pondientes a fenómenos socio-económicos, monetarios o teóricos.

    XTILE

    El comando xtile genera una variable categórica (eg: 1, 2, 3) según el cuantilen que se encuentra cada observación.

    Stata Básico

    Aplicado a la Investigación Económica

    www.giddea.com

    [email protected]

    http://www.giddea.com/http://www.giddea.com/

  • 8/20/2019 Manual Stata Basico - Juan Carlos Abanto Orihuela

    28/79

    28 2. Manejo de Datos

    xtile nuevavar = variable , nquantiles(#)

    xtile tercio = notas, n(3)

    PCTILE

    El comando pctile genera una variable con los puntos de corte entre cadacuantil.

    pctile nuevavar = variable , nquantiles(#)

    pctile cortes = notas, n(3)

    Por ejemplo, generemos una variable décimo que sea 1 si es décimo superior,y 0 caso contrario. Hágalo de 2 formas distintas

    xtile es_decimo = notas, n(10)

    replace es_decimo= (es_decimo==10)

    summarize notas, detail

    gen es_decimo = notas > r(p90)

    pctile corte_dec = notas, n(10)

    gen es_decimo = notas > corte_dec[9]

    Muestre en las notas, el promedio, el máximo, el mı́nimo, por sexo. Muestrela probabilidad de ser décimo superior, por año de ingreso

    tab es_decimo tercio

    tabstat notas, by(es_decimo)

    tabstat notas, by(sexo) stat(mean max min)

    tabstat es_decimo, by(ingreso) format(%3.2f)

    Stata Básico

    Aplicado a la Investigación Económica

    www.giddea.com

    [email protected]

    http://www.giddea.com/http://www.giddea.com/

  • 8/20/2019 Manual Stata Basico - Juan Carlos Abanto Orihuela

    29/79

    2.11. Percentiles, Cuartiles, Deciles 29

    RETO 2

    El sostenido crecimiento de la econoḿıa peruana en los últimos años haprovocado que en la actualidad observemos un boom de inversiones a nivel des-

    centralizado. Aśı, diversas actividades económicas que antes se desarrollabansolo en Lima han empezado a mirar el interior del páıs como plazas alternativaspara expandir sus negocios. Con este fin, la recientemente fundada empresa deconsultoŕıa Grupo IDDEA S.A.C. le ha pedido su colaboración para desarrollarlas siguientes tareas en Stata.

      En el módulo “sumarias” (que contiene variables calculadas de ingreso ygasto) se le pide identificar cada hogar con el nombre de la localidad querepresenta según la variable “ubigeo” (distrito). Además, en este módulo de-berá crear una nueva variable que indique el departamento al que pertenececada hogar (esta variable debe tener un value map con los nombres de los

    24 departamentos y el Callao). Para esta tarea usted cuenta con la base dedatos ubigeo.dta.

     Con una sola instrucción (un solo comando) muestre las siguientes estad́ısti-cas descriptivas para el gasto per capita en todos los departamentos del paı́s(percentil 99, media, desviación estándar, rango).

     El INEI calcula las estad́ısticas de pobreza bajo el método del gasto, pa-ra lo cual utilizará la variable “gasto total” y la dividirá entre el total depersonas en el hogar para calcular el gasto per capita. Luego generará unavariable que valga uno en caso el hogar supere la ĺınea de pobreza per capita

    (linea06) y cero en caso contrario. Finalmente, se le pide estimar para cadadepartamento cual es el nivel de pobreza considerando que un individuo espobre si pertenece a un hogar pobre.

     Con el módulo de educación construya una tabla que muestre para cada do-minio geográfico el porcentaje de personas según nivel educativo alcanzado,para lo cual considerará solo tres niveles: 1, al menos primaria incompleta,2, Al menos secundaria completa y 3, superior.

     Al módulo educación añada la variable gasto per cápita, calculado en la basesumaria como el cociente entre gasto total y total de miembros del hogar.Luego, cree una variable que contenga los cuartiles (1,2,3,4) del gasto percapita y construya una tabla cruzada entre el nivel educativo y la nuevavariable que ha creado para todas aquellas personas que no residen en LimaMetropolitana.

    Stata Básico

    Aplicado a la Investigación Económica

    www.giddea.com

    [email protected]

    http://www.giddea.com/http://www.giddea.com/

  • 8/20/2019 Manual Stata Basico - Juan Carlos Abanto Orihuela

    30/79

    30 2. Manejo de Datos

    Stata Básico

    Aplicado a la Investigación Económica

    www.giddea.com

    [email protected]

    http://www.giddea.com/http://www.giddea.com/

  • 8/20/2019 Manual Stata Basico - Juan Carlos Abanto Orihuela

    31/79

    Sesión   3Análisis Grafico con Stata

    Ahora vamos a trabajar con los principales gráficos en Stata. Muchos deestos gráficos son de bastante utilidad para observar los problemas inherentesal análisis de regresión que observaremos en la próxima sección.

    3.1. Visualizando Algunos Comandos

    clear

    use auto.dta

    histogram mpg

    Figura 3.1: Histograma

    graph box mpggraph box mpg, by(foreign)

    31

  • 8/20/2019 Manual Stata Basico - Juan Carlos Abanto Orihuela

    32/79

    32 3. Análisis Grafico con Stata

    Figura 3.2: Grafico de Cajas

    Figura 3.3: Scatter y Ajuste Lineal

    Figura 3.4: Grafico Matricial

    Stata Básico

    Aplicado a la Investigación Económica

    www.giddea.com

    [email protected]

    http://www.giddea.com/http://www.giddea.com/

  • 8/20/2019 Manual Stata Basico - Juan Carlos Abanto Orihuela

    33/79

    3.2. TWOWAY 33

    3.2. TWOWAY

    El S&P 500 es el ı́ndice más seguido para tener una idea del desempeñogeneral de las acciones estadounidenses. Este ı́ndice consiste de las acciones de

    500 empresas que fueron seleccionadas por su tamaño, liquidez (qué tan fáciles comprar o vender sus t́ıtulos) y representatividad por actividad económi-ca, incluyendo 400 industriales, 20 del sector transporte, 40 de servicios y 40financieras. Sólo se toman en cuenta empresas estadounidenses. Vale la penadestacar que el peso de cada acción dentro del ı́ndice corresponde a la propor-ción que representa el valor de mercado de la empresa dentro del total de las500 empresas que conforman el ı́ndice. El valor de mercado del capital es igualal precio por acción multiplicado por el número total de acciones.

    Usemos la base de datos S&P 500.(ver figura3.5

    clear

    use s&p.dta

    describe

    Figura 3.5:  Índice S&P

    Stata Básico

    Aplicado a la Investigación Económica

    www.giddea.com

    [email protected]

    http://www.giddea.com/http://www.giddea.com/

  • 8/20/2019 Manual Stata Basico - Juan Carlos Abanto Orihuela

    34/79

    34 3. Análisis Grafico con Stata

    Figura 3.6: Opciones del “twoway”

    Figura 3.7: Opciones del “twoway”

    Figura 3.8: Opciones del “twoway”

    Stata Básico

    Aplicado a la Investigación Económica

    www.giddea.com

    [email protected]

    http://www.giddea.com/http://www.giddea.com/

  • 8/20/2019 Manual Stata Basico - Juan Carlos Abanto Orihuela

    35/79

    3.2. TWOWAY 35

    Figura 3.9: Opciones del “twoway”

    Stata Básico

    Aplicado a la Investigación Económica

    www.giddea.com

    [email protected]

    http://www.giddea.com/http://www.giddea.com/

  • 8/20/2019 Manual Stata Basico - Juan Carlos Abanto Orihuela

    36/79

    36 3. Análisis Grafico con Stata

    Usemos una nueva base de datos:

    clear

    use highschool.dta

    describe

    Figura 3.10: Base Highschool

    graph twoway histogram read

    graph twoway kdensity read

    graph twoway (histogram read) (kdensity read)

    graph twoway function y=normden(x), range(-4 4)

    Figura 3.11: Histograma y Kernel

    Stata Básico

    Aplicado a la Investigación Económica

    www.giddea.com

    [email protected]

    http://www.giddea.com/http://www.giddea.com/

  • 8/20/2019 Manual Stata Basico - Juan Carlos Abanto Orihuela

    37/79

    3.2. TWOWAY 37

    Figura 3.12: Más opciones del “twoway”

    Stata Básico

    Aplicado a la Investigación Económica

    www.giddea.com

    [email protected]

    http://www.giddea.com/http://www.giddea.com/

  • 8/20/2019 Manual Stata Basico - Juan Carlos Abanto Orihuela

    38/79

    38 3. Análisis Grafico con Stata

    3.3. TWOWAY y SCATTERPLOT

    twoway scatter read write , scheme(economist)

    twoway scatter write read, msymbol(square) msize(small) mcolor(black)

    twoway scatter write read, mfcolor(red) mlcolor(black) mlwidth(medthick)

    twoway scatter read write if id

  • 8/20/2019 Manual Stata Basico - Juan Carlos Abanto Orihuela

    39/79

    3.3. TWOWAY y SCATTERPLOT 39

    Figura 3.13: Connect

    Figura 3.14: Connect sort cmissing

    Stata Básico

    Aplicado a la Investigación Económica

    www.giddea.com

    [email protected]

    http://www.giddea.com/http://www.giddea.com/

  • 8/20/2019 Manual Stata Basico - Juan Carlos Abanto Orihuela

    40/79

    40 3. Análisis Grafico con Stata

    3.4. Combinando TWOWAY Y SCATTERPLOT

    3.4.1. Filtro de Gráficos

    twoway scatter read write, by(female)

    twoway scatter read write, by(female ses)

    twoway scatter read write, by(ses female, cols(2))

    Figura 3.15: Opción “by”

    3.4.2. Unión de Gráficos

    twoway (scatter read write) (lfit read write) , ytitle(Nota ///

    de lectura)

    Stata Básico

    Aplicado a la Investigación Económica

    www.giddea.com

    [email protected]

    http://www.giddea.com/http://www.giddea.com/

  • 8/20/2019 Manual Stata Basico - Juan Carlos Abanto Orihuela

    41/79

    3.4. Combinando TWOWAY Y SCATTERPLOT 41

    Figura 3.16: Opción “ytitle” de un grafico

    twoway (scatter read write) (lfit read write), name(scatter)

    twoway (scatter read write, mlabel(id)) (lfit read write, ///

    range(30 70)), by(ses female) ytitle(Nota de lectura)

    Figura 3.17: Nombre a un grafico

    twoway (scatter read write) (scatter math write)

    twoway (scatter read write) (scatter math write) (lfit read ///

    write) (lfit math write)

    Stata Básico

    Aplicado a la Investigación Económica

    www.giddea.com

    [email protected]

    http://www.giddea.com/http://www.giddea.com/

  • 8/20/2019 Manual Stata Basico - Juan Carlos Abanto Orihuela

    42/79

    42 3. Análisis Grafico con Stata

    twoway (scatter read write) (scatter math write) (lfit read ///

    write) (lfit math write), legend(label(3 "Ajuste Lineal") ///

    label(4 "Ajuste Lineal")) legend(order(1 3 2 4))

    twoway (scatter read write) (scatter math write) (lfit read ///

    write, pstyle(p1) range(25 80) ) (lfit math write, ///

    pstyle(p2) range(25 80) ), legend(label(3 "Ajuste Lineal") ///

    label(4 "Ajuste Lineal")) legend(order(1 3 2 4))

    Figura 3.18: Editando la legenda de un grafico

    separate write, by(female)

    graph twoway (scatter write0 read) (scatter write1 read), ///

    ytitle(Nota de Escritura) legend(order(1 "Hombres" 2 "Mujeres"))

    graph twoway (scatter write0 read) (scatter write1 read) ///

    (lfit write0 read) (lfit write1 read), ytitle(Nota de ///

    Escritura) legend(order(1 "Hombres" 2 "Mujeres" 3 "Aj. ///

    Lineal Hombres" 4 " Aj. Lineal Mujeres"))

    Stata Básico

    Aplicado a la Investigación Económica

    www.giddea.com

    [email protected]

    http://www.giddea.com/http://www.giddea.com/

  • 8/20/2019 Manual Stata Basico - Juan Carlos Abanto Orihuela

    43/79

    3.5. Opciones para Edición de Gráficos 43

    Figura 3.19: Ordenando la legenda de un grafico

    3.5. Opciones para Edición de Gráficos

    El esquema siguiente nos ayudara a entender los principales comandos deedición de gráficos. Podemos guiarnos de estos para poder tener una mejor

    presentación en nuestros gráficos.

    graph twoway scatter read write, title("Grafica de Dispersión ///

    entre Lectura y Escritura")

    Figura 3.20: Antes de la edición

    Stata Básico

    Aplicado a la Investigación Económica

    www.giddea.com

    [email protected]

    http://www.giddea.com/http://www.giddea.com/

  • 8/20/2019 Manual Stata Basico - Juan Carlos Abanto Orihuela

    44/79

    44 3. Análisis Grafico con Stata

    graph twoway scatter read write, ///

    ytitle(Nota del Examen de Escritura) ///

    xtitle(Nota del Examen de Lectura)

    graph twoway scatter read write, ///title("Grafica de Dispersión entre Lectura y Escritura ", ///

    size(large) color(red) position(12) ring(1)) ///

    ytitle(Nota del Examen de Escritura) ///

    xtitle(Nota del Examen de Lectura)

    graph twoway scatter read write, ///

    title("Grafica de Dispersión entre Lectura y Escritura ", ///

    size(large) color(red) position(12) ring(1) box bcolor(white) ///

    blcolor(red) bmargin(medium)) ///

    ytitle(Nota del Examen de Escritura) ///

    xtitle(Nota del Examen de Lectura)

    graph twoway scatter read write, ///

    title("Grafica de Dispersión entre Lectura y Escritura " ///

    "Muestra de 200 Estudiantes", linegap(3) size(large) color(red) ///

    position(12) ring(1) box bcolor(white) blcolor(red) ///

    bmargin(medium)) ///

    ytitle(Nota del Examen de Escritura) ///

    xtitle(Nota del Examen de Lectura)

    graph twoway scatter read write, ///title("Grafica de Dispersión entre Lectura y Escritura ", ///

    size(large) color(red) position(12) ring(9) box bcolor(white) ///

    blcolor(red) bmargin(medium)) ///

    ytitle(Nota del Examen de Escritura) ///

    xtitle(Nota del Examen de Lectura) ///

    subtitle("Muestra de 200 Estudiantes") ///

    note(Datos de Escuela Secundaria y Superior) ///

    caption(Grupo IDDEA.SAC)

    graph twoway scatter read write, ///title("Grafica de Dispersión entre Lectura y Escritura ", ///

    size(large) color(red) position(12) ring(9) box bcolor(white) ///

    blcolor(red) bmargin(medium)) ///

    ytitle(Nota del Examen de Escritura) ///

    xtitle(Nota del Examen de Lectura) ///

    subtitle("Muestra de 200 Estudiantes") ///

    note(Datos de Escuela Secundaria y Superior, size(medium) ///

    Stata Básico

    Aplicado a la Investigación Económica

    www.giddea.com

    [email protected]

    http://www.giddea.com/http://www.giddea.com/

  • 8/20/2019 Manual Stata Basico - Juan Carlos Abanto Orihuela

    45/79

    3.5. Opciones para Edición de Gráficos 45

    position(5))

    caption(Grupo IDDEA.SAC, size(vsmall) position(5))

    graph twoway scatter read write, ///

    title("Grafica de Dispersión entre Lectura y Escritura ", ///size(large) color(red) position(12) ring(9) box bcolor(white) ///

    blcolor(red) bmargin(medium)) ///

    ytitle(Nota del Examen de Escritura, color(white)) ///

    xtitle(Nota del Examen de Lectura, color(white)) ///

    subtitle("Muestra de 200 Estudiantes", color(white)) ///

    note(Datos de Escuela Secundaria y Superior, color(white) ///

    size(medium) position(5)) ///

    caption(Grupo IDDEA.SAC,color(green) size(small) position(5)) ///

    graphregion( color(navy) ) ///

    plotregion( fcolor(teal) )

    Figura 3.21: Después de la edición

    Stata Básico

    Aplicado a la Investigación Económica

    www.giddea.com

    [email protected]

    http://www.giddea.com/http://www.giddea.com/

  • 8/20/2019 Manual Stata Basico - Juan Carlos Abanto Orihuela

    46/79

    46 3. Análisis Grafico con Stata

    use encuesta.dta

    graph hbar commute, over(division)

    graph hbar commute, over(division) asyvar

    graph bar propval100, over(nsw) over(division) nofill asyvars ///

    ylabel(0(10)80)

    twoway scatter ownhome propval100, xlabel(#10) ylabel(#5)

    twoway scatter ownhome propval100, xscale(alt)

    twoway scatter propval100 rent700 ownhome, ylabel(0(10)100) ///

    yscale(alt)

    twoway (scatter propval100 ownhome) (scatter rent700 ownhome, ///

    yaxis(2))

    twoway scatter ownhome propval100 [aweight=rent700], msize(small) ///

    scheme(vg_outm) yscale(alt) xscale(alt)

    Figura 3.22: Grafico de burbujas

    use s&p.dta

    Stata Básico

    Aplicado a la Investigación Económica

    www.giddea.com

    [email protected]

    http://www.giddea.com/http://www.giddea.com/

  • 8/20/2019 Manual Stata Basico - Juan Carlos Abanto Orihuela

    47/79

    3.6. Trabajando con Esquemas y Gráficos Adicionales 47

    tw (rarea high low date) (spike volmil date)

    tw (rarea high low date) (spike volmil date, yaxis(2))

    tw (rarea high low date) (spike volmil date, yaxis(2)), ///yscale(range(500 1400) axis(1))

    tw (rarea high low date) (spike volmil date, yaxis(2)), ///

    yscale(range(500 1400) axis(1)) yscale(range(0 5) axis(2))

    tw (rarea high low date) (spike volmil date, yaxis(2)), ///

    yscale(range(500 1400) axis(1)) yscale(range(0 5) axis(2)) ///

    scheme(vg_teal)

    Figura 3.23: Diferentes escalas

    3.6. Trabajando con Esquemas y Gráficos Adi-

    cionales

    3.6.1. Esquemas

    use encuesta.dta

    scatter propval100 rent700 ownhome, scheme(vg_blue)

    Stata Básico

    Aplicado a la Investigación Económica

    www.giddea.com

    [email protected]

    http://www.giddea.com/http://www.giddea.com/

  • 8/20/2019 Manual Stata Basico - Juan Carlos Abanto Orihuela

    48/79

    48 3. Análisis Grafico con Stata

    Figura 3.24: Scatter y esquema vg blue

    Stata Básico

    Aplicado a la Investigación Económica

    www.giddea.com

    [email protected]

    http://www.giddea.com/http://www.giddea.com/

  • 8/20/2019 Manual Stata Basico - Juan Carlos Abanto Orihuela

    49/79

    3.6. Trabajando con Esquemas y Gráficos Adicionales 49

    3.6.2. Gráficos de Barras Verticales

    use nlsw.dta

    graph bar ttl_exp

    graph bar prev_exp tenure ttl_exp

    graph bar (median) prev_exp tenure ttl_exp

    graph bar (median) prev_exp tenure (mean )ttl_exp

    graph bar (mean) meanwage=wage (median ) medwage=wage

    graph bar prev_exp tenure, over(occ5)

    graph bar prev_exp tenure, over(occ5) percentages

    graph bar prev_exp tenure, over(occ5) percentages stack

    use highshool.dta

    graph bar write, over( race) over( female) over( ses) ///

    legend(rows(1) stack) blabel(bar, format(%4.1f) size(vsmall)) ///bargap(10) percent scheme(vg_blue)

    Figura 3.25: Bar y esquema vg green

    3.6.3. Gráficos de Barras Horizontales

    use nlsw.dta

    graph hbar wage, over(occ5)

    graph hbar wage, over(occ5) over(collgrad)

    graph hbar wage,over(urban2) over(occ5) over(collgrad)

    Stata Básico

    Aplicado a la Investigación Económica

    www.giddea.com

    [email protected]

    http://www.giddea.com/http://www.giddea.com/

  • 8/20/2019 Manual Stata Basico - Juan Carlos Abanto Orihuela

    50/79

    50 3. Análisis Grafico con Stata

    graph hbar wage,over(urban3) over(union) missing

    graph hbar wage,over(grade4) over(union)

    graph hbar wage,over(grade4, gap(*.3)) over(union)

    graph hbar wage,over(grade4, gap(*3)) over(union)

    graph hbar wage,over(occ7)graph hbar wage,over(occ7, sort(1))

    graph hbar wage,over(occ7, sort(1) descending)

    graph hbar wage hours,over(occ7)

    graph hbar wage hours,over(occ7, sort(1))

    graph hbar wage hours,over(occ7, sort(2))

    graph hbar wage hours,over(occ7, sort(2)) over(married)

    graph hbar wage hours,over(occ7, sort(2)) over(married, ///

    descending) asyvars

    graph hbar wage hours,over(occ7, sort(2)) over(married, ///

    descending) asyvars stack

    graph hbar wage,over(occ7, label(alternate)) over(collgrad)

    Figura 3.26: Hbar y esquema vg rose

    3.6.4. Gráficos de Cajas

    use nlsw.dta

    graph box wage, over(grade4)

    graph box wage, over(grade4) nooutsides

    graph box wage, over(grade4) nooutsides over(union)

    graph box wage, over(grade4) nooutsides over(union) ///

    Stata Básico

    Aplicado a la Investigación Económica

    www.giddea.com

    [email protected]

    http://www.giddea.com/http://www.giddea.com/

  • 8/20/2019 Manual Stata Basico - Juan Carlos Abanto Orihuela

    51/79

    3.6. Trabajando con Esquemas y Gráficos Adicionales 51

    asyvars

    graph box wage, over(grade4) nooutsides over(union) ///

    asyvars over(urban2)

    graph hbox tenure, nooutsides over(occ7)

    graph hbox tenure, nooutsides over(occ7, sort(1))graph hbox prev_exp tenure, nooutsides over(occ7, ///

    sort(1))

    graph hbox prev_exp tenure, nooutsides over(occ7, ///

    sort(1)) over(collgrade)

    graph hbox prev_exp tenure, nooutsides over(occ7, ///

    sort(1)) over(collgrad)

    graph hbox ttl_exp tenure, nooutsides over(urban2) ///

    over(married) by(union)

    graph hbox ttl_exp tenure, nooutsides over(urban2) ///

    over(married) by(union, total)

    graph hbox ttl_exp tenure, nooutsides over(urban2) ///

    over(married) by(union, total row(1))

    graph hbox ttl_exp tenure, nooutsides over(urban2) ///

    over(married) by(union, total cols(1))

    Figura 3.27: Hbox y esquema vg teal

    3.6.5. Gráficos de Pastel

    use nlsw.dta

    graph pie, over(occ7)

    Stata Básico

    Aplicado a la Investigación Económica

    www.giddea.com

    [email protected]

    http://www.giddea.com/http://www.giddea.com/

  • 8/20/2019 Manual Stata Basico - Juan Carlos Abanto Orihuela

    52/79

    52 3. Análisis Grafico con Stata

    graph pie, over(union)

    graph pie, over(union) missing

    graph pie, over(occ7)

    graph pie, over(occ7) noclockwise

    graph pie, over(occ7) noclockwise sortgraph pie, over(occ7) sort pie(3, explode)

    graph pie, over(occ7) sort pie(3, explode color(cyan)) ///

    pie(7, explode(5) color(gold))

    graph pie, over(occ7)

    graph pie, over(occ7) plabel(_all sum)

    graph pie, over(occ7) plabel(_all sum) scheme(economist)

    graph pie, over(occ7) plabel(_all percent) scheme(economist)

    graph pie, over(occ7) plabel(_all name) scheme(economist)

    graph pie, over(occ7) plabel(_all name, gap(-5)) ///

    plabel(_all percent, gap(5) format("%2.0f")) scheme(economist)

    graph pie, over(occ7) plabel(_all name, gap(-5)) ///

    plabel(_all percent, gap(5) format("%2.0f")) ///

    legend(title(Ocupación) position(9) cols(1) stack) ///

    scheme(economist)

    Figura 3.28: Pie y esquema economist

    Stata Básico

    Aplicado a la Investigación Económica

    www.giddea.com

    [email protected]

    http://www.giddea.com/http://www.giddea.com/

  • 8/20/2019 Manual Stata Basico - Juan Carlos Abanto Orihuela

    53/79

    3.6. Trabajando con Esquemas y Gráficos Adicionales 53

    RETO 3

    CLASIFICACIÓN DE RIESGOSLa base de datos “deudores”, tiene información acerca de la edad, sexo,

    distrito, ingresos, deuda, y calificación de la deuda, para 19,000 deudores.

      ¿Cuál es la edad promedio de la muestra? Analice la distribución de la edad,con un histograma.

      ¿Qué AFP tiene más clientes? Realice una grafica sustentando su respuesta.

     Genere una dummy mal pagador, que sea 1 si el deudor est á atrasado consus deudas

     ¿Que % de hombres y mujeres son mal pagadores? ¿Quienes ganan más, enpromedio?

      ¿A qué edad las personas se atrasan menos? Realice una grafica sustentandosu respuesta.

     Genere una nueva base de datos a nivel de distrito, con el número de perso-nas, el salario promedio, y el % de deudores atrasados.

     Guarde solo los distritos con al menos 100 personas.

      ¿Qué distritos son los más ricos? ¿En cuáles la gente es peor pagadora?Realice una grafica sustentando sus resultados.

    Stata Básico

    Aplicado a la Investigación Económica

    www.giddea.com

    [email protected]

    http://www.giddea.com/http://www.giddea.com/

  • 8/20/2019 Manual Stata Basico - Juan Carlos Abanto Orihuela

    54/79

    54 3. Análisis Grafico con Stata

    Stata Básico

    Aplicado a la Investigación Económica

    www.giddea.com

    [email protected]

    http://www.giddea.com/http://www.giddea.com/

  • 8/20/2019 Manual Stata Basico - Juan Carlos Abanto Orihuela

    55/79

    Sesión   4Análisis de Regresión Lineal

    4.1. Regresión Lineal

    Ahora vamos a trabajar con las herramientas que hemos aprendido y va-

    mos a generar relaciones econométricas. Empecemos con evaluar una regresiónMCO.

    use elemapi.dta

    regress api00 acs_k3 meals full

    Nuestras expectativas son que un mejor rendimiento académico, este rela-cionado con un tamaño de clase pequeño, pocos estudiantes recibiendo comida

    55

  • 8/20/2019 Manual Stata Basico - Juan Carlos Abanto Orihuela

    56/79

    56 4. Análisis de Regresión Lineal

    gratuita, y un alto porcentaje de profesores que tengan sus credenciales deenseñanza completa.

    regress api00 acs_k3 meals full

    Ahora debemos observar los coeficientes de los resultados de nuestra regre-sión, y su significancia. Estos coeficientes deben ser coherentes con nuestrasexpectativas. ¿Qué es lo que observamos?

    Antes de decir que esta regresión es correcta debemos hacer un conjuntode pruebas.

    describe

    list in 1/5

    list api00 acs_k3 meals full in 1/10

    codebook api00 acs_k3 meals full yr_rnd

    summarize api00 acs_k3 meals full

    summarize acs_k3, detail

    tabulate acs_k3

    list snum dnum acs_k3 if acs_k3 < 0

    list dnum snum api00 acs_k3 meals full if dnum == 140

    histogram acs_k3

    graph box acs_k3

    stem acs_k3

    stem full

    tabulate full

    tabulate dnum if full

  • 8/20/2019 Manual Stata Basico - Juan Carlos Abanto Orihuela

    57/79

    4.1. Regresión Lineal 57

    regress api00 acs_k3 meals full

    Luego de corregir la data podemos volver a estimar la regression y observar:

    use elemapi2.dtaregress api00 acs_k3 meals full

    Digamos que estamos interesados en saber cual es la relaci ón entre el nu-mero de estudiantes y el rendimiento académico.

    regress api00 enroll

    Primero debemos fijarnos en el test F, y ver si es significativo, lo cual nosmostrara la significancia del modelo. El R2 nos dirá que tanto de la varianzade nuestra variable endógena, es explicado por los regresores. Luego debemosobservar la significancia de los parámetros, ver si sus signos son acorde con lateoŕıa. La constante es el valor predecido para cuando nuestra explicativa seacero.

    Podemos observar también que Stata nos presenta la descomposición de lavarianza. La varianza total esta particionada en la varianza explicada por lasvariables independientes (model) y la varianza que no es explicada por dichasvariables(residual). Sabemos que existe una suma de cuadrados asociada a lastres partes de la varianza. Conceptualmente estas son:

    SST   =

    (y − ȳ)2

    SSR =

    (y−

    ŷ)

    2

    SSM  =

    (ŷ − ȳ)2

    Aśı pues se puede comprobar que SST=SSM+SSR, además debemos recordartambién que R2=SSM/SST.Tambíen podemos observar los grados de libertad, asociados con cada partede las varianzas. La varianza total tiene N-1 gl, los gl del modelo son K-1, losgl del residuo simplemente es la diferencia entre el total menos el modelo.Observamos también las medias cuadráticas, es decir la división de la suma decuadrados entre sus gl. Con estas nosotros podemos calcular el valor del test

    F=MSM/MSR, lo cual nos da el ajuste del modelo.El Root MSE es la desviación estandar del error (ráız cuadrada de MSR).

    Obtengamos los valores predichos o estimados para el rendimiento académi-co con nuestro modelo y guardemos dichos valores en la variable fv

    predict fv

    Veamos los valores estimados y los reales:

    Stata Básico

    Aplicado a la Investigación Económica

    www.giddea.com

    [email protected]

    http://www.giddea.com/http://www.giddea.com/

  • 8/20/2019 Manual Stata Basico - Juan Carlos Abanto Orihuela

    58/79

    58 4. Análisis de Regresión Lineal

    list api00 fv in 1/10

    scatter api00 enroll

    twoway (scatter api00 enroll) (lfit api00 enroll)

    Veamos los outliers

    twoway (scatter api00 enroll, mlabel(snum)) (lfit api00 enroll)

    Ahora obtengamos el residuo de la regresión

    predict e, residual

    Ups, problemas en los coeficientes y sus significado, entonces ¿Qué hacer?

    regress api00 ell meals yr_rnd mobility acs_k3 acs_46 full ///

    emer enroll, beta

    De esta manera podemos comparar un coeficiente con otro, dado que todostienen la misma medida ahora.

    Un nuevo comando, busquemos en la red.

    findit listcoef

    listcoef

    Observación SD=desviación estándar observada, desviación estándar de lavariable Y

    SD del Error= desviación estándar del error: MSE (error estándar de la pre-dicción) bstdx=coeficientes de la regresión con las variables x(estandarizadas)y la variable Y(en su unidad original)bstdy=coeficientes de la regresión con las variables x(en su unidad original) yla variable Y(estandarizada)bstdxy=coeficientes de la regresión con las variables x(estandarizadas) y lavariable Y(estandarizada)

    Veamos una prueba de hipótesis

    test ell==0

    test ell

    Veamos una prueba de hipótesis conjunta

    test acs_k3 acs_46

    Veamos la correlación entre las variables

    correlate api00 ell meals yr_rnd mobility acs_k3 acs_46 full ///

    emer enroll

    Stata Básico

    Aplicado a la Investigación Económica

    www.giddea.com

    [email protected]

    http://www.giddea.com/http://www.giddea.com/

  • 8/20/2019 Manual Stata Basico - Juan Carlos Abanto Orihuela

    59/79

    4.2. Diagnostico de los Resultados 59

    Veamos otra opción para correlacionar variables

    pwcorr api00 ell meals yr_rnd mobility acs_k3 acs_46 full ///

    emer enroll, obs sig

    La normalidad Solo el residuo necesita tener una distribución normal, no lasvariables para que se validen los test. Los coeficientes estimados no requierenuna normalidad de residuos.

    Seria bueno sin embargo poseer variables que posean una distribución nor-mal.

    histogram enroll

    histogram enroll, normal bin(20)

    histogram enroll, normal bin(20) xlabel(0(100)1600)

    kdensity enroll, normal

    graph box enrollsymplot enroll

    qnorm enroll

    pnorm enroll

    Veamos todas las posibilidades

    ladder enroll

    gladder enroll

    Ajustemos a nuestra mejor eleccion

    generate lenroll = log(enroll)hist lenroll, normal

    4.2. Diagnostico de los Resultados

    4.2.1. Efecto Influencia

    Ahora vamos a centrarnos en el diagnostico de nuestros resultados. Vemoslos problemas que podŕıan presentarse. Para ello debemos considerar los efectos

    de outliers (una observación con un amplio residuo, que indica una muestrapeculiar o un error en la data), leverage (medida de cuan lejos una variableindependiente esta desviada de su media, puede afectar los coeficientes dela regresión) y el efecto influencia (observación que al removerla, cambia laestimación de los coeficientes radicalmente. dicho problema se le atribuye a unleverage o a un outlier)

    Usemos para esto, la base de datos diseñada por Alan Agresti y BarbaraFinlay (Prentice Hall, 1997).

    Stata Básico

    Aplicado a la Investigación Económica

    www.giddea.com

    [email protected]

    http://www.giddea.com/http://www.giddea.com/

  • 8/20/2019 Manual Stata Basico - Juan Carlos Abanto Orihuela

    60/79

    60 4. Análisis de Regresión Lineal

    use crimen.dta

    describe

    sum crimenes asesinatos pcturb pctblanco pctnivedu pobreza soltero

    graph matrix crimenes pcturb pobreza soltero

    Figura 4.1: Crimenes, pcturb, pobreza y soltero

    Observamos algunas irregularidades. Vemos en muchos gráficos puntos queestán apartados del resto ¿de que estados serán?

    scatter crimenes pcturb, mlabel(estado)

    scatter crimenes pobreza, mlabel(estado)

    scatter crı́menes soltero, mlabel(estado)

    ¿Qué observamos?

    regress crimenes pcturb pobreza soltero

    predict r, rstudent

    stem r

    sort r

    list estadoid estado r in 1/10

    list estadoid estado r in -10/l

    findit hilo

    hilo r estado

    Stata Básico

    Aplicado a la Investigación Económica

    www.giddea.com

    [email protected]

    http://www.giddea.com/http://www.giddea.com/

  • 8/20/2019 Manual Stata Basico - Juan Carlos Abanto Orihuela

    61/79

    4.2. Diagnostico de los Resultados 61

    list r crimenes pcturb pobreza soltero if abs(r) > 2

    predict lev, leverage

    stem levhilo lev estado, show(5) high

    Analizar aquellos puntos con leverage mayores a (2k+2)/n

    display (2*3+2)/51

    list crimenes pcturb pobreza soltero estado lev if lev >.156

    Veamos el leverage y los residuos cuadrados

    lvr2plot, mlabel( estado)

    list estado crimenes pcturb pobreza soltero if estado=="dc" | ///

    estado=="ms"

    Veamos los Cook’s D

    predict d, cooksd

    list crimenes pcturb pobreza soltero estado d if d>4/51

    Veamos la influencia

    predict dfit, dfits

    list crimenes pcturb pobreza soltero estado dfit if abs(dfit)> ///

    2*sqrt(3/51)

    Evaluemos que pasaŕıa con los coeficientes si se borrara la informaciónen algunas variables, ¿estos cambiaŕıan? Es decir, ¿nuestros coeficientes sonrobustos o no?

    dfbeta

    list estado DFpcturb DFpobreza DFsoltero in 1/5

    El valor de dfbeta para una observación, significara que de ser incluida enel análisis (comparativamente a no ser incluida) incrementara el coeficiente debeta, en dicho valor multiplicado por el error estándar del beta correspondiente.

    Un dfbeta mayor a 2/sqrt(n) necesita ser investigado.display 2/sqrt(51)

    scatter DFpcturb DFpobreza DFsoltero estadoid, ylabel(-1(.5)3) ///

    yline(.28 -.28)

    scatter DFpcturb DFpobreza DFsoltero estadoid, ylabel(-1(.5)3) ///

    yline(.28 -.28) mlabel(estado estado estado)

    list DFsoltero estado crimenes pcturb pobreza soltero if ///

    abs( DFsoltero) > 2/sqrt(51)

    Stata Básico

    Aplicado a la Investigación Económica

    www.giddea.com

    [email protected]

    http://www.giddea.com/http://www.giddea.com/

  • 8/20/2019 Manual Stata Basico - Juan Carlos Abanto Orihuela

    62/79

    62 4. Análisis de Regresión Lineal

    Veamos el efecto influencia a través de regresiones parciales, de maneragrafica.

    avplot soltero, mlabel( estado)

    avplots

    regress

    regress crimenes pcturb pobreza soltero if estado !="dc"

    Si bien podemos buscar outliers con variables pertenecientes al modelo,también podemos hacerlo con variables que no están incluidas en el modelo.

    regress crimenes pcturb pobreza soltero

    avplot pctblanco

    regress crimenes pcturb pobreza soltero pctblanco

    4.3. Normalidad del Residuo

    La normalidad del residuo es requerida por muchas investigaciones si no-sotros deseamos validar las pruebas de hipótesis sobre t-value y F-value. Ojo,la no normalidad del residuo no invalidad la regresión. Una regresión validarequiere que el residuo sea idéntica e independientemente distribuida, no re-quiere que las variables explicativas sean distribuidas de forma normal. Si nocomo explicaŕıamos el uso de variables dummys en nuestras regresiones.

    use elemapi2,clear

    regress api00 meals ell emer

    predict r, resid

    Análisis grafico de normalidad

    kdensity r, normal

    pnorm r

    qnorm r

    Stata Básico

    Aplicado a la Investigación Económica

    www.giddea.com

    [email protected]

    http://www.giddea.com/http://www.giddea.com/

  • 8/20/2019 Manual Stata Basico - Juan Carlos Abanto Orihuela

    63/79

    4.4. Homocedasticidad del Residuo 63

    Test de NormalidadTest de Lawrence C. Hamilton

    findit iqr

    iqr r

    Test de Shapiro-Wilk W (Ho: Normalidad)

    swilk r

    4.4. Homocedasticidad del Residuo

    Supuesto crucial en un modelo MCO, la varianza de sus residuos debe serconstante. Si la varianza no es constante entonces hay heterocedasticidad que

    bien podŕıa ser modelada a través de un modelo de volatilidad.Detección

    rvfplot, yline(0)

    Figura 4.2: Homocedasticidad del residuo

    Test de Heterocedasticidad (Ho: Varianza constante)

    Test de White

    estat imtest

    Test de Breusch y Pagan

    Stata Básico

    Aplicado a la Investigación Económica

    www.giddea.com

    [email protected]

    http://www.giddea.com/http://www.giddea.com/

  • 8/20/2019 Manual Stata Basico - Juan Carlos Abanto Orihuela

    64/79

    64 4. Análisis de Regresión Lineal

    estat hettest

    El análisis grafico no nos muestra un problema serio de heterocedasticidad.Aśı que no lo corregiremos por ahora.

    4.5. Multicolinealidad

    Cuando dos variables explicativas están altamente relacionadas, podemoshablar de multicolinealidad. Para detectar la multicolinealidad nosotros usa-remos el factor de inflación de varianza (VIF) Aquella variable cuyo vif seamayor a 10 deberá ser investigada.

    regress api00 meals ell emer

    vif

    regress api00 acs_k3 avg_ed grad_sch col_grad some_col

    vif

    ¿Qué podriamos decir de esta regresión?, ¿porqué presentaria problemasde multicolinealidad?

    regress api00 acs_k3 grad_sch col_grad some_col

    vif

    findit collin

    collin acs_k3 avg_ed grad_sch col_grad some_col

    collin acs_k3 grad_sch col_grad some_col

    4.6. Linealidad

    Uno de los supuestos del Modelo Lineal General es la linealidad de par á-metros especificada en mi regresión. Si estamos frente a un ajuste no lineal,entonces nosotros tendremos problemas dado que estamos forzando una ĺıneacomo ajuste de nuestra relación no lineal.

    Analicemos solo a una variable.regress api00 enroll

    twoway (scatter api00 enroll) (lfit api00 enroll) (lowess api00 enroll)

    regress api00 meals some_col

    predict r, resid

    scatter r meals

    scatter r some_col

    Stata Básico

    Aplicado a la Investigación Económica

    www.giddea.com

    [email protected]

    http://www.giddea.com/http://www.giddea.com/

  • 8/20/2019 Manual Stata Basico - Juan Carlos Abanto Orihuela

    65/79

    4.7. Especificación del modelo 65

    No se vio una clara no linealidad, entonces usemos algo mas efectivo

    acprplot meals, lowess lsopts(bwidth(1))

    acprplot some_col, lowess lsopts(bwidth(1))

    Tampoco se ve un problema grave de no linealidad. Usemos una data masinteresante.

    use nations.dta

    describe

    regress birth gnpcap urban

    acprplot gnpcap, lowess

    acprplot urban, lowess

    graph matrix birth gnpcap urban, half

    kdensity gnpcap, normal

    Transformemos un dato

    generate lggnp=log(gnpcap)

    label variable lggnp "log-10 of gnpcap"

    kdensity lggnp, normal

    Regresionemos con el dato transformado

    regress birth lggnp urban

    acprplot lggnp, lowess

    4.7. Especificación del modelo

    Un error en la especificación del modelo puede ocurrir cuando uno o masvariables relevantes son omitidas del modelo o una o mas variables relevantesson incluidas en el modelo. Una mala especificación puede afectar los paráme-tros estimados.

    Digamos que estamos corriendo una regresión entre el tamaño de la clase y

    el rendimiento académico, un incremento en la primera influirá incrementandola segunda, evaluaremos la especificación del modelo, para ello usaremos lossiguientes comandos

    use elemapi2, clear

    regress api00 acs_k3

    Un par de métodos Linktest, esta basado en la idea de que si el modelo estabien especificado, entonces no debeŕıamos encontrar variables independientes

    Stata Básico

    Aplicado a la Investigación Económica

    www.giddea.com

    [email protected]

    http://www.giddea.com/http://www.giddea.com/

  • 8/20/2019 Manual Stata Basico - Juan Carlos Abanto Orihuela

    66/79

    66 4. Análisis de Regresión Lineal

    que sean significativas. El comando crea 2 variables nuevas, una variable es-timada, y el cuadrado de dicha estimación. Se evalúa el modelo con ambasvariables, la estimación y hat debeŕıa ser significativa pues es el valor esti-mado, pero su cuadrado no debeŕıa serlo, pues de estar bien especificado el

    modelo, la estimación al cuadrado no debeŕıa tener mucho poder explicativo.

    Linktest

    Ovtest

    regress api00 acs_k3 full

    linktest

    ovtest

    regress api00 acs_k3 full meals

    linktest

    ovtest

    4.8. Independencia

    Los errores asociados a una observación no debeŕıan estar asociados a loserrores de alguna otra observación. En nuestro caso, al haber recolectado da-tos de 8 tipos de escuela es probable que estudiantes dentro de sus escuelastiendan a ser mas parecidos que estudiantes de otra escuela, esto produciŕıaerrores no independientes. El problema de autocorrelacion es muy común en

    series de tiempo, en la cual nosotros evaluamos el test DW para ver la auto-correlación de primer orden. Si quisiéramos especificar este análisis en nuestradata, podrı́amos considerar a la variable snum como el tiempo

    use elemapi2, clear

    tsset snum

    regress api00 enroll

    dwstat

    predict r, resid

    scatter r snum

    ¿Qué observamos?

    Stata Básico

    Aplicado a la Investigación Económica

    www.giddea.com

    [email protected]

    http://www.giddea.com/http://www.giddea.com/

  • 8/20/2019 Manual Stata Basico - Juan Carlos Abanto Orihuela

    67/79

    4.8. Independencia 67

    RETO 4

      Trabajar con el archivo “gobusa5089.dta” y contestar las siguientes pregun-tas:

    ¿Identificar las variables y opinar respecto a cada variable, realizarun análisis gráfico y estad́ıstico para comprender la base de datos?.¿Identificar las variables de polı́tica y las variables apoĺıticas?

    ¿Elaborar una tabla de correlaciones entre la variable tax y las variablespoĺıticas y comentar los resultados sobresalientes?.

    Responder a lo siguiente: ¿Quíenes cobran más impuestos, los esta-dos con gobiernos divididos o los estados con gobiernos unificados?,¿qué tan seguro estás de su respuesta?.

    Marco teórico mı́nimo. Existen varias teoŕıas respecto del impacto de losfactores polı́ticos y económicos sobre la poĺıtica tributaria en cada estado:

    Las teoŕıas apoĺıticas dicen que las variables socioeconómicas y de-mográficos (ingreso, población, grupos de edad) son los principales de-terminantes de los impuestos.

    Entre las teorı́as polı́ticas, algunos dicen que los factores poĺıticos par-tidistas (partido en el gobierno y/o congreso local, mayoŕıa demócrataen el congreso o no, etc.) también son importantes.

    Mientras que otros dicen que son las variables poĺıticas no-partidistas

    (gobierno dividido, margen de la primera fuerza en el congreso local,etc.) las que afectan los impuestos, y no tanto la ideoloǵıa o identidaddel partido en el poder (demócrata vs. republicano).

    Especifica al menos tres regresiones (con errores estándar robustos) para lavariable tax y compara sus resultados. Interpreta brevemente los coeficien-tes, su bondad de ajuste, etc. y explica cuál de ellos es preferible a los otros.(Tip: no incluyas la variable spend en tu regresión).

    Pruebas de hipótesis

    Controlando por otros factores, la relación entre población e impuestoses no lineal.

    Controlando por otros factores, los gobernadores demócratas cobranmás impuestos que los no demócratas.

    Manteniendo otros factores constantes, los estados con mayoŕıa demócra-ta en el congreso local cobran más impuestos que los gobiernos sinmayoŕıa demócrata.

    Stata Básico

    Aplicado a la Investigación Económica

    www.giddea.com

    [email protected]

    http://www.giddea.com/http://www.giddea.com/

  • 8/20/2019 Manual Stata Basico - Juan Carlos Abanto Orihuela

    68/79

    68 4. Análisis de Regresión Lineal

    Manteniendo otros factores constantes, los gobiernos divididos cobranmenos impuestos que los gobiernos no divididos.

    El impacto del gobierno dividido cambia si sólo consideramos el perı́odo1975-1989 en la regresión.

    Manteniendo otros factores constantes, una vez que controlamos porquíen tiene la mayoŕıa en el congreso (demmaj1), el margen de estamayoŕıa (dem1) no tiene un impacto en los impuestos.

    Interpretando regresiones:

    ¿Cuál es la bondad de ajuste de un modelo sin variables poĺıticas? ¿Cuántopoder explicativo adicional se consigue al incluir las variables poĺıticas?¿Qué variables poĺıticas importan más, las partidistas o las no partidistas?(ojo, esta pregunta requiere cierta interpretación de la R2 ajustada de variosmodelos, aśı como la magnitud y significancia de tus coeficientes).

    Predicciones:

    ¿Cuánto cambian los impuestos per cápita si el ingreso per cápita aumenta enuna desviación estándar? Calcula este cambio en dólares y como proporciónde los impuestos promedio de la muestra.

    ¿Cuánto cambian los impuestos cuando la mayoŕıa demócrata en el congresolocal pasa de 10 a 30 %? Calcula este cambio en dólares y como proporciónde los impuestos promedio de la muestra.

    Stata Básico

    Aplicado a la Investigación Económica

    www.giddea.com

    [email protected]

    http://www.giddea.com/http://www.giddea.com/

  • 8/20/2019 Manual Stata Basico - Juan Carlos Abanto Orihuela

    69/79

    Sesión   5Variables Categóricas

    5.1. Estimación con Variables Categóricas

    Hab́ıamos usado variables continuas anteriormente, sin embargo es posible

    usar variables categóricas en un análisis de regresión pero requiere un trabajoextra en la interpretación, el análisis y diagnostico de los resultados.

    use elemapi2.dta, clear

    describe api00 some_col yr_rnd mealcat

    codebook api00

    codebook some_col

    codebook yr_rnd

    codebook mealcat

    Uso de variables dummy Regresionemos el rendimiento académico con lavariable que nos indica si el alumno esta en el programa year-round o no

    regress api00 yr_rnd

    twoway (scatter api00 yr_rnd) (lfit api00 yr_rnd)

    tabulate yr_rnd, sum(api00)

    Observamos un parámetro negativo en la regresión, para nuestra variabledummy. Esto significa que si dicha variable toma el valor de cero la medida delrendimiento de los alumnos será su media considerando solo a aquellos alumnosque no están en el programa o sistema de enseñanza, mientras que si la variabletoma el valor de uno, la medida del rendimiento será la media considerandosolo a aquellos alumnos que si están bajo este sistema de enseñanza.

    ttest api00, by(yr_rnd)

    anova api00 yr_rnd

    display 10.7815^2

    codebook mealcat

    regress api00 mealcat

    69

  • 8/20/2019 Manual Stata Basico - Juan Carlos Abanto Orihuela

    70/79

    70 5. Variables Categóricas

    Pero esta variable mealcat es una variable intervalo, podrı́amos generar tresvariables a partir de esta, de tal forma que podamos definir a cada sub variablecomo un valor cada vez que mealcat pertenezca a cierto intervalo.

    tabulate mealcat, gen(mealcat)

    list mealcat mealcat1 mealcat2 mealcat3 in 1/10, nolabel

    regress api00 mealcat2 mealcat3

    La constante es la media para el grupo1. El coeficiente de mealcat2 es lamedia del grupo 2 menos la media del grupo1, y el coeficiente de mealcat3 esla media del grupo3 menos la media del grupo1.

    Los resultados nos dicen que los tres grupos difieren de sus medidas derendimientos.

    test mealcat2 mealcat3tabulate mealcat, summarize(api00)

    5.2. El Comando Xi

    Lo mismo podemos hacer con el comando “xi”,

    xi : regress api00 i.mealcat

    test _Imealcat_2 _Imealcat_3

    Si deseáramos omitir el tercer grupo y no el primero, entonces debeŕıamosusar el siguiente comando:

    char mealcat[omit] 3

    xi : regress api00 i.mealcat

    Nosotros podemos hacer el mismo análisis usando el comando “anova”

    anova api00 mealcat

    anova, regress

    Aqúı vemos que siempre la ultima categoŕıa es borrada y reemplazada conla constante.Los beneficios del comando “anova” es que te da el efecto total de meal-

    cat sin necesitar el uso del comando test como lo haćıamos con el comando“regress”.

    Volvamos a nuestras regresiones:

    regress api00 yr_rnd

    xi : regress api00 i.mealcat

    Stata Básico

    Aplicado a la Investigación Económica

    www.giddea.com

    [email protected]

    http://www.giddea.com/http://www.giddea.com/

  • 8/20/2019 Manual Stata Basico - Juan Carlos Abanto Orihuela

    71/79

    5.2. El Comando Xi 71

    Y ahora vamos a estimar el rendimiento académico usando una variabledicotomica mas:

    xi : regress api00 i.mealcat yr_rnd

    test _Imealcat_1 _Imealcat_2

    anova api00 yr_rnd mealcat

    anova, regress

    Dado que este modelo solo tiene efectos principales, sin interacciones, lainterpretación del coeficiente de ”yr rnd”, es la diferencia entre escuelas consistema year round y escuelas sin ese sistema de enseñanza, el primer coeficientepara la variable “mealcat” es la diferencia entre mealcat=1 y mealcat=3, elsegundo es la diferencia entre mealcat=2 y mealcat=3 (siendo mealcat=3 lavariable categórica de referencia y la cual es estimada por la variable)

    Finalmente los resultados indican que las diferencias entre un sistema deenseñanza year-round y un sistema de enseñanza sin year-round es significativoy las diferencias entre los tres grupos mealcat también son significativos.

    Veamos algunas interacciones con las variables categóricas:

    xi : regress api00 i.mealcat*yr_rnd

    Ahora incluiremos la interacción entre mealcat y yr rnd Y testeamos lasignificancia:

    test _ImeaXyr_rn_1 _ImeaXyr_rn_2

    Si deseamos testear el efecto de yr rnd para mealcat=1:

    test _b[yr_rnd] +_b[_ImeaXyr_rn_1] ==0

    Puedo ver un testeo sobre todos los efectos principales e iteraciones sin lanecesidad de recurrir al comando test:

    anova api00 yr_rnd mealcat yr_rnd*mealcat

    regress api00 yr_rnd some_col

    predict yhat

    scatter yhat some_col

    Stata Básico

    Aplicado a la Investigación Económica

    www.giddea.com

    [email protected]

    http://www.giddea.com/http://www.giddea.com/

  • 8/20/2019 Manual Stata Basico - Juan Carlos Abanto Orihuela

    72/79

    72 5. Variables Categóricas

    Para correr un Anova necesitamos indicarle que la variable a evaluar tienecaracterı́sticas de continuidad:

    anova api00 yr_rnd some_col, cont(some_col)

    INTERACCIONES

    regress api00 some_col if yr_rnd==0

    predict yhat0 if yr_rnd==0

    scatter yhat0 api00 some_col if yr_rnd==0, connect(l i)

     msymbol(i o) sort

    regress api00 some_col if yr_rnd==1

    predict yhat1 if yr_rnd==1

    scatter yhat1 api00 some_col if yr_rnd==1, connect(l i)

     msymbol(i o) sort

    5.3. Pruebas de Hipótesis

    El GPA (Grade Point Average, o promedio de notas) es una medida de lacalidad de su traba jo académico a nivel universitario. Algunos patrones suelenutilizar al GPA como un factor clave cuando les ofrezcan trabajo a egresadosde la universidad. Es por eso que resulta de suma importancia mantener unbuen GPA durante toda su carrera universitaria.

    El examen de aptitud SAT (Scholastic Aptitude Test - Examen de apti-

    tudes escolares) es un examen estandarizado para admisión a universidadesen EEUU. El rango de este, varia entre los 600 y 2400 puntos, consta de 3secciones, matemática, lectura critica, y escritura.

    use GPA.dta, clear

    desc

    sum

    reg colgpa sat verbmath tothrs hsperc hsize, robust

    reg colgpa sat verbmath tothrs hsperc hsize hsizesq, robust

    display _b[hsize] / (2*_b[hsizesq])

    ¿Si el SAT score aumenta 100 puntos, que tan probable es que el GPAaumente 0.25 puntos?

    display (_b[sat] - .0025) / _se[sat]

    display ttail(4130, 15.52)

    display ttail(4130, 1.52)

    display ttail(413, 1.52)

    display ttail(41, 1.52)

    Stata Básico

    Aplicado a la Investigación Económica

    www.giddea.com

    [email protected]

    http://www.giddea.com/http://www.giddea.com/

  • 8/20/2019 Manual Stata Basico - Juan Carlos Abanto Orihuela

    73/79

    5.3. Pruebas de Hipótesis 73

    Afortunadamente, Stata hace pruebas de hipótesis de manera muy “intui-tiva”

    test sat = .0025

    Otras pruebas:

    test sat = .002

    test sat = .0014

    reg colgpa sat verbmath tothrs hsperc hsize hsizesq, robust

    ¿Qué pasa con la regresión si solo tomamos las primeras 2000 observacionesde la muestra?

    reg colgpa sat verbmath tothrs hsperc hsize hsizesq ///

    if _n

  • 8/20/2019 Manual Stata Basico - Juan Carlos Abanto Orihuela

    74/79

    74 5. Variables Categóricas

    use Salario2.dta,