Manual STATA 11

download Manual STATA 11

of 124

Transcript of Manual STATA 11

  • 7/21/2019 Manual STATA 11

    1/124

    UNIVERSIDAD NACIONAL DEL CALLAO

    Facultad de Ciencias EconmicasEscuela Profesional de Economa

    MANUAL DE STATA

    Curso: Econometra I

    Profesor: Erix Aldo Ruiz Mondaca

    GESTIN DE BASE DE DATOS CON STATA

    Asistente: David Esparta Polanco

    [email protected]

    1

  • 7/21/2019 Manual STATA 11

    2/124

    Cap. 1 Introduccin

    1.1 El entorno de STATA 11

    Al momento de iniciar la sesin en STATA, esta mostrar cuatro ventanas im-portantes:

    Otras ventanas a tomar en consideracin son:

    1. STATA Viewer: Podemos acceder a la informacin online y a las ayudasque nos otorga el programa.

    2. STATA Do-File Editor: Es una ventana que funciona como editor detexto para poder guardar y ejecutar una lista de comandos programados.

    3. STATA Data Editor: Nos permite digitar y modicar los datos de lamisma forma que una hoja de Excel.

    4. STATA Browser: Accedemos a la ventana de datos sin poder modicarsu contenido.

    5. STATA Graphs: Nos muestra una ventana con el grco que ejecuta-mos.

    2

  • 7/21/2019 Manual STATA 11

    3/124

    1.2 La Barra de Herramientas

    La barra de herramientas nos permite realizar operaciones rutinarias como abrir,guardar, imprimir algn archivo, adems de otras particularidades.

    Icono Signicado

    Nos permite abrir una base de datos con extensin*.dta.

    Nos permite guardar una base de datos que est siendo utilizada.

    Nos permite imprimir el contenido registrado en la ventana delStata Result.

    Nos permite iniciar, cerrar, suspender o resumir una bitacora (lacual se guardan con extensin *.logo *.smcl). Es til para

    guardar los resultados mostrados por el Stata Result.

    Nos muestra la ventana del Stata Viewer oculta.Nos indica la ventana del Stata Graphic.

    Nos permite iniciar el uso del Stata Do-File.

    Nos permite abrir la ventana del Stata Editor que esta oculta.

    3

  • 7/21/2019 Manual STATA 11

    4/124

    Nos permite abrir la ventana del Stata Browser que esta oculta.

    Ordena al Stata continuar la ejecucin de un comando que fuedetenido.

    Ordena al Stata detener la ejecucin de un comando.

    1.3 Tipos de Archivo

    Stata reconoce 4 tipos de archivos:

    1. Archivo *.dta : Lee base de datos del entorno de STATA.

    2. Archivo *.do :

    Lee el Do-File, la cual contiene una serie de

    programas y/o funciones.

    3. Archivo *.log : Guarda los resultados que arroja el STATA, tambin

    llamado bitcora.

    4. Archivo *.gph : Guarda los gracos creados en el STATA.

    1.4 Sintaxis de los Comandos del STATA

    La estructura general de la sintaxis bsica de los comandos en el STATA es:

    [prex :] command [varlist] [if expr] [in] [weight] [using lename] [; options]

    Donde:

    prefix : Permite repetir las ejecuciones de un determinado comandoo modicar el input y/o output de la base de datos.

    command : Indica el comando del STATA. varlist : Indica la lista de nombres de variables. weight : Indica la variable de ponderacin. if : Indica una expresin lgica condicional . exp : Indica la expresin matemtica utilizada para la condicional. in : Seala el rango de observaciones que queremos analizar. filename : Seala el nombre del archivo. options : Seala una o ms opciones que aplica el comando.

    4

  • 7/21/2019 Manual STATA 11

    5/124

    1.5 Expresiones Lgicas del STATA

    Las siguientes expresiones nos servirn para la programacin en STATA.

    1.6 Esquema de un Archivo de Trabajo

    A la hora de trabajar con el STATA (especcamente en el archivo Do-le) esrecomendable mantener el siguiente esquema de trabajo:

    5

  • 7/21/2019 Manual STATA 11

    6/124

    1.7 Recursos del STATA

    STATA cuenta con una documentacin extensa la cual puede encontrarse en elmismo software as como tambin en la web.

    a). Guides User STATA: La gua de usuario se accede en la barra de herramien-tas a travs de la siguiente ruta: Help >PDF Documentation. Estagua es muy importante para los usuarios que comienzan a trabajar conSTATA.

    b). STATA Journal (SJ) y STATA Technical Bulletin (STB): Presentan doc-umentacin acerca de nuevos comandos que no estn incluidos en el soft-ware, la cual pueden ser descargados por la web.

    c). Otras Fuentes:

    http://www.stata.com/support/Incluye un resumen de lo que hace el STATA. En particular se recomienda

    ver la parte de respuestas: FREQUENTLY ASKED QUESTION (FAQs).

    http://www.ats.ucla.edu/STAT/stataProvee diversos tutoriales y videos para aprender STATA.

    1.8 Comandos de Ayuda del STATA

    Existen diversos comandos que sirven como ayuda para el manejo de STATA,entre ellas tenemos:

    a). help: Es muy til si se conoce el nombre comando para la cual se necesitaayuda.

    Example 1 helpregress

    b). search : Busca una palabra clave "keyword" en los archivos ociales deayuda, FAQs, examples, the SJ y el STB, pero no del internet.

    Example 2 searchols

    c). net search : Busca en Internet paquetes instalables, incluyendo cdigosdel SJ y el STB.

    Example 3 net searchrandom eect

    d). ndit : Provee la ms amplia bsqueda de keyword con informacin rela-cionado al STATA. Es til ya que no se necesita especicar el keyword demanera completa.

    6

  • 7/21/2019 Manual STATA 11

    7/124

    Example 4 nditweak inst

    e). hsearch: Busca el keyword en todos los archivos de ayuda (con extensin.sthlp o.hlp). El inconveniente es que se necesita el keyword completo.

    Example 5 hsearchweak instrument

    7

  • 7/21/2019 Manual STATA 11

    8/124

    Cap.2 Gestin de Base de

    Datos

    Aprenderemos en qu consiste una sesin de trabajo en STATA y exploraremosalgunos comandos que nos permitan realizar un anlisis de base de datos ha-ciendo uso del Do-le. Para dicho n, explicaremos el funcionamiento de estaherramienta del STATA.

    2.1 El Do-File

    STATA cuenta con una ventana que nos permite trabajar con una serie decomandos y almacenarlas. Estos archivos son muy importantes por los siguientesmotivos:

    Permite registrar una de serie de comando, la cual representa todo elprocedimiento de nuestro trabajo.

    Permite ir corrigiendo posibles errores que se pueden generar en la elabo-racin y ejecucin de nuestro trabajo.

    Permite poder nuevamente replicarlo en sesiones posteriores sin necesidadde crearlo nuevamente.

    Adems, sirve como un mecanismo de seguridad que permite regresar a labase de datos original despus de haberle hecho diversas transformaciones.

    Para acceder al Do-le hacemos clic al cono correspondiente en la barra deherramientas o simplemente presionamos la siguiente sucesin de teclasCtrl+8.Recuerde que el archivo Do-le se guarda con extensin*.do.

    Con respecto a las formas de poder ejecutar los comandos, se puede hacer

    a travs del icono (execute do)ubicado en la parte superior derecha de labarra de herramientas del archivo Do-le o presionando los teclados Ctrl+Duna vez que sombremos el comando queramos correr. Una vez realizada esta

    accin, se reejar los resultados en la ventana Result View del STATA.

    8

  • 7/21/2019 Manual STATA 11

    9/124

    2.1.1 Realizando Comentarios en el Do-File

    El Do-le puede incluir comentarios incrementando el entendimiento de un pro-grama o archivo de trabajo. Existen diferentes formas de incluir un comentario:

    Una simple lnea de comentario empieza con un asterisco () ; dondeSTATA ignorar tales lneas.

    Para colocar un comentario en la misma lnea donde fue escrito el comandoutilizamos dos slash (= =) :

    Para lneas con mltiples comentarios, colocamos el texto entre los sm-bolos (=)al inicio y (=)al nal.

    En el caso de que se haga uso de un comando la cual presenta una expresinmuy larga podemos utilizar tres slash(= = =)en medio de la expresin y

    as continuar en la siguiente lnea la parte faltante. STATA entendercomo si fuera una nica lnea de comando.

    Por ltimo, tambin se utilizan los smbolos de comentarios con nes dec-orativo.

    Example:

    ***********************************************USANDO COMENTARIOS EN EL DO-FILE***********************************************

    *Este es mi primer comentarioclear // este es un comentario para el comando clear

    /*este esun comentariocon lneas mltiples*/

    sysuse ///auto.dta

    Note : Como ver los comentarios se resaltan de color verde.

    9

  • 7/21/2019 Manual STATA 11

    10/124

    2.1.2 Iniciando la Estrucutra de un Do-le

    Como se explic en el esquema usual de un do-le, esta empieza con el comandoclear. Este comando nos permite limpiar por inercia una base de datos yetiquetas existentes en la memoria del STATA. Es importante saber que estecomando presenta algunas opciones que se mostrarn a continuacin:

    Example:

    Remueve la base de datos y las etiquetas:clear

    Adems, puede remover funciones del MATA1 , resultados guardados in-ternamente por el STATA, adems de matrices, programas y archivos*.ado:

    clear [mata; result; matrix;program; ado]

    Si se desea borrar todo de una sola vez, se usa la siguiente opcin:clear all

    2.1.3 Asignando Memoria al STATA

    Dado que existen bases de datos con diferentes tamaos, es posible que antebases demasiados grandes y pesadas, el STATA no podr reconocerlo por faltade memoria, es por ello que puede encontrarse con el siguiente mansaje de error:

    1 MATA es un lenguaje de programacin matricial que puede ser usado por quienes deseancalcular iteraciones en un entorno de matrices.

    10

  • 7/21/2019 Manual STATA 11

    11/124

    Generalmente se suele trabajar con una capacidad de memoria de 20m(megabyte), para realizar esta operacin escribimos lo siguiente2 :

    set memory20m

    2.1.4 Manejo de Directorios

    Cuando se incia sesin en STATA, por defecto trabaja en la carpeta en dondese encuentra ubicado el programa. Si por ejemplo, el software se ubicase en eldisco "C:nArchivos de Programas" entonces la carpeta de trabajo o direc-torio se encontrar en la siguiente ruta "C:nArchivos de ProgramasnStata11n". Para saber con qu directorio se est trabajando actualmente se utilizael comando pwd, y el resultado se reejar de la siguiente forma:

    Example:

    pwdC:nArchivos de programanStata11

    Tambin es posible saber lo anterior viendo la parte inferior izquierda delentorno del STATA.

    2 Para saber cules son las diversas opciones que presenta el STATA para trabajar condiferentes tamaos de base de datos recurra al comandohelp set eligiendo la opcinmemoryo simplemente escriba help memory.

    11

  • 7/21/2019 Manual STATA 11

    12/124

    Supongamos que en el disco "D:n" se crea una carpeta con el nombre "EconometraI"la cual nos va a servir para guardar nuestros trabajos, entonces, el nuevo di-

    rectorio se encontrara en la ruta : "D:nEconometria I". Ahora utilizamos elcomandocd para cambiarnos al nuevo directorio indicando la nueva ruta entrecomillas de la siguiente manera:

    Example:

    cd"D:nEconometria I"D:nEconometria I

    STATA tambin cuenta con otros comandos para el manejo con directorios,como son:

    El comando mkdirnos permite crear una carpeta o directorio:

    mkdirsesion_1

    El comando dir nos permite observar el listado de todos los archivos quese encuentran en nuestra carpeta de trabajo.

    dir

    2.1.5 Guardar los Resultados del STATA

    Como se mencion, los resultados que arroja STATA puede ser almacenadosen una bitcora, es decir, crear un archivo *.log o *.smcl a travs del comandolog3 .

    Para crear una bitcora llamada primera_bitacorarecurrimos a la sigu-iente sintaxis:

    log using primera_bitacora

    El STATA por defecto crear una bitcora con formato *.scmly se visu-alizar en el directorio que estamos trabajando.

    Example:

    Si desea crear una bitcora con formato*.logescribimos:

    log using primera_bitacora.log Para dejar de registrar momentneamente los resultados usamos:log o

    3 Recurra al comando help log para ver todas las opciones que presenta.

    12

  • 7/21/2019 Manual STATA 11

    13/124

    Para volver a registrar los resultados usamos:

    log on Para cerrar la bitcora usamos:log close

    Para volver a reanudar la bitcora:log using primera_bitacora,append

    Para sobreescribir en la bitcora:log using primera_bitacora,replace

    Para observar una bitcora ya elaborada en el Result View usamos:typeprimera_bitacora.scml

    2.2 Abrir una Base de datos

    Existen diferentes formas de invocar una base de datos, ya sea en formato delSTATA(:dta)o en otros formatos (:txt, :xls, etc).

    2.2.1 Abriendo una base de datos con formato del STATA.

    Para abrir una base de datos desde la ventana principal del STATA debemosacceder a la siguiente ruta: File>Open.Luego aparecer un cuadro de dilogopara buscar y elegir la base de datos que deseamos trabajar.

    13

  • 7/21/2019 Manual STATA 11

    14/124

    Si deseamos llamar una base de datos a travs del Do-le, basta con guardardicha base en el directorio actual que se est trabajando y llamarlo usando el

    comandouse.

    Example : Supongamos que hemos guardado en la carpeta "Econome-tria I" la base de datos enaho01-2009-100.dta. Para poder invocarlo escribimos:

    use enaho01-2009-100.dta

    En la parte inferior izquierda del entorno del STATA se apreciar las vari-ables que contiene la base de datos enaho01-2009-100.dta.

    Adems, STATA cuenta con base de datos dentro de sus sistema como ejem-plos aplicativos, para invocarlos se utiliza el comando sysuse.

    Example: Uno de las base de datos que cuenta el STATA esauto.dta.

    sysuse auto.dta

    2.2.2 Importando una base de datos de otros formato.

    Segn el tipo de archivo que queremos importar la base de datos debemos usarel comando indicado. El comando insheet lee base proveniente de una hojade clculo como por ejemplo Excel que son guardados por un spreadsheet o unprograma de bases comodatos delimitado por comas (:csv)odatos delimitadopor tabulaciones (:txt). Es importante mencionar que la primera lnea de lahoja de clculo se registre el nombre de las variables y a partir de la segundala se comienzan a registrar los datos.

    Example: Supongamos que tenemos un archivo en Excel llamado "archivo1.xlsx"con la siguiente estructura:

    14

  • 7/21/2019 Manual STATA 11

    15/124

    Debemos armar la base de datos de la siguiente forma:

    Luego lo guardamos en nuestra carpeta de trabajo ("D:nEconometria I") conformato Texto (delimitado por tabulaciones) o CSV (delimitado por comas).

    15

  • 7/21/2019 Manual STATA 11

    16/124

    Finalmente utilizamos el comando insheet para importar la base de datoscomo se indica a continuacin:

    insheet usingarchivo1.csv

    (Si fue guardado como delimitado por comas)

    insheet using archivo1.txt(Si fue guardado como delimitado por tabulaciones)

    2.3 Convertir una Base de Datos de Otros Archivoen Formato STATA

    STATA cuenta con una herramienta que permite convertir base de datos deSPSS, Matlab, Gauss, SAS, etc. al formato *.dta a travs del sotfware

    STAT/TRANSFER.

    16

  • 7/21/2019 Manual STATA 11

    17/124

    Para acceder a este software basta con hacerle clic y posteriormente nossaldr una ventana de dialogo solicitndonos la siguiente informacin:

    Input File Type : Indicamos el tipo de archivo en la cual se encuentranuestra base de datos original.

    File Specification: Indicamos la ruta donde se encuentra nuestra basede datos original haciendo uso del botn Browse.

    Output File Type: Indicamos el tipo de archivo al cual deseamos que labase de datos se convierta.

    File Specification : Indicamos la ruta donde queremos colocar la basede datos convertida haciendo uso del botn Browse.

    Example:

    Para nuestro ilustrativo contamos con una base de datos de la Enaho enformato de SPSS llamada "Enaho01A-2009-400.sav" que se encuentra en lasiguiente ruta "D:nDAVIDndatabase" y lo queremos convertir a un archivo debase de datos del STATA con el mismo nombre en nuestra carpeta de trabajo"D:nEconometria I".

    Para desarrollar esta aplicacin realizamos los siguientes pasos:

    1. Abrimos la ventana de dialogo delSTAT/TRANSFER.

    2. En la seccin Input File Type hacemos clic a la barra desplegable y

    elegimos el formatoSPSS Data Fileya que se debe un archivo de base dedatos del SPSS 15.

    3. En la seccin F ile S pecification hacemos clic en el botn Browse paradenir la ruta donde se encuentra nuestra base original. Observe queen la barra "Unidades" (ubicado en la parte inferir derecha) escogemosel disco d, En la barra "Mostrar Archivos Tipos" (ubicado en la parte

    17

  • 7/21/2019 Manual STATA 11

    18/124

    inferir izquierda) por default se muestra SPSS Data File (*.SAV). Enel cuadro "Carpetas" hacemos clic en las carpetas segn como se seala

    la ruta del archivo de origen d:n > david > database. Finalmentehacemos clic en el archivo original llamado Enaho01A-2009-400.sav.

    4. En la seccin Output File Type hacemos clic a la barra desplegable yelegimos el formatoStata Version 4-5la cual es el formato de la base dedatos que queremos obtener.

    5. En la seccin File Specification hacemos click en el boton Browse paradenir la ruta donde queremos que se encuentre nuestra base convertida.Observe que en la barra "Unidades" (ubicado en la parte inferir derecha)escogemos el disco d, En la barra "Mostrar Archivos Tipos" (ubicadoen la parte inferir izquierda) por default se muestra Stata version 4-5(*.DTA). En el cuadro "Carpetas" hacemos clic en las carpetas segncomo se seala la ruta donde se guardar la base convertida d:n >Econometria I. Finalmente escribimos el nombre de nuestra nueva base,

    18

  • 7/21/2019 Manual STATA 11

    19/124

    este caso Enaho01A-2009-400.dta.

    6. .Finalmente hacemos clic en el botn Transfer.

    19

  • 7/21/2019 Manual STATA 11

    20/124

    2.4 Guardar una Base de Datos

    Una vez trabajado y modicado la base de datos es posible guardarlo con elcomandosave.

    Example:

    Imaginemos que hemos trabajado con la base "archivo1.xls" y queremosguardarlo la nueva base con el nombre "archivo1_modicado.dta"

    *Usando el comando save para guardar la nueva base con el nombre*archivo1_modicado.dta

    save archivo1_modicado.dta

    2.5 Inspeccin de Base de Datos

    En esta seccin aprenderemos comandos que nos permitan dar una revisada ala base de datos, es decir, saber con qu esquema de datos y tipos de variablesnos estamos enfrentando.

    Usualmente despus de abrir una base de datos, recurrimos a la siguienterutina de inspeccin de una base de datos:

    1. Descripicn de la base de datos con el comandodescribe.

    2. Observar la base de a travs del comando browse o edit. El comando

    browsenos permite ver la base de datos sin poder modicarla y el comandoeditnos permite ver la base de datos pudiendo modicarlo.

    3. Inspeccionar las variables de la base de datos usando el comandoinspect.

    4. Generamos un diccionario de variables con el comando codebook.

    5. A veces podra ser de ayuda hacer una lista de los valores de algunasvariable de inters para un determinado rango de observaciones a travsdel comandolist.

    6. Realizar una tabla resumen de las variables numricas con el comandosummarize.

    Retornando al ejemplo de la base de datos auto.dta, utilizamos los siguientescomandos:

    Example:

    *Retomamos la base de datos auto.dta

    20

  • 7/21/2019 Manual STATA 11

    21/124

    sysuse auto.dta,clear

    *Describimos la base auto.dta

    describe // para describir todas las variablesd price mpg rep78 // para describir las variables price, mpg, rep78

    *Vemos la ventana de la base de datos

    browse // para observar todas las variablesbr turn foreign length // para observar las variables turn foreign length

    *Inspeccionamos las variables

    inspect // para inspeccionar todas las variablesins headroom trunk // para inspeccionar las variables headroom trunk

    *Creamos un diccionario de variables

    codebook // diccionario de todas las variablescodebook foreign gear_ratio // diccionario de variables foreign gear_ratio

    *Realizamos una lista de valores de algunas variables

    list make price mpg // listado de los valores de make price mpg weightl make price mpg in 25/60 // listado de valores entre la observacin 25 y 60

    *Realizamos un cuadro estadstico resumen de las variablessummarize price mpg weight // price mpg weightsum length displacement foreign // resumen de length displacement foreign

    *Realizamos un cuadro resumen detallado de algunas variables

    sum price mpg weight,detail // resumen detallado de price mpg weight

    2.6 Generacin y Transformacin de Variables

    Para la creacin de nuevas variables STATA cuenta con el comando generatey egen, la cual se explica la diferencia entre ambos a continuacin:

    21

  • 7/21/2019 Manual STATA 11

    22/124

    El comando generatenos permite generar variables haciendo uso de ex-presiones matemticas, lgicas, numricas. Si bien es cierto que STATA

    solamente reconoce los comandos con letras minsculas, tambin es im-portante decir que tambin hace una diferenciacin de los nombres de lasvariables entre si son minsculas o maysculas. Por ejemplo, generar unavariable llamada EsTaDo es diferente a que si lo denominamos estado oESTADO.

    El comandoegenes una extensin del anterior, que permite utilizar expre-siones que incluyan funciones ms complejas del STATA como es el casode medias, mximos, mnimos, desviacin estndar, promedios mviles,variables estandarizadas, etc.

    Example:

    *Creacin de variables usando el comando "generate" con funciones:

    generate id=_n //generamos una variable llamada id como// identicador para cada observacin

    generate T=_N //generamos una variable llamada T como// identicador del total de observaciones

    gen ln_mpg=ln(mpg) //generamos una variable llamada ln_mpg// que es igual al logaritmo natural del mpg

    gen exp_mpg=exp(mpg) //generamos una variable llamada// exp_mpg igual al exponencial natural del mpg

    gen sqrt_mpg=sqrt(mpg) //generamos una variable llamada// sqrt_mpg igual a la raz cuadrada del mpg

    gen sum_mpg=sum(mpg) //generamos una variable llamada// sum_mpg igual a la suma acumulativa del mpg

    *Creacin de variables usando el comando "egen" con funciones

    egen mean_price=mean(price) //generamos una variable llamada// mean_price igual a la media del precio

    egen median_price=median(price) //generamos una variable llamada// median_price igual a la mediana del precio

    egen mode_price=mode(price) //generamos una variable llamada// mode_price igual a la moda del precio

    egen min_price=min(price) //generamos una variable llamada// min_price igual al mnimo del precio

    egen max_price=max(price) //generamos una variable llamada// max_price igual al mximo del precio

    egen sd_price=sd(price) //generamos una variable llamada// sd_price igual a la desviacin estndar del precio

    egen skew_price=skew(price) //generamos una variable llamada

    22

  • 7/21/2019 Manual STATA 11

    23/124

    // skew_price igual al valor de la simetra del precioegen kurt_price=kurt(price) //generamos una variable llamada

    // kurt_price igual al valor de la curtosis del precio

    En caso que se quiera cambiar los valores de una variable una vez creadas ode las ya existentes, podemos hacer uso de los comandos replacey recode.

    El comando replacepermite reemplazar o modicar una variable o susrespectivos valores. Si se trata de reemplazar valores de una variablegeneralmente tendr que cumplir algunas condiciones y se digita despusdel comandogenerate.

    El comandorecodepermite modicar valores especcos de una variable.

    Example:

    *Transformacin de variables y sus respectivos valores

    *Usando el comando "replace" para cambios en la variable

    *Supongamos que a las variables creadas por el comando*generateyegen, queremos expresar los valores en cientos.

    replace ln_mpg= ln_mpg/100replace exp_mpg=exp_mpg/100replace sqrt_mpg=sqrt_mpg/100replace sum_mpg=sum_mpg/100

    replace mean_mpg=mean_mpg/100replace median_mpg=median_mpg/100replace mode_mpg=mode_mpg/100replace min_mpg=min_mpg/100replace max_mpg=max_mpg/100replace skew_mpg=skew_mpg/100replace kurt_mpg=kurt_mpg/100

    *Usando el comando "replace" con condicionales para cambios de*valores de una variable

    *Supongamos que creamos una variable categrica para mpg*llamada "cat_mpg"que tenga valor de 1 para los primer cuartil,

    *2 segundo cuartil, 3 tercer cuartil y 4 cuarto cuartil.

    summ mpg,detail

    //observamos que la variable mpg tiene valor de 18 hasta el 25% de los// datos, 20 hasta el 50% de tos datos, 25 hasta el 75% de tos datos y

    23

  • 7/21/2019 Manual STATA 11

    24/124

    // 41 hasta el 100% de los datos.

    gen cat_mpg=1 if mpg=18 & mpg=20 & mpg=25

    *Usando el comando recode para recodicar algunos valores especcos de* las variables.

    //Si analizamos a la variable rep78, vemos que presenta valores discretos// desde 1 hasta el 5 y adems poseen valores perdidos (missing values)// representados por un punto "." , en este caso vamos a cambiar los// missing values por el valor de cero. Para dicho n creamos una//variable igual a rep78 llamada "rep78_recode" para no perder la//informacin bsica de esta variable y luego la recodicamos.

    recode rep78 (.=0), gen(rep78_recode)sum rep78_recode//ahora vemos que la variablerep78_recodetiene valores discretas desde// 0 hasta 5.

    //Tambin podramos crear una variable llamada "cat2_mpg" similar//acat_mpgutilizando el comando recode de la siguiente forma:

    gen cat2_mpg=0recode cat2_mpg (min/18=1) (18/20=2) (20/25=3) (25/max=4)

    2.7 Nombrando y Etiquetando Variables

    Si se desea cambiar de nombre a una variable se hace uso del comando rename.

    Example:

    //De las ltimas variables creadas cambiamos de nombre a la variable// id y T

    rename id ident_obsren T ident_total

    Si deseamos darle el signicado a la variable, podemos etiquetarlo con elcomando label variable.

    Example:

    24

  • 7/21/2019 Manual STATA 11

    25/124

    //De las ltimas variables creadas etiquetamos a las siguientes:

    label variable ident_obs "Identicador de Observaciones"la var ident_total "Identicador Total"

    En el caso que tengamos variables categricas, es til explicar el signicadode cada uno de los valores discretos, para este proceso usamos los comandoslabel deney label value.

    Example:

    //De la variable categrica que creamos "cat_mpg" podemos// etiquetar sus valores de la siguiente forma:

    //Primero denimos una etiqueta llamada "rango_mpg"// y luego etiquetamos los valores

    label dene rango_mpg 1 "menos a 18" ///2 "entre 18 y 20" 3 "entre 20 y 25" 4 "mayor igual 25"

    label value rango_mpg cat_mpgbr cat_mpg

    2.8 Tipo y Formato de Variables

    2.8.1 Tipo de Variables

    En STATA existen dos clases de formatos:

    Formato Numrico: Se puede encontrar la siguiente clasicacin4 :

    Tipo Byte Mnimo Mximobyte 1 -127 100int 2 -32,767 32,740

    long 4 -2,147,483,647 2,147,483,620oat 4 -1.70141173319*10^38 1.70141173319*10^38double 8 -8.9884656743*10^307 8.9884656743*10^307

    Formato No Numrico: Este tipo es reconocido como cadena de texto o

    string. Generalmente se encierran entre comillas y presenta la siguienteclasicacin:4 Cuando se genera una variable con datos numricos, STATA por default le asigna un

    formatooat.

    25

  • 7/21/2019 Manual STATA 11

    26/124

    Tipo Byte Descripcinstr1 1 Hasta 1 carcter

    str2 2 Hasta 2 caracteres...

    ... ...

    str20 20 Hasta 20 caracteres

    2.8.2 Formato de Variables

    La forma cmo podemos especicar el formato de las variables es de la siguientemanera:

    Formato Numrico:

    Esquema Smbolo Descripcin

    Primero % indica el comienzo del formatoluego (opcional) - si se quiere alinear el resultado a la izquierdaluego (opcional) 0 si se quiere conservar los ceros "principales"

    luego # cifra que indique el tamao del resultadoluego . se coloca un puntoluego # nmero de dgitos despus del punto decimal

    luego (cualquiera) e para notacin cientca. ex: 10e+04f para formato jo. ex: 5000.0g para formato general (STATA muestra

    acorde al nmero elegido)luego (opcional) c para el formato de "coma"

    (no se permite para notacin cientca)

    Formato para Fechas:

    Esquema Smbolo Descripcin Primero % indica el comienzo del formato

    luego (opcional) - si se quiere alinear el resultado a la izquierdaluego t se colocatpara indicar formato fecha

    luego (cualquiera) d para das. ex: 05jul1972w para semanas. ex: 1972w27m para meses. ex: 1972m7q para trimestres. ex: 1972q3h para horas. ex: 1972h2

    y para aos. ex: 1972 Formato String:

    26

  • 7/21/2019 Manual STATA 11

    27/124

    Esquema Smbolo Descripcin Primero % indica el comienzo del formato

    luego (opcional) - si se quiere alinear el resultado a la izquierda si se quiere alinear el resultado al centroluego # una cifra para el nmero de caracteresluego s se colocaspara indicar formato string

    Example:

    *Formatos Numricos

    describe pricelist price

    format %9.1g price//nueve dgitos y un decimal

    describe pricelist price

    format %12.1g pricedescribe pricelist price

    format %-12.1g pricedescribe pricelist price//para ver que ha cambiado habra la ventana browse.

    save auto_modicada.dta,replace

    2.9 Conversin de Variables

    STATA es posible generar una variablenumricaa partir de una variablestringy viceversa.

    2.9.1 De una Variable String Numrica a una Variable Numrica

    Para poder realizar esta conversin se recurre a la funcin real() despus delcomando generate. Tambin es posible realizar la misma operacin con elcomando destring donde la variable generada se coloca como opcin en lamisma lnea de comando.

    Example:

    27

  • 7/21/2019 Manual STATA 11

    28/124

    *Para este ejemplo generamos una variable string numrica*llamada "origen" en base a la variable "foreign", la cual le

    *asignamos el cdigo 0 si es Domestic y 1 si es Foreign.

    gen origen="1" if foreign==1replace origen="0" if foreign==0//A simple vista las variables origen y foreign son iguales,//pero hay que observar que la primera tiene un formato//string "str1" y el otro un formato byte.

    *Esta variable string numrica "origen" lo convertimos*en una numerica llamada origen2:

    gen origen2=real(origen)//Como vemos la variable "origen2" tiene formato numrico//oat

    *Ahora realizamos la misma operacin con el comando*"destring", generando la variable origen3

    destring origen, gen(origen3)//Como vemos la variable "origen3" tiene formato numrico//byte. Note que el comando generate est como opcin dentro//de la sintaxis

    *Guardamos la base modicada.save auto_modicada.dta,replace

    2.9.2 De una Variable String No-Numrica a una VariableNumrica

    Para poder realizar esta conversin se recurre al comando encode. Este co-mando codica una variable string a una numrica. Aqu tambin la variablegenerada se coloca en la lnea de comando como una opcin. Despus de ejecu-tar esta operacin es recomendable utilizar el comandolabel list para observalas etiquetas que fueron asignadas a los valores de la nueva variable.

    Example:

    *Para este ejemplo usamos la base auto_modicada.dta.use auto_modicada.dta,clear

    *Supongamos que queremos codicar la variable "make"* generando una variable denominada "make1".encode make, gen(make1) label(make_la)

    28

  • 7/21/2019 Manual STATA 11

    29/124

    label list make_la

    *Ahora vemos las etiquetas que fueron asignados a los*valoreslabel list make1

    2.9.3 De una Variable Numrica a una Variable String

    A travs del comando tostring podemos convertir una variable numrica astring. Aqu tambin la variable generada se coloca en la lnea de comandocomo una opcin.

    Example:

    *Convertimos la variable "foreign" a una variable string*llamada "foreign2"

    tostring foreign, gen(foreign2)//observe que la variable "foreign2" tiene un formato//string numrica (str1).

    Otro comando interesante es decode, la cual nos permite hacer la mismalabor que tostring pero necesita que los valores de la variable numrica estnetiquetada.

    *Convertimos la variable "foreign" a una variable string*llamada "foreign3"

    decode foreign, gen(foreign3)//observe que la variable "foreign3" tiene un formato//string numrica (str8), porque mantiene la etiquetas//de la variable "foreign".

    2.10 Seleccin de Muestra y Variables

    Existen ocasiones que no deseamos trabajar con todas las variables u observa-ciones de la base de datos, por lo tanto, STATA cuenta con los comandos dropy keep para la seleccin particular de las mismas con la nalidad de obtenerms memoria para trabajar.

    El comandokeeppermite mantener observaciones o variables en la memo-ria del STATA.

    El comandodroppermite eliminar observaciones o variables de la memoriadel STATA.

    29

  • 7/21/2019 Manual STATA 11

    30/124

    Example:

    *Seleccin de variables y observaciones

    *Antes guardamos la nueva base trabajada con el nombre*auto_modicada.dta

    save auto_modicada.dta

    *Usando el comando "keep" para guardar algunas variables

    //Imaginemos que queremos mantener las variables// price mpg weight length turn displacement foreign

    keep price mpg weight length turn displacement foreignbrowse // observar la nueva base

    *Usando el comando "keep" para seleccionar una muestra

    //Imaginemos que seleccionamos una muestra la cual// cumple con la condicin de que el precio ucte entre// 3748 y 13466. Para esto utilizamos la condicional if

    keep if price>=3748 & price

  • 7/21/2019 Manual STATA 11

    31/124

    //Imaginemos que eliminemos una parte de la muestra//la cual cumple con la condicin de que el peso sea

    // menor de 4000 libras.

    drop weight if weight

  • 7/21/2019 Manual STATA 11

    32/124

    sort foreign pricebr foreign price

    Tambin se puede ordenar las variables usando el comando order. Estepuede ser til, si por ejemplo uno desea distribuir las variables de una base dedatos a otras bases.

    Example:

    *Ordenar variables

    //Podemos order en el siguiente orden las variables

    order weight rep78 price length

    //Tambin podemos ordenar las variable de// forma alfabtica

    order _all, alphabetic

    Estos comandos son importantes al usar el prejo by(), que nos permiterealizar algunas operaciones por grupo de observaciones.

    Example:

    *Usando el prejo "by"

    //Supongamos que queremos un cuadro resumen// de las variables "price", "mpg", "weight"//clasicado por lugar de destino "foreign"

    sort foreignby foreign : sum price mpg weight

    //Tambin podemos escribir del siguiente modo:bysort foreign : sum price mpg weight,d

    32

  • 7/21/2019 Manual STATA 11

    33/124

    2.11.2 Preservar y Restaurar Base de Datos

    En algunos casos, es necesario realizar cambios a una base de datos, desarrollaralgunos clculos y entonces retornar a la base original. El comandopreservenos permite retener la base de datos y el comando restorenos permite regresara la base de datos original. El comandorestorese usa inmediatamente despusdel comandopreserve.

    Example:

    *Preservar y Restaurar base de datos

    //Imaginemos que a la variable "price" lo modicamos// sus valores sumando 200 unidades, pero luego// retornaremos a la variable original

    list price in 1/10preservereplace price=price+200list price in 1/10restorelist price in 1/10

    2.12 Fomas de Base de Datos

    2.12.1 Formas Long y Wide

    Frecuentemente es necesario cambiar la forma de la base de datos. Si tenemos jmedidas de momentos para losi individuos, esta puede ser vista como una datamultivariada en la cual cada momento jes representada por una variable xj, yel identicador de individuos est representada tambin por una variable. Sinembargo, para algunos anlisis estadsticos podemos necesitar un variable quecontenga las respuestas para todos los momentos e individuoss.

    El comando reshape nos permite transformar una base de datos de formalarga "long" a una de forma ancha "wide" y viceversa. Como se muestra acontinuacin:

    33

  • 7/21/2019 Manual STATA 11

    34/124

    Forma Long Forma Wide

    En general para efectos de estimacin es necesario que la base de datos esteen formatolong, esta distincin es importante para anlisis de panel data.

    Example:

    *Formas Long y Wide

    //Para ilustrar el uso de este comando, utilizamos la base//de datos "long_wide.dta".

    use long_wide.dta,clear//en este base nuestro identicador de inidividuos (i) es la//variable "id" y el de momentos (j) es "year", adems,//vamos a transformar la data en base a la variable//"salary" (x)

    //Como vemos, la base tiene una forma long, ahora lo//convertimos en forma wide.

    reshape wide salary, i(id) j(year)//como se puede observar, el comando reshape va a//convertir a la variable salary en forma wide.

    reshape long salary, i(id) j(year)//como se puede observar, el comando reshape va a//convertir a la variable salary en forma long.

    2.12.2 Forma Colapsada

    Hay ocasiones en que la base de datos con forma long puede requerirse paracolapsarlo tal que cada grupo de individuos este representada por una obser-vacin en particular, ya sea por el promedio, la mediana, desviacin estndar,mximo, mnimo, la suma, etc. de alguna variable en particular. Para haceresta operacin recurrimos al comando collapse.

    34

  • 7/21/2019 Manual STATA 11

    35/124

    Example:

    *Forma Colapsada

    //De la base de datos "long_wide.dta",mostrado//en forma long, colapsamos la base en base al//promedio, desviacin estandar, maximo,minimo,//suma total del salario "salary" por individo.

    collapse (mean) meansal=salary (median) ///mediansal=salary (sd) sdsal=salary (max) ///maxsal=salary (min) minsal=salary (sum) ///sumsal=salary, by(id)br

    2.13 Fusin de Base de Datos

    Es comn la combinacin de varias bases de datos. Se va a mostrar dos opera-ciones bsicas: aadir variables y aadir observaciones. Los comandos asociadosa estas operaciones son merge,appendy joinby.

    El comandomergese utiliza para aadir variables, es decir, une dos basesde manera horizontal. Los cheros de datos deben de tener una variablede identicacin y adems deben de estar ordenados por dicha variable.Este comando requiere de dos bases de datos, uno se va a denominarbasemasteral cual se le van aadir las variables y una base using la cual

    contiene las variable que se van a aadir a la base master. Al realizarel merge crea una variable "_merge" de manera automtica que tomavalores dependiendo si el registro de los datos est presente en una de lasbases o en ambos. Cuando el valor de la variable "_merge" es 1 quieredecir que el dato solo aparece en la base master, 2 cuando aparece en labase using y 3 cuando aparece en ambos.

    El comando appendse utiliza para aadir observaciones, es decir, une ados bases de manera vertical. Aqu tambin ser necesario unabase mastery unabase using, adems la base originada tendr una forma long.

    El comandojoinby forma todo los pares de combinaciones dentro de cadagrupo a partir de dos bases de datos, una mastery otrausing. Labase

    master contiene variables para cada individuo clasicado por grupos yla base using contiene variables a nivel de grupos, entonces, el comandojoinbycolocar los valores de las variables segn al grupo que pertenececada individuo.

    35

  • 7/21/2019 Manual STATA 11

    36/124

    Example:

    *Fusionando bases con el comando "append"

    //Para este ejemplo usaremos las bases de datos// "database1.dta" y "database2.dta". Dado que//tienen la misma cantidad de columnas pero se//diferencian en nmeros de las sera conveniente//juntarlos verticalmente

    use database1.dta,clearbrappend using database2.dtabrsave database12.dta,replace

    //hagamos lo mismo con la bases "database3.dta"// y "database4.dta"

    use database3.dta,clearbrappend using database4.dtabrsave database34.dta,replace

    //En este ltimo caso vemos que existe un inconveniente//con la variable relacionado al sexo del individuo, debido

    //a que en ambas bases dicha variable no se ha escrito//de la misma forma, es por ello de la importancia de escribir//el nombre de las variables de manera idntica. Arreglamos//este problema a continuacin:

    use database3.dta,clearbrrename Sexo sexobrsave database03.dta,replaceuse database03.dta,clearbrappend using database4.dta

    brsave database034.dta,replace

    *Fusionando bases con el comando "merge"

    //Para este ejemplo usaremos las bases de datos

    36

  • 7/21/2019 Manual STATA 11

    37/124

    // que creamos anteriormente "database12.dta" y// "database034.dta". Para realizar esto, debemos

    //ordenar la variable (o variables) en comn en//ambas bases. En este caso, las variables en comn//son la variable hogar y el nombre.

    use database12.dta,clearbrsort hogar nombrebrsave database12m.dta,replace

    use database034.dta,clearbrsort hogar nombrebrsave database034m.dta,replace

    //ya ordenadas, pasamos a fusionarlas horizontalmente

    use database12m.dta,clearmerge hogar nombre using database034m.dtabrsave databasemerge.dta,replace

    *Fusionando bases con el comando "joinby"

    //Para este ejemplo usaremos las bases de dato// nal "databasemerge.dta" y "database5.dta".//Para realizar esto, debemos ordenar la variable//( o variables) en comn en ambas bases. En este//solo es la variable hogar.

    use databasemerge.dta,clearbrsort hogarbrsave databasemergeb.dta,replace

    use database5.dta,clear

    brsort hogarbrsave database5b.dta,replace

    //ya ordenadas, pasamos a fusionarlas.

    37

  • 7/21/2019 Manual STATA 11

    38/124

    use databasemergeb.dta.dta,clearjoinby hogar using database5b.dta

    brsave databasejoinby.dta,replace

    2.14 Tabulaciones y Tablas

    En esta seccin veremos diversas formas de presentar tablas de estadsticasdescriptivas, entre las tenemos:

    2.14.1 Tabulate

    El comandotabulatemuestra una tabla la cual seala una lista de los distintos

    valores que tiene una variable con su frecuencia absoluta, porcentual y acumu-lada. Es recomendable usar este comando para aquellas variables con pocosvalores diversos. Tambin es til para crear variables dummy con ayuda delcomandogeneratey adems tabular por tipo de individuo con el prejo by. Elcomando tabulatepuede mostrarnos tablas tanto de un solo sentido como dedoble sentido

    2.14.2 Table

    El comandotablenos permite crear tablas de doble y triple sentido, mostrandolas frecuencias absolutas o porcentuales visto de forma horizontal o vertical.

    2.14.3 Tabstat

    El comandotabstatprovee un resumen estadsticos que permite ms exibili-dad que elsummarize.

    Example:

    *Tabulaciones y Tablas

    //usaremos loa base de datos "auto_modicada.dta"//para ilustrar estos comandos

    use auto_modicada.dta,clear

    *Comando tabulate

    //Realicemos una tabla de un solo sentido para la//variable foreign para aquellos autos que cuestan//menos de 14000 libras.

    38

  • 7/21/2019 Manual STATA 11

    39/124

    tabulate foreign if price

  • 7/21/2019 Manual STATA 11

    40/124

    Cap.3 Grcos en STATA

    3.1 Introduccin a STATA GRAPH

    STATA presenta una amplia variedad de gracos, la cual abarca guras como:matrices de ploteos, histogramas, reas, lneas, caja y bigote, etc. Comenzare-mos demostrando siete tipos de grcos:

    histogram : Histogramas graph twoway : Scatterplot, lneas, y otros entre dos variables. graph matrix : Matrices de Scatterplots.

    graph box : Grcas de caja y bigotes. graph bar : Grcas de barras graph dot : Grcas de puntos. graph pie : Grcas de pastel o pie.

    Para cada uno de estos grcos existen muchas opciones5 .

    3.2 Tipos de Grcos

    Los comandos del STATA GRAPH empiezan con la palabra graph (aunqueen algunos casos esto es opcional) seguido por la palabra que indica el tipo degraco.

    3.2.1 Histograma

    La funcin de densidad de una variable puede ser estimada usando un his-tograma a travs del comando histogram. Para ilustrar la funcin de estecomando, utilizaremos la base states.dta, la cual contiene informacin sobre losambientes seleccionados y la educacin para 50 estados de USA ms el distritode Columbia (datos que provienen de League of Conservation Voters 1991, 1993;World Resources Institute 1993).

    La gura 3.1 muestra un histograma simple decollege, la cantidad de estadosque se distribuyen dentro de un rango de porcentajes de la poblacin adulta quecuenta con un grado superior. Esto se produce de la siguiente forma:

    5 Para observa otras tipos de grcos y comandos relacionados a estos, se recomienda tipearen la venta de comandos help graph_other.

    40

  • 7/21/2019 Manual STATA 11

    41/124

    Example:

    *Histograma

    use states.dta,cleardescribe

    *Realizamos el histograma para la variable college

    histogram college, frequency title("Figura 3.1")

    0

    5

    10

    15

    20

    Frequency

    10 15 20 25 30% over 25 w/bachelor's degree +

    Figura 3.1

    Figura 3.1

    La gura 3.1 presenta dos opciones: frequency (en vez de la densidadque aparece por defecto) que se muestra en el eje vertical; y el title("Figura3.1")que aparece sobre el grco. Este gura revela la simetra positiva de ladistribucin decollege, con una moda por encima de 15 y un outlier alrededorde los 35.

    La gura 3.2 contiene una versin con mayores mejoras (basado en algunosexperimentos para encontrar los valores correctos):

    1. El eje xest etiqueta desde 12 hasta 34, con incrementos de 2 unidades.

    2. El eje yest etiqueta desde 0 hasta 12, con incrementos de 2 unidades.

    3. Los marcadores sobre el eje y desde 0 hasta 13, con incrementos de 2unidades.

    4. La primera barra del histograma comienza en 12.

    5. El ancho de cada barra (o bin) es 2.

    41

  • 7/21/2019 Manual STATA 11

    42/124

    Example:

    histogram college, frequency title("Figura 3.2") ///xlabel(12(2)34) ylabel(0(2)12) ytick(1(2)13) start(12) width(2)

    0

    2

    4

    6

    8

    10

    12

    Frequency

    12 14 16 18 20 22 24 26 28 30 32 34% over 25 w/bachelor's degree +

    Figura 3.2

    Figura 3.2

    La gura 3.2 nos ayuda a describir la distribucin con mayor detalle. Porejemplo, podemos ver que en 13 estados los porcentajes de colegas con gradosuperior se encuentran entre los valores de 16 y 18.

    Otras tiles opciones son los siguientes:

    bin : Muestra un histograma con # de bins (o barras). Podemosespecicar bin(#), como en la Figura 3.2 o start(#) con width(#),pero no ambos.

    percent : Muestra los porcentajes en el eje vertical. Otra posibil-idades son las opciones fraction que muestra la fraccin de la data yfrequencyespecicado en la Figura 3.1, el histograma por default mues-tra la densidad (density) lo que quiere decir que las barras estn escaladasde tal forma que el rea bajo la grca sume la unidad.

    gap(#) : Indica el espacio entre las barras, el nmero "#" se es-pecica entre 0

  • 7/21/2019 Manual STATA 11

    43/124

    norm : Sobrepone una curva normal sobre el histograma, basadosobre la media muestral y desviacin estndar.

    kdensity : Sobrepone un estimador de densidad de kernel sobre elhistograma6 .

    El nmero de intervalos por default es min(p

    N ; 10ln N= ln10). Con loshistogramas tambin podemos especicar nuestro propios ttulos en el eje de lasabscisas conxtitle()y en el eje de la ordenada con ytitle().

    En la gura 3.3 ilustra un ejemplo con algunos otras opciones de comandodel histograma. Note el cambio de construccin de grcos desde la gura 3.1hasta ms elaborada gura 3.3. Este es un patrn normal para la construccinde grcos en STATA: iniciamos por lo ms simple, entonces experimentamosla suma de opciones para obtener una gura que se muestre claramente.

    Example:

    histogram college, frequency title("Figura 3.3") ///xlabel(12(2)34) ylabel(0(2)12) ytick(1(2)13) start(12) width(2) ///addlabel norm gap(15)

    3

    4

    13

    7

    9

    6

    4 4

    1

    0

    2

    4

    6

    8

    10

    12

    Frequency

    12 14 16 18 20 22 24 26 28 30 32 34% over 25 w/bachelor's degree +

    Figura 3.3

    Figura 3.3

    Supongamos que queremos saber como se distribuye collegepor region. Laopcin by() nos da un histograma de collegepara cada regin. La gura 3.4muestra un ejemplo en la cual expresamos en porcentajes sobre el eje de laordenada y los datos agrupados en 8 bins.

    6 Verhelp kdensity para ms detalle.

    43

  • 7/21/2019 Manual STATA 11

    44/124

    Example:

    histogram college, by(region) percent bin(8) title("Figura 3.4")

    0

    10

    20

    30

    40

    0

    10

    20

    30

    40

    10 15 20 25 30 10 15 20 25 30

    West N. East

    South Midwest

    Figura 3.4 Figura 3.4

    Figura 3.4 Figura 3.4Percent

    % over 25 w/bachelor's degree +Graphs by Geographical region

    Figura 3.4

    La siguiente gura 3.5 contiene un grco similar con las 4 regiones, peroesta vez incluye un quinto elemento que seala la distribucin para todas lasregiones combinadas.

    Example:

    histogram college,percent bin(8) title("Figura 3.5") by(region,total)

    0

    10

    20

    30

    40

    0

    10

    20

    30

    40

    10 15 20 25 30

    10 15 20 25 30 10 15 20 25 30

    West N. East South

    Midwest Total

    Figura 3.4 Figura 3.4 Figura 3.4

    Figura 3.4 Figura 3.4Percent

    % over 25 w/bachelor's degree +Graphs by Geographical region

    Figura 3.5

    44

  • 7/21/2019 Manual STATA 11

    45/124

    3.2.2 Graph Twoway

    3.2.2.1 Scatterplot

    Los diagramas de dispersin de puntos (scatterplot) se accede a travs del co-mandograph twoway scatter, cuya sintaxis general es:

    graph twoway scatter y x

    donde yes la variable que se muestra en el eje vertical y x en el eje horizontal.Por ejemplo, otra vez usando la base de datos states.dta, podemos plotear lavariable waste(desperdicios slidos per cpita) contra metro (porcentaje de lapoblacin en reas metropolitanas), cuyo resultado se muestra en la gura 3.6.Cada punto de esta gura representa una de los 50 estados que presenta la data.

    Example:

    graph twoway scatter waste metro

    0.5

    0

    1.0

    0

    1.5

    0

    Perc

    apitasolidwaste,

    tons

    20.0 40.0 60.0 80.0 100.0Metropolitan area population, %

    Figura 3.6

    De la misma forma que en el histograma, podemos usar xlabel(), xtick(),xtitle() para controlar las etiquetas de los ejes, los marcadores de los ejes, ottulos. El scatterplot tambin permite controlar las formas, colores, tamaos y

    otros atributos. La gura 3.6 emplea marcadores por defecto, la cual son crcu-los slidos. El mismo efecto podramos obtener si incluimos la opcinmsym-bol(circle)o escribimos esta opcin de manera abreviada como msymbol(O).La siguiente tabla muestra las diversas formas de marcadores para la dispersinde puntos.

    45

  • 7/21/2019 Manual STATA 11

    46/124

    msymbol() Abreviacin Descripcincircle O circulo slido

    diamond D diamante slidotriangle T triangulo slidosquare S cuadrado slidoplus + signo "+"x X letra "x"smcircle o pequeo crculo slidosmdiamond d pequeo diamante slidosmsquare s pequeo cuadrado slidosmtriangle t pequeo diamante slidosmplus smplus pequeo signo "+"smx x pequea pequeocircle_hollow Oh circulo con vaciodiamond Dh diamante con vaciotriangle_hollow Th triangulo con vaciosquare_hollow Sh cuadrado con vaciosmcircle_hollow oh pequeo crculo con vaciosmdiamond_hollow dh pequeo diamante con vaciosmsquare_hollow sh pequeo cuadrado con vaciosmtriangle_hollow th pequeo diamante con vaciopoint p punto pequeonone i invisible

    La opcinmcolor()controla los colores de los marcadores7 . Por ejemplo po-dramos producir un scatterplot con grandes cuadrados morados: graph twowayscatter waste metro, msymbol(S) mcolor(purple)

    Una uso interesante de este tipo de grco es hacer que el tamao de lossimbolos sean proporcionales a una tercera variable. De este modo, los ploteosse diferenciarn visualmente por medio de un ponderador "weight". Si modi-camos el scatterplot entre la variable waste y metro, haciendo que el tamao delos smbolos se pondere por la densidad poblacional de cada estado (pop), obten-dremos la gura 3.7. Para esto usaremos el ponderador de frecuencia fweight[] y la opcin de crculos vacios, msymbol(Oh)8.

    Example:

    graph twoway scatter waste metro [weight=pop], msymbol(Oh)

    7 Para ver ms detalle de los distintos colores acceder a help mcolorstyle.8 El ponderador de frecuencia suele ser til en otros grcos, pero a la vez es un tpico

    complejo, porque los ponderadores "weight" vienen de diferentes formas y tienen diferentessignicados para diversos contextos. Para una informacin general de este tema en STATA,tipearhelp weight.

    46

  • 7/21/2019 Manual STATA 11

    47/124

    0.5

    0

    1.0

    0

    1.5

    0

    Percapitasolidwaste,

    tons

    20.0 40.0 60.0 80.0 100.0Metropolitan area population, %

    Figura 3.7

    El ejemplo de la gura 3.8 incluye una regresin lineal simple derivado del co-mandotwoway ltque ha sido aadido al graco 3.6 especicando el siguientesmbolo (jj ) .

    Example:

    graph twoway scatter waste metro, msymbol(S) mcolor(purple) ///

    jjlt waste metro

    0.5

    0

    1.0

    0

    1.5

    0

    20.0 40.0 60.0 80.0 100.0Metropolitan area population, %

    Per capita solid waste, tons Fitted v alues

    Figura 3.8

    47

  • 7/21/2019 Manual STATA 11

    48/124

    Los marcadores de un scatterplot pueden identicarse con etiquetas. Porejemplo, podemos desear observar los nombres de los estados en la gura 3.6,

    dado que son 50 nombres de estados, puede causar mucha confusin y desor-den, as que nos concentraremos en una regin tal como West que parece msprometedor. A travs del uso de una condicional ifse produce los siguientesresultados en la gura 3.9.

    Example:

    graph twoway scatter waste metro if region==1, mlabel(state) ///msymbol(S) mcolor(purple)jjlt waste metro

    Alaska

    Arizona

    California

    Colorado

    Hawaii

    Idaho

    Montana

    Nevada

    New Mexico

    Oregon

    Utah

    Washington

    Wyoming

    0.

    60

    0.

    80

    1.

    00

    1.

    20

    1.

    40

    1.

    60

    20.0 40.0 60.0 80.0 100.0Metropolitan area population, %

    Per capita solid waste, tons Fitted values

    Figura 3.9

    La gura 3.10 muestra un scatterplot entre waste y metro para cada reginde manera separada. La relacin entre estas dos variables aparecen pendientesnotables en la regin South y Midwest. La opcin xlabel()e ylabel()en esteejemplo da las etiquetas para los ejes xe y de tres dgitos como mximo sindecimales, hacindo fcil de leer para pequeos sub-ploteos.

    Example:

    graph twoway scatter waste metro, by(region) mlabel(state)///xlabel(,format(%3.0f)) ylabel(,format(%3.0f))

    48

  • 7/21/2019 Manual STATA 11

    49/124

  • 7/21/2019 Manual STATA 11

    50/124

    Percapitamiles

    driven/year

    Metropolitanarea

    population,%

    Medianhousehold

    income

    Percapitasolid

    waste,tons

    6000 8000 1000012000

    0.0

    50.0

    100.0

    0.0 50.0 100.0

    20000

    30000

    40000

    50000

    20000 30000 40000 50000

    0.50

    1.00

    1.50

    Figura 3.11

    La opcin half especicado en la gura 3.11 hace que se muestre solo laparte triangular inferior de la matriz ya que la parte superior es simtrica yredundante.

    3.2.2.3 Ploteos con Lineas (Line Plot)

    Mecnicamente, los ploteos con lneas son scatterplots en la cual los puntosson conectados por segmentos de rectas. El ploteos con lneas tiende a tenerdiferentes usos, como por ejemplo permite observar el cambio de una variable atravs del tiempo. La base de datoscod.dtacontiene datos de serie de tiemporeejando la historia desagradable de la pesca en Newfoundlands NorthernCode. Esta pesca ha sido uno de los ms ricos del mundo, pero colaps en1992 debido primeramente a la sobreexplotacin.

    Un simple ploteo muestra que los canadienses y las islas pueden ser constru-idos sealando una graca lineal de ambas variables a travs del tiempo (year).La gura 3.12 muestra el gran pico de sobrepesca internacional a nes de losaos 1960s, seguido por una dcada de presin en la pesca canadiense en 1980,conduciendo en 1992 el colapsamiento del Northern Cod.

    Example:

    *Line Plot

    graph twoway line cod canada year

    50

  • 7/21/2019 Manual STATA 11

    51/124

    0

    200

    400

    600

    800

    1960 1970 1980 1990 2000Year

    Total landings, 1000t Canadian landings, 1000t

    Figura 3.12

    En la gura 3.12, STATA automticamente elige una lnea slida azul para laprimera variable,code, y una lnea slida roja para la segunda variable, canada.Adems de una legenda en la parte inferior que muestra el signicado de lasvariables. Podemos mejorar este grco a travs de un arreglo en la legenda ysuprimiendo el ttulo redundante en el eje x, como se ilustra en la gura 3.13.

    Example:

    twoway line cod canada year, legend(label(1 "Todas las Naciones") ///label (2 "Canada") position(2) ring(0) rows(2)) xtitle("")

    0

    200

    400

    600

    800

    1960 1970 1980 1990 2000

    Year

    Todas las Naciones

    Canada

    Figura 3.13

    51

  • 7/21/2019 Manual STATA 11

    52/124

  • 7/21/2019 Manual STATA 11

    53/124

    Otras formas de conexin se muestran en la siguiente lista. Por defecto, elsegmento de lnea recta corresponde a connect(direct)o connect(l)10 .

    connect() Abreviacin Descripcinnone i no conecta puntosdirect l (letra ele) conecta con lneas rectasascending L es similar a direct solo six(i + 1)> x(i)

    stairstep J recta constante, luego verticalstepstairs vertical, luego se mantiene constante

    La gura 3.15 repite este ploteo escalonado de TAC, pero con algunas modi-caciones de las etiquetas de los ejes y ttulos. La opcin xtitle("")no presentaningn ttulo en el eje x. Aadimos marcadores en un intervalo de cada dosaos en el eje x, etiquetamos el rango de valores en el eje y con intervalos de100 unidades, adems incluimos lneas verticales de fondo en intervalos de 100

    unidades.

    Example:

    graph twoway line TAC year, connect(stairstep) xtitle("") ///xtick(1960 (2) 2000) ytitle("Miles de Toneladas") ///ylabel(0 (100) 800, angle(horizontal)) clpattern(dash)

    0

    100

    200

    300

    400

    500

    600

    700

    800

    MilesdeToneladas

    1960 1970 1980 1990 2000

    Figura 3.15

    Otro modo de especicar el tipo de lnea que se desea usar es a travs de laopcin clpattern(),que nos permite elegir un patrn de lnea y se muestra enla siguiente relacin:

    10 Para ms detalle, ver help connectstyle.

    53

  • 7/21/2019 Manual STATA 11

    54/124

    clpattern() Descripcinsolid lnea slida

    dash guionesdot puntosdot_dash puntos y guionesshortdash_dot guiones pequeos con puntoslongdash guiones grandeslongdash_dot guiones grandes con puntosblank linea invisible

    formula por ejemplo: clpattern(-.); clpattern(-..)

    Para la siguiente gura 3.16 usamos tres variables discutidos en esta seccinpara crear una grca singular que muestre la tragedia del Northern Cod. Noteque las opcionesconnect(), clpattern() y legend() son utilizados en este ejemplo.

    Example:

    graph twoway line cod canada TAC year, ///connect(line line stairstep) clpattern(solid longdash dash) ///xtitle("") xtick(1960 (2) 2000) ytitle("Miles de Toneladas") ///ylabel(0 (100) 800, angle(horizontal)) ///legend( label (1 "Todas las Naciones") label (2 "Canada") ///label(3 "TAC") position(2) ring(0) rows(3))

    0

    100

    200

    300

    400

    500

    600

    700

    800

    MilesdeToneladas

    1960 1970 1980 1990 2000

    Todas las Naciones

    Canada

    TAC

    Figura 3.16

    3.2.2.4 Ploteo de Lneas Conectadas (Connected-Line)

    En el ploteo de lneas de la subseccin anterior, los puntos de los datos soninvisibles y vemos solo la conexin de las lneas. El comandograph twoway

    54

  • 7/21/2019 Manual STATA 11

    55/124

    connected crea ploteo una conexin de puntos en la cual los datos son marcadospor smbolos del scatterplot. Las opciones de los smbolos de marcadores son

    los mismos para scatterplot y ploteo con lneas. La gura 3.17 nos muestra unejemplo de un ploteo de lneas conectadas a travs del tiempo de la variable dela biomasa de bacalao (bio) de la data cod.dta.

    Example:

    *Grco de Lneas Conectadas.use cod.dta

    graph twoway connected bio year

    0

    500

    1000

    1500

    2000

    2500

    Estimatedbiomass,

    1000t

    1960 1970 1980 1990 2000

    Year

    Figura 3.17

    La base de datos solamente contiene valores desde 1978 hasta 1997, generandomuchos espacios vacios en la gura 3.17. La condicionalifnos permite restringirel rango de los aos. La gura 3.18 realiza esta operacin, adems de acomodarla imagen mostrando un control de los marcadores de smbolos, patrn de lneas,ejes y legenda. Vemos que las biomasas comienzan su gran cada a nes de los1980, aos anteriores las crisis eran reconocidos.

    Example:

    graph twoway connected bio cod year if year>1977 & year

  • 7/21/2019 Manual STATA 11

    56/124

    ylabel(0(500)2500, angle(horizontal)) ///legend(label(1 "Biomasas Estimadas") label(2 "Total de Desembarco") ///

    position(2) rows(2) ring(0))

    0

    500

    1000

    1500

    2000

    2500

    MilesdeTonelada

    1978 1980 1982 1984 1986 1988 1990 1992 1994 1996

    Biomasas Estimadas

    Total de Desembarco

    Figura 3.18

    3.2.2.5 Otros Tipos de Scatter Plot

    Adems de los ploteos con lneas y scatterplot, el comando graph twoway pre-senta una amplia variedad de otros tipos11 . Una observacin que se puede hacer

    es que existen comandos como graph twoway bary graph twoway dot queson muy distintos a los tipos de grcos de barras (bar) y puntos (dot) re-spectivamente. Las versiones deltwoway provee varios mtodos para plotearuna variables ycontra otra variable x; adems tienen la ventaja de sobreponerotros grcos del twoway para formar grcos ms complejos. Por otro lado, lasversiones que no son del twoway proveen modos de ploteos usando resumenesestadsticos (tal como media o mediana) de las variables y contra las categorasde otras variables x.

    Mucho de estos tipos de ploteos son tiles en la composicin del grconal, que se construye por sobreposicin de dos o ms ploteos simples. En elgrco 3.19 muestra un ploteo de reas de la desembarcacin de bacalao delNewfoundland.

    Example:

    graph twoway area cod canada year, ytitle("")11 Para ver toda la lista de posibles tipos de grcos con el comando graph twoway tipear

    help twoway.

    56

  • 7/21/2019 Manual STATA 11

    57/124

    0

    200

    400

    600

    800

    1960 1970 1980 1990 2000Year

    Total landings, 1000t Canadian landings, 1000t

    Figura 3.19

    El color de las reas pueden ser controlados por la opcin bcolor12 . Porejemplo, el gris oscuro (gs0) es actualmente el color negro. Por ejemplo, laescala en grises se encuentra entre el valor 0 y 16.El color gris ms ligero (gs16)es blanco. En la gura 3.20 muestra un ligero gris para este grco.

    Example:

    graph twoway area cod canada year, ytitle("") bcolor(gs12 gs16)

    0

    200

    400

    600

    800

    1960 1970 1980 1990 2000

    Year

    Total landings, 1000t Canadian landings, 1000t

    Figura 3.20

    12 Tipearhelp colorstyle para ver la lista de colores.

    57

  • 7/21/2019 Manual STATA 11

    58/124

    Inusualmente las condiciones de frio en el ocano y atmsfera causan un rolsecundario en el desastre de la pesca en Newfoundland. Por ejemplo, la especie

    de pescado clave en los vecinos de Gulf of St. Lawrence declinaron durante esteperiodo la datagulf.dtadescribe el desarrollo y las desembarcaciones de bacalaoen Newfoundland, donde la mxima cobertura del hielo abarca los 173,017 km2

    durante estos aos.

    La gura 3.21 usa esta media (173 mil) como la base de un ploteo de lneaspunteadas (spike), en la cual sobresalen lneas hacia arriba y hacia abajo a partirde esta media referencial. La opcin yline(173) traza una lnea horizontal en173.

    Example:

    use gulf.dta,clearsum maxareagraph twoway spike maxarea winter if winter>1963, ///base(173) yline(173) ylabel(40(20)220, angle(horizontal)) ///xlabel(1965(5)2000)

    40

    60

    80

    100

    120

    140

    160

    180

    200

    220

    Maximumi

    cearea

    ,1000km^2

    1965 1970 1975 1980 1985 1990 1995 2000

    Winter

    Figura 3.21

    El formatobase()de la gura 3.21 enfatiza la sucesin de inviernos inesper-ados (valores que sobrepasan el promedio) durante los aos de 1980 hasta 1990,donde ocurre la crisis pesquera en Newfoundland.

    Una diferente vista de la misma data se muestra en la gura 3.22, donde seemplea la regresin mnima para suavizar la serie de tiempo congraph twoway

    58

  • 7/21/2019 Manual STATA 11

    59/124

    lowess. La opcin de ancho de banda,bwidth(.4), especica una curva basadaen el suavizamiento de los datos que son derivamos de la regresin ponderador

    entre una banda que cubre el 40% de la muestra. El ancho de la banda pequeose tal como bwidth(.2) , o 20% de la data, debera darnos un mayor ajuste.Una curva suavizada que sea ms semejante a la data original. Altos anchos debandas como bwidth(.8), por defecto tendra un suavizamiento ms radical.

    Example:

    graph twoway lowess maxarea winter if winter>1963, ///bwidth(.4) base(173) yline(173) ylabel(40(20)220, angle(horizontal)) ///xlabel(1965(5)2000)

    40

    60

    80

    100

    120

    140

    160

    180

    200

    220

    lowessmaxareawinter

    1965 1970 1975 1980 1985 1990 1995 2000

    Winter

    Figura 3.22

    El ploteo de rangos conecta valores altos y bajos de y para cada valor dex, usando barras, pas, o reas sombreadas. Los precios de mercados diariosde los stocks son gracados de esta manera. La gura 3.23 muestra un ploteode rango con pas usando la cubertura de hielo mximo y mnimo de la datagrulf.dta.

    Example:

    graph twoway rcap minarea maxarea winter if winter>1963, ///ylabel(40(20)220, angle(horizontal)) ytitle("Area con Hielo,1000km^2") ///xlabel(1965(5)2000)

    59

  • 7/21/2019 Manual STATA 11

    60/124

    40

    60

    80

    100

    120

    140

    160

    180

    200

    220

    AreaconHielo,

    1000km^2

    1965 1970 1975 1980 1985 1990 1995 2000

    Winter

    Figura 3.23

    3.2.3 Grco de Caja y Bigote (Box Plot)

    La grca de caja y bigote brinda informacin acerca del centro, amplitud,simetra y outliers con solo un vistazo. Para obtener este grco, se debe tipearel comando de la siguiente forma:

    graph box x

    Si diversas variables tienen escalas similares, podemos comparar sus distribu-cin con la siguiente sintaxis:

    graph box x y z

    La gura 3.24 compara la distribucin de college segn las cuatro regionesen USA que proviene de la base de datosstates.dta.

    Example:

    *Graca de Caja y Bigote

    use states.dta,clear

    graph box college, over(region) yline(19.1)

    60

  • 7/21/2019 Manual STATA 11

    61/124

    10

    15

    20

    25

    30

    %o

    ver25w/bachelor'sdegree+

    West N. East South Midwest

    Figura 3.24

    La mediana de la proporcin de adultos con grado superior tiende a sermayor en Northeast, y menor en South. Por otro lado los estados del sur pre-sentan mayor variabilidad. La mediana por regiones (la lnea entre las cajas) enla gura 3.24. puede ser comparado con la mediana considerando todos los es-tados indicado por la opcin yline(19.1). Esta mediana se obtiene escribiendo:summarize colle if region

  • 7/21/2019 Manual STATA 11

    62/124

    Example:

    graph hbox energy, over(region,sort(1)) yline(320) intensity(30)

    200 400 600 800 1,000Per capita energy consumed, Btu

    South

    West

    Midwest

    N. East

    Figura 3.25

    La grca de caja y bigote para la energa en la gura 3.25 aclara no solola diferencia entre las medianas, sino tambin la presencia de outliers, prin-cipalmente son cuatro altos consumos de energa entre los estados de West ySouth.

    3.2.4 Grco de Pastel (Pie)

    Este estilo es muy popular en las presentaciones de gracas, siempre y cuandotengan pocos valores para trabajar. El comando bsico del graco de pie en elSTATA tiene la forma:

    graph pie x y w z

    donde x, y, w, z son variables que miden cantidades de alguna cosa enlas mismas unidades (por ejemplo, pueden estar medidos en dinero, horas opersonas).

    La base de datos Akethnic.dta, trata sobre la composicin tnica de lapoblacin de Alaska. La poblacin indgena de Alaska se dividen en tres gruposculturales-lingusticos amplios: Aleun; Indian (incluyen Athabaska, Tinglit yHaida) yEskimo (Yupik y Inupiat). Las variablesaleut, indian, eskimo, non-nativ son grupos de poblaciones, que se tomaron del censo de 1990 en USA.Esta data contiene solamente tres observaciones, representando tres tipos de

    62

  • 7/21/2019 Manual STATA 11

    63/124

    comunidades: ciudades de 10 000 personas o ms; ciudades de 1 000 a 10 000;y villas con menos de 1 000 personas.

    La mayora de los estados son no nativos (nonnativ), donde se puede verclaramente en la grca del pastel de la Figura 3.26. La opcin pie(3,explode)provoca el llamado de la tercera variable, eskimo, para ser "explotado" al pon-erle nfasis al grco. La cuarta variable nombrada, nonnativ, es sombreadocon un ligero color gris, pie(4,color(gs13)), para compararlos con los gruposnativos ms pequeos (es importante mencionar que existen otros colores quese pueden utilizar como color(blue) o color(chranberry)14 . La opcin pla-bel(3 percent, gap(20)) causa una etiqueta de porcentaje que se seala enel pedazo (slide) correspondiente a la tercera variable, eskimo, con una brecha(gap) de 20 unidades separados del centro. Podemos ver que cerca del 8% de lapoblacin de Alaska es Eskimo (Yupik y Inupiat). La opcin legend seala lascuatros variables localizado en la posicin de las 11 en punto del reloj.

    Example:

    use akethnic.dta,clear

    graph pie aleut indian eskimo nonnativ , pie(3, explode) ///pie(4, color(gs13)) plabel(3 percent , gap(20)) ///legend( position(11) rows(4) ring(0))

    8.072%

    Aleuts

    Indians

    Eskimos

    Non-Natives

    Figura 3.26

    Los no nativos son el grupo dominante en la gura 3.26, pero si mostramos elpastel separado por cada tipo de comunidad aadindole un by(comtype) como

    14 Tipearhelp colorstyle para observar la lista de colores.

    63

  • 7/21/2019 Manual STATA 11

    64/124

    opcin, emerge nuevos detalles mostrados en la gura 3.27. La opcin angle0()especica el ngulo del primer slide del pie. Estableciendo este primer slide

    un ngulo en cero (horizontal), orienta los slides de tal forma que las etiquetasson ms fciles de leer. La gura muestra que mientras los nativos son solala pequea fraccin de la poblacin en la ciudad de Alaska, ellos constituyenla mayora entre aquellos que viven en las villas. En particular, los Eskimosconforman una gran fraccin de los que viven en las villas, el 35% en total. Estohace que las villas en Alaska tengan una caracterstica distinta a comparacinde la ciudad.

    Example:

    graph pie aleut indian eskimo nonnativ , pie(3, explode) ///pie(4, color(gs13)) plabel(3 percent , gap(20)) ///legend( position(11) rows(4) ring(0)) by(comtype) angle0(0)

    34.67% 8.141%

    2.332%

    villages towns

    cities

    Aleuts Indians Eskimos Non-Natives

    Graphs by Community type (size)

    Figura 3.27

    3.2.5 Grco de Barras (Bar)

    El grco de barras provee una simple y verstil exhibicin conjunto de resmenes

    estadsticos como media, mediana, suma o conteo. Para obtener barras verti-cales mostrando la media de la variable y frente a las categoras de x, porejemplo, tipeamos:

    graph bar (mean) y, over(x)

    64

  • 7/21/2019 Manual STATA 11

    65/124

    Para barras horizontales mostrando la media de y frente a las categoras dex1, por cada una de las categoras de x2, tipeamos:

    graph hbar (mean) y, over(x1) over(x2)

    Este tipo de grco puede calcular los siguientes estadsticos:

    mean : Media, por default se calcula si no se especica elestadstico.

    sd : Desviacin estndar. sum : Suma. rawsum : Suma ignorando los ponderados especicados como

    opcin.

    count : Cuenta el nmero de observaciones sin considerarlos missing values.

    max : Mximo min : Mnimo median : Mediana p1 : Primer cuartil p2 : Segundo cuartil (y as hasta p99) iqr : Rangos intercuartiles.

    La base de datos statehealth.dtacontiene datos sobre los estados de USA,combinando medidas socio econmicas desde el Census de 1990 con diferentesindicadores de riesgo a la salud de los Centers for Disease Control (2003), pro-mediados entre los aos 1994-1998.

    La gura 3.28 indica el porcentaje de la mediana de la poblacin inactiva entiempo de ocio (inactive), para cuatro regiones geogrcos (region). vemos unadiferencia regional: tasas de inactividad son altas en el South (36%), y menoresen el West (21%). Note que el eje vertical ha sido automticamente etiquetadocomo "p50 of inactive", que signica el 50th percentil o mediana. La opcinblabel(bar) etiqueta la parte superior de la barra con el valor de las medianas(20.9, etc..). bar(1,bcolor(gs10)) especica que el color de las barras para

    la primera variable mencionada (en este caso solo mencionamos a la variableinactive) debera ser mostrado con un color gris ligero.

    Example:

    *Grco en barras

    65

  • 7/21/2019 Manual STATA 11

    66/124

    use statehealth.dta,cleargraph bar (median) inactive, over(region) blabel(bar) ///

    bar(1,bcolor(gs10))

    20.9

    28.3

    36.05

    29.1

    0

    10

    20

    30

    40

    p5

    0

    ofinactive

    West N. East South Midwest

    Figura 3.28

    La gura 3.29 elabora la anterior idea aadiendo otra variable,overweight, yse colorea su barra de gris oscuro. La etiqueta de la barra son size(medium),hacindoles ms grande que el tamao por default (size(small)). Otras posi-bilidades para size() son las subopciones tiny, medsmall, medlarge o large15 .La gura 3.29 muestra las diferencias regionales con respecto al sobrepeso sonmenos pronunciados que la inactividad, adems las medianas de ambas variablesson mayores en el South y Midwest.

    Example:

    graph bar (median) inactive overweight, over(region) ///blabel(bar, size(medium)) bar(1,bcolor(gs10)) bar(2,bcolor(gs7))

    15 Puedes ver una lista ms detallada con el comando help textsizestyle.

    66

  • 7/21/2019 Manual STATA 11

    67/124

    20.9

    27.6 28.3 27.1

    36.05

    31.329.1

    31.2

    0

    10

    20

    30

    40

    West N. East South Midwest

    p 50 of inactive p 50 of overweight

    Figura 3.29

    Los indicadores de riesgo enstatehealth.dtaincluye fatalidades por vehculosa motor por 100 000 habitantes (motor). La gura 3.30 muestra subgruposde estados con bajos y altos ingresos (estados que tienen ingresos menores ymayores a la media de los ingresos del hogar), revelando una impresionantecorrelacin con la riqueza. Entre cada uno de las regiones, la tasa de fatalidadson ms altos en el South y menores en el Northeast. El orden de las dos

    opciones over() controlan el orden en la organizacin del grco. Para esteejemplo utilizamos las barras horizontales (hbar), donde las opcionesytitle()yyline()se reeren al eje horizontal. En este caso, colocamos una lnea horizontalque indica el valor de la mediana total de 17.2, yline(17.2), y ser mostradode forma vertical.

    Example:

    graph hbar (mean) motor, over(income2) over(region) yline(17.2) ///ytitle("Promedio de vehculos a motor relacionado a Fatalidades/100000")

    67

  • 7/21/2019 Manual STATA 11

    68/124

    0 5 10 15 20 25Promedio de vehculos a motor relacionado a Fatalidades/100000

    Midwest

    South

    N. East

    West

    High income

    Low income

    High income

    Low income

    High income

    Low income

    High income

    Low income

    Figura 3.30

    Las barras tambin pueden estar montadas entre s, como se muestra en lagura 3.31. Este ploteo, basado sobre la data de etnicidad en Alaska, empleatodas las opciones por default para gracar la composicin tnica por tipo decomunidad (village, town o city).

    Example:

    use akethnic.dta,clear

    graph bar (sum) nonnativ aleut indian eskimo, over(comtype) stack

    0

    100000

    200000

    300000

    400000

    villages towns cities

    sum of nonnativ sum of aleut

    sum of indian sum of eskimo

    Figura 3.31

    68

  • 7/21/2019 Manual STATA 11

    69/124

    La gura 3.32 regraca este ltimo ploteo con una mejor leyenda y etiquetalos ejes. La opcinover() ahora incluye subopciones que reetiquetan los tipos

    de comunidad en el eje de la abscisa para dar mayor informacin. La opcinlegenda especica cuatro las en el mismo orden vertical que se muestra en lasbarras. Tambin se mejora la etiqueta de las legendas con ytitleyylabel comoopciones del formato del eje vertical.

    Example:

    graph bar (sum) nonnativ aleut indian eskimo, ///over(comtype, relabel(1 "Village10000")) ///legend( row(4) order(4 3 2 1) position(11) ring(0) ///label(1 "Nonnative") label(2 "Aleut") ///label(3 "Indian") label(4 "Eskimo")) stick ///ytitle("Population") ylabel(0 (100000) 300000) ///ytick(50000 (100000) 350000)

    0

    100000

    200000

    300000

    Population

    Vil lage 10000

    Eskimo

    Indian

    Aleut

    Nonnative

    Figura 3.32

    Mientras el pie de la gura 3.31 muestra el tamao relativo (porcentajes)

    de los grupos tnicos por cada tipo de comunidad, esta ltima barra muestrasus tamaos absolutos. Consecuentemente, esta gura te dice algo ms que elanterior: la mayora de la poblacin de Eskimos en Alaska viven en villas.

    69

  • 7/21/2019 Manual STATA 11

    70/124

    3.2.6 Grco de Puntos (Dot Plot)

    Los ploteos con puntos son igual de tiles que las grcas con barras: compara-ndo visualmente resumenes estadsticos de una o ms variables. Las opcionesque usa el STATA para ambos grcos son ampliamente similares, incluyendola eleccin de los estadsticos. Para ver este diagrama comparando las medianasde las variables x; y; wy z, debemos tipear:

    graph dot (median) x y w z

    Y para ver la comparacin de promedios de la variable y segn las categorasde x, escribimos:

    graph dot (mean) y , over(x)

    La gura 3.33 muestra un ploteo de puntos de la tasa de fuma entre hombrey mujeres por regiones, usando la datastateheath.dta. La opcin over()incluye

    buena subopcin, sort(smokeM), la cual ordena la media de smokeM paracada una de las regiones, esto es desde la ms baja hasta la ms alta tasa defumar. Tambin podemos especicar un triangulo slido como marcador desmbolo parasmokeMy crculos con un centro vacio para smokeF.

    Example:

    *Dot Plot

    graph dot (mean) smokeM smokeF, over(region, sort(somkeM)) ///marker(1, msymbol(T)) marker(2, msymbol(Oh))

    0 10 20 30

    Midwest

    South

    N. East

    West

    mean of smokeM mean of smokeF

    Figura 3.33

    70

  • 7/21/2019 Manual STATA 11

    71/124

    Adems, la gura 3.33 calcula solo 8 promedios, esto hace que sea fcil lascomparaciones. Vemos que las tasas de fumar son ms altas en las mujeres, y

    con respecto a ambos sexos la tasa ms alta se encuentra en South y Midwest,y esas variaciones son sustancialmente muy altos en el caso de las mujeres.La grca en barras podra darnos la misma informacin, pero una ventajade estos grcos es la formar de compactar los datos. Los ploteos de puntos(particularmente cuando se quiere ordenar por estadsticos de inters) es fcilde entender incluso con varias las.

    3.3 Aadiendo Textos a los Grcos

    Los ttulos, las nombres de grcos y notas pueden ser aadidos al grco paraque sea ms explicativo. Los ttulos y subttulos aparecen encimas del readel ploteo; las notas (la cual puede documentar la fuente de los datos) y las

    caption aparecen en la parte inferior16 . La gura 3.42 muestra el uso de estasopciones en un scatterplot sobre los fumadores y los graduados universitariosen los estados de USA, usando la data statehealth.dta. La gura 3.42 tambinincluye ttulos para ambos lados (derecha e izquierda) del eje y;yaxis(1 2)y laparte superior en inferior del eje x,xaxis(1 2). Luego las opciones xtitle y ytitlese reeren al segundo eje especcamente, al incluirse la subopcin axis(2).

    Example:

    *Texto en Grcos

    use statehealth.dta,clear

    graph twoway scatter smokeT college, yaxis(1 2) xaxis(1 2) ///title("Es es un Ttulo") subtitle("Este es un Subttulo") ///caption("Este es un caption") note("Esta es una Nota") ///ytitle("Este es el Porcentaje de adultos fumadores") ///ytitle("Este es el Eje Y 2", axis(2)) ///xtitle("Porcentaje de adultos con Grado Superior") ///xtitle("Este es el Eje X 2", axis(2))

    16 Tipearhelp title_optionspara ms informacin acerca de la especicacin de los ttuloso help text_box para detalles concernientes a sus contenidos.

    71

  • 7/21/2019 Manual STATA 11

    72/124

    15

    20

    25

    30

    35

    EsteeselEjeY2

    15

    20

    25

    30

    35

    Estee

    selPorcentajedeadultosfumadores

    10 15 20 25 30 35Este es el Eje X 2

    10 15 20 25 30 35Porcentaje de adultos con Grado Superior

    Esta es una Nota

    Este es un caption

    Este es un Subttulo

    Es es un Ttulo

    Figura 3.34

    El ttulo aade el texto fuera del espacio de ploteo. Tambin podemos aadircajas de texto en coordinadas especcas en el espacio de ploteo. Diversos out-liers se observan en este ploteo, la cual bajo inspeccin estos outliers resultanser Washington DC (el valor ms alto de college), Utah (valor ms pequeo desmokeT) y Nevada (el valor ms alto desmokeTen la parte superior izquierda).Los cuadros de texto son de instrumentos para identicar dichas observaciones

    en nuestro grco, como se seala en la gura 3.43. La opcin text(15.5 22.5"Utah") establece la palabra Utah en la posicin x=15.5 e y=22.5 del scat-terplot, directamente por encima del punto que indica el estado de Utah. Deuna forma similar podemos establecer la palabra "Nevada"en x=33.5 e y=15 yubicarlo en un cuadro pequeo (con pequeos mrgenes17 ) alrededor del nombredel estado. Las tres lneas de textos justicados hacia la izquierda son coloca-dos al lado de Washignton DC (cada lnea se especica separadamente entrecomillas). Algunos cuadros de texto o ttulos pueden tener mltiples lneas,as que podemos escribir una parte del ttulo en lneas diferentes escribindoloentre comillas diferentes, para luego denir el tipo de justicacin. El cuadro"nevada" utiliza un formato de fondo por default, mientras que el cuadro de"Washigton DC" elegimos un color de fondo blanco18 .

    Example:

    graph twoway scatter smokeT college, yaxis(1 2) xaxis(1 2) ///

    17 Verhelp marginstyle.18 Ver help textbox_optiony help colorstyle.

    72

  • 7/21/2019 Manual STATA 11

    73/124

    title("Es es un Ttulo") subtitle("Este es un Subttulo") ///caption("Este es un caption") note("Esta es una Nota") ///

    ytitle("Este es el Porcentaje de adultos fumadores") ///ytitle("Este es el Eje Y 2", axis(2)) ///xtitle("Porcentaje de adultos con Grado Superior") ///xtitle("Este es el Eje X 2", axis(2)) ///text(15.5 22.5 "Utah") ///text(33.5 15 "Nevada", box margin(small)) ///text(23.5 32 "Washington DC" "no es actualmente" "un estado", ///box justicacion(left) box margin(small) bfcolor(white))

    Utah

    Nevada

    Washington DCno es actualmenteun estado

    15

    20

    25

    30

    35

    EsteeselEjeY2

    15

    20

    25

    30

    35

    EsteeselPorcentajedeadultosfumadores 10 15 20 25 30 35Este es el Eje X 2

    10 15 20 25 30 35Porcentaje de adultos con Grado Superior

    Esta es una Nota

    Este es un caption

    Este es un Subttulo

    Es es un Ttulo

    Figura 3.35

    3.4 Mltiples Ploteos

    Dos o ms gracos de la familia graph twowaypueden ser sobrepuestos enun nico grco. La familia twoway incluye diversos modelos de ploteos talescomolt (recta de regresin lineal), qt(curva de regresin cuadrtica) y ms.Por ello, tales ploteos brindan informacin al mnimo. Por ejemplo, la gura3.44 describe la recta de regresin lineal, teniendo bandas al 95% de nivel deconanza para la media condicional, de la regresin que surge entre smokeT

    sobrecollege(delstatehealth.dta).

    Example:

    *Ploteos Multiples

    73

  • 7/21/2019 Manual STATA 11

    74/124

    use statehealth.dta,clear

    graph twoway ltci smokeT college

    15

    20

    25

    30

    10 15 20 25 30 35% adults college degree, 1990

    95% CI Fitted values

    Figura 3.36

    Un grco con mayor informacin cuando sobreponemos un scatterplot sobrela recta de regresin lineal, se puede ver en la gura 3.45. Para hacer esto, damosdos distintas indicaciones de comandos de grcos, separado por el "jj" como semencion anteriormente.

    Example:

    graph twoway ltci smokeT collegejjscatter smokeT college

    15

    20

    25

    30

    35

    10 15 20 25 30 35% adults college degree, 1990

    95% CI Fitted values

    % adults smoking

    Figura 3.37

    74

  • 7/21/2019 Manual STATA 11

    75/124

    El segundo ploteo (scatterplot) se coloca encima del primer ploteo en la gura3.45. Este orden tiene consecuencia para el estilo de lnea usado por defecto

    (solid, dashed,etc) y tambin para el marcado de smbolos (square, circle,etc)usado por cada subploteo. Los ms importante es tratar que los ploteos seanlos ms visibles posibles.

    La gura 3.46 desarrolla la idea anterior, mejorando la imagen usando lasopciones de etiquetas de ejes y legenda. Por que dichas opciones se aplican algrco como un todo y no por separado, estas opciones son establecidas despusdel segundo separadorjj, seguido por una coma. La mayora de estas opcionesse asemeja a los ejemplos realizados anteriormente. La opcinorder(2 1) eneste caso hace una nueva funcin: omite una de los tres item de la legenda,tal que solo dos de ellos (2 de la regresin lineal, seguido por 1 del intervalode conanza) aparecezcan en la gura. Comparando esta legenda con la gura3.45 vemos la diferencia. Aunque listemos solo dos item en la legenda, aun es

    necesario especicar tres las en el formato de la legenda (rows(3)) como sicada uno de los items estan retenidos.

    Example:

    graph twoway ltci smokeT collegejjscatter smokeT college ///jj, xlabel(12 (2) 34) ylabel(14 (3) 32, angle(horizontal)) ///xtitle("Porcentajes de Adultos con Grados Superior") ///ytitle("Porcentaje de Adultos que fuman") ///note("Datos del CDC andn US Census") ///legend(order(2 1) label(1 "95% c.i") label(2 "Regresin Lineal") ///rows(3) position(1) ring(0)

    14

    17

    20

    23