Manual STATA 11

7/21/2019 Manual STATA 11

1/124

UNIVERSIDAD NACIONAL DEL CALLAO

Facultad de Ciencias EconmicasEscuela Profesional de Economa

MANUAL DE STATA

Curso: Econometra I

Profesor: Erix Aldo Ruiz Mondaca

GESTIN DE BASE DE DATOS CON STATA

Asistente: David Esparta Polanco

[email protected]

1


2/124

Cap. 1 Introduccin

1.1 El entorno de STATA 11

Al momento de iniciar la sesin en STATA, esta mostrar cuatro ventanas im-portantes:

Otras ventanas a tomar en consideracin son:

1. STATA Viewer: Podemos acceder a la informacin online y a las ayudasque nos otorga el programa.

2. STATA Do-File Editor: Es una ventana que funciona como editor detexto para poder guardar y ejecutar una lista de comandos programados.

3. STATA Data Editor: Nos permite digitar y modicar los datos de lamisma forma que una hoja de Excel.

4. STATA Browser: Accedemos a la ventana de datos sin poder modicarsu contenido.

5. STATA Graphs: Nos muestra una ventana con el grco que ejecuta-mos.

2


3/124

1.2 La Barra de Herramientas

La barra de herramientas nos permite realizar operaciones rutinarias como abrir,guardar, imprimir algn archivo, adems de otras particularidades.

Icono Signicado

Nos permite abrir una base de datos con extensin*.dta.

Nos permite guardar una base de datos que est siendo utilizada.

Nos permite imprimir el contenido registrado en la ventana delStata Result.

Nos permite iniciar, cerrar, suspender o resumir una bitacora (lacual se guardan con extensin *.logo *.smcl). Es til para

guardar los resultados mostrados por el Stata Result.

Nos muestra la ventana del Stata Viewer oculta.Nos indica la ventana del Stata Graphic.

Nos permite iniciar el uso del Stata Do-File.

Nos permite abrir la ventana del Stata Editor que esta oculta.

3


4/124

Nos permite abrir la ventana del Stata Browser que esta oculta.

Ordena al Stata continuar la ejecucin de un comando que fuedetenido.

Ordena al Stata detener la ejecucin de un comando.

1.3 Tipos de Archivo

Stata reconoce 4 tipos de archivos:

1. Archivo *.dta : Lee base de datos del entorno de STATA.

2. Archivo *.do :

Lee el Do-File, la cual contiene una serie de

programas y/o funciones.

3. Archivo *.log : Guarda los resultados que arroja el STATA, tambin

llamado bitcora.

4. Archivo *.gph : Guarda los gracos creados en el STATA.

1.4 Sintaxis de los Comandos del STATA

La estructura general de la sintaxis bsica de los comandos en el STATA es:

[prex :] command [varlist] [if expr] [in] [weight] [using lename] [; options]

Donde:

prefix : Permite repetir las ejecuciones de un determinado comandoo modicar el input y/o output de la base de datos.

command : Indica el comando del STATA. varlist : Indica la lista de nombres de variables. weight : Indica la variable de ponderacin. if : Indica una expresin lgica condicional . exp : Indica la expresin matemtica utilizada para la condicional. in : Seala el rango de observaciones que queremos analizar. filename : Seala el nombre del archivo. options : Seala una o ms opciones que aplica el comando.

4


5/124

1.5 Expresiones Lgicas del STATA

Las siguientes expresiones nos servirn para la programacin en STATA.

1.6 Esquema de un Archivo de Trabajo

A la hora de trabajar con el STATA (especcamente en el archivo Do-le) esrecomendable mantener el siguiente esquema de trabajo:

5


6/124

1.7 Recursos del STATA

STATA cuenta con una documentacin extensa la cual puede encontrarse en elmismo software as como tambin en la web.

a). Guides User STATA: La gua de usuario se accede en la barra de herramien-tas a travs de la siguiente ruta: Help >PDF Documentation. Estagua es muy importante para los usuarios que comienzan a trabajar conSTATA.

b). STATA Journal (SJ) y STATA Technical Bulletin (STB): Presentan doc-umentacin acerca de nuevos comandos que no estn incluidos en el soft-ware, la cual pueden ser descargados por la web.

c). Otras Fuentes:

http://www.stata.com/support/Incluye un resumen de lo que hace el STATA. En particular se recomienda

ver la parte de respuestas: FREQUENTLY ASKED QUESTION (FAQs).

http://www.ats.ucla.edu/STAT/stataProvee diversos tutoriales y videos para aprender STATA.

1.8 Comandos de Ayuda del STATA

Existen diversos comandos que sirven como ayuda para el manejo de STATA,entre ellas tenemos:

a). help: Es muy til si se conoce el nombre comando para la cual se necesitaayuda.

Example 1 helpregress

b). search : Busca una palabra clave "keyword" en los archivos ociales deayuda, FAQs, examples, the SJ y el STB, pero no del internet.

Example 2 searchols

c). net search : Busca en Internet paquetes instalables, incluyendo cdigosdel SJ y el STB.

Example 3 net searchrandom eect

d). ndit : Provee la ms amplia bsqueda de keyword con informacin rela-cionado al STATA. Es til ya que no se necesita especicar el keyword demanera completa.

6


7/124

Example 4 nditweak inst

e). hsearch: Busca el keyword en todos los archivos de ayuda (con extensin.sthlp o.hlp). El inconveniente es que se necesita el keyword completo.

Example 5 hsearchweak instrument

7


8/124

Cap.2 Gestin de Base de

Datos

Aprenderemos en qu consiste una sesin de trabajo en STATA y exploraremosalgunos comandos que nos permitan realizar un anlisis de base de datos ha-ciendo uso del Do-le. Para dicho n, explicaremos el funcionamiento de estaherramienta del STATA.

2.1 El Do-File

STATA cuenta con una ventana que nos permite trabajar con una serie decomandos y almacenarlas. Estos archivos son muy importantes por los siguientesmotivos:

Permite registrar una de serie de comando, la cual representa todo elprocedimiento de nuestro trabajo.

Permite ir corrigiendo posibles errores que se pueden generar en la elabo-racin y ejecucin de nuestro trabajo.

Permite poder nuevamente replicarlo en sesiones posteriores sin necesidadde crearlo nuevamente.

Adems, sirve como un mecanismo de seguridad que permite regresar a labase de datos original despus de haberle hecho diversas transformaciones.

Para acceder al Do-le hacemos clic al cono correspondiente en la barra deherramientas o simplemente presionamos la siguiente sucesin de teclasCtrl+8.Recuerde que el archivo Do-le se guarda con extensin*.do.

Con respecto a las formas de poder ejecutar los comandos, se puede hacer

a travs del icono (execute do)ubicado en la parte superior derecha de labarra de herramientas del archivo Do-le o presionando los teclados Ctrl+Duna vez que sombremos el comando queramos correr. Una vez realizada esta

accin, se reejar los resultados en la ventana Result View del STATA.

8


9/124

2.1.1 Realizando Comentarios en el Do-File

El Do-le puede incluir comentarios incrementando el entendimiento de un pro-grama o archivo de trabajo. Existen diferentes formas de incluir un comentario:

Una simple lnea de comentario empieza con un asterisco () ; dondeSTATA ignorar tales lneas.

Para colocar un comentario en la misma lnea donde fue escrito el comandoutilizamos dos slash (= =) :

Para lneas con mltiples comentarios, colocamos el texto entre los sm-bolos (=)al inicio y (=)al nal.

En el caso de que se haga uso de un comando la cual presenta una expresinmuy larga podemos utilizar tres slash(= = =)en medio de la expresin y

as continuar en la siguiente lnea la parte faltante. STATA entendercomo si fuera una nica lnea de comando.

Por ltimo, tambin se utilizan los smbolos de comentarios con nes dec-orativo.

Example:

***********************************************USANDO COMENTARIOS EN EL DO-FILE***********************************************

*Este es mi primer comentarioclear // este es un comentario para el comando clear

/*este esun comentariocon lneas mltiples*/

sysuse ///auto.dta

Note : Como ver los comentarios se resaltan de color verde.

9


10/124

2.1.2 Iniciando la Estrucutra de un Do-le

Como se explic en el esquema usual de un do-le, esta empieza con el comandoclear. Este comando nos permite limpiar por inercia una base de datos yetiquetas existentes en la memoria del STATA. Es importante saber que estecomando presenta algunas opciones que se mostrarn a continuacin:

Example:

Remueve la base de datos y las etiquetas:clear

Adems, puede remover funciones del MATA1 , resultados guardados in-ternamente por el STATA, adems de matrices, programas y archivos*.ado:

clear [mata; result; matrix;program; ado]

Si se desea borrar todo de una sola vez, se usa la siguiente opcin:clear all

2.1.3 Asignando Memoria al STATA

Dado que existen bases de datos con diferentes tamaos, es posible que antebases demasiados grandes y pesadas, el STATA no podr reconocerlo por faltade memoria, es por ello que puede encontrarse con el siguiente mansaje de error:

1 MATA es un lenguaje de programacin matricial que puede ser usado por quienes deseancalcular iteraciones en un entorno de matrices.

10


11/124

Generalmente se suele trabajar con una capacidad de memoria de 20m(megabyte), para realizar esta operacin escribimos lo siguiente2 :

set memory20m

2.1.4 Manejo de Directorios

Cuando se incia sesin en STATA, por defecto trabaja en la carpeta en dondese encuentra ubicado el programa. Si por ejemplo, el software se ubicase en eldisco "C:nArchivos de Programas" entonces la carpeta de trabajo o direc-torio se encontrar en la siguiente ruta "C:nArchivos de ProgramasnStata11n". Para saber con qu directorio se est trabajando actualmente se utilizael comando pwd, y el resultado se reejar de la siguiente forma:

Example:

pwdC:nArchivos de programanStata11

Tambin es posible saber lo anterior viendo la parte inferior izquierda delentorno del STATA.

2 Para saber cules son las diversas opciones que presenta el STATA para trabajar condiferentes tamaos de base de datos recurra al comandohelp set eligiendo la opcinmemoryo simplemente escriba help memory.

11


12/124

Supongamos que en el disco "D:n" se crea una carpeta con el nombre "EconometraI"la cual nos va a servir para guardar nuestros trabajos, entonces, el nuevo di-

rectorio se encontrara en la ruta : "D:nEconometria I". Ahora utilizamos elcomandocd para cambiarnos al nuevo directorio indicando la nueva ruta entrecomillas de la siguiente manera:

Example:

cd"D:nEconometria I"D:nEconometria I

STATA tambin cuenta con otros comandos para el manejo con directorios,como son:

El comando mkdirnos permite crear una carpeta o directorio:

mkdirsesion_1

El comando dir nos permite observar el listado de todos los archivos quese encuentran en nuestra carpeta de trabajo.

dir

2.1.5 Guardar los Resultados del STATA

Como se mencion, los resultados que arroja STATA puede ser almacenadosen una bitcora, es decir, crear un archivo *.log o *.smcl a travs del comandolog3 .

Para crear una bitcora llamada primera_bitacorarecurrimos a la sigu-iente sintaxis:

log using primera_bitacora

El STATA por defecto crear una bitcora con formato *.scmly se visu-alizar en el directorio que estamos trabajando.

Example:

Si desea crear una bitcora con formato*.logescribimos:

log using primera_bitacora.log Para dejar de registrar momentneamente los resultados usamos:log o

3 Recurra al comando help log para ver todas las opciones que presenta.

12


13/124

Para volver a registrar los resultados usamos:

log on Para cerrar la bitcora usamos:log close

Para volver a reanudar la bitcora:log using primera_bitacora,append

Para sobreescribir en la bitcora:log using primera_bitacora,replace

Para observar una bitcora ya elaborada en el Result View usamos:typeprimera_bitacora.scml

2.2 Abrir una Base de datos

Existen diferentes formas de invocar una base de datos, ya sea en formato delSTATA(:dta)o en otros formatos (:txt, :xls, etc).

2.2.1 Abriendo una base de datos con formato del STATA.

Para abrir una base de datos desde la ventana principal del STATA debemosacceder a la siguiente ruta: File>Open.Luego aparecer un cuadro de dilogopara buscar y elegir la base de datos que deseamos trabajar.

13


14/124

Si deseamos llamar una base de datos a travs del Do-le, basta con guardardicha base en el directorio actual que se est trabajando y llamarlo usando el

comandouse.

Example : Supongamos que hemos guardado en la carpeta "Econome-tria I" la base de datos enaho01-2009-100.dta. Para poder invocarlo escribimos:

use enaho01-2009-100.dta

En la parte inferior izquierda del entorno del STATA se apreciar las vari-ables que contiene la base de datos enaho01-2009-100.dta.

Adems, STATA cuenta con base de datos dentro de sus sistema como ejem-plos aplicativos, para invocarlos se utiliza el comando sysuse.

Example: Uno de las base de datos que cuenta el STATA esauto.dta.

sysuse auto.dta

2.2.2 Importando una base de datos de otros formato.

Segn el tipo de archivo que queremos importar la base de datos debemos usarel comando indicado. El comando insheet lee base proveniente de una hojade clculo como por ejemplo Excel que son guardados por un spreadsheet o unprograma de bases comodatos delimitado por comas (:csv)odatos delimitadopor tabulaciones (:txt). Es importante mencionar que la primera lnea de lahoja de clculo se registre el nombre de las variables y a partir de la segundala se comienzan a registrar los datos.

Example: Supongamos que tenemos un archivo en Excel llamado "archivo1.xlsx"con la siguiente estructura:

14


15/124

Debemos armar la base de datos de la siguiente forma:

Luego lo guardamos en nuestra carpeta de trabajo ("D:nEconometria I") conformato Texto (delimitado por tabulaciones) o CSV (delimitado por comas).

15


16/124

Finalmente utilizamos el comando insheet para importar la base de datoscomo se indica a continuacin:

insheet usingarchivo1.csv

(Si fue guardado como delimitado por comas)

insheet using archivo1.txt(Si fue guardado como delimitado por tabulaciones)

2.3 Convertir una Base de Datos de Otros Archivoen Formato STATA

STATA cuenta con una herramienta que permite convertir base de datos deSPSS, Matlab, Gauss, SAS, etc. al formato *.dta a travs del sotfware

STAT/TRANSFER.

16


17/124

Para acceder a este software basta con hacerle clic y posteriormente nossaldr una ventana de dialogo solicitndonos la siguiente informacin:

Input File Type : Indicamos el tipo de archivo en la cual se encuentranuestra base de datos original.

File Specification: Indicamos la ruta donde se encuentra nuestra basede datos original haciendo uso del botn Browse.

Output File Type: Indicamos el tipo de archivo al cual deseamos que labase de datos se convierta.

File Specification : Indicamos la ruta donde queremos colocar la basede datos convertida haciendo uso del botn Browse.

Example:

Para nuestro ilustrativo contamos con una base de datos de la Enaho enformato de SPSS llamada "Enaho01A-2009-400.sav" que se encuentra en lasiguiente ruta "D:nDAVIDndatabase" y lo queremos convertir a un archivo debase de datos del STATA con el mismo nombre en nuestra carpeta de trabajo"D:nEconometria I".

Para desarrollar esta aplicacin realizamos los siguientes pasos:

1. Abrimos la ventana de dialogo delSTAT/TRANSFER.

2. En la seccin Input File Type hacemos clic a la barra desplegable y

elegimos el formatoSPSS Data Fileya que se debe un archivo de base dedatos del SPSS 15.

3. En la seccin F ile S pecification hacemos clic en el botn Browse paradenir la ruta donde se encuentra nuestra base original. Observe queen la barra "Unidades" (ubicado en la parte inferir derecha) escogemosel disco d, En la barra "Mostrar Archivos Tipos" (ubicado en la parte

17


18/124

inferir izquierda) por default se muestra SPSS Data File (*.SAV). Enel cuadro "Carpetas" hacemos clic en las carpetas segn como se seala

la ruta del archivo de origen d:n > david > database. Finalmentehacemos clic en el archivo original llamado Enaho01A-2009-400.sav.

4. En la seccin Output File Type hacemos clic a la barra desplegable yelegimos el formatoStata Version 4-5la cual es el formato de la base dedatos que queremos obtener.

5. En la seccin File Specification hacemos click en el boton Browse paradenir la ruta donde queremos que se encuentre nuestra base convertida.Observe que en la barra "Unidades" (ubicado en la parte inferir derecha)escogemos el disco d, En la barra "Mostrar Archivos Tipos" (ubicadoen la parte inferir izquierda) por default se muestra Stata version 4-5(*.DTA). En el cuadro "Carpetas" hacemos clic en las carpetas segncomo se seala la ruta donde se guardar la base convertida d:n >Econometria I. Finalmente escribimos el nombre de nuestra nueva base,

18


19/124

este caso Enaho01A-2009-400.dta.

6. .Finalmente hacemos clic en el botn Transfer.

19


20/124

2.4 Guardar una Base de Datos

Una vez trabajado y modicado la base de datos es posible guardarlo con elcomandosave.

Example:

Imaginemos que hemos trabajado con la base "archivo1.xls" y queremosguardarlo la nueva base con el nombre "archivo1_modicado.dta"

*Usando el comando save para guardar la nueva base con el nombre*archivo1_modicado.dta

save archivo1_modicado.dta

2.5 Inspeccin de Base de Datos

En esta seccin aprenderemos comandos que nos permitan dar una revisada ala base de datos, es decir, saber con qu esquema de datos y tipos de variablesnos estamos enfrentando.

Usualmente despus de abrir una base de datos, recurrimos a la siguienterutina de inspeccin de una base de datos:

1. Descripicn de la base de datos con el comandodescribe.

2. Observar la base de a travs del comando browse o edit. El comando

browsenos permite ver la base de datos sin poder modicarla y el comandoeditnos permite ver la base de datos pudiendo modicarlo.

3. Inspeccionar las variables de la base de datos usando el comandoinspect.

4. Generamos un diccionario de variables con el comando codebook.

5. A veces podra ser de ayuda hacer una lista de los valores de algunasvariable de inters para un determinado rango de observaciones a travsdel comandolist.

6. Realizar una tabla resumen de las variables numricas con el comandosummarize.

Retornando al ejemplo de la base de datos auto.dta, utilizamos los siguientescomandos:

Example:

*Retomamos la base de datos auto.dta

20


21/124

sysuse auto.dta,clear

*Describimos la base auto.dta

describe // para describir todas las variablesd price mpg rep78 // para describir las variables price, mpg, rep78

*Vemos la ventana de la base de datos

browse // para observar todas las variablesbr turn foreign length // para observar las variables turn foreign length

*Inspeccionamos las variables

inspect // para inspeccionar todas las variablesins headroom trunk // para inspeccionar las variables headroom trunk

*Creamos un diccionario de variables

codebook // diccionario de todas las variablescodebook foreign gear_ratio // diccionario de variables foreign gear_ratio

*Realizamos una lista de valores de algunas variables

list make price mpg // listado de los valores de make price mpg weightl make price mpg in 25/60 // listado de valores entre la observacin 25 y 60

*Realizamos un cuadro estadstico resumen de las variablessummarize price mpg weight // price mpg weightsum length displacement foreign // resumen de length displacement foreign

*Realizamos un cuadro resumen detallado de algunas variables

sum price mpg weight,detail // resumen detallado de price mpg weight

2.6 Generacin y Transformacin de Variables

Para la creacin de nuevas variables STATA cuenta con el comando generatey egen, la cual se explica la diferencia entre ambos a continuacin:

21


22/124

El comando generatenos permite generar variables haciendo uso de ex-presiones matemticas, lgicas, numricas. Si bien es cierto que STATA

solamente reconoce los comandos con letras minsculas, tambin es im-portante decir que tambin hace una diferenciacin de los nombres de lasvariables entre si son minsculas o maysculas. Por ejemplo, generar unavariable llamada EsTaDo es diferente a que si lo denominamos estado oESTADO.

El comandoegenes una extensin del anterior, que permite utilizar expre-siones que incluyan funciones ms complejas del STATA como es el casode medias, mximos, mnimos, desviacin estndar, promedios mviles,variables estandarizadas, etc.

Example:

*Creacin de variables usando el comando "generate" con funciones:

generate id=_n //generamos una variable llamada id como// identicador para cada observacin

generate T=_N //generamos una variable llamada T como// identicador del total de observaciones

gen ln_mpg=ln(mpg) //generamos una variable llamada ln_mpg// que es igual al logaritmo natural del mpg

gen exp_mpg=exp(mpg) //generamos una variable llamada// exp_mpg igual al exponencial natural del mpg

gen sqrt_mpg=sqrt(mpg) //generamos una variable llamada// sqrt_mpg igual a la raz cuadrada del mpg

gen sum_mpg=sum(mpg) //generamos una variable llamada// sum_mpg igual a la suma acumulativa del mpg

*Creacin de variables usando el comando "egen" con funciones

egen mean_price=mean(price) //generamos una variable llamada// mean_price igual a la media del precio

egen median_price=median(price) //generamos una variable llamada// median_price igual a la mediana del precio

egen mode_price=mode(price) //generamos una variable llamada// mode_price igual a la moda del precio

egen min_price=min(price) //generamos una variable llamada// min_price igual al mnimo del precio

egen max_price=max(price) //generamos una variable llamada// max_price igual al mximo del precio

egen sd_price=sd(price) //generamos una variable llamada// sd_price igual a la desviacin estndar del precio

egen skew_price=skew(price) //generamos una variable llamada

22


23/124

// skew_price igual al valor de la simetra del precioegen kurt_price=kurt(price) //generamos una variable llamada

// kurt_price igual al valor de la curtosis del precio

En caso que se quiera cambiar los valores de una variable una vez creadas ode las ya existentes, podemos hacer uso de los comandos replacey recode.

El comando replacepermite reemplazar o modicar una variable o susrespectivos valores. Si se trata de reemplazar valores de una variablegeneralmente tendr que cumplir algunas condiciones y se digita despusdel comandogenerate.

El comandorecodepermite modicar valores especcos de una variable.

Example:

*Transformacin de variables y sus respectivos valores

*Usando el comando "replace" para cambios en la variable

*Supongamos que a las variables creadas por el comando*generateyegen, queremos expresar los valores en cientos.

replace ln_mpg= ln_mpg/100replace exp_mpg=exp_mpg/100replace sqrt_mpg=sqrt_mpg/100replace sum_mpg=sum_mpg/100

replace mean_mpg=mean_mpg/100replace median_mpg=median_mpg/100replace mode_mpg=mode_mpg/100replace min_mpg=min_mpg/100replace max_mpg=max_mpg/100replace skew_mpg=skew_mpg/100replace kurt_mpg=kurt_mpg/100

*Usando el comando "replace" con condicionales para cambios de*valores de una variable

*Supongamos que creamos una variable categrica para mpg*llamada "cat_mpg"que tenga valor de 1 para los primer cuartil,

*2 segundo cuartil, 3 tercer cuartil y 4 cuarto cuartil.

summ mpg,detail

//observamos que la variable mpg tiene valor de 18 hasta el 25% de los// datos, 20 hasta el 50% de tos datos, 25 hasta el 75% de tos datos y

23


24/124

// 41 hasta el 100% de los datos.

gen cat_mpg=1 if mpg=18 & mpg=20 & mpg=25

*Usando el comando recode para recodicar algunos valores especcos de* las variables.

//Si analizamos a la variable rep78, vemos que presenta valores discretos// desde 1 hasta el 5 y adems poseen valores perdidos (missing values)// representados por un punto "." , en este caso vamos a cambiar los// missing values por el valor de cero. Para dicho n creamos una//variable igual a rep78 llamada "rep78_recode" para no perder la//informacin bsica de esta variable y luego la recodicamos.

recode rep78 (.=0), gen(rep78_recode)sum rep78_recode//ahora vemos que la variablerep78_recodetiene valores discretas desde// 0 hasta 5.

//Tambin podramos crear una variable llamada "cat2_mpg" similar//acat_mpgutilizando el comando recode de la siguiente forma:

gen cat2_mpg=0recode cat2_mpg (min/18=1) (18/20=2) (20/25=3) (25/max=4)

2.7 Nombrando y Etiquetando Variables

Si se desea cambiar de nombre a una variable se hace uso del comando rename.

Example:

//De las ltimas variables creadas cambiamos de nombre a la variable// id y T

rename id ident_obsren T ident_total

Si deseamos darle el signicado a la variable, podemos etiquetarlo con elcomando label variable.

Example:

24


25/124

//De las ltimas variables creadas etiquetamos a las siguientes:

label variable ident_obs "Identicador de Observaciones"la var ident_total "Identicador Total"

En el caso que tengamos variables categricas, es til explicar el signicadode cada uno de los valores discretos, para este proceso usamos los comandoslabel deney label value.

Example:

//De la variable categrica que creamos "cat_mpg" podemos// etiquetar sus valores de la siguiente forma:

//Primero denimos una etiqueta llamada "rango_mpg"// y luego etiquetamos los valores

label dene rango_mpg 1 "menos a 18" ///2 "entre 18 y 20" 3 "entre 20 y 25" 4 "mayor igual 25"

label value rango_mpg cat_mpgbr cat_mpg

2.8 Tipo y Formato de Variables

2.8.1 Tipo de Variables

En STATA existen dos clases de formatos:

Formato Numrico: Se puede encontrar la siguiente clasicacin4 :

Tipo Byte Mnimo Mximobyte 1 -127 100int 2 -32,767 32,740

long 4 -2,147,483,647 2,147,483,620oat 4 -1.70141173319*10^38 1.70141173319*10^38double 8 -8.9884656743*10^307 8.9884656743*10^307

Formato No Numrico: Este tipo es reconocido como cadena de texto o

string. Generalmente se encierran entre comillas y presenta la siguienteclasicacin:4 Cuando se genera una variable con datos numricos, STATA por default le asigna un

formatooat.

25


26/124

Tipo Byte Descripcinstr1 1 Hasta 1 carcter

str2 2 Hasta 2 caracteres...

... ...

str20 20 Hasta 20 caracteres

2.8.2 Formato de Variables

La forma cmo podemos especicar el formato de las variables es de la siguientemanera:

Formato Numrico:

Esquema Smbolo Descripcin

Primero % indica el comienzo del formatoluego (opcional) - si se quiere alinear el resultado a la izquierdaluego (opcional) 0 si se quiere conservar los ceros "principales"

luego # cifra que indique el tamao del resultadoluego . se coloca un puntoluego # nmero de dgitos despus del punto decimal

luego (cualquiera) e para notacin cientca. ex: 10e+04f para formato jo. ex: 5000.0g para formato general (STATA muestra

acorde al nmero elegido)luego (opcional) c para el formato de "coma"

(no se permite para notacin cientca)

Formato para Fechas:

Esquema Smbolo Descripcin Primero % indica el comienzo del formato

luego (opcional) - si se quiere alinear el resultado a la izquierdaluego t se colocatpara indicar formato fecha

luego (cualquiera) d para das. ex: 05jul1972w para semanas. ex: 1972w27m para meses. ex: 1972m7q para trimestres. ex: 1972q3h para horas. ex: 1972h2

y para aos. ex: 1972 Formato String:

26


27/124

Esquema Smbolo Descripcin Primero % indica el comienzo del formato

luego (opcional) - si se quiere alinear el resultado a la izquierda si se quiere alinear el resultado al centroluego # una cifra para el nmero de caracteresluego s se colocaspara indicar formato string

Example:

*Formatos Numricos

describe pricelist price

format %9.1g price//nueve dgitos y un decimal

describe pricelist price

format %12.1g pricedescribe pricelist price

format %-12.1g pricedescribe pricelist price//para ver que ha cambiado habra la ventana browse.

save auto_modicada.dta,replace

2.9 Conversin de Variables

STATA es posible generar una variablenumricaa partir de una variablestringy viceversa.

2.9.1 De una Variable String Numrica a una Variable Numrica

Para poder realizar esta conversin se recurre a la funcin real() despus delcomando generate. Tambin es posible realizar la misma operacin con elcomando destring donde la variable generada se coloca como opcin en lamisma lnea de comando.

Example:

27


28/124

*Para este ejemplo generamos una variable string numrica*llamada "origen" en base a la variable "foreign", la cual le

*asignamos el cdigo 0 si es Domestic y 1 si es Foreign.

gen origen="1" if foreign==1replace origen="0" if foreign==0//A simple vista las variables origen y foreign son iguales,//pero hay que observar que la primera tiene un formato//string "str1" y el otro un formato byte.

*Esta variable string numrica "origen" lo convertimos*en una numerica llamada origen2:

gen origen2=real(origen)//Como vemos la variable "origen2" tiene formato numrico//oat

*Ahora realizamos la misma operacin con el comando*"destring", generando la variable origen3

destring origen, gen(origen3)//Como vemos la variable "origen3" tiene formato numrico//byte. Note que el comando generate est como opcin dentro//de la sintaxis

*Guardamos la base modicada.save auto_modicada.dta,replace

2.9.2 De una Variable String No-Numrica a una VariableNumrica

Para poder realizar esta conversin se recurre al comando encode. Este co-mando codica una variable string a una numrica. Aqu tambin la variablegenerada se coloca en la lnea de comando como una opcin. Despus de ejecu-tar esta operacin es recomendable utilizar el comandolabel list para observalas etiquetas que fueron asignadas a los valores de la nueva variable.

Example:

*Para este ejemplo usamos la base auto_modicada.dta.use auto_modicada.dta,clear

*Supongamos que queremos codicar la variable "make"* generando una variable denominada "make1".encode make, gen(make1) label(make_la)

28


29/124

label list make_la

*Ahora vemos las etiquetas que fueron asignados a los*valoreslabel list make1

2.9.3 De una Variable Numrica a una Variable String

A travs del comando tostring podemos convertir una variable numrica astring. Aqu tambin la variable generada se coloca en la lnea de comandocomo una opcin.

Example:

*Convertimos la variable "foreign" a una variable string*llamada "foreign2"

tostring foreign, gen(foreign2)//observe que la variable "foreign2" tiene un formato//string numrica (str1).

Otro comando interesante es decode, la cual nos permite hacer la mismalabor que tostring pero necesita que los valores de la variable numrica estnetiquetada.

*Convertimos la variable "foreign" a una variable string*llamada "foreign3"

decode foreign, gen(foreign3)//observe que la variable "foreign3" tiene un formato//string numrica (str8), porque mantiene la etiquetas//de la variable "foreign".

2.10 Seleccin de Muestra y Variables

Existen ocasiones que no deseamos trabajar con todas las variables u observa-ciones de la base de datos, por lo tanto, STATA cuenta con los comandos dropy keep para la seleccin particular de las mismas con la nalidad de obtenerms memoria para trabajar.

El comandokeeppermite mantener observaciones o variables en la memo-ria del STATA.

El comandodroppermite eliminar observaciones o variables de la memoriadel STATA.

29


30/124

Example:

*Seleccin de variables y observaciones

*Antes guardamos la nueva base trabajada con el nombre*auto_modicada.dta

save auto_modicada.dta

*Usando el comando "keep" para guardar algunas variables

//Imaginemos que queremos mantener las variables// price mpg weight length turn displacement foreign

keep price mpg weight length turn displacement foreignbrowse // observar la nueva base

*Usando el comando "keep" para seleccionar una muestra

//Imaginemos que seleccionamos una muestra la cual// cumple con la condicin de que el precio ucte entre// 3748 y 13466. Para esto utilizamos la condicional if

keep if price>=3748 & price


31/124

//Imaginemos que eliminemos una parte de la muestra//la cual cumple con la condicin de que el peso sea

// menor de 4000 libras.

drop weight if weight


32/124

sort foreign pricebr foreign price

Tambin se puede ordenar las variables usando el comando order. Estepuede ser til, si por ejemplo uno desea distribuir las variables de una base dedatos a otras bases.

Example:

*Ordenar variables

//Podemos order en el siguiente orden las variables

order weight rep78 price length

//Tambin podemos ordenar las variable de// forma alfabtica

order _all, alphabetic

Estos comandos son importantes al usar el prejo by(), que nos permiterealizar algunas operaciones por grupo de observaciones.

Example:

*Usando el prejo "by"

//Supongamos que queremos un cuadro resumen// de las variables "price", "mpg", "weight"//clasicado por lugar de destino "foreign"

sort foreignby foreign : sum price mpg weight

//Tambin podemos escribir del siguiente modo:bysort foreign : sum price mpg weight,d

32


33/124

2.11.2 Preservar y Restaurar Base de Datos

En algunos casos, es necesario realizar cambios a una base de datos, desarrollaralgunos clculos y entonces retornar a la base original. El comandopreservenos permite retener la base de datos y el comando restorenos permite regresara la base de datos original. El comandorestorese usa inmediatamente despusdel comandopreserve.

Example:

*Preservar y Restaurar base de datos

//Imaginemos que a la variable "price" lo modicamos// sus valores sumando 200 unidades, pero luego// retornaremos a la variable original

list price in 1/10preservereplace price=price+200list price in 1/10restorelist price in 1/10

2.12 Fomas de Base de Datos

2.12.1 Formas Long y Wide

Frecuentemente es necesario cambiar la forma de la base de datos. Si tenemos jmedidas de momentos para losi individuos, esta puede ser vista como una datamultivariada en la cual cada momento jes representada por una variable xj, yel identicador de individuos est representada tambin por una variable. Sinembargo, para algunos anlisis estadsticos podemos necesitar un variable quecontenga las respuestas para todos los momentos e individuoss.

El comando reshape nos permite transformar una base de datos de formalarga "long" a una de forma ancha "wide" y viceversa. Como se muestra acontinuacin:

33


34/124

Forma Long Forma Wide

En general para efectos de estimacin es necesario que la base de datos esteen formatolong, esta distincin es importante para anlisis de panel data.

Example:

*Formas Long y Wide

//Para ilustrar el uso de este comando, utilizamos la base//de datos "long_wide.dta".

use long_wide.dta,clear//en este base nuestro identicador de inidividuos (i) es la//variable "id" y el de momentos (j) es "year", adems,//vamos a transformar la data en base a la variable//"salary" (x)

//Como vemos, la base tiene una forma long, ahora lo//convertimos en forma wide.

reshape wide salary, i(id) j(year)//como se puede observar, el comando reshape va a//convertir a la variable salary en forma wide.

reshape long salary, i(id) j(year)//como se puede observar, el comando reshape va a//convertir a la variable salary en forma long.

2.12.2 Forma Colapsada

Hay ocasiones en que la base de datos con forma long puede requerirse paracolapsarlo tal que cada grupo de individuos este representada por una obser-vacin en particular, ya sea por el promedio, la mediana, desviacin estndar,mximo, mnimo, la suma, etc. de alguna variable en particular. Para haceresta operacin recurrimos al comando collapse.

34


35/124

Example:

*Forma Colapsada

//De la base de datos "long_wide.dta",mostrado//en forma long, colapsamos la base en base al//promedio, desviacin estandar, maximo,minimo,//suma total del salario "salary" por individo.

collapse (mean) meansal=salary (median) ///mediansal=salary (sd) sdsal=salary (max) ///maxsal=salary (min) minsal=salary (sum) ///sumsal=salary, by(id)br

2.13 Fusin de Base de Datos

Es comn la combinacin de varias bases de datos. Se va a mostrar dos opera-ciones bsicas: aadir variables y aadir observaciones. Los comandos asociadosa estas operaciones son merge,appendy joinby.

El comandomergese utiliza para aadir variables, es decir, une dos basesde manera horizontal. Los cheros de datos deben de tener una variablede identicacin y adems deben de estar ordenados por dicha variable.Este comando requiere de dos bases de datos, uno se va a denominarbasemasteral cual se le van aadir las variables y una base using la cual

contiene las variable que se van a aadir a la base master. Al realizarel merge crea una variable "_merge" de manera automtica que tomavalores dependiendo si el registro de los datos est presente en una de lasbases o en ambos. Cuando el valor de la variable "_merge" es 1 quieredecir que el dato solo aparece en la base master, 2 cuando aparece en labase using y 3 cuando aparece en ambos.

El comando appendse utiliza para aadir observaciones, es decir, une ados bases de manera vertical. Aqu tambin ser necesario unabase mastery unabase using, adems la base originada tendr una forma long.

El comandojoinby forma todo los pares de combinaciones dentro de cadagrupo a partir de dos bases de datos, una mastery otrausing. Labase

master contiene variables para cada individuo clasicado por grupos yla base using contiene variables a nivel de grupos, entonces, el comandojoinbycolocar los valores de las variables segn al grupo que pertenececada individuo.

35


36/124

Example:

*Fusionando bases con el comando "append"

//Para este ejemplo usaremos las bases de datos// "database1.dta" y "database2.dta". Dado que//tienen la misma cantidad de columnas pero se//diferencian en nmeros de las sera conveniente//juntarlos verticalmente

use database1.dta,clearbrappend using database2.dtabrsave database12.dta,replace

//hagamos lo mismo con la bases "database3.dta"// y "database4.dta"

use database3.dta,clearbrappend using database4.dtabrsave database34.dta,replace

//En este ltimo caso vemos que existe un inconveniente//con la variable relacionado al sexo del individuo, debido

//a que en ambas bases dicha variable no se ha escrito//de la misma forma, es por ello de la importancia de escribir//el nombre de las variables de manera idntica. Arreglamos//este problema a continuacin:

use database3.dta,clearbrrename Sexo sexobrsave database03.dta,replaceuse database03.dta,clearbrappend using database4.dta

brsave database034.dta,replace

*Fusionando bases con el comando "merge"

//Para este ejemplo usaremos las bases de datos

36


37/124

// que creamos anteriormente "database12.dta" y// "database034.dta". Para realizar esto, debemos

//ordenar la variable (o variables) en comn en//ambas bases. En este caso, las variables en comn//son la variable hogar y el nombre.

use database12.dta,clearbrsort hogar nombrebrsave database12m.dta,replace

use database034.dta,clearbrsort hogar nombrebrsave database034m.dta,replace

//ya ordenadas, pasamos a fusionarlas horizontalmente

use database12m.dta,clearmerge hogar nombre using database034m.dtabrsave databasemerge.dta,replace

*Fusionando bases con el comando "joinby"

//Para este ejemplo usaremos las bases de dato// nal "databasemerge.dta" y "database5.dta".//Para realizar esto, debemos ordenar la variable//( o variables) en comn en ambas bases. En este//solo es la variable hogar.

use databasemerge.dta,clearbrsort hogarbrsave databasemergeb.dta,replace

use database5.dta,clear

brsort hogarbrsave database5b.dta,replace

//ya ordenadas, pasamos a fusionarlas.

37


38/124

use databasemergeb.dta.dta,clearjoinby hogar using database5b.dta

brsave databasejoinby.dta,replace

2.14 Tabulaciones y Tablas

En esta seccin veremos diversas formas de presentar tablas de estadsticasdescriptivas, entre las tenemos:

2.14.1 Tabulate

El comandotabulatemuestra una tabla la cual seala una lista de los distintos

valores que tiene una variable con su frecuencia absoluta, porcentual y acumu-lada. Es recomendable usar este comando para aquellas variables con pocosvalores diversos. Tambin es til para crear variables dummy con ayuda delcomandogeneratey adems tabular por tipo de individuo con el prejo by. Elcomando tabulatepuede mostrarnos tablas tanto de un solo sentido como dedoble sentido

2.14.2 Table

El comandotablenos permite crear tablas de doble y triple sentido, mostrandolas frecuencias absolutas o porcentuales visto de forma horizontal o vertical.

2.14.3 Tabstat

El comandotabstatprovee un resumen estadsticos que permite ms exibili-dad que elsummarize.

Example:

*Tabulaciones y Tablas

//usaremos loa base de datos "auto_modicada.dta"//para ilustrar estos comandos

use auto_modicada.dta,clear

*Comando tabulate

//Realicemos una tabla de un solo sentido para la//variable foreign para aquellos autos que cuestan//menos de 14000 libras.

38


39/124

tabulate foreign if price


40/124

Cap.3 Grcos en STATA

3.1 Introduccin a STATA GRAPH

STATA presenta una amplia variedad de gracos, la cual abarca guras como:matrices de ploteos, histogramas, reas, lneas, caja y bigote, etc. Comenzare-mos demostrando siete tipos de grcos:

histogram : Histogramas graph twoway : Scatterplot, lneas, y otros entre dos variables. graph matrix : Matrices de Scatterplots.

graph box : Grcas de caja y bigotes. graph bar : Grcas de barras graph dot : Grcas de puntos. graph pie : Grcas de pastel o pie.

Para cada uno de estos grcos existen muchas opciones5 .

3.2 Tipos de Grcos

Los comandos del STATA GRAPH empiezan con la palabra graph (aunqueen algunos casos esto es opcional) seguido por la palabra que indica el tipo degraco.

3.2.1 Histograma

La funcin de densidad de una variable puede ser estimada usando un his-tograma a travs del comando histogram. Para ilustrar la funcin de estecomando, utilizaremos la base states.dta, la cual contiene informacin sobre losambientes seleccionados y la educacin para 50 estados de USA ms el distritode Columbia (datos que provienen de League of Conservation Voters 1991, 1993;World Resources Institute 1993).

La gura 3.1 muestra un histograma simple decollege, la cantidad de estadosque se distribuyen dentro de un rango de porcentajes de la poblacin adulta quecuenta con un grado superior. Esto se produce de la siguiente forma:

5 Para observa otras tipos de grcos y comandos relacionados a estos, se recomienda tipearen la venta de comandos help graph_other.

40


41/124

Example:

*Histograma

use states.dta,cleardescribe

*Realizamos el histograma para la variable college

histogram college, frequency title("Figura 3.1")

0

5

10

15

20

Frequency

10 15 20 25 30% over 25 w/bachelor's degree +

Figura 3.1

Figura 3.1

La gura 3.1 presenta dos opciones: frequency (en vez de la densidadque aparece por defecto) que se muestra en el eje vertical; y el title("Figura3.1")que aparece sobre el grco. Este gura revela la simetra positiva de ladistribucin decollege, con una moda por encima de 15 y un outlier alrededorde los 35.

La gura 3.2 contiene una versin con mayores mejoras (basado en algunosexperimentos para encontrar los valores correctos):

1. El eje xest etiqueta desde 12 hasta 34, con incrementos de 2 unidades.

2. El eje yest etiqueta desde 0 hasta 12, con incrementos de 2 unidades.

3. Los marcadores sobre el eje y desde 0 hasta 13, con incrementos de 2unidades.

4. La primera barra del histograma comienza en 12.

5. El ancho de cada barra (o bin) es 2.

41


42/124

Example:

histogram college, frequency title("Figura 3.2") ///xlabel(12(2)34) ylabel(0(2)12) ytick(1(2)13) start(12) width(2)

0

2

4

6

8

10

12

Frequency

12 14 16 18 20 22 24 26 28 30 32 34% over 25 w/bachelor's degree +

Figura 3.2

Figura 3.2

La gura 3.2 nos ayuda a describir la distribucin con mayor detalle. Porejemplo, podemos ver que en 13 estados los porcentajes de colegas con gradosuperior se encuentran entre los valores de 16 y 18.

Otras tiles opciones son los siguientes:

bin : Muestra un histograma con # de bins (o barras). Podemosespecicar bin(#), como en la Figura 3.2 o start(#) con width(#),pero no ambos.

percent : Muestra los porcentajes en el eje vertical. Otra posibil-idades son las opciones fraction que muestra la fraccin de la data yfrequencyespecicado en la Figura 3.1, el histograma por default mues-tra la densidad (density) lo que quiere decir que las barras estn escaladasde tal forma que el rea bajo la grca sume la unidad.

gap(#) : Indica el espacio entre las barras, el nmero "#" se es-pecica entre 0


43/124

norm : Sobrepone una curva normal sobre el histograma, basadosobre la media muestral y desviacin estndar.

kdensity : Sobrepone un estimador de densidad de kernel sobre elhistograma6 .

El nmero de intervalos por default es min(p

N ; 10ln N= ln10). Con loshistogramas tambin podemos especicar nuestro propios ttulos en el eje de lasabscisas conxtitle()y en el eje de la ordenada con ytitle().

En la gura 3.3 ilustra un ejemplo con algunos otras opciones de comandodel histograma. Note el cambio de construccin de grcos desde la gura 3.1hasta ms elaborada gura 3.3. Este es un patrn normal para la construccinde grcos en STATA: iniciamos por lo ms simple, entonces experimentamosla suma de opciones para obtener una gura que se muestre claramente.

Example:

histogram college, frequency title("Figura 3.3") ///xlabel(12(2)34) ylabel(0(2)12) ytick(1(2)13) start(12) width(2) ///addlabel norm gap(15)

3

4

13

7

9

6

4 4

1

0

2

4

6

8

10

12

Frequency

12 14 16 18 20 22 24 26 28 30 32 34% over 25 w/bachelor's degree +

Figura 3.3

Figura 3.3

Supongamos que queremos saber como se distribuye collegepor region. Laopcin by() nos da un histograma de collegepara cada regin. La gura 3.4muestra un ejemplo en la cual expresamos en porcentajes sobre el eje de laordenada y los datos agrupados en 8 bins.

6 Verhelp kdensity para ms detalle.

43


44/124

Example:

histogram college, by(region) percent bin(8) title("Figura 3.4")

0

10

20

30

40

0

10

20

30

40

10 15 20 25 30 10 15 20 25 30

West N. East

South Midwest

Figura 3.4 Figura 3.4

Figura 3.4 Figura 3.4Percent

% over 25 w/bachelor's degree +Graphs by Geographical region

Figura 3.4

La siguiente gura 3.5 contiene un grco similar con las 4 regiones, peroesta vez incluye un quinto elemento que seala la distribucin para todas lasregiones combinadas.

Example:

histogram college,percent bin(8) title("Figura 3.5") by(region,total)

0

10

20

30

40

0

10

20

30

40

10 15 20 25 30

10 15 20 25 30 10 15 20 25 30

West N. East South

Midwest Total

Figura 3.4 Figura 3.4 Figura 3.4

Figura 3.4 Figura 3.4Percent

% over 25 w/bachelor's degree +Graphs by Geographical region

Figura 3.5

44


45/124

3.2.2 Graph Twoway

3.2.2.1 Scatterplot

Los diagramas de dispersin de puntos (scatterplot) se accede a travs del co-mandograph twoway scatter, cuya sintaxis general es:

graph twoway scatter y x

donde yes la variable que se muestra en el eje vertical y x en el eje horizontal.Por ejemplo, otra vez usando la base de datos states.dta, podemos plotear lavariable waste(desperdicios slidos per cpita) contra metro (porcentaje de lapoblacin en reas metropolitanas), cuyo resultado se muestra en la gura 3.6.Cada punto de esta gura representa una de los 50 estados que presenta la data.

Example:

graph twoway scatter waste metro

0.5

0

1.0

0

1.5

0

Perc

apitasolidwaste,

tons

20.0 40.0 60.0 80.0 100.0Metropolitan area population, %

Figura 3.6

De la misma forma que en el histograma, podemos usar xlabel(), xtick(),xtitle() para controlar las etiquetas de los ejes, los marcadores de los ejes, ottulos. El scatterplot tambin permite controlar las formas, colores, tamaos y

otros atributos. La gura 3.6 emplea marcadores por defecto, la cual son crcu-los slidos. El mismo efecto podramos obtener si incluimos la opcinmsym-bol(circle)o escribimos esta opcin de manera abreviada como msymbol(O).La siguiente tabla muestra las diversas formas de marcadores para la dispersinde puntos.

45


46/124

msymbol() Abreviacin Descripcincircle O circulo slido

diamond D diamante slidotriangle T triangulo slidosquare S cuadrado slidoplus + signo "+"x X letra "x"smcircle o pequeo crculo slidosmdiamond d pequeo diamante slidosmsquare s pequeo cuadrado slidosmtriangle t pequeo diamante slidosmplus smplus pequeo signo "+"smx x pequea pequeocircle_hollow Oh circulo con vaciodiamond Dh diamante con vaciotriangle_hollow Th triangulo con vaciosquare_hollow Sh cuadrado con vaciosmcircle_hollow oh pequeo crculo con vaciosmdiamond_hollow dh pequeo diamante con vaciosmsquare_hollow sh pequeo cuadrado con vaciosmtriangle_hollow th pequeo diamante con vaciopoint p punto pequeonone i invisible

La opcinmcolor()controla los colores de los marcadores7 . Por ejemplo po-dramos producir un scatterplot con grandes cuadrados morados: graph twowayscatter waste metro, msymbol(S) mcolor(purple)

Una uso interesante de este tipo de grco es hacer que el tamao de lossimbolos sean proporcionales a una tercera variable. De este modo, los ploteosse diferenciarn visualmente por medio de un ponderador "weight". Si modi-camos el scatterplot entre la variable waste y metro, haciendo que el tamao delos smbolos se pondere por la densidad poblacional de cada estado (pop), obten-dremos la gura 3.7. Para esto usaremos el ponderador de frecuencia fweight[] y la opcin de crculos vacios, msymbol(Oh)8.

Example:

graph twoway scatter waste metro [weight=pop], msymbol(Oh)

7 Para ver ms detalle de los distintos colores acceder a help mcolorstyle.8 El ponderador de frecuencia suele ser til en otros grcos, pero a la vez es un tpico

complejo, porque los ponderadores "weight" vienen de diferentes formas y tienen diferentessignicados para diversos contextos. Para una informacin general de este tema en STATA,tipearhelp weight.

46


47/124

0.5

0

1.0

0

1.5

0

Percapitasolidwaste,

tons


Figura 3.7

El ejemplo de la gura 3.8 incluye una regresin lineal simple derivado del co-mandotwoway ltque ha sido aadido al graco 3.6 especicando el siguientesmbolo (jj ) .

Example:

graph twoway scatter waste metro, msymbol(S) mcolor(purple) ///

jjlt waste metro

0.5

0

1.0

0

1.5

0


Per capita solid waste, tons Fitted v alues

Figura 3.8

47


48/124

Los marcadores de un scatterplot pueden identicarse con etiquetas. Porejemplo, podemos desear observar los nombres de los estados en la gura 3.6,

dado que son 50 nombres de estados, puede causar mucha confusin y desor-den, as que nos concentraremos en una regin tal como West que parece msprometedor. A travs del uso de una condicional ifse produce los siguientesresultados en la gura 3.9.

Example:

graph twoway scatter waste metro if region==1, mlabel(state) ///msymbol(S) mcolor(purple)jjlt waste metro

Alaska

Arizona

California

Colorado

Hawaii

Idaho

Montana

Nevada

New Mexico

Oregon

Utah

Washington

Wyoming

0.

60

0.

80

1.

00

1.

20

1.

40

1.

60


Per capita solid waste, tons Fitted values

Figura 3.9

La gura 3.10 muestra un scatterplot entre waste y metro para cada reginde manera separada. La relacin entre estas dos variables aparecen pendientesnotables en la regin South y Midwest. La opcin xlabel()e ylabel()en esteejemplo da las etiquetas para los ejes xe y de tres dgitos como mximo sindecimales, hacindo fcil de leer para pequeos sub-ploteos.

Example:

graph twoway scatter waste metro, by(region) mlabel(state)///xlabel(,format(%3.0f)) ylabel(,format(%3.0f))

48


49/124


50/124

Percapitamiles

driven/year

Metropolitanarea

population,%

Medianhousehold

income

Percapitasolid

waste,tons

6000 8000 1000012000

0.0

50.0

100.0

0.0 50.0 100.0

20000

30000

40000

50000

20000 30000 40000 50000

0.50

1.00

1.50

Figura 3.11

La opcin half especicado en la gura 3.11 hace que se muestre solo laparte triangular inferior de la matriz ya que la parte superior es simtrica yredundante.

3.2.2.3 Ploteos con Lineas (Line Plot)

Mecnicamente, los ploteos con lneas son scatterplots en la cual los puntosson conectados por segmentos de rectas. El ploteos con lneas tiende a tenerdiferentes usos, como por ejemplo permite observar el cambio de una variable atravs del tiempo. La base de datoscod.dtacontiene datos de serie de tiemporeejando la historia desagradable de la pesca en Newfoundlands NorthernCode. Esta pesca ha sido uno de los ms ricos del mundo, pero colaps en1992 debido primeramente a la sobreexplotacin.

Un simple ploteo muestra que los canadienses y las islas pueden ser constru-idos sealando una graca lineal de ambas variables a travs del tiempo (year).La gura 3.12 muestra el gran pico de sobrepesca internacional a nes de losaos 1960s, seguido por una dcada de presin en la pesca canadiense en 1980,conduciendo en 1992 el colapsamiento del Northern Cod.

Example:

*Line Plot

graph twoway line cod canada year

50


51/124

0

200

400

600

800

1960 1970 1980 1990 2000Year

Total landings, 1000t Canadian landings, 1000t

Figura 3.12

En la gura 3.12, STATA automticamente elige una lnea slida azul para laprimera variable,code, y una lnea slida roja para la segunda variable, canada.Adems de una legenda en la parte inferior que muestra el signicado de lasvariables. Podemos mejorar este grco a travs de un arreglo en la legenda ysuprimiendo el ttulo redundante en el eje x, como se ilustra en la gura 3.13.

Example:

twoway line cod canada year, legend(label(1 "Todas las Naciones") ///label (2 "Canada") position(2) ring(0) rows(2)) xtitle("")

0

200

400

600

800

1960 1970 1980 1990 2000

Year

Todas las Naciones

Canada

Figura 3.13

51


52/124


53/124

Otras formas de conexin se muestran en la siguiente lista. Por defecto, elsegmento de lnea recta corresponde a connect(direct)o connect(l)10 .

connect() Abreviacin Descripcinnone i no conecta puntosdirect l (letra ele) conecta con lneas rectasascending L es similar a direct solo six(i + 1)> x(i)

stairstep J recta constante, luego verticalstepstairs vertical, luego se mantiene constante

La gura 3.15 repite este ploteo escalonado de TAC, pero con algunas modi-caciones de las etiquetas de los ejes y ttulos. La opcin xtitle("")no presentaningn ttulo en el eje x. Aadimos marcadores en un intervalo de cada dosaos en el eje x, etiquetamos el rango de valores en el eje y con intervalos de100 unidades, adems incluimos lneas verticales de fondo en intervalos de 100

unidades.

Example:

graph twoway line TAC year, connect(stairstep) xtitle("") ///xtick(1960 (2) 2000) ytitle("Miles de Toneladas") ///ylabel(0 (100) 800, angle(horizontal)) clpattern(dash)

0

100

200

300

400

500

600

700

800

MilesdeToneladas

1960 1970 1980 1990 2000

Figura 3.15

Otro modo de especicar el tipo de lnea que se desea usar es a travs de laopcin clpattern(),que nos permite elegir un patrn de lnea y se muestra enla siguiente relacin:

10 Para ms detalle, ver help connectstyle.

53


54/124

clpattern() Descripcinsolid lnea slida

dash guionesdot puntosdot_dash puntos y guionesshortdash_dot guiones pequeos con puntoslongdash guiones grandeslongdash_dot guiones grandes con puntosblank linea invisible

formula por ejemplo: clpattern(-.); clpattern(-..)

Para la siguiente gura 3.16 usamos tres variables discutidos en esta seccinpara crear una grca singular que muestre la tragedia del Northern Cod. Noteque las opcionesconnect(), clpattern() y legend() son utilizados en este ejemplo.

Example:

graph twoway line cod canada TAC year, ///connect(line line stairstep) clpattern(solid longdash dash) ///xtitle("") xtick(1960 (2) 2000) ytitle("Miles de Toneladas") ///ylabel(0 (100) 800, angle(horizontal)) ///legend( label (1 "Todas las Naciones") label (2 "Canada") ///label(3 "TAC") position(2) ring(0) rows(3))

0

100

200

300

400

500

600

700

800

MilesdeToneladas

1960 1970 1980 1990 2000

Todas las Naciones

Canada

TAC

Figura 3.16

3.2.2.4 Ploteo de Lneas Conectadas (Connected-Line)

En el ploteo de lneas de la subseccin anterior, los puntos de los datos soninvisibles y vemos solo la conexin de las lneas. El comandograph twoway

54


55/124

connected crea ploteo una conexin de puntos en la cual los datos son marcadospor smbolos del scatterplot. Las opciones de los smbolos de marcadores son

los mismos para scatterplot y ploteo con lneas. La gura 3.17 nos muestra unejemplo de un ploteo de lneas conectadas a travs del tiempo de la variable dela biomasa de bacalao (bio) de la data cod.dta.

Example:

*Grco de Lneas Conectadas.use cod.dta

graph twoway connected bio year

0

500

1000

1500

2000

2500

Estimatedbiomass,

1000t

1960 1970 1980 1990 2000

Year

Figura 3.17

La base de datos solamente contiene valores desde 1978 hasta 1997, generandomuchos espacios vacios en la gura 3.17. La condicionalifnos permite restringirel rango de los aos. La gura 3.18 realiza esta operacin, adems de acomodarla imagen mostrando un control de los marcadores de smbolos, patrn de lneas,ejes y legenda. Vemos que las biomasas comienzan su gran cada a nes de los1980, aos anteriores las crisis eran reconocidos.

Example:

graph twoway connected bio cod year if year>1977 & year


56/124

ylabel(0(500)2500, angle(horizontal)) ///legend(label(1 "Biomasas Estimadas") label(2 "Total de Desembarco") ///

position(2) rows(2) ring(0))

0

500

1000

1500

2000

2500

MilesdeTonelada

1978 1980 1982 1984 1986 1988 1990 1992 1994 1996

Biomasas Estimadas

Total de Desembarco

Figura 3.18

3.2.2.5 Otros Tipos de Scatter Plot

Adems de los ploteos con lneas y scatterplot, el comando graph twoway pre-senta una amplia variedad de otros tipos11 . Una observacin que se puede hacer

es que existen comandos como graph twoway bary graph twoway dot queson muy distintos a los tipos de grcos de barras (bar) y puntos (dot) re-spectivamente. Las versiones deltwoway provee varios mtodos para plotearuna variables ycontra otra variable x; adems tienen la ventaja de sobreponerotros grcos del twoway para formar grcos ms complejos. Por otro lado, lasversiones que no son del twoway proveen modos de ploteos usando resumenesestadsticos (tal como media o mediana) de las variables y contra las categorasde otras variables x.

Mucho de estos tipos de ploteos son tiles en la composicin del grconal, que se construye por sobreposicin de dos o ms ploteos simples. En elgrco 3.19 muestra un ploteo de reas de la desembarcacin de bacalao delNewfoundland.

Example:

graph twoway area cod canada year, ytitle("")11 Para ver toda la lista de posibles tipos de grcos con el comando graph twoway tipear

help twoway.

56


57/124

0

200

400

600

800

1960 1970 1980 1990 2000Year


Figura 3.19

El color de las reas pueden ser controlados por la opcin bcolor12 . Porejemplo, el gris oscuro (gs0) es actualmente el color negro. Por ejemplo, laescala en grises se encuentra entre el valor 0 y 16.El color gris ms ligero (gs16)es blanco. En la gura 3.20 muestra un ligero gris para este grco.

Example:

graph twoway area cod canada year, ytitle("") bcolor(gs12 gs16)

0

200

400

600

800

1960 1970 1980 1990 2000

Year


Figura 3.20

12 Tipearhelp colorstyle para ver la lista de colores.

57


58/124

Inusualmente las condiciones de frio en el ocano y atmsfera causan un rolsecundario en el desastre de la pesca en Newfoundland. Por ejemplo, la especie

de pescado clave en los vecinos de Gulf of St. Lawrence declinaron durante esteperiodo la datagulf.dtadescribe el desarrollo y las desembarcaciones de bacalaoen Newfoundland, donde la mxima cobertura del hielo abarca los 173,017 km2

durante estos aos.

La gura 3.21 usa esta media (173 mil) como la base de un ploteo de lneaspunteadas (spike), en la cual sobresalen lneas hacia arriba y hacia abajo a partirde esta media referencial. La opcin yline(173) traza una lnea horizontal en173.

Example:

use gulf.dta,clearsum maxareagraph twoway spike maxarea winter if winter>1963, ///base(173) yline(173) ylabel(40(20)220, angle(horizontal)) ///xlabel(1965(5)2000)

40

60

80

100

120

140

160

180

200

220

Maximumi

cearea

,1000km^2

1965 1970 1975 1980 1985 1990 1995 2000

Winter

Figura 3.21

El formatobase()de la gura 3.21 enfatiza la sucesin de inviernos inesper-ados (valores que sobrepasan el promedio) durante los aos de 1980 hasta 1990,donde ocurre la crisis pesquera en Newfoundland.

Una diferente vista de la misma data se muestra en la gura 3.22, donde seemplea la regresin mnima para suavizar la serie de tiempo congraph twoway

58


59/124

lowess. La opcin de ancho de banda,bwidth(.4), especica una curva basadaen el suavizamiento de los datos que son derivamos de la regresin ponderador

entre una banda que cubre el 40% de la muestra. El ancho de la banda pequeose tal como bwidth(.2) , o 20% de la data, debera darnos un mayor ajuste.Una curva suavizada que sea ms semejante a la data original. Altos anchos debandas como bwidth(.8), por defecto tendra un suavizamiento ms radical.

Example:

graph twoway lowess maxarea winter if winter>1963, ///bwidth(.4) base(173) yline(173) ylabel(40(20)220, angle(horizontal)) ///xlabel(1965(5)2000)

40

60

80

100

120

140

160

180

200

220

lowessmaxareawinter

1965 1970 1975 1980 1985 1990 1995 2000

Winter

Figura 3.22

El ploteo de rangos conecta valores altos y bajos de y para cada valor dex, usando barras, pas, o reas sombreadas. Los precios de mercados diariosde los stocks son gracados de esta manera. La gura 3.23 muestra un ploteode rango con pas usando la cubertura de hielo mximo y mnimo de la datagrulf.dta.

Example:

graph twoway rcap minarea maxarea winter if winter>1963, ///ylabel(40(20)220, angle(horizontal)) ytitle("Area con Hielo,1000km^2") ///xlabel(1965(5)2000)

59


60/124

40

60

80

100

120

140

160

180

200

220

AreaconHielo,

1000km^2

1965 1970 1975 1980 1985 1990 1995 2000

Winter

Figura 3.23

3.2.3 Grco de Caja y Bigote (Box Plot)

La grca de caja y bigote brinda informacin acerca del centro, amplitud,simetra y outliers con solo un vistazo. Para obtener este grco, se debe tipearel comando de la siguiente forma:

graph box x

Si diversas variables tienen escalas similares, podemos comparar sus distribu-cin con la siguiente sintaxis:

graph box x y z

La gura 3.24 compara la distribucin de college segn las cuatro regionesen USA que proviene de la base de datosstates.dta.

Example:

*Graca de Caja y Bigote

use states.dta,clear

graph box college, over(region) yline(19.1)

60


61/124

10

15

20

25

30

%o

ver25w/bachelor'sdegree+

West N. East South Midwest

Figura 3.24

La mediana de la proporcin de adultos con grado superior tiende a sermayor en Northeast, y menor en South. Por otro lado los estados del sur pre-sentan mayor variabilidad. La mediana por regiones (la lnea entre las cajas) enla gura 3.24. puede ser comparado con la mediana considerando todos los es-tados indicado por la opcin yline(19.1). Esta mediana se obtiene escribiendo:summarize colle if region


62/124

Example:

graph hbox energy, over(region,sort(1)) yline(320) intensity(30)

200 400 600 800 1,000Per capita energy consumed, Btu

South

West

Midwest

N. East

Figura 3.25

La grca de caja y bigote para la energa en la gura 3.25 aclara no solola diferencia entre las medianas, sino tambin la presencia de outliers, prin-cipalmente son cuatro altos consumos de energa entre los estados de West ySouth.

3.2.4 Grco de Pastel (Pie)

Este estilo es muy popular en las presentaciones de gracas, siempre y cuandotengan pocos valores para trabajar. El comando bsico del graco de pie en elSTATA tiene la forma:

graph pie x y w z

donde x, y, w, z son variables que miden cantidades de alguna cosa enlas mismas unidades (por ejemplo, pueden estar medidos en dinero, horas opersonas).

La base de datos Akethnic.dta, trata sobre la composicin tnica de lapoblacin de Alaska. La poblacin indgena de Alaska se dividen en tres gruposculturales-lingusticos amplios: Aleun; Indian (incluyen Athabaska, Tinglit yHaida) yEskimo (Yupik y Inupiat). Las variablesaleut, indian, eskimo, non-nativ son grupos de poblaciones, que se tomaron del censo de 1990 en USA.Esta data contiene solamente tres observaciones, representando tres tipos de

62


63/124

comunidades: ciudades de 10 000 personas o ms; ciudades de 1 000 a 10 000;y villas con menos de 1 000 personas.

La mayora de los estados son no nativos (nonnativ), donde se puede verclaramente en la grca del pastel de la Figura 3.26. La opcin pie(3,explode)provoca el llamado de la tercera variable, eskimo, para ser "explotado" al pon-erle nfasis al grco. La cuarta variable nombrada, nonnativ, es sombreadocon un ligero color gris, pie(4,color(gs13)), para compararlos con los gruposnativos ms pequeos (es importante mencionar que existen otros colores quese pueden utilizar como color(blue) o color(chranberry)14 . La opcin pla-bel(3 percent, gap(20)) causa una etiqueta de porcentaje que se seala enel pedazo (slide) correspondiente a la tercera variable, eskimo, con una brecha(gap) de 20 unidades separados del centro. Podemos ver que cerca del 8% de lapoblacin de Alaska es Eskimo (Yupik y Inupiat). La opcin legend seala lascuatros variables localizado en la posicin de las 11 en punto del reloj.

Example:

use akethnic.dta,clear

graph pie aleut indian eskimo nonnativ , pie(3, explode) ///pie(4, color(gs13)) plabel(3 percent , gap(20)) ///legend( position(11) rows(4) ring(0))

8.072%

Aleuts

Indians

Eskimos

Non-Natives

Figura 3.26

Los no nativos son el grupo dominante en la gura 3.26, pero si mostramos elpastel separado por cada tipo de comunidad aadindole un by(comtype) como

14 Tipearhelp colorstyle para observar la lista de colores.

63


64/124

opcin, emerge nuevos detalles mostrados en la gura 3.27. La opcin angle0()especica el ngulo del primer slide del pie. Estableciendo este primer slide

un ngulo en cero (horizontal), orienta los slides de tal forma que las etiquetasson ms fciles de leer. La gura muestra que mientras los nativos son solala pequea fraccin de la poblacin en la ciudad de Alaska, ellos constituyenla mayora entre aquellos que viven en las villas. En particular, los Eskimosconforman una gran fraccin de los que viven en las villas, el 35% en total. Estohace que las villas en Alaska tengan una caracterstica distinta a comparacinde la ciudad.

Example:

graph pie aleut indian eskimo nonnativ , pie(3, explode) ///pie(4, color(gs13)) plabel(3 percent , gap(20)) ///legend( position(11) rows(4) ring(0)) by(comtype) angle0(0)

34.67% 8.141%

2.332%

villages towns

cities

Aleuts Indians Eskimos Non-Natives

Graphs by Community type (size)

Figura 3.27

3.2.5 Grco de Barras (Bar)

El grco de barras provee una simple y verstil exhibicin conjunto de resmenes

estadsticos como media, mediana, suma o conteo. Para obtener barras verti-cales mostrando la media de la variable y frente a las categoras de x, porejemplo, tipeamos:

graph bar (mean) y, over(x)

64


65/124

Para barras horizontales mostrando la media de y frente a las categoras dex1, por cada una de las categoras de x2, tipeamos:

graph hbar (mean) y, over(x1) over(x2)

Este tipo de grco puede calcular los siguientes estadsticos:

mean : Media, por default se calcula si no se especica elestadstico.

sd : Desviacin estndar. sum : Suma. rawsum : Suma ignorando los ponderados especicados como

opcin.

count : Cuenta el nmero de observaciones sin considerarlos missing values.

max : Mximo min : Mnimo median : Mediana p1 : Primer cuartil p2 : Segundo cuartil (y as hasta p99) iqr : Rangos intercuartiles.

La base de datos statehealth.dtacontiene datos sobre los estados de USA,combinando medidas socio econmicas desde el Census de 1990 con diferentesindicadores de riesgo a la salud de los Centers for Disease Control (2003), pro-mediados entre los aos 1994-1998.

La gura 3.28 indica el porcentaje de la mediana de la poblacin inactiva entiempo de ocio (inactive), para cuatro regiones geogrcos (region). vemos unadiferencia regional: tasas de inactividad son altas en el South (36%), y menoresen el West (21%). Note que el eje vertical ha sido automticamente etiquetadocomo "p50 of inactive", que signica el 50th percentil o mediana. La opcinblabel(bar) etiqueta la parte superior de la barra con el valor de las medianas(20.9, etc..). bar(1,bcolor(gs10)) especica que el color de las barras para

la primera variable mencionada (en este caso solo mencionamos a la variableinactive) debera ser mostrado con un color gris ligero.

Example:

*Grco en barras

65


66/124

use statehealth.dta,cleargraph bar (median) inactive, over(region) blabel(bar) ///

bar(1,bcolor(gs10))

20.9

28.3

36.05

29.1

0

10

20

30

40

p5

0

ofinactive


Figura 3.28

La gura 3.29 elabora la anterior idea aadiendo otra variable,overweight, yse colorea su barra de gris oscuro. La etiqueta de la barra son size(medium),hacindoles ms grande que el tamao por default (size(small)). Otras posi-bilidades para size() son las subopciones tiny, medsmall, medlarge o large15 .La gura 3.29 muestra las diferencias regionales con respecto al sobrepeso sonmenos pronunciados que la inactividad, adems las medianas de ambas variablesson mayores en el South y Midwest.

Example:

graph bar (median) inactive overweight, over(region) ///blabel(bar, size(medium)) bar(1,bcolor(gs10)) bar(2,bcolor(gs7))

15 Puedes ver una lista ms detallada con el comando help textsizestyle.

66


67/124

20.9

27.6 28.3 27.1

36.05

31.329.1

31.2

0

10

20

30

40


p 50 of inactive p 50 of overweight

Figura 3.29

Los indicadores de riesgo enstatehealth.dtaincluye fatalidades por vehculosa motor por 100 000 habitantes (motor). La gura 3.30 muestra subgruposde estados con bajos y altos ingresos (estados que tienen ingresos menores ymayores a la media de los ingresos del hogar), revelando una impresionantecorrelacin con la riqueza. Entre cada uno de las regiones, la tasa de fatalidadson ms altos en el South y menores en el Northeast. El orden de las dos

opciones over() controlan el orden en la organizacin del grco. Para esteejemplo utilizamos las barras horizontales (hbar), donde las opcionesytitle()yyline()se reeren al eje horizontal. En este caso, colocamos una lnea horizontalque indica el valor de la mediana total de 17.2, yline(17.2), y ser mostradode forma vertical.

Example:

graph hbar (mean) motor, over(income2) over(region) yline(17.2) ///ytitle("Promedio de vehculos a motor relacionado a Fatalidades/100000")

67


68/124

0 5 10 15 20 25Promedio de vehculos a motor relacionado a Fatalidades/100000

Midwest

South

N. East

West

High income

Low income

High income

Low income

High income

Low income

High income

Low income

Figura 3.30

Las barras tambin pueden estar montadas entre s, como se muestra en lagura 3.31. Este ploteo, basado sobre la data de etnicidad en Alaska, empleatodas las opciones por default para gracar la composicin tnica por tipo decomunidad (village, town o city).

Example:

use akethnic.dta,clear

graph bar (sum) nonnativ aleut indian eskimo, over(comtype) stack

0

100000

200000

300000

400000

villages towns cities

sum of nonnativ sum of aleut

sum of indian sum of eskimo

Figura 3.31

68


69/124

La gura 3.32 regraca este ltimo ploteo con una mejor leyenda y etiquetalos ejes. La opcinover() ahora incluye subopciones que reetiquetan los tipos

de comunidad en el eje de la abscisa para dar mayor informacin. La opcinlegenda especica cuatro las en el mismo orden vertical que se muestra en lasbarras. Tambin se mejora la etiqueta de las legendas con ytitleyylabel comoopciones del formato del eje vertical.

Example:

graph bar (sum) nonnativ aleut indian eskimo, ///over(comtype, relabel(1 "Village10000")) ///legend( row(4) order(4 3 2 1) position(11) ring(0) ///label(1 "Nonnative") label(2 "Aleut") ///label(3 "Indian") label(4 "Eskimo")) stick ///ytitle("Population") ylabel(0 (100000) 300000) ///ytick(50000 (100000) 350000)

0

100000

200000

300000

Population

Vil lage 10000

Eskimo

Indian

Aleut

Nonnative

Figura 3.32

Mientras el pie de la gura 3.31 muestra el tamao relativo (porcentajes)

de los grupos tnicos por cada tipo de comunidad, esta ltima barra muestrasus tamaos absolutos. Consecuentemente, esta gura te dice algo ms que elanterior: la mayora de la poblacin de Eskimos en Alaska viven en villas.

69


70/124

3.2.6 Grco de Puntos (Dot Plot)

Los ploteos con puntos son igual de tiles que las grcas con barras: compara-ndo visualmente resumenes estadsticos de una o ms variables. Las opcionesque usa el STATA para ambos grcos son ampliamente similares, incluyendola eleccin de los estadsticos. Para ver este diagrama comparando las medianasde las variables x; y; wy z, debemos tipear:

graph dot (median) x y w z

Y para ver la comparacin de promedios de la variable y segn las categorasde x, escribimos:

graph dot (mean) y , over(x)

La gura 3.33 muestra un ploteo de puntos de la tasa de fuma entre hombrey mujeres por regiones, usando la datastateheath.dta. La opcin over()incluye

buena subopcin, sort(smokeM), la cual ordena la media de smokeM paracada una de las regiones, esto es desde la ms baja hasta la ms alta tasa defumar. Tambin podemos especicar un triangulo slido como marcador desmbolo parasmokeMy crculos con un centro vacio para smokeF.

Example:

*Dot Plot

graph dot (mean) smokeM smokeF, over(region, sort(somkeM)) ///marker(1, msymbol(T)) marker(2, msymbol(Oh))

0 10 20 30

Midwest

South

N. East

West

mean of smokeM mean of smokeF

Figura 3.33

70


71/124

Adems, la gura 3.33 calcula solo 8 promedios, esto hace que sea fcil lascomparaciones. Vemos que las tasas de fumar son ms altas en las mujeres, y

con respecto a ambos sexos la tasa ms alta se encuentra en South y Midwest,y esas variaciones son sustancialmente muy altos en el caso de las mujeres.La grca en barras podra darnos la misma informacin, pero una ventajade estos grcos es la formar de compactar los datos. Los ploteos de puntos(particularmente cuando se quiere ordenar por estadsticos de inters) es fcilde entender incluso con varias las.

3.3 Aadiendo Textos a los Grcos

Los ttulos, las nombres de grcos y notas pueden ser aadidos al grco paraque sea ms explicativo. Los ttulos y subttulos aparecen encimas del readel ploteo; las notas (la cual puede documentar la fuente de los datos) y las

caption aparecen en la parte inferior16 . La gura 3.42 muestra el uso de estasopciones en un scatterplot sobre los fumadores y los graduados universitariosen los estados de USA, usando la data statehealth.dta. La gura 3.42 tambinincluye ttulos para ambos lados (derecha e izquierda) del eje y;yaxis(1 2)y laparte superior en inferior del eje x,xaxis(1 2). Luego las opciones xtitle y ytitlese reeren al segundo eje especcamente, al incluirse la subopcin axis(2).

Example:

*Texto en Grcos

use statehealth.dta,clear

graph twoway scatter smokeT college, yaxis(1 2) xaxis(1 2) ///title("Es es un Ttulo") subtitle("Este es un Subttulo") ///caption("Este es un caption") note("Esta es una Nota") ///ytitle("Este es el Porcentaje de adultos fumadores") ///ytitle("Este es el Eje Y 2", axis(2)) ///xtitle("Porcentaje de adultos con Grado Superior") ///xtitle("Este es el Eje X 2", axis(2))

16 Tipearhelp title_optionspara ms informacin acerca de la especicacin de los ttuloso help text_box para detalles concernientes a sus contenidos.

71


72/124

15

20

25

30

35

EsteeselEjeY2

15

20

25

30

35

Estee

selPorcentajedeadultosfumadores

10 15 20 25 30 35Este es el Eje X 2

10 15 20 25 30 35Porcentaje de adultos con Grado Superior

Esta es una Nota

Este es un caption

Este es un Subttulo

Es es un Ttulo

Figura 3.34

El ttulo aade el texto fuera del espacio de ploteo. Tambin podemos aadircajas de texto en coordinadas especcas en el espacio de ploteo. Diversos out-liers se observan en este ploteo, la cual bajo inspeccin estos outliers resultanser Washington DC (el valor ms alto de college), Utah (valor ms pequeo desmokeT) y Nevada (el valor ms alto desmokeTen la parte superior izquierda).Los cuadros de texto son de instrumentos para identicar dichas observaciones

en nuestro grco, como se seala en la gura 3.43. La opcin text(15.5 22.5"Utah") establece la palabra Utah en la posicin x=15.5 e y=22.5 del scat-terplot, directamente por encima del punto que indica el estado de Utah. Deuna forma similar podemos establecer la palabra "Nevada"en x=33.5 e y=15 yubicarlo en un cuadro pequeo (con pequeos mrgenes17 ) alrededor del nombredel estado. Las tres lneas de textos justicados hacia la izquierda son coloca-dos al lado de Washignton DC (cada lnea se especica separadamente entrecomillas). Algunos cuadros de texto o ttulos pueden tener mltiples lneas,as que podemos escribir una parte del ttulo en lneas diferentes escribindoloentre comillas diferentes, para luego denir el tipo de justicacin. El cuadro"nevada" utiliza un formato de fondo por default, mientras que el cuadro de"Washigton DC" elegimos un color de fondo blanco18 .

Example:

graph twoway scatter smokeT college, yaxis(1 2) xaxis(1 2) ///

17 Verhelp marginstyle.18 Ver help textbox_optiony help colorstyle.

72


73/124

title("Es es un Ttulo") subtitle("Este es un Subttulo") ///caption("Este es un caption") note("Esta es una Nota") ///

ytitle("Este es el Porcentaje de adultos fumadores") ///ytitle("Este es el Eje Y 2", axis(2)) ///xtitle("Porcentaje de adultos con Grado Superior") ///xtitle("Este es el Eje X 2", axis(2)) ///text(15.5 22.5 "Utah") ///text(33.5 15 "Nevada", box margin(small)) ///text(23.5 32 "Washington DC" "no es actualmente" "un estado", ///box justicacion(left) box margin(small) bfcolor(white))

Utah

Nevada

Washington DCno es actualmenteun estado

15

20

25

30

35

EsteeselEjeY2

15

20

25

30

35

EsteeselPorcentajedeadultosfumadores 10 15 20 25 30 35Este es el Eje X 2

10 15 20 25 30 35Porcentaje de adultos con Grado Superior

Esta es una Nota

Este es un caption

Este es un Subttulo

Es es un Ttulo

Figura 3.35

3.4 Mltiples Ploteos

Dos o ms gracos de la familia graph twowaypueden ser sobrepuestos enun nico grco. La familia twoway incluye diversos modelos de ploteos talescomolt (recta de regresin lineal), qt(curva de regresin cuadrtica) y ms.Por ello, tales ploteos brindan informacin al mnimo. Por ejemplo, la gura3.44 describe la recta de regresin lineal, teniendo bandas al 95% de nivel deconanza para la media condicional, de la regresin que surge entre smokeT

sobrecollege(delstatehealth.dta).

Example:

*Ploteos Multiples

73


74/124

use statehealth.dta,clear

graph twoway ltci smokeT college

15

20

25

30

10 15 20 25 30 35% adults college degree, 1990

95% CI Fitted values

Figura 3.36

Un grco con mayor informacin cuando sobreponemos un scatterplot sobrela recta de regresin lineal, se puede ver en la gura 3.45. Para hacer esto, damosdos distintas indicaciones de comandos de grcos, separado por el "jj" como semencion anteriormente.

Example:

graph twoway ltci smokeT collegejjscatter smokeT college

15

20

25

30

35

10 15 20 25 30 35% adults college degree, 1990

95% CI Fitted values

% adults smoking

Figura 3.37

74


75/124

El segundo ploteo (scatterplot) se coloca encima del primer ploteo en la gura3.45. Este orden tiene consecuencia para el estilo de lnea usado por defecto

(solid, dashed,etc) y tambin para el marcado de smbolos (square, circle,etc)usado por cada subploteo. Los ms importante es tratar que los ploteos seanlos ms visibles posibles.

La gura 3.46 desarrolla la idea anterior, mejorando la imagen usando lasopciones de etiquetas de ejes y legenda. Por que dichas opciones se aplican algrco como un todo y no por separado, estas opciones son establecidas despusdel segundo separadorjj, seguido por una coma. La mayora de estas opcionesse asemeja a los ejemplos realizados anteriormente. La opcinorder(2 1) eneste caso hace una nueva funcin: omite una de los tres item de la legenda,tal que solo dos de ellos (2 de la regresin lineal, seguido por 1 del intervalode conanza) aparecezcan en la gura. Comparando esta legenda con la gura3.45 vemos la diferencia. Aunque listemos solo dos item en la legenda, aun es

necesario especicar tres las en el formato de la legenda (rows(3)) como sicada uno de los items estan retenidos.

Example:

graph twoway ltci smokeT collegejjscatter smokeT college ///jj, xlabel(12 (2) 34) ylabel(14 (3) 32, angle(horizontal)) ///xtitle("Porcentajes de Adultos con Grados Superior") ///ytitle("Porcentaje de Adultos que fuman") ///note("Datos del CDC andn US Census") ///legend(order(2 1) label(1 "95% c.i") label(2 "Regresin Lineal") ///rows(3) position(1) ring(0)

14

17

20

23

Manual STATA 11

Documents

Transcript of Manual STATA 11