Ejercicio 1 STATA

download Ejercicio 1 STATA

of 17

Transcript of Ejercicio 1 STATA

  • 8/12/2019 Ejercicio 1 STATA

    1/17

    Resolucin

    Ejercicio I STATA

  • 8/12/2019 Ejercicio 1 STATA

    2/17

    Para comenzar, se mostrar la distribucin del espacio de trabajo del software STATA SE.

    Para comenzar, se debe extraer la base de datos a utilizar en la resolucin de la guadesde la siguiente pgina Web (que corresponde a las bases de datos del libro deWoolridge):

    http://fmwww.bc.edu/ec-p/data/wooldridge/datasets.list.html

    La zona N1 corresponde al sector en que se van registrando cada una de las accionesque nosotros realicemos con el software. Es una especie de registro de los comandos ylas acciones ejecutadas.

    La zona N2 muestra las variables con las cuales nos encontremos trabajando, mientrasque en la parte inferior de dicha zona, se indican algunas propiedades de cada una de lasvariables (la que se ecuestre seleccionada).

    La zona N3 corresponde al lugar en que se ingresarn los distintos comandos para queel software se encargue de ejecutar los clculos requeridos.

    La zona N4 muestra los resultados de las distintas rdenes y clculos que se le pida alsoftware. Es -en pocas palabras- un visor de resultados.

    En la parte superior del software es posible visualizar un men con algunas accionescomunes, entre ellas destacan el editor de archivos Do (hacer en ingls) [Do-File Editor]y el editor de datos [Data Editor].

    14

    2

    3

  • 8/12/2019 Ejercicio 1 STATA

    3/17

    COMENZANDO A TRABAJAR CON STATA

    Preparacin de la Base de Datos

    Lo primero que se debe hacer es extraer la base de datos correspondiente a la Ayudanta,la que se puede encontrar en:

    http://fmwww.bc.edu/ec-p/data/wooldridge/datasets.list.html

    Lo primero que se debe hacer, es escribir el siguiente comando en la zona designada paraello:

    ssc install bcuse !

    Lo que se hace con el comando anterior es decirle a STATA que cargue la base de datosde Woolridge. Una vez conectado, STATA mostrar la siguiente informacin en el visor deresultados:

    ssc install bcuse

    checking bcuse consistency and verifying not already installed...

    all files already exist and are up to date.

    Posteriormente, lo que hacemos es llamar la base de datos especca que ocuparemos.Para ello, nos dirigimos al sitio Web antes sealado y buscamos la base de datosSMOKE. Una vez encontrada, podemos observar que abajo del nombre de dicha basede datos aparecern unas palabras (en este caso bcuse saving). Entonces, para llamar adicha base de datos, se debe agregar dicho comando en la zona de comandos, es decir,se debe escribir:

    bcuse smoke !

    Cuando el software cargue la base de datos, se podr ver lo siguiente (jarse que en elpanel del lado derecho ahora se observan los nombres de las variables que estncontenidas en la base de datos):

  • 8/12/2019 Ejercicio 1 STATA

    4/17

    Finalmente guardaremos la base de datos para trabajar de forma local (es decir,grabaremos los datos en el computador). Para ello vamos al men del programa yhacemos clic en File \ Save as y luego grabamos la base de datos en alguna carpetacreada para el efecto. Para este caso, usaremos una carpeta llamada Ejemplo y elarchivo se llamara smoke. Una cuestin importante de sealar es que en caso que lacarpeta en que se guarde la base de datos tenga ms de una palabra (o nmero), estasno deben tener espacios y deben ser reemplazados por un guin bajo, por ejemplo, lacarpeta se podra llamar Carpeta_Ejemplo para evitar problemas.

  • 8/12/2019 Ejercicio 1 STATA

    5/17

    RESOLUCIN GUA DE EJERCICIOS

    Pregunta a) Cuntas observaciones tiene la muestra? Cuntas variables han sido

    consideradas? Enumrelas.

    Para responder lo anterior, debemos utilizar el comando describe , cuya funcin principales entregar una descripcin general de la base de datos utilizada. Para acceder a ello, sedebe utilizar el siguiente comando:

    describe !

    Una vez ejecutado, obtendremos lo siguiente (lo que ser mostrado en el visor deresultados):

    De los resultados obtenidos, se tiene que la muestra tiene 807 observaciones y 10

    variables (los resultados se encuentran sealados en el cuadro rojo). Respecto de lasvariables, estas aparecen en la parte inferior del resultado (cuadro verde). Para este caso,son las siguientes: educ, cigpric, white, age, income, cigs, restaurn, lincome,agesq y lcigpric .

  • 8/12/2019 Ejercicio 1 STATA

    6/17

    Pregunta b) Cul es el ingreso anual promedio de los encuestados?

    Para calcular el ingreso promedio, o el promedio de cualquiera de las variables, se debeusar el comando summarize, el cual -como su nombre lo indica- entrega algunos clculos

    bsicos para la variable en cuestin. Para su utilizacin se puede utilizar el siguientecomando:

    summarize !

    o bien,

    summarize income !

    La diferencia entre los dos casos, es que el primero entregar resultados de las 10variables (antes sealadas), mientras que en el segundo caso, solamente se entregarestadsticos descriptivos respecto de la variable income . Para este ejemplo, utilizaremosla segunda forma y el resultado ser el siguiente:

    Como se puede apreciar, el promedio de la variable income corresponde a 19.304,83 (Mean). Adems, el comando summarize entrega el nmero de observaciones (Obs), ladesviacin estndar (Std. Dev.), el valor mnimo (Min) y el valor mximo (Max).

  • 8/12/2019 Ejercicio 1 STATA

    7/17

    Pregunta c) Cunto es el mximo de cigarros diarios fumados declarados por un individuo enesta encuesta? Y el mnimo?. Ahora, Cul es el mximo nmero de cigarrillosfumados por individuos de 17 aos?

    Para resolver esta pregunta, esto se deber hacer por partes. Primeramente, se deberdeterminar el nmero mximo y mnimo de cigarros consumidos por algn individuo. Paraello se podr utilizar el mismo comando anteriormente, esta vez, con la variable cigs:

    summarize cigs !

    El resultado obtenido es el siguiente:

    Del resultado, se puede decir que el nmero mximo de cigarrillos diarios declaradosfumar por alguien es de 80, mientras que el mnimo es de cero. Entonces, en la muestrahay personas que declaran fumar cero cigarrillos al da, mientras que la persona quedeclara fumar ms cigarros diarios, dice fumar 80.

    Para responder la segunda parte de la pregunta, es decir, el mximo nmero de cigarrillosfumados por individuos de 17 aos, se deber establecer una restriccin a la solicitudefectuada a STATA, para ltrar la informacin entregada. Para ello, utilizaremos unacondicional con el comando if , estableciendo la restriccin con la variable age. Elcomando a utilizar ser el siguiente:

    summarize cigs if age==17 !

    Ntese que para establecer una igualdad (en este caso que la variable edad sea igual a17) se debe utilizar un doble signo igual (es decir ==); solo de esta forma STATAentender que se le est diciendo que la variable debe ser igual al nmero para efectos deltrar los resultados.

  • 8/12/2019 Ejercicio 1 STATA

    8/17

    Una vez ejecutado el comando, se obtendr lo siguiente:

    Entonces, de los resultados obtenidos se sabe que el mximo nmero de cigarrosfumados por jvenes de 17 aos es de 50 unidades.

  • 8/12/2019 Ejercicio 1 STATA

    9/17

    Pregunta d) Cul es el total de individuos que no fuman?

    Bsicamente, lo que se pide en esta pregunta es que sealemos la cantidad de individuosque dicen fumar cero cigarros, es decir, que la variable cigs = 0. Para efectos de ir

    introduciendo ms herramientas para utilizar STATA, se resolver esta pregunta utilizandotres formas distintas. La primera es utilizando el comando summarize y estableciendo lacondicional que la variable cigs sea igual a cero. Lo anterior se obtiene de la siguientemanera:

    summarize cigs if cigs==0 !

    El resultado ser el siguiente:

    Como se puede observar, la cantidad de personas que dicen consumir cero cigarros al daes de 497.

    Una segunda forma de obtener el resultado es mediante la utilizacin del comando count,cuya funcin es contar las veces que se repite un resultado especicado (en este caso,que la variable cigs sea igual a cero). Para ejecutar dicho comando, se hace de lasiguiente manera:

    count if cigs==0 !

    El resultado, esta vez se muestra de forma directa, como se ve a continuacin:

  • 8/12/2019 Ejercicio 1 STATA

    10/17

    La ltima forma que veremos para obtener el resultado requerido, es mediante lautilizacin del comando tabulate , el cual entrega un resultado ordenado respecto defrecuencia de ocurrencia de cada uno de los datos. Para este caso, indicar cuantaspersonas sealan fumar cigarrillos (para cada cantidad que se haya dicho). La utilizacinde este comando, se realizar de la siguiente manera:

    tabulate cigs !

    El resultado obtenido se ver de la siguiente manera (ojo, que la tabla entregada porSTATA es ms larga, para efectos de este documento ha sido cortada):

    Como se puede observar, la tabla no solo entrega la frecuencia de personas que dicenfumar determinadas cantidades de cigarrillos, sino que tambin indica el porcentaje deello. Para este caso, se seala que 497 personas dicen fumar cero cigarrillos al da, locual corresponde a un 61,59% del total de miembros de la muestra (encuestados).

  • 8/12/2019 Ejercicio 1 STATA

    11/17

    Pregunta e) Qu porcentaje de los encuestados han estudiado por lo menos 12 aos (esto es;educacin bsica y media completa)? Cmo se obtiene esta cifra?

    La solucin de este problema es bastante simple utilizando el comando count , sin

    embargo, para efectos del siguiente texto utilizaremos tanto esta tcnica, como unaadicional que consiste en la creacin de una nueva variable. Primeramente, para lautilizacin del comando count , este se har introduciendo la condicin de que la variableeduc sea mayor o igual que 12, lo anterior se logra de la siguiente manera:

    count if educ>=12 !

    Y el resultado obtenido es:

    Una segunda alternativa para resolver la problemtica sealada es la creacin de unanueva variable que contenga solamente los valores para los cuales la variable educ esmayor o igual a 12. Esta nueva variable, para efectos del ejemplo, la llamaremos educ12.

    Lo primero que debemos hacer es crear la variable educ12 es utilizar el comandogenerate , que creara la nueva variable, y a su vez, establecer que esta variable tenga elvalor 1 cuando la variable educ sea mayor o igual a 12. Esto se realiza de la siguientemanera:

    generate educ12=1 if educ>=12 !

    Como se puede apreciar del visor de resultados, al realizar la operacin anterior, STATA

    indica que existen valores perdidos (esto quiere decir que la variable no tiene valoresasociados y se denota por missing values), lo cual se corrige haciendo que el sistemarellene dichos espacios en blanco con ceros.

  • 8/12/2019 Ejercicio 1 STATA

    12/17

    Ahora, para rellenar esos valores perdidos con ceros, debemos utilizar el siguientecomando:

    replace educ12=0 if educ12!=1 !

    Con el comando anterior, lo que le estamos diciendo a STATA es que cuando encuentreen la variable educ12 valores distintos a 1 (valores sin registros), los reemplace porvalores cero (en STATA cuando queremos sealar una desigualdad, esta se haceutilizando el signo de exclamacin seguido por un signo igual [!=]).

    Una vez creada la variable, y habiendo eliminado los valores perdidos, se puede utilizar elcomando tabulate para encontrar a las personas que han estudiado por lo menos 12

    aos. La forma de ejecutar el comando es la siguiente:

    tabulate educ12 !

    El resultado obtenido ser el siguiente:

    Del resultado anterior se puede desprender que cuando la variable educ12 toma el valorde 1 (es decir, cuando la educacin es mayor o igual a 12), esta nos seala quecorresponde a 584 personas, que es el mismo valor obtenido anteriormente al usar el

    comando count .

  • 8/12/2019 Ejercicio 1 STATA

    13/17

    Pregunta f) Cul es la estimacin por M.C.O. del siguiente modelo?

    Para realizar una regresin por el mtodo de los mnimos cuadrados ordinarios (M.C.O.)se debe utilizar el siguiente comando:

    regress cigs cigpric educ age lincome !

    Como se puede observar, tras sealar a STATA que se quiere realizar una regresin (con

    el comando regress ) es necesario escribir en primer lugar la variable independiente yposteriormente las variables dependientes, separadas nicamente por un espacio. Unavez ejecutada la regresin, se obtendr el siguiente resultado:

    Como se puede observar, al ejecutar una regresin en STATA, este entrega los resultados

    divididos en tres secciones; Los resultados ms relevantes son los siguientes:

    Seccin 1 - Sumas de cuadrados: En esta seccin se ofrecen los resultados de lassumas de cuadrados (SCR, SCE y SCT). En este caso, los valores se encuentran bajo lacolumna SS y los respectivos resultados son Model para la suma de cuadrados de laregresin (SCR), Residual para la suma de cuadrados del error (SCE) y Total para lasuma de cuadrados totales (SCT).

    cigs i = ! 0 + ! 1cigpric i + ! 2educ i + ! 3age i + ! 4 log( income i )

    1 2

    3

  • 8/12/2019 Ejercicio 1 STATA

    14/17

    Seccin 2 - ANOVA:Ac se encuentran los resultados de una tabla ANOVA (anlisis devarianza), en particular los resultados ms interesantes son el valor del estadstico F (y surespectivo valor-p p value) , adems del valor del coeciente de determinacin (R 2). Paraefectos prcticos, el valor del estadstico F se encuentra donde dice F( 4, 802) y el valor pes aquel asociado al trmino Prob > F. Por su parte, el valor de R 2 se obtiene donde dice

    R-squared.

    Seccin 3 - Coecientes Beta: En esta seccin es donde se encuentran los coecientesbeta, sus respectivos errores estndar, as como sus respectivas pruebas t y los intervalosde conanza para los coecientes. Como se puede observar, en la columna Coef esdonde se encuentran los valores de los regresores (betas), el trmino constante o " 0, seencuentra donde dice _cons. El resto de los valores " , se encuentran junto a susrespectivas variables.

    Considerando lo anterior, se puede estimar el siguiente modelo de regresin:

    cigs i = 0,5862 - 0,0406 cigpric i ! 0,3891 educ i ! 0,0426 age i + 1,7720 log( income i )

  • 8/12/2019 Ejercicio 1 STATA

    15/17

    Pregunta g) Son las variables cigpric y age' conjuntamente signicativas?

    Para resolver lo anterior, se puede utilizar el comando test y se agregan ambas hiptesisen forma conjunta, es decir, se utiliza la siguiente funcin:

    test (cigpric==0) (age==0) !

    En este caso, lo que hace STATA es crear un modelo restringido en el cual se eliminanambas variables estudiadas (en este caso cigpric y age) y posteriormente efecta unaprueba F al modelo restringido. El resultado que se obtiene es el siguiente:

    Del resultado del valor p (Prob > F), se puede determinar que con un 95% de conanza nose rechaza la hiptesis nula de que ambas variables no son conjuntamente signicativas.

    Es decir, existe evidencia que indica que las variables cigpric y age no sonconjuntamente signicativas.

  • 8/12/2019 Ejercicio 1 STATA

    16/17

    Pregunta g) Tienen el mismo efecto en el consumo de tabaco las variables cigpric y age?Conteste a esta pregunta mediante una reparametrizacin del modelo.

    Primero debemos establecer un modelo reparametrizado del modelo original, es decir, el

    modelo original es:

    Entonces establecemos un modelo reparametrizado sera el siguiente:

    Lo primero entonces que se debe hacer es crear una nueva variable, la cual sedenominar (para este ejemplo) como cig_age, para esto, se utiliza el siguientecomando:

    generate cig_age = cigpric+age !

    Una vez generada la nueva variable, se debe volver a ejecutar la regresin, esta vez conel nuevo modelo y la nueva variable generado. Para hacer esto, se utiliza el siguientecomando:

    regress cigs cigpric educ cig_age lincome !

    El resultado obtenido al generar este nuevo modelo es el que se muestra a continuacin:

    cigs i = ! 0 + ! 1cigpric i + ! 2educ i + ! 3age i + ! 4 log( income i )

    ! =

    cigpric+

    agecigs i = " 0 + " 1cigpric + " 2 educ i + ! cig _ age i + " 4 Log(income i )

  • 8/12/2019 Ejercicio 1 STATA

    17/17

    Como lo que se estaba pidiendo es saber si las variables cigpric y age tienen el mismo

    efecto, se debe vericar si la variable reparametrizada, en este caso cig_age, esestadsticamente signicativa. Para ello, se debe vericar el estadstico t-student asociadoa dicha variable. En este caso, y usando el criterio del valor-p (P > | t |), se puedeestablecer que ambas variables no son estadsticamente signicativas, es decir, nopodemos rechazar la hiptesis nula de que la variable cig_age es igual a cero.