Variables Dummy (parte I) - mregresion.files.wordpress.com · En este caso se puede considerar...

Variables Dummy

19/10/2010 1

Variables Dummy

(parte I)

Fortino Vela PeónUniversidad Autónoma Metropolitana

[email protected]

Octubre, 2010México, D. F.

Introducción

� Algunas de las variables son por su naturaleza propiacualitativas.

� Ejemplos de este tipo son: Hombre/Mujer; Unido/ NoUnido, Rural/Urbano; Jefe/ No jefe.

� Su participación en un modelo de regresión puedeconsiderarse:

19/10/2010 2

considerarse:

cómocómocómocómo variablevariablevariablevariableindependienteindependienteindependienteindependiente

iii uUrbanoY ++= 21 ββ

iii uXUrbano ++= 21 ββ

iiii uXUrbanoY +++= 3321 βββ

cómocómocómocómo variablevariablevariablevariable dependientedependientedependientedependiente

VariableVariableVariableVariablecualitativacualitativacualitativacualitativa

únicaúnicaúnicaúnica

mixtamixtamixtamixtaiii uUrbanoY ++= 21 ββ

iiiii uUrbanoXUrbanoY +++= 3321 βββinteraccióninteraccióninteraccióninteracción

� Estas variables reciben el denominativo de variablesdummy, artificiales o indicadoras.

� Recordemos que dentro de las variables cualitativas seencuentran:

− Nominales

− Ordinales

� En cualquiera de los casos, cuando la variable solopresenta dos categorías, se trata de una variabledicotómica.

19/10/2010 3

, si es mujer

0

11 =D

, cualquier otra cosa (coc)

presenta dos categorías, se trata de una variabledicotómica.

� Una forma de volver numérica a una variable cualitativa,por ejemplo, el género, es:

� No obstante, una variable cualitativa puede presentarmás de dos categorías, es decir, puede sermulticategórica, por ejemplo:

1. Soltero

2. Casado (civil, iglesia o ambos)

3. Unión

4. Separado o divorciado

5. Viudo

No Unido

Alguna vez unido

� En este caso se puede considerar

19/10/2010 4

, casado

0

12 =D

, coc

� En este caso se puede considerar

0

11 =D

, soltero

, coc 0

13 =D

, unión

, coc 0

15 =D

0

14 =D

, separado o divorciado

, coc

, coc

, viudo

i) Modelos ANOVA

� Técnica estadística que se utiliza para comparar dos omás valores medios o promedios.

� En el contexto de regresión lineal corresponde a

ii uDY ++= 121 ββdonde

, presencia atributo

19/10/2010 5

0

11 =D

, presencia atributo

, ausencia atributo

� Pudiera coexistir más de una variable dummy.

� Su interpretación indica el diferencial en el valorpromedio de Y.

� Interesa saber si es estadísticamente significativo esediferencial.

Ejemplo: ¿Son los autos importados más “caros”?

� Se desea conocer si el precio de los autos difiere segúnsu procedencia (local / extranjera).

� Considere el archivo autos.dta que ofrece Stata.

� Es posible obtener el precio promedio simple según ellugar de fabricación, esto es:

sum price if foreign==1

19/10/2010 6

Variable | Obs Mean Std. Dev. Min Max-------------+--------------------------------------------------------

price | 22 6384.682 2621.915 3748 12990

. sum price if foreign==0

Variable | Obs Mean Std. Dev. Min Max-------------+--------------------------------------------------------

price | 52 6072.423 3097.104 3291 15906

� ¿Es estadísticamente significativa esta diferencia?

Observe que 6384.682-6072.423 = 312.259

¿Son los autos importados más “caros”?

� Sea el modelo de regresión lineal siguiente:

iii uforeignprice ++= 21 ββdonde

0

11 == Dforeign

, local

, importadoregress price foreign

19/10/2010 7

Source | SS df MS Number of obs = 74-------------+------------------------------ F( 1, 72) = 0.17

Model | 1507382.66 1 1507382.66 Prob > F = 0.6802Residual | 633558013 72 8799416.85 R-squared = 0.0024

-------------+------------------------------ Adj R-squared = -0.0115Total | 635065396 73 8699525.97 Root MSE = 2966.4

------------------------------------------------------------------------------price | Coef. Std. Err. t P>|t| [95% Conf. Interval]

-------------+----------------------------------------------------------------foreign | 312.2587 754.4488 0.41 0.680 -1191.708 1816.225

_cons | 6072.423 411.363 14.76 0.000 5252.386 6892.46------------------------------------------------------------------------------

� La forma de asimilar este resultado es

ii uDDpriceE ++= 1211)\( ββ

pero si

11 =DSi entonces 1211ˆˆ)1\( DDpriceE i ββ +==

01 =D entonces 11ˆ)0\( β==DpriceE i

19/10/2010 8

� Gráficamente

Diagrama de dispersión

10,

000

15,

000

Pric

e

19/10/2010 9

05

,00

0P

rice

0 .2 .4 .6 .8 1Car type

Diagrama de dispersión y recta de ajuste (yhat)

10,

000

15,

000

19/10/2010 10

05

,00

0

0 .2 .4 .6 .8 1Car type

Price Fitted values

Diagrama de dispersión y diferencial

10,

000

15,

000

Pric

e

sc price foreign, yline(6072.423 ) yline( 6384.682)

19/10/2010 11

05

,00

0P

rice

0 .2 .4 .6 .8 1C ar type

� Suponga un archivo con 5 observaciones como elsiguiente:

Variables Dummy en Stata

id Salario género1 4500 Mujer2 12000 Hombre3 8000 Hombre4 5210 Mujer5 6804 Mujer

� La idea es crear una nueva variable numéricaasociada a la variable género.

19/10/2010 12

� La idea es crear una nueva variable numéricaasociada a la variable género.

encode genero, generate(genero2)

list genero genero2, nolab

id Salario género genero21 4500 Mujer 22 12000 Hombre 13 8000 Hombre 14 5210 Mujer 25 6804 Mujer 2

� Ahora se crea en Stata a la variable D11 donde

siguiendo la siguiente sintaxis:

tab genero2, gen(D1)

list genero genero2 D11 D12

0

111=D

, hombre

, mujer

+------------------------------+

19/10/2010 13

+------------------------------+

| genero genero2 D11 D12 |

|------------------------------|

1. | Mujer Mujer 0 1 |

2. | Hombre Hombre 1 0 |

3. | Hombre Hombre 1 0 |



+------------------------------+

� Podemos eliminar a la variable genero2 mediantedrop genero2

� Retome los datos de la tabla 9.1 y replique losresultados encontrados por Gujarati y Porter (2010:278-280) .

� Datos www.mhhe.com/gujarati5e (no olvideeliminar las comas de los datos).

El modelo a considerar esta dado por:

Ejercicio 1: Salarios de maestros de escuelas por región. Gujarati y Porter (2010:278)

19/10/2010 14

� El modelo a considerar esta dado por:

iiii uDDsalary +++= 33221 βββdonde

=iD3

=iD2 0

1

0

1

región noreste o norte-centro

región sur

coc

coc

� Los resultados que se obtienen son:

regress salary d2 d3


Model | 98985177.3 2 49492588.6 Prob > F = 0.3399Residual | 2.1523e+09 48 44839670.6 R-squared = 0.0440

-------------+------------------------------ Adj R-squared = 0.0041Total | 2.2513e+09 50 45025787.3 Root MSE = 6696.2

19/10/2010 15

------------------------------------------------------------------------------salary | Coef. Std. Err. t P>|t| [95% Conf. Interval]

-------------+----------------------------------------------------------------d2 | 1524.099 2363.139 0.64 0.522 -3227.311 6275.509d3 | -1721.027 2467.151 -0.70 0.489 -6681.566 3239.512

_cons | 48014.62 1857.204 25.85 0.000 44280.46 51748.77------------------------------------------------------------------------------

� ¿Cómo se interpretan?

� Gráficamente se tiene

500

00

600

00

700

00

Sal

ary

twoway (sc salary d2) (sc salary d3)

19/10/2010 16

300

00

400

00

500

00

Sal

ary

0 .2 .4 .6 .8 1

Salary Salary

dis 48014.52 - 1524.099 = 46490.421dis 48014.52 - -1721.027 = 49735.547twoway (sc salary d2) (sc salary d3), yline (48014.62)yline(46490.421) yline(49735.547

500

00

600

00

700

00

Sal

ary

Comparación de medias : los resultados indicanque “ no son significativas las diferencias, esdecir, los profesores de las distintas regionesganan en promedio lo mismo”.

19/10/2010 17

300

00

400

00

500

00

Sal

ary

0 .2 .4 .6 .8 1

Sa lary Sa lary

48014.52= Oeste

46490.42= Sur

49735.55 = Noreste y norte

� Retome los datos correspondientes a la Encuesta de laDinámica Laboral y de Ingreso de Ontario, Canada (Survey ofLabour and Income Dynamics).

� http://socserv.socsci.mcmaster.ca/jfox/Books/Applied-Regression-2E/datasets/index.html (SLID en formato txt).

� Seleccione el “Data Set“ Canadian Survey of Labour andIncome Dynamics (SLID) y el “Data File” SLID-Ontario.txt.

Las variables incluidas en ese archivo son:

Ejercicio 2: Salarios por género. Fox (2008)

19/10/2010 18

� Las variables incluidas en ese archivo son:

age: edad en años.

sex: Hombre (Male) o Mujer (Female).

compositeHourlyWages: Tasa salarial por hora, en dólares.

yearsEducation: años completos de educación.

� Se busca establecer si existe “discriminación salarial” porgénero y si existen rendimientos a la educación.

� Una vez que tenga los datos en formato Stata, se lepide estimar los siguientes modelos.

iii uDwages ++= 221 ββdonde

=iD2 0

1 mujer

hombre

iii uDwages ++= 221 ββ

Modelo 1

Modelo 2

19/10/2010 19

=iD3 0

1 secundaria o más

coc

iii uDwages ++= 221 ββ

iiii uDDwages +++= 22111 βββ

Modelo 2

Modelo 3

� Interprete sus resultados. ¿Qué concluye acerca delobjetivo inicial de análisis?

Construcción del archivo

encode sex, generate (genero)list sex genero, nolabtab genero, gen(D)tab2 sex D1 D2list genero D1 D2

� A continuación se presenta la sintaxis para la estimación delos modelos.

19/10/2010 20

� Para construir a D3 se considera que la primaria esequivalentes a 6 años completos de estudio. Por lo tanto, unnivel educativo mayor a la primaria es una cantidad de añosmayor a 6 años.

sum educationrecode education (1/6=0) (7/20=1), gen(D3)tab educationtab D3

Modelos

� Modelo 1: reg wages D1Source | SS df MS Number of obs = 3997

-------------+------------------------------ F( 1, 3995) = 198.86Model | 11697.7866 1 11697.7866 Prob > F = 0.0000

Residual | 235000.144 3995 58.8235655 R-squared = 0.0474-------------+------------------------------ Adj R-squared = 0.0472

Total | 246697.931 3996 61.7362189 Root MSE = 7.6697

------------------------------------------------------------------------------wages | Coef. Std. Err. t P>|t| [95% Conf. Interval]

-------------+----------------------------------------------------------------D1 | -3.421517 .2426289 -14.10 0.000 -3.897205 -2.945829

_cons | 17.26262 .171929 100.41 0.000 16.92555 17.5997

19/10/2010 21

� Modelo 2: reg wages D3

_cons | 17.26262 .171929 100.41 0.000 16.92555 17.5997------------------------------------------------------------------------------


Model | 436.573061 1 436.573061 Prob > F = 0.0078Residual | 246261.358 3995 61.6423924 R-squared = 0.0018

-------------+------------------------------ Adj R-squared = 0.0015Total | 246697.931 3996 61.7362189 Root MSE = 7.8513


-------------+----------------------------------------------------------------D3 | 2.695896 1.013011 2.66 0.008 .709828 4.681963

_cons | 12.88984 1.005252 12.82 0.000 10.91898 14.86069------------------------------------------------------------------------------

� Modelo 3: reg wages D1 D3


Model | 12203.9999 2 6101.99996 Prob > F = 0.0000Residual | 234493.931 3994 58.71155 R-squared = 0.0495

-------------+------------------------------ Adj R-squared = 0.0490Total | 246697.931 3996 61.7362189 Root MSE = 7.6623


19/10/2010 22

� Conclusiones

wages | Coef. Std. Err. t P>|t| [95% Conf. Interval]-------------+----------------------------------------------------------------

D1 | -3.432063 .2424244 -14.16 0.000 -3.90735 -2.956776D3 | 2.903281 .9887444 2.94 0.003 .96479 4.841772

_cons | 14.40895 .9869135 14.60 0.000 12.47404 16.34385------------------------------------------------------------------------------

− Si hay discriminación por género (las mujeres ganan enpromedio menos que los hombres) controlando por educación.

− En promedio los más educados ganan más que los menoseducados (el diferencial de ingresos por nivel educativo essignificativo) controlando por género.

Variables Dummy (parte I) - mregresion.files.wordpress.com · En este caso se puede considerar...

Documents

Transcript of Variables Dummy (parte I) - mregresion.files.wordpress.com · En este caso se puede considerar...