Variables Dummy (parte I) - mregresion.files.wordpress.com · En este caso se puede considerar...
Transcript of Variables Dummy (parte I) - mregresion.files.wordpress.com · En este caso se puede considerar...
Variables Dummy
19/10/2010 1
Variables Dummy
(parte I)
Fortino Vela PeónUniversidad Autónoma Metropolitana
Octubre, 2010México, D. F.
Introducción
� Algunas de las variables son por su naturaleza propiacualitativas.
� Ejemplos de este tipo son: Hombre/Mujer; Unido/ NoUnido, Rural/Urbano; Jefe/ No jefe.
� Su participación en un modelo de regresión puedeconsiderarse:
19/10/2010 2
considerarse:
cómocómocómocómo variablevariablevariablevariableindependienteindependienteindependienteindependiente
iii uUrbanoY ++= 21 ββ
iii uXUrbano ++= 21 ββ
iiii uXUrbanoY +++= 3321 βββ
cómocómocómocómo variablevariablevariablevariable dependientedependientedependientedependiente
VariableVariableVariableVariablecualitativacualitativacualitativacualitativa
únicaúnicaúnicaúnica
mixtamixtamixtamixtaiii uUrbanoY ++= 21 ββ
iiiii uUrbanoXUrbanoY +++= 3321 βββinteraccióninteraccióninteraccióninteracción
� Estas variables reciben el denominativo de variablesdummy, artificiales o indicadoras.
� Recordemos que dentro de las variables cualitativas seencuentran:
− Nominales
− Ordinales
� En cualquiera de los casos, cuando la variable solopresenta dos categorías, se trata de una variabledicotómica.
19/10/2010 3
, si es mujer
0
11 =D
, cualquier otra cosa (coc)
presenta dos categorías, se trata de una variabledicotómica.
� Una forma de volver numérica a una variable cualitativa,por ejemplo, el género, es:
� No obstante, una variable cualitativa puede presentarmás de dos categorías, es decir, puede sermulticategórica, por ejemplo:
1. Soltero
2. Casado (civil, iglesia o ambos)
3. Unión
4. Separado o divorciado
5. Viudo
No Unido
Alguna vez unido
� En este caso se puede considerar
19/10/2010 4
, casado
0
12 =D
, coc
� En este caso se puede considerar
0
11 =D
, soltero
, coc 0
13 =D
, unión
, coc 0
15 =D
0
14 =D
, separado o divorciado
, coc
, coc
, viudo
i) Modelos ANOVA
� Técnica estadística que se utiliza para comparar dos omás valores medios o promedios.
� En el contexto de regresión lineal corresponde a
ii uDY ++= 121 ββdonde
, presencia atributo
19/10/2010 5
0
11 =D
, presencia atributo
, ausencia atributo
� Pudiera coexistir más de una variable dummy.
� Su interpretación indica el diferencial en el valorpromedio de Y.
� Interesa saber si es estadísticamente significativo esediferencial.
Ejemplo: ¿Son los autos importados más “caros”?
� Se desea conocer si el precio de los autos difiere segúnsu procedencia (local / extranjera).
� Considere el archivo autos.dta que ofrece Stata.
� Es posible obtener el precio promedio simple según ellugar de fabricación, esto es:
sum price if foreign==1
19/10/2010 6
Variable | Obs Mean Std. Dev. Min Max-------------+--------------------------------------------------------
price | 22 6384.682 2621.915 3748 12990
. sum price if foreign==0
Variable | Obs Mean Std. Dev. Min Max-------------+--------------------------------------------------------
price | 52 6072.423 3097.104 3291 15906
� ¿Es estadísticamente significativa esta diferencia?
Observe que 6384.682-6072.423 = 312.259
¿Son los autos importados más “caros”?
� Sea el modelo de regresión lineal siguiente:
iii uforeignprice ++= 21 ββdonde
0
11 == Dforeign
, local
, importadoregress price foreign
19/10/2010 7
Source | SS df MS Number of obs = 74-------------+------------------------------ F( 1, 72) = 0.17
Model | 1507382.66 1 1507382.66 Prob > F = 0.6802Residual | 633558013 72 8799416.85 R-squared = 0.0024
-------------+------------------------------ Adj R-squared = -0.0115Total | 635065396 73 8699525.97 Root MSE = 2966.4
------------------------------------------------------------------------------price | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------foreign | 312.2587 754.4488 0.41 0.680 -1191.708 1816.225
_cons | 6072.423 411.363 14.76 0.000 5252.386 6892.46------------------------------------------------------------------------------
� La forma de asimilar este resultado es
ii uDDpriceE ++= 1211)\( ββ
pero si
11 =DSi entonces 1211ˆˆ)1\( DDpriceE i ββ +==
01 =D entonces 11ˆ)0\( β==DpriceE i
19/10/2010 8
� Gráficamente
Diagrama de dispersión
10,
000
15,
000
Pric
e
19/10/2010 9
05
,00
0P
rice
0 .2 .4 .6 .8 1Car type
Diagrama de dispersión y recta de ajuste (yhat)
10,
000
15,
000
19/10/2010 10
05
,00
0
0 .2 .4 .6 .8 1Car type
Price Fitted values
Diagrama de dispersión y diferencial
10,
000
15,
000
Pric
e
sc price foreign, yline(6072.423 ) yline( 6384.682)
19/10/2010 11
05
,00
0P
rice
0 .2 .4 .6 .8 1C ar type
� Suponga un archivo con 5 observaciones como elsiguiente:
Variables Dummy en Stata
id Salario género1 4500 Mujer2 12000 Hombre3 8000 Hombre4 5210 Mujer5 6804 Mujer
� La idea es crear una nueva variable numéricaasociada a la variable género.
19/10/2010 12
� La idea es crear una nueva variable numéricaasociada a la variable género.
encode genero, generate(genero2)
list genero genero2, nolab
id Salario género genero21 4500 Mujer 22 12000 Hombre 13 8000 Hombre 14 5210 Mujer 25 6804 Mujer 2
� Ahora se crea en Stata a la variable D11 donde
siguiendo la siguiente sintaxis:
tab genero2, gen(D1)
list genero genero2 D11 D12
0
111=D
, hombre
, mujer
+------------------------------+
19/10/2010 13
+------------------------------+
| genero genero2 D11 D12 |
|------------------------------|
1. | Mujer Mujer 0 1 |
2. | Hombre Hombre 1 0 |
3. | Hombre Hombre 1 0 |
4. | Mujer Mujer 0 1 |
5. | Mujer Mujer 0 1 |
+------------------------------+
� Podemos eliminar a la variable genero2 mediantedrop genero2
� Retome los datos de la tabla 9.1 y replique losresultados encontrados por Gujarati y Porter (2010:278-280) .
� Datos www.mhhe.com/gujarati5e (no olvideeliminar las comas de los datos).
El modelo a considerar esta dado por:
Ejercicio 1: Salarios de maestros de escuelas por región. Gujarati y Porter (2010:278)
19/10/2010 14
� El modelo a considerar esta dado por:
iiii uDDsalary +++= 33221 βββdonde
=iD3
=iD2 0
1
0
1
región noreste o norte-centro
región sur
coc
coc
� Los resultados que se obtienen son:
regress salary d2 d3
Source | SS df MS Number of obs = 51-------------+------------------------------ F( 2, 48) = 1.10
Model | 98985177.3 2 49492588.6 Prob > F = 0.3399Residual | 2.1523e+09 48 44839670.6 R-squared = 0.0440
-------------+------------------------------ Adj R-squared = 0.0041Total | 2.2513e+09 50 45025787.3 Root MSE = 6696.2
19/10/2010 15
------------------------------------------------------------------------------salary | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------d2 | 1524.099 2363.139 0.64 0.522 -3227.311 6275.509d3 | -1721.027 2467.151 -0.70 0.489 -6681.566 3239.512
_cons | 48014.62 1857.204 25.85 0.000 44280.46 51748.77------------------------------------------------------------------------------
� ¿Cómo se interpretan?
� Gráficamente se tiene
500
00
600
00
700
00
Sal
ary
twoway (sc salary d2) (sc salary d3)
19/10/2010 16
300
00
400
00
500
00
Sal
ary
0 .2 .4 .6 .8 1
Salary Salary
dis 48014.52 - 1524.099 = 46490.421dis 48014.52 - -1721.027 = 49735.547twoway (sc salary d2) (sc salary d3), yline (48014.62)yline(46490.421) yline(49735.547
500
00
600
00
700
00
Sal
ary
Comparación de medias : los resultados indicanque “ no son significativas las diferencias, esdecir, los profesores de las distintas regionesganan en promedio lo mismo”.
19/10/2010 17
300
00
400
00
500
00
Sal
ary
0 .2 .4 .6 .8 1
Sa lary Sa lary
48014.52= Oeste
46490.42= Sur
49735.55 = Noreste y norte
� Retome los datos correspondientes a la Encuesta de laDinámica Laboral y de Ingreso de Ontario, Canada (Survey ofLabour and Income Dynamics).
� http://socserv.socsci.mcmaster.ca/jfox/Books/Applied-Regression-2E/datasets/index.html (SLID en formato txt).
� Seleccione el “Data Set“ Canadian Survey of Labour andIncome Dynamics (SLID) y el “Data File” SLID-Ontario.txt.
Las variables incluidas en ese archivo son:
Ejercicio 2: Salarios por género. Fox (2008)
19/10/2010 18
� Las variables incluidas en ese archivo son:
age: edad en años.
sex: Hombre (Male) o Mujer (Female).
compositeHourlyWages: Tasa salarial por hora, en dólares.
yearsEducation: años completos de educación.
� Se busca establecer si existe “discriminación salarial” porgénero y si existen rendimientos a la educación.
� Una vez que tenga los datos en formato Stata, se lepide estimar los siguientes modelos.
iii uDwages ++= 221 ββdonde
=iD2 0
1 mujer
hombre
iii uDwages ++= 221 ββ
Modelo 1
Modelo 2
19/10/2010 19
=iD3 0
1 secundaria o más
coc
iii uDwages ++= 221 ββ
iiii uDDwages +++= 22111 βββ
Modelo 2
Modelo 3
� Interprete sus resultados. ¿Qué concluye acerca delobjetivo inicial de análisis?
Construcción del archivo
encode sex, generate (genero)list sex genero, nolabtab genero, gen(D)tab2 sex D1 D2list genero D1 D2
� A continuación se presenta la sintaxis para la estimación delos modelos.
19/10/2010 20
� Para construir a D3 se considera que la primaria esequivalentes a 6 años completos de estudio. Por lo tanto, unnivel educativo mayor a la primaria es una cantidad de añosmayor a 6 años.
sum educationrecode education (1/6=0) (7/20=1), gen(D3)tab educationtab D3
Modelos
� Modelo 1: reg wages D1Source | SS df MS Number of obs = 3997
-------------+------------------------------ F( 1, 3995) = 198.86Model | 11697.7866 1 11697.7866 Prob > F = 0.0000
Residual | 235000.144 3995 58.8235655 R-squared = 0.0474-------------+------------------------------ Adj R-squared = 0.0472
Total | 246697.931 3996 61.7362189 Root MSE = 7.6697
------------------------------------------------------------------------------wages | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------D1 | -3.421517 .2426289 -14.10 0.000 -3.897205 -2.945829
_cons | 17.26262 .171929 100.41 0.000 16.92555 17.5997
19/10/2010 21
� Modelo 2: reg wages D3
_cons | 17.26262 .171929 100.41 0.000 16.92555 17.5997------------------------------------------------------------------------------
Source | SS df MS Number of obs = 3997-------------+------------------------------ F( 1, 3995) = 7.08
Model | 436.573061 1 436.573061 Prob > F = 0.0078Residual | 246261.358 3995 61.6423924 R-squared = 0.0018
-------------+------------------------------ Adj R-squared = 0.0015Total | 246697.931 3996 61.7362189 Root MSE = 7.8513
------------------------------------------------------------------------------wages | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------D3 | 2.695896 1.013011 2.66 0.008 .709828 4.681963
_cons | 12.88984 1.005252 12.82 0.000 10.91898 14.86069------------------------------------------------------------------------------
� Modelo 3: reg wages D1 D3
Source | SS df MS Number of obs = 3997-------------+------------------------------ F( 2, 3994) = 103.93
Model | 12203.9999 2 6101.99996 Prob > F = 0.0000Residual | 234493.931 3994 58.71155 R-squared = 0.0495
-------------+------------------------------ Adj R-squared = 0.0490Total | 246697.931 3996 61.7362189 Root MSE = 7.6623
------------------------------------------------------------------------------wages | Coef. Std. Err. t P>|t| [95% Conf. Interval]
19/10/2010 22
� Conclusiones
wages | Coef. Std. Err. t P>|t| [95% Conf. Interval]-------------+----------------------------------------------------------------
D1 | -3.432063 .2424244 -14.16 0.000 -3.90735 -2.956776D3 | 2.903281 .9887444 2.94 0.003 .96479 4.841772
_cons | 14.40895 .9869135 14.60 0.000 12.47404 16.34385------------------------------------------------------------------------------
− Si hay discriminación por género (las mujeres ganan enpromedio menos que los hombres) controlando por educación.
− En promedio los más educados ganan más que los menoseducados (el diferencial de ingresos por nivel educativo essignificativo) controlando por género.