Stata Registros

Stata Registros. German Rodroguez Princeton University http://data.princeton.edu/wws509/stata

IntroduccinLos "Registros de Stata" recoger las transcripciones de las seis sesiones utilizando el paquete estadstico Stata. Cada sesin recoge el resultado de (casi) todos los anlisis en uno de los captulos de mi notas de la conferencia sobre modelos lineales generalizados. El material est organizado por captulos y secciones con el mismo sistema de numeracin de las notas, por lo que la seccin 2.8 de los registros se ocupa del anlisis de los modelos de covarianza se describe en la seccin 2.8 de las notas. Las transcripciones se formatean las versiones de los registros de Stata real de ejecucin mediante la versin 11. Las cajas de texto que figura en una fuente de mquina de escribir contienen rdenes o instrucciones de Stata, seguido de la salida resultante. Usted puede decir los comandos separados, ya que aparecen en las lneas que comienzan con un punto, o en las lneas de continuacin a partir de un signo mayor que. El resto del texto que figura en la fuente estndar representa comentarios o anotaciones, a excepcin de las referencias a los comandos de Stata, que tambin se establecen en una fuente de estilo mquina de escribir. El formato general es similar a la utilizada en los manuales de Stata s mismos. La mejor manera de utilizar estas transcripciones est sentado en una computadora, tratando los diferentes comandos a medida que lee a lo largo, probablemente con una copia impresa de las notas al lado. Tambin le recomiendo que trate de responder a las preguntas y ejercicios planteados a lo largo del camino. Si sigue este procedimiento se dar cuenta que a veces uso el comentario continuacin / / / para indicar que un comando contina en otra lnea. Si est utilizando Stata interactivamente, slo seguir escribiendo en la misma lnea. Mientras que el uso interactivo es probablemente bueno para aprender, para un trabajo ms serio le recomiendo que prepare sus comandos en un "hacer archivo" y luego pedir Stata para ejecutarlo. Si nada ms, esto le ayudar a documentar su trabajo y asegurarse de que usted puede reproducir sus resultados. Estos registros fueron producidos utilizando los archivos de hacerlo.

Stata 8 introduce una interfaz grfica que le permite utilizar los mens y cuadros de dilogo para especificar su anlisis. Esta caracterstica puede ayudar a los principiantes aprender los comandos, pero te recomiendo que te acostumbras a escribir los comandos desde el principio, as que hacer una transicin fcil de hacer los archivos. En el mismo sentido, Stata 10 introdujo un editor de grficos que te permite modificar un grfico con un punto y hacer clic. Si bien esto es conveniente, una vez que haya editado un grfico interactivo que no puede reproducirlo. Stata 11 se movi en esta direccin mediante la introduccin de un administrador de variables que le permite modificar las etiquetas de variable y el valor y otras propiedades de las variables con un cuadro de dilogo. De una investigacin seria, sin embargo le recomiendo que haga todo el trabajo con los comandos almacenados en un archivo de hacerlo. El propsito de estas notas es para ilustrar el uso de Stata en el anlisis estadstico, no para proporcionar un manual o tutorial. Tengo, sin embargo, escribi un breve tutorial que se puede encontrar en http://data.princeton.edu/stata . Por favor, consulte la ayuda en lnea y los manuales de Stata para ms detalles.

Historial de revisionesLos "Registros de Stata" se public por primera vez en enero de 1993 y dirigido la versin 3. Las revisiones se realizaron a las versiones ms recientes de destino ms o menos cada dos aos. La versin de los objetivos actuales de la versin 11.

Modelos lineales en StataEmpezamos con los modelos lineales en el captulo 2 de los apuntes de clase, que muestra cmo utilizar el comando de regresin en Stata para ajuste de regresin, anlisis de varianza y anlisis de los modelos de covarianza.

2.1 Los datos del programa EsfuerzoPara una breve descripcin de los datos del programa esfuerzo ver las notas de clase o dirija su navegador a la bases de datos de pgina. Todos los conjuntos de datos utilizados en el curso ya estn disponibles como archivos Stata y se pueden leer directamente desde la web:. uso http://data.princeton.edu/wws509/datasets/effort (Familia datos relativos al esfuerzo de planificacin)

(Las bases de datos siguen estando disponibles como archivos de texto sin formato que se pueden leer con casi cualquier software. Por favor, consulte la pgina de bases de datos para obtener ms informacin. Los pasos que segu para crear esta base de datos particular, se documentan en mi tutorial de Stata .) Hagamos una lista de los datos para comprobar los tenemos en Aceptar:

.

pas list de esfuerzo de cambio, limpio 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. 12. 13. 14. 15. 16. 17. 18. 19. 20. campestre esfuerzo de cambio Bolivia 46 0 1 Brasil 74 0 10 Chile 89 16 29 Colombia 77 16 25 CostaRica 84 21 29 Cuba 89 15 40 DominicanRep 68 14 21 Ecuador 70 6 0 ElSalvador 60 13 13 Guatemala 55 9 4 Hait 35 3 0 Honduras 51 7 7 Jamaica 87 23 21 Mxico 83 4 9 Nicaragua 68 0 7 Panam 84 19 22 Paraguay 74 3 6 Per 73 0 2 TrinidadTobago 84 15 29 Venezuela 91 7 11

Lo siguiente que quiero hacer es representar grficamente los datos para ver de cerca. La importancia de familiarizarse con sus datos antes de realizar sofisticados anlisis no puede ser sobre-enfatizada. El siguiente comando crea diagramas de dispersin de todos los pares de variables, la reproduccin de la figura 2.1 en las notas.. grfico de cambio de matriz de ajuste de esfuerzo, / / / > Title ("Figura 2.1: Diagrama de dispersin Matrix") . fig21.png grfico de las exportaciones, reemplazar (Fig21.png archivo escrito en formato PNG) la anchura (400)

Despus de generar el grfico se puede imprimir utilizando el comando graph print , guardarlo en un formato propio de Stata con graph save , o exportarla a otros formatos

mediante grap export . He exportado el grfico de redes porttiles para raphics n RED g (PNG) para su inclusin en esta pgina web. Si desea importar el grfico en un programa de procesamiento de textos como Word que es mejor exportar a indows w m etafile f Ormat (WMF) o la variante mejorado (EMF). La ventaja de los formatos de metarchivo es que son los grficos vectoriales que pueden cambiar de tamao tras la inclusin en el documento. Los usuarios de Windows interactivo tambin puede imprimir el grfico, seleccione Archivo | Imprimir en el men grfico de Stata, o guardarlo en una variedad de formatos, seleccione Archivo | Guardar grfico. Alternativamente, usted puede elegir Editar | Copiar para copiar el grfico en el portapapeles y entonces Edicin | Pegar para insertarla en el procesador de textos favorito. Adems, el grfico puede verse un poco diferente a la ma, dependiendo del esquema que utilice. El valor por defecto se llama Stata s2color , pero lo ajustado un poco de usar un fondo blanco y con el color de los ttulos en esta pgina. Tipo de help scheme si usted est interesado en este tema.

2.4 Regresin lineal simpleComencemos con el modelo ms simple, el modelo nulo, que se ajusta slo una constante. regresin cambio

Fuente | SS df MS Nmero de obs = 20 -------------+------------------------------ F (0, 19) = 0.00 Modelo | 0 0. Prob> F =. Residual | 2650.2 19 139.4842 11 R-cuadrado = 0,0000 -------------+------------------------------ Adj R-cuadrado = 0,0000 Total | 2650.2 19 139.4842 11 Raz MSE = 11,81 -------------------------------------------------- --------------------------cambio | Coef. Enfermedades de transmisin sexual. Err. TP> | t | Conf. [95%. Intervalo] -------------+------------------------------------ --------------------------_cons | 14.3 2.640873 8.772589 19.82741 5.41 0.000 -------------------------------------------------- ---------------------------

Vemos que el descenso de la fecundidad promedio en estos pases entre 1965 y 1975 fue de 14,3%. Tambin recibimos los errores estndar y un intervalo de confianza. Si usted se est preguntando lo que estas estadsticas no significan que los 20 pases en cuestin no son en realidad una muestra aleatoria de los pases del mundo, ver la discusin del modelo de inferencia basada en las notas. En resumen, consideramos que los datos como una muestra del universo de todos los resultados que podran haber observado en estos pases en el perodo 1965-1970.

Montaje de un trmino lineal El siguiente paso es tratar de una regresin lineal de los cambios sobre la configuracin. establecer una regresin cambio

Fuente | SS df MS Nmero de obs = 20 -------------+------------------------------ F (1, 18) = 14,92 Modelo | 1201.07756 1201.07756 un Prob> F = 0,0011 Residual | 1449.12244 18 80.5068025 R-cuadrado = 0,4532 -------------+------------------------------ Adj R-cuadrado = 0,4228 Total | 2650.2 19 139.4842 11 Raz ECM = 8.9726 -------------------------------------------------- --------------------------cambio | Coef. Enfermedades de transmisin sexual. Err. TP> | t | Conf. [95%. Intervalo] -------------+------------------------------------ --------------------------configuracin | .5052063 .1307975 3.86 0.001 .2304109 .7800018 _cons | -22.12538 9.641562 -2.29 0.034 -42.38155 -1.869208 -------------------------------------------------- ---------------------------

Vemos que cada punto de la escala de ajuste social se asocia con un descenso de la fecundidad de la mitad de un por ciento. Comparar las estimaciones de parmetros con los de la tabla 2.3 y la tabla de ANOVA con los resultados en la Tabla 2.4 en las notas de clase. Computing R-Squared. Vamos a calcular el R-cuadrado "a mano" como la relacin entre el modelo de la suma total de cuadrados:. pantalla 1201.08/2650.2 .45320353

Vemos que casi la mitad de la variacin en el descenso de la fecundidad se puede expresar como un efecto lineal del entorno social. Stata almacena los resultados de varias de la regresin en el sistema de macros y escalares. Para ver una lista de todo lo que est almacenado despus de ejecutar una instruccin de estimacin como regress de tipo ereturn list . En particular, las sumas de cuadrados para el modelo residual y se guardan como e(mss) y e(rss) , y que podra haber calculado como R-cuadrado. pantalla e (SMS) / (e (SMS) + e (rss)) .45320261

Recomiendo el uso de las cantidades almacenadas cuando sea posible, porque los resultados son ms precisos y el proceso es menos propenso a errores. Representando los valores observados y equipada.

Vamos a tratar de reproducir la figura 2.3. Queremos trazar cambio de la fecundidad en comparacin con ajuste de etiquetado de los puntos con los nombres de pases y la superposicin de la lnea de regresin. Esto se puede hacer utilizando el graph twoway de comandos para combinar dos tipos de grficos (el uso de parntesis para cada parcela): scatter de la dispersin, y lfit para la lnea de mnimos cuadrados. Para etiquetar los puntos se utiliza el diagrama de dispersin mlabel opcin, especificando la variable que tiene los nombres de pases. El nico problema que si se intenta el comando hasta el momento es que se pueden ver algunos de sobreimpresin. Para resolver este problema usamos el mlabv opcin para definir la posicin de las etiquetas, utilizando una variable que define la posicin de tres por defecto, once de TrinidadTobago, y nueve de Costa Rica. Esto produce el resultado que se muestra en la Figura 2.3:. generacin pos = 3

. reemplazar pos = 11 si el pas == "TrinidadTobago" (1 cambio real se) . reemplazar pos = 9 si el pas == "CostaRica" (1 cambio real se) . grfico de dos vas (ajuste de dispersin cambio, mlabel (pas) mlabv (pos)) / / / > (Ajuste lfit cambio, la leyenda (off)) / / / > Title ("Figura 2.3: el cambio de fecundidad por entorno social") . fig23.png grfico de las exportaciones, reemplazar (Fig23.png archivo escrito en formato PNG) la anchura (400)

Ejercicio: Ejecutar el modelo de regresin lineal simple para el cambio de la fecundidad en funcin del esfuerzo del programa, y la trama de los resultados.

2.5 Regresin mltipleVamos a tratar de un modelo de regresin mltiple con efectos lineales y aditivos de entorno social y esfuerzo del programa:. cambio de configuracin de regresin esfuerzo

Fuente | SS df MS Nmero de obs = 20 -------------+------------------------------ F (2, 17) = 23,96 Modelo | 1956.19433 2 978.097163 Prob> F = 0,0000 Residual | 17 40.8238632 694.005675 R-cuadrado = 0,7381 -------------+------------------------------ Adj R-cuadrado = 0,7073 Total | 2650.2 19 139.4842 11 Raz ECM = 6.3894 -------------------------------------------------- --------------------------cambio | Coef. Enfermedades de transmisin sexual. Err. TP> | t | Conf. [95%. Intervalo] -------------+------------------------------------ --------------------------configuracin | .2705885 .1079405 2.51 0.023 0.042854 0.498323 esfuerzo | .9677137 .2250074 .4929895 4.30 0.000 1.442438 _cons | 7.093841 -14.4511 -29.41779 -2,04 0,058 0,5155975 -------------------------------------------------- ---------------------------

Comparar los coeficientes de la Tabla 2.5 y el anlisis de varianza con la Tabla 2.7. Las estimaciones sugieren que el descenso de la fecundidad aumenta con el entorno social, alrededor de un cuarto de punto porcentual por cada punto de ajuste, cuando se comparan pases con el mismo esfuerzo. Del mismo modo, la disminucin de la fertilidad de un punto porcentual por cada punto ms de esfuerzo del programa, cuando se comparan pases con el mismo medio social. Es importante tener en cuenta que ambas conclusiones se basan en el modelo, que asume la linealidad y aditividad. De hecho, no podemos comparar a los pases que difieren exactamente en un punto en el esfuerzo y tener el mismo valor, por lo que la bondad del ajuste ser una preocupacin central. Tambin es posible que tenga en cuenta que yo trato de evitar el uso de lenguaje causal para describir los datos de observacin. Las correlaciones parciales. Asegrese de que sabe cmo reproducir el anlisis de varianza jerrquico en la Tabla 2.8 en las notas. Vamos a ver la correlacin parcial que aparece en la pgina 27. Aqu est el coeficiente o el cambio y controlar el esfuerzo de ajuste:. pantalla "correlacin parcial =" sqrt ((1.449,1 a 694) / 1449.1) correlacin parcial = .72186013

Cuadratura este coeficiente, vemos que los esfuerzos del programa se asocia con la mitad de la variacin de la izquierda en el descenso de la fecundidad en los pases con un mismo medio social. (Es comn decir que "despus de controlar el entorno social", pero por supuesto que no son capaces de manipular cualquiera de estas variables.)

Podramos haber calculado la correlacin parcial con Stata pcor comandos, lo que es posible que desee para tratar de verificar nuestro resultado, pero el clculo anterior muestra ms claramente lo que estamos haciendo. Tambin, podramos haber utilizado cantidades almacenadas, si tan slo tuviramos almacenada la suma de los cuadrados residual del modelo anterior en un escalar.

2.6 Una forma de anlisis de varianzaVamos a grupo de ajustes sociales en categoras. Primero haremos una copia, que voy a llamar setting_g de entorno social agrupado. (Cada uno tiene sus propias convenciones para nombrar variables. Trato de mantener los nombres de variable a corto, en minsculas, y esperemos que no sea demasiado crptica. Debido a que estamos recin empezando me har hincapi en la "no muy crptica" parte, de lo contrario podra haber utilizado ssg . Stata permite a los nombres de las variables a tener hasta 32 caracteres, pero la mayora de los comandos de impresin slo 12, as que lo mejor es ceirse a un mximo de 12.). generar setting_g ajuste =

Entonces lo recodifican en las categoras F = 0,0000 Residual | 15 24.159621 362.394315 R-cuadrado = 0,8633 -------------+------------------------------ Adj R-cuadrado = 0,8268 Total | 2650.2 19 139.4842 11 Raz ECM = 4.9152 -------------------------------------------------- --------------------------cambio | Coef. Enfermedades de transmisin sexual. Err. T P> | t | Conf. [95%. Intervalo] -------------+------------------------------------ --------------------------configuracin | .1969659 .0911353 2.16 0.047 .0027155 .3912163 effort_mod | 3.785032 2.739944 1.38 0.187 9.625084 -2.05502 effort_str | 11.66637 4.380003 2.330614 21.00212 2.66 0.018 Atkinson | .5916301 .2275638 .1065895 2.60 0.020 1.076671

_cons | -3.858157 6.197538 9.351583 -17.0679 -0,62 0,543 -------------------------------------------------- ---------------------------

El coeficiente de la variable auxiliar es de 0,59, por lo que la potencia ptima es de aproximadamente 1-0,59 = 0,41, lo que sugiere una vez ms que algo as como una transformacin de raz cuadrada pueden ser indicados. Los asociados estadstico t es significativo al nivel del dos por ciento, pero la relacin ms precisa la probabilidad estadstica de prueba calculada anteriormente era slo marginal. Por lo tanto, no tenemos una fuerte evidencia en contra de mantener la respuesta en la escala original. Ejercicio 1: Pruebe el procedimiento de Box-Tidwell de la ecuacin 2.32 en las notas para ver si una transformacin del entorno social estara indicada. Ejercicio 2: Ejecutar boxcox de estimacin ptima (y posiblemente diferentes) las transformaciones de cambio y ajuste, pero obviamente no es de los dos maniques que representan los niveles de esfuerzo.

3 Modelos Logit en StataStata tiene varios comandos que se pueden utilizar para ajustar modelos de regresin logstica de mxima verosimilitud. Los comandos bsicos son logit para datos individuales y blogit para datos agrupados. Tambin hay una logistic de comandos que se presentan los resultados en trminos de nmero impar de ratios en lugar de log odds y puede producir una variedad de resumen y las estadsticas de diagnstico. Finalmente, se puede ajustar un modelo de regresin logstica como un caso especial de un modelo lineal generalizado con Bernoulli o errores logit binomial y enlace, utilizando el glm comando. Tendremos ocasin de utilizar todos estos comandos, pero se har hincapi en los dos primeros.

3.3 La comparacin de dos gruposA raz de las notas de clase vamos a considerar comparando dos grupos y luego pasar a ms de dos. Una tabla de 2 por 2 Considere los datos sobre el uso de anticonceptivos por el deseo de tener ms hijos en la tabla 3.2 (pgina 14 de las notas). Podemos leer estos datos en Stata como dos observaciones binomial. Para hacer la vida ms fcil que se introduzca el deseo de tener ms hijos como una variable dicotmica que toma el valor 1 para las mujeres que desean tener ms hijos y 0 en caso contrario. los usuarios de entrada nomore n 1. 2. 3. nomore n usuarios 0 219 972 1 288 635 final

Pruebas Homegeneity vamos a empezar por el ajuste del modelo nulo. Con blogit se especifica el resultado en trminos de el nmero de 'xitos' y el denominador binomial, aqu users y n :. usuarios BlogIt n

Nmero de regresin logstica para datos agrupados de obs = 1607 LR chi2 (0) = 0,00 Prob> chi2 =. Registro de probabilidad = -1001.8468 Pseudo R2 = 0,0000 -------------------------------------------------- --------------------------_outcome | Coef. Enfermedades de transmisin sexual. Err. z P> | z | Conf. [95%. Intervalo] -------------+------------------------------------ --------------------------_cons | -. 7745545 .0536794 -14,43 0.000 -. 8797641 -. 6693448 -------------------------------------------------- ---------------------------

La estimacin de la constante no es ms que el logit de la proporcin global de uso de anticonceptivos, por ejemplo S / N, y el error estndar es la raz cuadrada de 1 / y + 1 / (NY). Es posible que desee comprobar estos resultados con la mano. Stata blogit no calcula la desviacin del modelo, pero podemos obtener "a mano" con predict para obtener cargos instalar:. predecir pusers (Opcin n asumidos; E (casos)) . generacin de di = 2 * (* log usuarios (usuarios / pusers) + (nusuarios) * log ((n-usuarios) / (n-pusers))) . generacin de DI = suma (di)

. pantalla "Desviacin =" DI [_N] Desviacin = 91.674393

Por lo que la desviacin es de un 91,67 grados de libertad, proporcionando pruebas de que el modelo nulo no se ajusta a los datos. Por lo tanto, rechazamos la hiptesis de que la probabilidad de uso de anticonceptivos es el mismo en los dos grupos. Pruebe con un mtodo similar para calcular Pearson chi-cuadrado, usted debe obtener 92,64. Alternativamente, usted puede ajustar el modelo utilizando glm , que depende tanto de la desviacin y de Pearson chi-cuadrado por defecto. Voy a hacer esto en silencio y slo informe de los resultados correspondientes almacenados, e(deviance) de la desviacin y la e(deviance_p) para la estadstica de Pearson.. los usuarios en silencio glm, la familia (binomial n)

. pantalla e (desviacin), e (deviance_p) 91.674397 92.644243

El Odds Ratio Veamos ahora el ajuste del modelo con 'quiero ms' los nios como el predictor. Este modelo est saturado de este conjunto de datos, utilizando dos parmetros de modelo de dos probabilidades:. usuarios BlogIt n nomore

Nmero de regresin logstica para datos agrupados de obs = 1607 LR chi2 (1) = 91,67 Prob> chi2 = 0.0000 Registro de probabilidad = -956.00957 Pseudo R2 = 0,0458 -------------------------------------------------- --------------------------_outcome | Coef. Enfermedades de transmisin sexual. Err. z P> | z | Conf. [95%. Intervalo] -------------+------------------------------------ --------------------------nomore | 1.048629 0.110672 1.265542 9.48 0.000 .8317159 _cons | 0.0767739 -1.234993 -1.385468 -1.084519 0.000 -16,09 -------------------------------------------------- --------------------------. di exp (_b [nomore]) 2.8537363

La constante corresponde a la probabilidad de inicio de sesin de uso de anticonceptivos entre whomen que desean tener ms hijos, y el coeficiente de nomore es la diferencia en el diario de probabilidades entre los dos grupos. Exponentiating este coeficiente se obtiene un odds ratio de alrededor de tres. Contrariamente a la creencia popular, esto no significa que "las mujeres que quieren tener ms hijos tienen tres veces ms probabilidades de usar anticonceptivos". Hay dos errores en esta interpretacin. En primer lugar, y lo ms importante, es la probabilidad de uso de anticonceptivos entre las mujeres que no desean ms hijos que son tres veces superiores a las de las mujeres que quieren ms, no la probabilidad, que es lo que generalmente se entiende por "probabilidad". La interpretacin sera aproximadamente correcto si el caso objeto de estudio era raro, ya que si p es pequeo, entonces 1-p est cerca de uno y el odds ratio es aproximadamente el mismo que el riesgo relativo. Aqu las proporciones observadas son 0,454 y 0,225, y la proporcin es de 2,01, por lo que las mujeres que no desean ms hijos tienen el doble de probabilidades de usar mtodos anticonceptivos como los que quieren ms. En segundo lugar, aun cuando la probabilidad se triplic, que hara que las mujeres tres veces ms probabilidades, o dos veces ms probablemente, a usar anticonceptivos, no tres veces ms probable. En este caso, la probabilidad se duplica, y que hace a las mujeres dos veces ms probable es que no, dos veces ms probable. Pruebas de significacin El estadstico z es como se informa en la pgina 16 de las notas. Vamos a plaza:

. di (_b [nomore] / _se [nomore]) ^ 2 89.777623

Esta es la chi-cuadrado de Wald estadstica para la hiptesis de que el coeficiente de nomore es cero, o equivalentemente que el odds-ratio es uno, y se puede calcular ms el simple uso de Stata test comando:. prueba nomore (1) [_outcome] nomore = 0 chi2 (1) = 89,78 Prob> chi2 = 0.0000

La chi2 estadstica reportada por Stata en la segunda lnea de salida es el cociente de probabilidad chi-cuadrado comparando el modelo actual con el modelo nulo. Puede usted explicar por qu nos 91.67, que es la desviacin del modelo nulo Pista: Cul es la desviacin de este modelo? Una tercera prueba del efecto de la escasez no est dada por la chi-cuadrado de Pearson, que se calcul anteriormente como 92,64. Esto es equivalente a la norma de prueba z para comparar dos proporciones si se utiliza la proporcin en comn para estimar el error estndar. Los tres estadsticas son diferentes, pero son asintticamente equivalentes. En nuestro ejemplo, que estn muy cerca en valor y dar lugar al rechazo misma mayora de la hiptesis de que la probabilidad de uso de anticonceptivos es el mismo en los dos grupos. Intervalos de confianza Stata es tan amable de darnos un intervalo de confianza del 95% de los coeficientes logit. Podemos convertir el intervalo para el coeficiente de nomore en un IC del 95% para el odds ratio por exponentiating los lmites de confianza:. exp di (0.831716) "-" exp (1.265542) 2.2972575-3.5450136

Una manera ms fcil es escribir blogit, or . El blogit comando sin ningn tipo de variables, como todos los comandos de estimacin, simplemente recupera los resultados del ajuste anterior. La opcin or es la abreviatura de o dds-r ATIO y las causas de Stata para informar coeficientes exponentes (y omitir la constante):. BlogIt, o

Nmero de regresin logstica para datos agrupados de obs = 1607 LR chi2 (1) = 91,67 Prob> chi2 = 0.0000 Registro de probabilidad = -956.00957 Pseudo R2 = 0,0458 -------------------------------------------------- --------------------------_outcome | cuotas estndar Ratio. Err. z P> | z | Conf. [95%. Intervalo]

-------------+------------------------------------ --------------------------nomore | 2.853736 .3158288 9.48 0.000 2.297257 3.545015 -------------------------------------------------- ---------------------------

El error estndar de la odds ratio se calcula por el mtodo delta, pero los lmites de confianza se calcula como el exponentiating de los lmites en la escala logit, no por Addding y restando dos veces el error estndar de la odds ratio. Esto se hace porque la aproximacin normal es ms preciso (y tiene ms sentido) en la escala logit, que no tiene restricciones de rango. Ejercicio. Calcular la convencional prueba z para comparar las proporciones de uso de anticonceptivos en los dos grupos y verificar que el cuadrado coincide con la chicuadrado de Pearson.

3.4 La comparacin de varios gruposLas ideas se extienden fcilmente a ms de dos grupos. Vamos a ilustrar el uso de los datos sobre el uso de anticonceptivos por edad, donde se comparan los cuatro grupos. Una tabla k por dos Estos son los datos en la pgina 18 de las notas, entr en cuatro grupos de edad. clara. los usuarios de entrada n AGEG usuarios AGEG n 1. 1 72 397 2. 2 105 404 3. 3 237 612 4. 4 93 194 5. finales. definir una etiqueta AGEG " chi2 = 0.0000 chi2 (5) =

Iteracin Iteracin Iteracin Iteracin Iteracin

Nmero de regresin logstica de obs = 1607

Registro de probabilidad = -933.9192 Pseudo R2 = 0,0678 -------------------------------------------------- --------------------------Cuse | Coef. Enfermedades de transmisin sexual. Err. z P> | z | Conf. [95%. Intervalo] -------------+------------------------------------ --------------------------edad | 2 | 0,3893816 0,1758501 0,0447219 0,7340414 2,21 0.027 3 | 0,9086135 0,1646211 0,5859621 1,231265 5,52 0.000 4 | 1.189239 0.21443 1.609514 5.55 0.000 .7689639 | educ | .3249947 .1240355 2.62 0.009 .0818894 .5680999 nomore | .8329548 .1174705 .6027169 7.09 0.000 1.063193 _cons | 0.1720307 -1.966169 -2.303343 -1.628995 0.000 -11,43 -------------------------------------------------- --------------------------. di exp (_b [educ]) 1.3840232

El uso de anticonceptivos es diferente por cada uno de estos factores, incluso cuando se comparan mujeres que estn en las mismas categoras de los otros dos. Por ejemplo, la probabilidad de uso de anticonceptivos son un 38% mayor entre las mujeres con algn tipo de educacin que entre las mujeres sin educacin en el mismo grupo de edad y la categora del deseo de ms hijos. La desviacin de 29,92 a 10 grados de libertad nos dice que este modelo no se ajusta a los datos, por lo que la suposicin de que las diferencias logit por una variable son las mismas en categoras de los otros dos es sospechoso. El modelo de interaccin Efecto Uno De los tres modelos con un trmino de interaccin, la que logra la mayor mejora en el ajuste en comparacin con el modelo aditivo es el modelo con una edad de no ms interaccin, donde la diferencia de logits entre las mujeres que quieren y no desean tener ms hijos vara por la edad. El estndar de referencia de clulas parametrizacin se puede obtener fcilmente utilizando las variables de factor:. logit i.age Cuse # # c.nomore educ [fw = n] 0: 1: 2: 3: 4: log = probabilidad -1001,8468 log = probabilidad -926.33767 registro de probabilidad = -925.27593 probabilidad log = -925.27536 log = probabilidad -925.27536 LR 153,14 Prob> chi2 = 0.0000 Registro de probabilidad = -925.27536 Pseudo R2 = 0,0764 chi2 (8) =



-------------------------------------------------- --------------------------Cuse | Coef. Enfermedades de transmisin sexual. Err. z P> | z | Conf. [95%. Intervalo] -------------+------------------------------------ --------------------------edad | 2 | 0,3946039 0,2014504 1,96 0.050 -. 0002315 .7894394 3 | 0,5466635 0,1984206 0,1577663 0,9355607 2,76 0.006 4 | 0,5795235 0,3474172 1,67 0.095 -. 1014017 1.260449 | nomore | .0662197 .3307064 0.20 0.841 -. 5819529 .7143922 | edad # c.nomore | 2 | 0.25918 0.4097504 0.63 0.527 -. 5439161 1.062276 3 | 1.112662 0.3740433 0.3795507 1.845773 2.97 0.003 4 | 1.361674 0.4843256 0.4124134 2.310935 2.81 0.005 | educ | .3406479 .1257653 2.71 0.007 .0941525 .5871432 _cons | 0.1801786 -1.803172 -2.156315 -1.450028 0.000 -10,01 -------------------------------------------------- --------------------------. di exp (_b [nomore]), exp (_b [4.age # c.nomore]), / / / > Exp (_b [nomore] + _b [4.age # c.nomore]) 1.0684614 3.902721 4.1699068

Asegrese de saber cmo interpretar todos estos coeficientes. Por ejemplo, la razn de las ventajas del uso de anticonceptivos entre las mujeres que quieren tener ms hijos con respecto a aquellos que quieren ms en la misma categora de la educacin es de 1,07 entre las mujeres menores de 25 aos, pero 3,9 veces ms (dando una odds ratio de 4,1) entre los las mujeres en sus cuarentas. Para ayudar en la interpretacin y la crtica modelo que puede representar la logits observados y equipada, reproduciendo eficazmente la Figura 3.4. Porque vamos a necesitar ms de una parcela que se encapsulan los clculos en un comando de pof , por mucho bserved o p y f equipado. As que aqu est el comando:. . capturar pof programa cada

programa define pof 1. args obs ajuste ms 2. dos vas / / / > (Dispersin 'obs' agem (verde)) / / / > (Dispersin 'obs' agem (rojo)) / / / > (Dispersin 'obs' agem (verde)) / / / > (Dispersin 'obs' agem (rojo)) / / / > (Lnea 'ajuste' agem si (verde)) / / / > (Lnea 'ajuste' agem si (rojo)) / / / > (Lnea 'ajuste' agem si moneda local (verde)) / / / > (Lnea 'ajuste' agem si moneda local (rojo)) / / /

si educ == 0 & nomore == 0, ms (D) mc si educ == 0 & nomore == 1, ms (T) mc si educ == 1 & nomore == 0, ms (C) mc si educ == 1 & nomore == 1, ms (S) mc educ == 0 & nomore == 0, lp (guin) lc educ == 0 & nomore == 1, lp (guin) lc educ == 1 & nomore == 0, lp (slido) en educ == 1 & nomore == 1, lp (slido) en

>, El ttulo ("el uso de anticonceptivos por edad, educacin, y las preferencias") / / / > XTitle (edad) ytitle (logit) leyenda (filas (2) / / / Para> (1 "UNED /" 2 "UNED /" 3 "educ /" 4 "educ /" / / / > 5 "ms" 6 "no ms" 7 "ms" 8 "no ms")) `more ' 3. final

La trama combina cuatro diagramas de dispersin y cuatro trazos de lnea, uno para cada subgrupo definido por la educacin y el deseo de ms hijos. El comando toma como argumentos los nombres de las variables con el valor observado y ajustado y una cadena opcional que se pasa a lo largo como una opcin para el comando de dos vas grfico. Utiliza los mismos marcadores como en las notas, pero con lo que espero sea una leyenda ms As que aqu est nuestra primera parcela. predecir lfit31, xb

. pof obs3 lfit31 "subttulo (modelo con la edad por la interaccin Preferencias)" (Nota: el estilo llamado C no se encuentran en smbolo de la clase, atributos por defecto utilizado . fig34.png grfico de las exportaciones, reemplazar (Fig34.png archivo escrito en formato PNG) la anchura (500)

A menudo me encuentro la interpretacin de las interacciones es ms directo si los combina con los efectos principales. Aqu est el mismo modelo que muestra la diferencia en logits por el deseo de tener ms hijos en cada grupo de edad, reproducir los resultados en la Tabla 3.15. generacin nomo_at1524 = nomore * (edad == 1)

. . . .

generacin nomo_at2529 = nomore * (edad == 2) generacin nomo_at3039 = nomore * (edad == 3) generacin nomo_at4049 = nomore * (edad == 4) logit Cuse i.age educ nomo_at * [fw = n] 0: 1: 2: 3: 4: log = probabilidad -1001,8468 log = probabilidad -926.33767 registro de probabilidad = -925.27593 probabilidad log = -925.27536 log = probabilidad -925.27536 LR chi2 (8) =


Nmero de regresin logstica de obs = 1607 153,14 Prob> chi2 = 0.0000 Registro de probabilidad = -925.27536 Pseudo R2 = 0,0764 -------------------------------------------------- --------------------------Cuse | Coef. Enfermedades de transmisin sexual. Err. z P> | z | Conf. [95%. Intervalo] -------------+------------------------------------ --------------------------edad | 2 | 0,3946039 0,2014504 1,96 0.050 -. 0002315 .7894394 3 | 0,5466635 0,1984206 0,1577663 0,9355607 2,76 0.006 4 | 0,5795235 0,3474172 1,67 0.095 -. 1014017 1.260449 | educ | .3406479 .1257653 2.71 0.007 .0941525 .5871432 nomo_at1524 | 0,0662197 0,3307064 0,20 0.841 -. 5819529 .7143922 nomo_at2529 | 0,3253996 0,2419217 1,35 0,179 -. 1.487.581 0.7995574 nomo_at3039 | 1.178882 0.836247 0.1748169 6.74 0.000 1.521517 nomo_at4049 | 1.427894 0.3538467 0.7343668 2.121421 4.04 0.000 _cons | 0.1801786 -1.803172 -2.156315 -1.450028 0.000 -10,01 -------------------------------------------------- --------------------------. di exp (_b [educ]) 1.4058581 . Mata exp (st_matrix ("e (b)") [6 .. 9]) 1 2 3 4 +------------------------------------------------- --------+ 1 | 1,068461402 1,384583879 3,250737129 4,169906768 | +------------------------------------------------- --------+

Tenga en cuenta la forma en que libremente se puede mezclar variables de factor de la edad con maniques codificados a mano por los efectos de querer tener ms hijos en cada edad. Nos encontramos con probabilidades del 34% ms alto de uso de anticonceptivos entre las mujeres con algn tipo de educacin en comparacin con las mujeres sin educacin en el mismo grupo de edad y la categora del deseo. Tambin vemos que las posibilidades de uso de anticonceptivos entre las mujeres que no desean ms hijos son mayores que entre las mujeres que desean tener ms hijos en la misma edad y categora de la educacin, 7% ms alto en 25 aos de edad, un 38% superior a la edad de 25 a 29, tres veces mayor para las mujeres en sus treinta y cuatro veces ms alta entre las mujeres en sus cuarentas.

(En caso de que usted se est preguntando por qu los coeficientes de no ms de diversas edades se encuentran en las posiciones 6-9 en lugar de 5 a 8, cuenta que cuando se utilizan variables del factor de Stata almacena el coeficiente de la celda de referencia, con un valor de cero, como parte de e(b) .) Este modelo pasa por la bondad convencional de pruebas de ajuste y por lo tanto proporciona una descripcin razonable de uso de anticonceptivos por edad, educacin, y el deseo de tener ms hijos. Todas las tres interacciones de dos factores Como se explica en las notas, hay alguna evidencia de que la educacin puede interactuar con las otras dos variables. El modelo con las tres interacciones de dos factores proporciona el mejor ajuste, con una desviacin de 2,44 en tres grados de libertad, pero es mucho ms complejo. En lugar de estimaciones de los parmetros actuales, voy a reproducir la figura 3.5, que ofrece algunas pistas sobre cmo el modelo puede ser simplificado. Gracias a nuestra pof mando es ahora una tarea fcil:. silencio logit Cuse i.age educ nomore / / / > I.age # # c.educ i.age c.nomore c.educ # c.nomore [fw = n] . predecir lfit32, xb

. pof obs3 lfit32 "subttulos (Todas las interacciones de dos factores)" (Nota: el estilo llamado C no se encuentran en smbolo de la clase, atributos por defecto utilizado . fig35.png grfico de las exportaciones, reemplazar (Fig35.png archivo escrito en formato PNG) la anchura (500)

Una imagen realmente vale ms que mil palabras. Vemos que entre las mujeres que no desean tener ms hijos el uso de anticonceptivos aumenta casi linealmente con la edad (en la escala logit), sin diferencias por educacin, excepto en el grupo de mayor edad donde el uso se aplana para las mujeres sin educacin. Entre las mujeres que desean tener ms hijos el uso de anticonceptivos es generalmente ms bajo, aumenta ms lentamente con la edad, hay algunas diferencias en la educacin, y estos son ms altas entre las mujeres mayores. Tambin hay una pista de curvatura por edad para las mujeres sin educacin que desean tener ms hijos. Un modelo parsimonioso Estas observaciones sugieren maneras de simplificar el modelo. Las interacciones de edad son muy simples: el aumento con la edad es ms pronunciada entre las mujeres que no desean ms hijos, y la diferencia por la educacin es mayor entre las mujeres en sus cuarentas. Del mismo modo, la diferencia de educacin es mayor en el uso de espacio y entre las mujeres mayores. Una forma de capturar estas caractersticas es el uso de una ecuacin cuadrtica de la edad, permitir que la pendiente (pero no la curvatura) que varan segn el deseo de ms hijos, e introducir efectos de la educacin slo por espacio y despus de los 40 (y no tanto para limitar antes de 40 aos de edad). Para facilitar la interpretacin de los parmetros resultantes de edad que se centran alrededor de 30:. . . . generacin agemc = AGEM-30 generacin agemcsq agemc = ^ 2 generacin educ_spacing = educ * (1-nomore) generacin educ_at40p = educ * (edad == 4)

As que aqu es un modelo ms parsimonioso. logit Cuse c.agemc # # c.nomore agemcsq c.educ_spacing educ_at40p [fw = n] Iteracin Iteracin Iteracin Iteracin Iteracin 0: 1: 2: 3: 4: log = probabilidad -1001,8468 log = probabilidad -923.04064 registro de probabilidad = -921.89423 probabilidad log = -921.89297 log = probabilidad -921.89297 LR 159,91 Prob> chi2 = 0.0000 Registro de probabilidad = -921.89297 Pseudo R2 = 0,0798 -------------------------------------------------- --------------------------Cuse | Coef. Enfermedades de transmisin sexual. Err. z P> | z | Conf. [95%. Intervalo] -------------+------------------------------------ --------------------------agemc | .0247552 .0118884 2.08 0.037 .0014543 .0480561 nomore | .9804174 .1790475 .6294907 5.48 0.000 1.331344 chi2 (6) =


| c.agemc # | c.nomore | 0,058961 0,0183799 0,0229371 0,0949849 3,21 0.001 | agemcsq | -. 0034306 .0010318 -3.32 0.001 -. 0054529 -. 0014083 educ_spacing | 0,432112 0,1808991 0,0775563 0,7866677 2,39 0.017 educ_at40p | 0,9798156 0,3462926 0,3010945 1,658537 2,83 0.005 _cons | 0.1578254 -1.339265 -1.648597 -1.029933 0.000 -8,49 -------------------------------------------------- --------------------------. di "desviacin =" 2 * (slogL - e (ll)) "en" (SDF-e (df_m)) "df" desviacin = 5.8647683, el 9 de df

Este modelo tiene slo siete parmetros y una desviacin de 5,9 a 9 grados de libertad, por lo que es mucho ms simple que el modelo anterior y se ajusta bastante bien. Obviamente no podemos tomar el examen en serio, porque no especificamos estos trminos por adelantado, pero el ejercicio muestra cmo se puede simplificar un modelo de captura de sus caractersticas esenciales. Antes de interpretar los coeficientes nos dejaron registrarnos los valores ajustados. predecir lfit33, xb

. pof obs3 lfit33 "subttulo (un modelo simplificado)" (Nota: el estilo llamado C no se encuentran en smbolo de la clase, atributos por defecto utilizado . fig35b.png grfico de las exportaciones, reemplazar (Fig35b.png archivo escrito en formato PNG) la anchura (500)

Vemos que el modelo proporciona casi el mismo ajuste que el modelo mucho ms complejo de la subseccin anterior. Volviendo a las estimaciones de los parmetros, vemos que el uso de anticonceptivos en general, aumenta con la edad, con un

incremento en la probabilidad de alrededor del 2,5 por ciento a los 30 aos (menos en las edades jvenes y mayores, con las diferencias se indican a continuacin despus de 40 aos de edad). Uso es mucho mayor entre las mujeres que desean tener ms hijos, con un odds ratio de 2,7 a los 30 aos, el aumento de seis por ciento por ao de edad. Las mujeres con algn tipo de educacin tienen ms probabilidades de utilizar anticonceptivos para fines de espaciado, con un odds ratio de 1,5, y tambin son ms propensos a utilizar, ya sea para espaciar o limitar despus de 40 aos de edad, con un odds ratio de 2,7 (lo que hace que el odds ratio de la educacin para separadores despus de los 40 justo por encima de cuatro). Simplificaciones modelo alternativo se dan en las notas.

3.7 Otras opciones de EnlaceDos notas breves sobre la formulacin de variables latentes de los modelos de respuesta binaria y el uso de enlaces alternativos. En primer lugar, diagrama en tres diferentes eslabones de una escala estandarizada. En segundo lugar se comparan las estimaciones logit y probit para un modelo de uso de anticonceptivos. Tres Funciones de enlace Vamos a reproducir la figura 3.7, que muestra el logit, probit y log-log complementario vnculo despus de la normalizacin de la variable latente por lo que tiene media 0 y varianza 1. El enlace probit se basa en la distribucin normal estndar que ya est estandarizado. El enlace logit se basa en la distribucin estndar de logstica, que tiene media 0 y varianza 2 / 3. El enlace C-log-registro se basa en el valor extremo (log de Weibull) de distribucin con una media de 0,577 y la varianza 2 / 6.. / > | | Funcin y = invlogit (x * _pi / sqrt (3)), el rango (-2 2) LPAT (punto) / / / > | | La funcin y = 1-exp (-exp (-0,577 + x * _pi / sqrt (6))), el rango (-2 2) LPAT (guin) / / / >, El ttulo ("Figura 3.7: Probit, Logit y enlaces C-log-log") / / / > Subttulos (estandarizados) / / / > Leyenda (para (1 "probit" 2 "logit" 3 "cloglog") cols (1) anillo (0) puntos de venta (5)) . fig37.png grfico de las exportaciones, reemplazar (Fig37.png archivo escrito en formato PNG) la anchura (500) dos vas funcin y = normal (x), alcance (-2 2) LPAT (slidos) / /

Como usted puede ver los enlaces de logit y probit son prcticamente indistinguibles. El enlace C-log-log se ve diferente, pero an se necesitan tamaos de muestra muy grande para ser capaz de distinguir de los dems. Un modelo Probit Vamos a ajustar un modelo probit de los datos sobre el uso de anticonceptivos por edad y deseo de ms hijos. Siguiendo las notas vamos a recoger el pliego de condiciones donde la edad es tratada de forma lineal y que incluyen un itneraction entre la edad y el deseo de tener ms hijos. Para simplificar la interpretacin de la interaccin nos centramos en la edad de 30 aos.. probit Cuse agemc nomore nomoreXagemc [fw = n] Iteracin 0: probabilidad log = -1001,8468 Iteracin 1: probabilidad log = 933.53639 Iteracin 2: Las probabilidades log = -933.46331 Iteracin 3: probabilidad log = -933.46331 Nmero de regresin probit de obs = 1607 LR chi2 (3) = 136,77 Prob> chi2 = 0.0000 verosimilitud = 933.46331 Pseudo R2 = 0.0683 ------------------------------ ----------------------------------------------- Cuse | Coef. Enfermedades de transmisin sexual. Err. z P> | z | Conf. [95%. Intervalo] ------------+---------------------------------- ----------------------------- agemc | .0128686 .0060884 2.11 0.035 .0009356 .0248017 nomore | 0,4389759 0,0744411 5,90 0.000 0.293074 0.5848777 nomoreXagemc | 0,0304807 0,0092269 0,0123963 0,0485651 3,30 0,001 _cons | -. 7374078 .0453175 -16,27 0.000 -. 8262284 -. 6485872 ------------------ ------------------------------------------------- ----------. b_probit mat = e (b)

Coeficientes probit se puede interpretar en trminos de una variable latente estandarizados que representan una tendencia a utilizar mtodos anticonceptivos, o la diferencia de utilidades esperadas entre usar y no usar mtodos anticonceptivos.

Vemos que la tendencia entre las mujeres que desean tener ms hijos aumenta con la edad a una tasa de poco ms de una dcima parte de una desviacin estndar por ao. Ms interesante an, la tendencia es de 0,44 desviaciones estndar ms alto entre las mujeres que no desean ms hijos que entre aquellos que quieren ms a los 30 aos. Esta diferencia se incrementa en 0,03 desviaciones estndar por ao de edad, por lo que es de 0,13 desviaciones estndar a los 20 aos, pero 0,74 desviaciones estndar a los 40 aos. Como resultado, la propensin al uso de anticonceptivos entre las mujeres que quieren tener ms hijos es de 0,04 desviaciones estndar superior al ao de edad. Puede ser interesante comparar los coeficientes logit y probit. Una forma de comparar es dividir los coeficientes logit de / &sqrt; (3) = 1,8. Esto normaliza la variable latente de logstica a tener una variacin, por lo que los coeficientes tienen la misma interpretacin. Las dos primeras columnas de la tabla a continuacin muestra que los dos conjuntos de coeficientes son, de hecho, muy similares. . . . silencio logit Cuse agemc nomore nomoreXagemc [fw = n] estera b_logit = e (b) ' estera tanto b_probit =, b_logit * sqrt (3) / _pi, b_logit/1.6 estera lista tanto

ambos [4,3] y1 y1 y1 Cuse: .01286865 .01203162 .01363934 agemc Cuse: .43897587 .40176119 .45544636 nomore Cuse: .02645902 .02999459 .0304807 nomoreXagemc Cuse: _cons -. -. 73740779 66570995 75466518 -.

Gelman y Hill, despus de Amemiya, recomienda dividir por 1,6. Este factor fue elegido por ensayo y error para hacer la aproximacin de logstica transformado la distribucin normal estndar en un amplio dominio. Como se muestra en la tercera columna anterior, se da una aproximacin un poco ms cerca de los coeficientes probit en nuestro ejemplo, sobre todo para el trmino de interaccin. Por supuesto, la diferencia entre dividir por 1,8 o 1,6 no va a ser grande.

3.8 Diagnstico de regresin para datos binariosConsideremos ahora el diagnstico de regresin para datos binarios, se centra en modelos de regresin logstica. Vamos a trabajar con el modelo aditivo de uso de anticonceptivos por edad, educacin, y el deseo de tener ms hijos, que sabemos que es insuficiente. Patrones en las covariables Stata ofrece varias herramientas como parte de la predict y estat estimacin postcomandos. Estos estn disponibles despus de la emisin de un logit o logistic de comandos, con opciones ms restringidas (valores esencialmente slo hay) despus de blogit .

Cuando se trabaja con datos individuales de Stata se apoya fuertemente en el concepto de patrones en las covariables, que agrupa a todas las observaciones que comparten los mismos valores de las covariables. En particular, se define como un modelo saturado que tiene un parmetro diferente para cada patrn en las covariables, no para cada observacin. En cuanto a los datos sobre el uso de anticonceptivos por edad, la educacin y el deseo de tener ms hijos, se podra trabajar con blogit y 16 grupos, pero tendra que calcular la mayora de los diagnsticos con la mano. En su lugar vamos a seguir trabajando con el conjunto de datos ponderados simulacin de los datos individuales y el uso de la logit de comandos. Como es el caso obtenemos la misma respuesta, porque los grupos coinciden con los patrones en las covariables. Para aclarar este punto vamos a encajar: (1) un modelo con un parmetro diferente para cada patrn en las covariables y (2) el modelo aditivo. . . . silencio logit i.age Cuse # # # # c.educ c.nomore [fw = n] predecir pobs, pr sb escalar = e (ll) logit Cuse i.age educ nomore [fw = n] 0: 1: 2: 3: 4: log = probabilidad -1001,8468 log = probabilidad -934.92579 registro de probabilidad = -933.92045 probabilidad log = -933.9192 log = probabilidad -933.9192 LR 135,86 Prob> chi2 = 0.0000 Registro de probabilidad = -933.9192 Pseudo R2 = 0,0678 -------------------------------------------------- --------------------------Cuse | Coef. Enfermedades de transmisin sexual. Err. z P> | z | Conf. [95%. Intervalo] -------------+------------------------------------ --------------------------edad | 2 | 0,3893816 0,1758501 0,0447219 0,7340414 2,21 0.027 3 | 0,9086135 0,1646211 0,5859621 1,231265 5,52 0.000 4 | 1.189239 0.21443 1.609514 5.55 0.000 .7689639 | educ | .3249947 .1240355 2.62 0.009 .0818894 .5680999 nomore | .8329548 .1174705 .6027169 7.09 0.000 1.063193 _cons | 0.1720307 -1.966169 -2.303343 -1.628995 0.000 -11,43 -------------------------------------------------- --------------------------. di -2 * e (ll) 1867.8384 . di 2 * (sat-e (ll)) 29.917222 chi2 (5) =



El modelo aditivo tiene una desviacin de 1867,8 cuando se define el modelo saturado en trminos de las observaciones individuales, y una desviacin de 29,92, cuando se define el modelo saturado en trminos de patrones en las covariables o, equivalentemente, los 16 grupos de mujeres. Desviacin y residuos de Pearson La predict comando se puede utilizar para obtener probabilidades estimadas, residuos de desviacin y residuos de Pearson, con los dos ltimos se define como la raz cuadrada de la contribucin de un determinado patrn de covarianza para la desviacin del modelo o estadstica de Pearson Chi cuadrado. . . predecir pfit, pr / / probabilidad predecir dr, / dev / desviacin residual predecir pr, res / / Pearson residual

Vamos a verificar que si elevamos al cuadrado y la suma de estos residuos que en los patrones en las covariables se obtiene la desviacin y las estadsticas de Pearson chicuadrado. (Recordemos que tenemos dos filas para cada patrn en las covariables, uno con los usuarios y una con las no usuarias. Los residuos de las dos filas de cada par son idnticos y que necesita sumar slo uno de ellos.). . generacin drsq = dr ^ 2 en silencio suma drsq si Cuse == 1

. di r (suma) 29.917221 . . generacin prsq = pr ^ 2 en silencio suma prsq si Cuse == 1

. di r (suma) 28.288336

Por lo que la desviacin es 29.9 como se seal al principio, y de Pearson chi-cuadrado es de 28,3. Ahora lista de todas las celdas con residuos de desviacin al cuadrado por encima de 3,84 (igual que los valores absolutos por encima de 1,96).. Lista edad educ nomore pobs pfit pr dr si Cuse == 1 & pr ^ 2> 3,84

+------------------------------------------------- -------------------+ | Edad educ nomore pobs pfit pr dr | |------------------------------------------------- -------------------| 8. | , XScale (log) Yscale (log) leyenda (off) / / / > XTitle (media CEB) ytitle (variacin de la Junta) / / / Title> ("Figura 4.1. Media y la varianza de Relacin") / / / > Subttulo ("Los nios nacidos en Fiyi, 1976") . c4fig1.png grfico de las exportaciones, reemplazar (C4fig1.png archivo escrito en formato PNG) la anchura (500)

Es evidente que la diferencia aumenta con la media. La mayora de los puntos se encuentran por debajo de la lnea de 45 grados, lo que indica que la variacin no es exactamente igual a la media. Sin embargo, el supuesto de proporcionalidad trae como mucho ms cerca de los datos que el supuesto de varianza constante. Respuesta, Compensacin y predictores El conjunto de datos no tiene informacin sobre el nmero de hijos nacidos (CEB) a cada mujer, pero resulta que todava podemos decir con el modelo de trabajo con los totales de la clula y la introduccin del registro de la cantidad de mujeres en la clula como una offset. Si el nmero de CEB a una mujer en una clula dada es una variable aleatoria de Poisson con una media (y la varianza) , entonces el nmero de nacidos a todas las mujeres en la celda n es una variable aleatoria de Poisson con una media (y la varianza) n . El registro de la suma esperada es log (n) + log (), y consiste en un desplazamiento conocido y la cantidad que est interesado en el modelado. Consulte las notas para obtener ms detalles Por lo tanto, empezar por el clculo del resultado, el total de la Junta en cada clula, y el desplazamiento:. . Generacin Y = round (media * n, 1) generacin os = log (n)

Tambin necesitamos variables dummy para los predictores. Voy a utilizar macros local para almacenar los nombres de los muecos que van con cada predictor:. . . . . . . . . . . . . . . / / Duracin (de referencia 0-4) generacin dur0509 = durante == 2 generacin dur1014 = durante == 3 generacin dur1519 = durante == 4 generacin dur2024 = durante == 5 generacin dur2529 = == durante 6 locales durante dur0509 dur1014 dur1519 dur2024 dur2529 / / Residencia (de referencia es Fiyi) generacin urbana = res == 2 gen rural = res == 3 res locales rurales o urbanas / / La educacin (de referencia es None) generacin lowerPri educ = == 2 generacin upperPri educ = == 3 generacin secPlus educ = == 4

.

locales educ lowerPri upperPri secPlus

El modelo nulo Estamos listos para el ajuste del modelo nulo, que tiene un desplazamiento, pero no predecir.. poisson y, offset (os)

Iteracin 0: log = probabilidad -2080,664 Iteracin 1: log = probabilidad -2080,664 Nmero de regresin de Poisson de obs = 70 LR chi2 (0) = -0.00 Prob> chi2 =. Registro de probabilidad = -2080.664 Pseudo R2 = -0.0000 -------------------------------------------------- --------------------------y | Coef. Enfermedades de transmisin sexual. Err. z P> | z | Conf. [95%. Intervalo] -------------+------------------------------------ --------------------------_cons | 1.376346 .0097119 141,72 0,000 1,357311 1,395381 os | (offset) -------------------------------------------------- --------------------------. di exp (_b [_cons]) 3.9604033 . en silencio suma media [fw = n]

. di r (media) 3.9604968 . estat gof La bondad de ajuste chi2 = 3731.851 Prob> chi2 (69) = 0,0000

La constante es el logaritmo de la media del nmero de hijos nacidos vivos. Exponentiating vemos que la media estimada es casi cuatro hijos por mujer. La estimacin coincide con la media de la muestra, como se comprob por el promedio de la celda significa que el nmero de mujeres como un peso de frecuencia. La desviacin de 3.732 en 69 grados de libertad da una clara indicacin de que el modelo no se ajusta a los datos. La hiptesis de que el nmero esperado de la Junta es el mismo para todas las mujeres independientemente de la duracin del matrimonio, la residencia y la educacin, es rechazado con firmeza, En los modelos de la tasa de compensacin por lo general representan el registro de la exposicin, y el Stata nos permite especificar directamente con el offset() la opcin con el nombre de la variable que representa el desplazamiento, o el uso de la exposure() la opcin con el nombre de la variable que representa la exposicin , en cuyo caso toma el registro de Stata.

Factor de un Modelos A continuacin se ajustan los tres factores de una modelo, a partir de residencia:. poisson y 'res', que se compensan (os) 0: 1: 2: 3: log = probabilidad log = probabilidad log = probabilidad probabilidad log = -2051,3779 -2044,3868 -2044,3778 -2044,3778

Iteracin Iteracin Iteracin Iteracin

Nmero de regresin de Poisson de obs = 70 LR chi2 (2) = 72,57 Prob> chi2 = 0.0000 Registro de probabilidad = -2044.3778 Pseudo R2 = 0,0174 -------------------------------------------------- --------------------------y | Coef. Enfermedades de transmisin sexual. Err. z P> | z | Conf. [95%. Intervalo] -------------+------------------------------------ --------------------------urbano | .1442896 0.032448 4.45 0.000 .0806926 .2078866 rural | .2280596 .0278321 8.19 0.000 .1735097 .2826095 _cons | 1.204598 .0249922 48.20 0.000 1.155614 1.253581 os | (offset) -------------------------------------------------- --------------------------. di exp (_b [urbano]), exp (_b [rural]) 1.1552186 1.2561602 . estat gof La bondad de ajuste chi2 = 3659.279 Prob> chi2 (67) = 0,0000

Las estimaciones muestran que las mujeres en las zonas urbanas y rurales tienen un promedio de 16 nios y 26% ms que las mujeres en Suva. El modelo de chi-cuadrado de 73, el 2 de df nos dice que este modelo es una mejora significativa sobre el valor nulo. La desviacin, an en los miles, nos dice que este modelo est lejos de ajuste de los datos. Ahora para la educacin. poisson y `educ, offset (os) 0: 1: 2: 3: log = probabilidad log = probabilidad log = probabilidad probabilidad log = -1588,3352 -1545,4751 -1545,2371 -1545,2371 LR 1.070,85 Prob> chi2 = 0.0000 Registro de probabilidad = -1545.2371 Pseudo R2 = 0,2573 chi2 (3) =


Nmero de regresin de Poisson de obs = 70

-------------------------------------------------- --------------------------y | Coef. Enfermedades de transmisin sexual. Err. z P> | z | Conf. [95%. Intervalo] -------------+------------------------------------ --------------------------lowerPri | -. 2117869 .0216769 -9.77 0.000 -. 2542729 -. 1693008 upperPri | -. 6160532 .0288581 -21,35 0.000 -. 6726141 -. 5594922 secPlus | -1.224676 0.0514108 -23.82 0.000 -1.32544 -1.123913 _cons | 1.647278 .0146932 112,11 0.000 1.61848 1.676076 os | (offset) -------------------------------------------------- --------------------------. Mata exp (st_matrix ("e (b)")) 1 2 3 4 +------------------------------------------------- --------+ 1 | 0.8091371376 0.5400718104 0.2938527957 5.192824803 | +------------------------------------------------- --------+ estat gof La bondad de ajuste chi2 = 2660.998 Prob> chi2 (66) = 0,0000

.

Las estimaciones muestran que el nmero de CEB disminuye sustancialmente con la educacin. Las mujeres con educacin secundaria o ms tienen 71% menos hijos que las mujeres sin educacin (o slo el 29% como muchos). El diferencial educativo es muy importante, pero este modelo no se ajusta a los datos. Finalmente, aqu est la duracin:. poisson y 'durante', que se compensan (os) 0: 1: 2: 3: log = probabilidad -315.2481 log = probabilidad -297.80021 registro de probabilidad = -297.77426 probabilidad log = -297.77426 LR 3.565,78 Prob> chi2 = 0.0000 Registro de probabilidad = -297.77426 Pseudo R2 = 0,8569 -------------------------------------------------- --------------------------y | Coef. Enfermedades de transmisin sexual. Err. z P> | z | Conf. [95%. Intervalo] -------------+------------------------------------ --------------------------dur0509 | 1.044886 0.0523975 0.9421893 1.147584 19.94 0.000 dur1014 | 1.444947 1.346479 0.0502397 1.543416 28.76 0.000 dur1519 | 1,706756 1,609253 0,0497474 1,80426 34,31 0,000 dur2024 | 1.877474 1.780164 0.0496492 1.974785 37.81 0.000 dur2529 | 2.078855 0.047507 1.985743 2.171967 43.76 0.000 _cons | -. 1036046 .0441511 -2.35 0.019 -. 1901391 -. 01707 os | (offset) -------------------------------------------------- --------------------------chi2 (5) =



.

estat gof La bondad de ajuste chi2 = 166.072 Prob> chi2 (64) = 0,0000

No es sorprendente que el nmero de la Junta es mucho mayor para las mujeres que han estado casados por ms tiempo. Este es por lejos el ms importante predictor de la Junta, con una chi-cuadrado de 3.566 a slo 5 grados de libertad De hecho, un demgrafo no tendra ni siquiera mir a los modelos que no incluyen un control de la duracin del matrimonio. Es agradable ver que la regresin de Poisson se puede descubrir lo obvio:) Tenga en cuenta que este modelo no se ajusta a los datos. El desviaciones que figuran en esta seccin estn bastante cerca de las desviaciones en el cuadro 4.3 de las notas. Usted se dar cuenta de las pequeas diferencias debido a la utilizacin de procedimientos de redondeo diferentes. En las notas se multiplic la CEB decir con el nmero de mujeres y mantuvo unas dcimas. Aqu redondeado el nmero total de la Junta al entero ms cercano. Si se omite el redondeo que se reproducen los resultados en las notas con exactitud. Modelos de dos factores Consideremos ahora los modelos que tienen dos de los tres factores en cuenta. A raz de las notas que consideramos nicos modelos que incluyen la duracin del matrimonio, un control esencial cuando se estudia la fecundidad acumulada. Esto deja dos modelos con los principales efectos de dos factores, y otros dos modelos que aaden una interaccin. Debido a que slo estamos interesados en desviaciones que se ejecutan los comandos de estimacin en silencio. Tambin voy a usar las variables de factor, ya que simplifica la especificacin de los modelos. Siempre se puede construir los muecos de los primeros principios. As que aqu estn los modelos aditivos. . en silencio y poisson i.dur i.res, offset (os) estat gof La bondad de ajuste chi2 = 120,6806 Prob> chi2 (62) = 0,0000 . . en silencio y poisson i.dur i.educ, offset (os) estat gof La bondad de ajuste chi2 = 100,1919 Prob> chi2 (61) = 0,0012

Y aqu estn los modelos con una interaccin. . en silencio y poisson i.dur # i.res, offset (os) estat gof

La bondad de ajuste chi2 = 108,8968 Prob> chi2 (52) = 0,0000 . . en silencio y poisson i.dur # i.educ, offset (os) estat gof La bondad de ajuste chi2 = 84.53072 Prob> chi2 (46) = 0,0005

La mejor opcin hasta ahora es el modelo que incluye la duracin y la educacin, sino que muestra significativa falta de ajuste con una chi-cuadrado de 84,5 a 46 grados de libertad Los tres factores modelo aditivo Ahora estamos listos para ver los modelos que incluyen los tres factores. Empezamos con el modelo aditivo. Voy a utilizar variables ficticias ya que hace que la salida de una clara poco, pero podemos obtener el mismo resultado con las variables de factor.. poisson y 'durante' `cosa '` educ, offset (os) 0: 1: 2: 3: 4: log = probabilidad -623.59688 log = probabilidad -252.64903 registro de probabilidad = -250.07248 probabilidad log = -250.07108 log = probabilidad -250.07108 LR 3.661,19 Prob> chi2 = 0.0000 Registro de probabilidad = -250.07108 Pseudo R2 = 0,8798 -------------------------------------------------- --------------------------y | Coef. Enfermedades de transmisin sexual. Err. z P> | z | Conf. [95%. Intervalo] -------------+------------------------------------ --------------------------dur0509 | 0,9969348 0,0527437 0,8935591 1,100311 18,90 0.000 dur1014 | 1.369395 1.269302 0.0510688 1.469488 26.81 0.000 dur1519 | 1.613757 1.513417 0.0511949 1.714097 31.52 0.000 dur2024 | 1.784911 1.684534 0.0512138 1.885288 34.85 0.000 dur2529 | 1,976405 0,0500341 1,87834 2,07447 39,50 0.000 urbano | .1124186 .0324963 3.46 0.001 0.048727 0.1761102 rural | .1516602 .0283292 5.35 0.000 0.096136 0.2071845 lowerPri | .0229728 .0226563 1.01 0.311 -. 0214327 .0673783 upperPri | -. 1012738 .0309871 -3.27 0.001 -. 1620073 -. 0405402 secPlus | -. 3101495 .0552107 -5.62 0.000 -. 4183605 -. 2019386 _cons | -. 1170972 .0549118 -2.13 0.033 -. 2247222 -. 0094721 os | (offset) -------------------------------------------------- --------------------------. estat gof La bondad de ajuste chi2 = 70.66559 Prob> chi2 (59) = 0,1421 chi2 (10) =



Este modelo pasa por la bondad de la barrera en forma, con una desviacin de 70,67 a 59 grados de libertad y su correspondiente P-valor de 0,14, por lo que no tenemos ninguna evidencia en contra de este modelo. Para exponenciar las estimaciones de parmetros que puede volver a emitir con poisson de comandos con la irr opcin, que es la abreviatura de ncidence i-r r comi Atios.. poisson, irr LR 3.661,19 Prob> chi2 = 0.0000 Registro de probabilidad = -250.07108 Pseudo R2 = 0,8798 -------------------------------------------------- --------------------------y | TIR estndar. Err. z P> | z | Conf. [95%. Intervalo] -------------+------------------------------------ --------------------------dur0509 | 2.709963 2.443812 0.1429334 3.005099 18.90 0.000 dur1014 | 3,932972 3,558369 0,2008521 4,34701 26,81 0,000 dur1519 | 5.021644 4.542226 0.2570824 5.551663 31.52 0.000 dur2024 | 5.95905 5.389938 0.3051855 6.588254 34.85 0.000 dur2529 | 7.216753 6.542636 0.3610835 7.960327 39.50 0.000 urbano | 1.118981 .0363628 3.46 0.001 1.049934 1.192569 rural | 1.163765 .0329685 5.35 0.000 1.100909 1.230209 lowerPri | 1.023239 .0231828 1.01 0.311 1.0697 0.9787954 upperPri | .9036856 .0280026 -3.27 0.001 0.850435 0.9602706 secPlus | .7333373 -5.62 0.000 0,040488 0,6581249 0,8171451 os | (offset) -------------------------------------------------- --------------------------chi2 (10) =


En resumen, los clculos indican que el nmero de la Junta aumenta rpidamente con la duracin del matrimonio, en cada categora de las mujeres de residencia y la educacin se cas con 15 a 19 aos tienen cinco veces ms nios que las personas casadas menos de cinco aos. Las mujeres que viven en zonas urbanas y rurales tienen un 12% y los nios 16% ms que las mujeres que viven en Suva y tienen la misma duracin del matrimonio y la educacin. Por ltimo, las mujeres ms educadas tienen menos hijos, las mujeres con educacin secundaria o ms informacin 27% menos hijos que las mujeres sin educacin que viven en el mismo tipo de lugar de residencia y se han casado el mismo tiempo. Factor de tres modelos con interacciones Ahora ponemos el modelo aditivo de algunas "pruebas de tensin" teniendo en cuenta todas las posibles interacciones. Voy a utilizar las variables de factor para la simplicidad y quietly para ahorrar espacio.. . en silencio y poisson i.dur i.educ # i.res, offset (os) estat gof

La bondad de ajuste chi2 = 59.92104 Prob> chi2 (53) = 0,2391 . . en silencio y poisson i.dur # i.res i.educ, offset (os) estat gof La bondad de ajuste chi2 = 57.13525 Prob> chi2 (49) = 0,1986 . . en silencio y poisson i.dur # i.educ i.res, offset (os) estat gof La bondad de ajuste chi2 = 54.80171 Prob> chi2 (44) = 0,1274 . . en silencio y poisson (i.dur i.res) # i.educ, offset (os) estat gof La bondad de ajuste chi2 = 44.52355 Prob> chi2 (38) = 0,2163 . . en silencio y poisson (i.dur i.educ) # i.res, offset (os) estat gof La bondad de ajuste chi2 = 44.31134 Prob> chi2 (43) = 0,4161 . . en silencio y poisson i.dur # (i.res i.educ), desplazamiento (os) estat gof La bondad de ajuste chi2 = 42.65186 Prob> chi2 (34) = 0,1467 . en silencio y poisson i.dur i.educ i.res / / / > I.dur # # i.educ i.dur i.res i.res # i.educ, offset (os) . estat gof La bondad de ajuste chi2 = 30.85619 Prob> chi2 (28) = 0,3235

Estos clculos se completa el cuadro 4.3 en las notas. Me inform de la desviaciones de la coherencia con las notas, pero podra tambin han informado de las pruebas de razn de verosimilitud comparando cada uno de estos modelos para el modelo aditivo. Asegrese de que sabe cmo utilizar la salida de la prueba, por ejemplo, si tenemos que aadir una duracin por la interaccin de la educacin. Debe quedar claro en la lista de desviaciones que no es necesario aadir cualquiera de estos trminos. Llegamos a la conclusin de que el modelo aditivo hace un buen trabajo hecho. es importante tener en cuenta que la necesidad de interaccin depende exactamente de lo que est siendo modelado. Aqu se utiliza el enlace de registro, de modo que todos los efectos son relativos. En esta escala no se esperan necesario. Si usamos el vnculo de identidad que se modelar el nmero real de hijos nacidos y todos los efectos sera

absoluta. En esa escala que se necesita, al menos, las interacciones con la duracin del matrimonio. Consulte las notas para su discusin. Nota 1: algunos de estos modelos puede fallar en las versiones anteriores de Stata, que por defecto permite hasta 40 parmetros de cada modelo. La solucin es aumentar al mximo el uso del comando set matsize 60 . Stata 9 aumentaron el valor por defecto a 200, lo que es ms de lo necesario para todos estos modelos. Nota 2: Si est utilizando el xi prefijo y ver la salida detallada ver que Stata gotas algunas variables debido a la multicolinealidad. Esto suele ser motivo de alarma. El xi prefijo no es muy inteligente en el manejo de los factores que intervienen en ms de una interaccin y tratar de incluir los principales efectos en dos ocasiones. Cuando esto sucede, las variables se caen las copias y los originales ya estn incluidos en el modelo, como se puede verificar mediante la inspeccin de la lista.

Modelos 4.a de exceso de datos dispersos CondeNosotros utilizamos los datos de largo (1990) sobre el nmero de publicaciones producidas por Ph.D. bioqumicos para ilustrar la aplicacin de Poisson, ms dispersasPoisson, binomial negativo modelos Poisson y cero inflado. Las variables en el conjunto de datos se arte: los artculos en los ltimos tres aos de doctorado fem: un cdigo para las mujeres mar: un cdigo de si est casado kid5: nmero de nios menores de seis aos Doctorado: el prestigio de doctorado programa cin: los artculos de mentor en los tres ltimos aos Estos datos han sido analizados por Long y Freese (2001), y estn disponibles en el sitio web de Stata:. uso claro http://www.stata-press.com/data/lf2/couart2, (Bioqumicos Acadmico / S larga) . resumen de arte ------------------

Variable | Obs media estndar. Prog. Min Max -------------+------------------------------------Arte | 915 1.692896 1.926069 0 19 . di r (Var) 3.7097416

El nmero medio de artculos es de 1,69 y la varianza es 3,71, un poco ms del doble de la media. Los datos son ms dispersos, pero por supuesto que no hemos considerado todava ninguna covariables. Un modelo de Poisson

Vamos a ajustar el modelo utilizado por Long y Freese (2001), un modelo aditivo simple usando los cinco predictores. Podramos usar poisson para obtener las estimaciones y estat gof para obtener la desviacin, pero se utiliza en cambio los glm comando para obtener tanto la desviacin y las estadsticas de Pearson chi-cuadrado de inmediato. Tambin vamos a guardar las estimaciones para su uso posterior.. glm arte fem mar kid5 phd ambiente, de la familia (poisson) nolog

No. Los modelos lineales generalizados de obs = 915 Optimizacin: df = 909 ML residual Parmetro escala = 1 Desviacin = 1634.370984 (1/df) Desviacin = 1.797988 Pearson = 1662.54655 (1/df) Pearson = 1.828984 Funcin de la varianza: V (u) = u [Poisson] Funcin de enlace: g (u) = ln (u) [Entrar] AIC = 3.621981 Registro de probabilidad = -1651,056316 BIC = -4564,031 -------------------------------------------------- --------------------------| OIM art | Coef. Enfermedades de transmisin sexual. Err. z P> | z | Conf. [95%. Intervalo] -------------+------------------------------------ --------------------------fem | -. 2245942 .0546138 -4.11 0.000 -. 3316352 -. 1175532 mar | .1552434 .0613747 2.53 0.011 .0349512 .2755356 kid5 | -. 1848827 .0401272 -4.61 0.000 -. 2635305 -. 1062349 phd | .0128226 .0263972 0.49 0.627 -. 038 915 0,0645601 cin | .0255427 .0020061 .0216109 .0294746 12.73 0.000 _cons | .3046168 .1029822 2.96 0.003 .1027755 .5064581 -------------------------------------------------- --------------------------. estimaciones tienda de poisson de

Vemos que el modelo, obviamente, no se ajusta a los datos. El valor del cinco por ciento crtico para una chi-cuadrado con 909 grados de libertad es. di invchi2tail (909,0.05) 980.25178

y la desviacin y de Pearson chi-cuadrado son a la vez en el 1600. Extra-Poisson Variacin Supongamos ahora que la variacin es proporcional y no igual a la media, y estimar el parmetro de escala divisin de Pearson chi-cuadrado por sus grados de libertad:. escalar phi = e (deviance_p) / e (df)

. di phi 1.8289841

. di sqrt (phi) 1.3523994

Vemos que la variacin es de un 83% mayor que la media. Esto significa que debemos ajustar los errores estndar de multiplicar por 1,35, la raz cuadrada de 1,83. El glm comando puede hacer esto por nosotros a travs de la scale() opcin, que toma como argumento un valor numrico, en este caso, 1,8289841, o, simplemente, x2 para indicar que el ajuste debe estar basada en Pearson chi-cuadrado:. glm arte fem mar kid5 phd ambiente, de la familia (poisson) escala (x2) nolog No. Los modelos lineales generalizados de obs = 915 Optimizacin: df = 909 ML residual Parmetro escala = 1 Desviacin = 1634.370984 (1/df) Desviacin = 1.797988 Pearson = 1662.54655 (1/df) Pearson = 1.828984 Funcin de la varianza: V (u) = u [Poisson] Funcin de enlace: g (u) = ln (u) [Entrar] AIC = 3.621981 Registro de probabilidad = -1651,056316 BIC = -4564,031 -------------------------------------------------- --------------------------| OIM art | Coef. Enfermedades de transmisin sexual. Err. z P> | z | Conf. [95%. Intervalo] -------------+------------------------------------ --------------------------fem | -. 2245942 .0738596 -3.04 0.002 -. 3693564 -. 079832 mar | .1552434 .0830031 1.87 0.061 -. 0074397 .3179265 kid5 | -. 1848827 0.054268 -3.41 0.001 -. 291246 -. 0785194 phd | .0128226 .0356995 0.36 0.719 -. 0571472 .0827924 cin | .0255427 0.002713 9.41 0.000 0,0202253 0,0308602 _cons | .3046168 0.139273 2.19 0.029 0,0316468 0,5775869 -------------------------------------------------- --------------------------(Los errores estndar a escala con la raz cuadrada de Pearson X2basada en la dispersin.) . estimaciones tienda overdisp de

Puedes verificar que estos errores estndar son un 35% ms grande que antes. El uso de este procedimiento que hemos atribuido esencialmente a todos la falta de ajuste a un error puro. Usted puede tratar de poisson con el de la robust opcin para calcular los errores estndar mediante el estimador robusto o "sndwich". Usted obtendr resultados muy similares. En cualquier caso, todas las pruebas han de llevarse a cabo mediante el estadstico de Wald. Las pruebas de razn de verosimilitud no es posible porque no estamos haciendo

suposiciones de distribucin completa acerca de los resultados, confiando en cambio en las hiptesis sobre la media y la varianza. Regresin binomial negativa Ahora ajustar un modelo binomial negativa con los mismos predictores:. nbreg arte fem mar kid5 phd ambiente, nolog

Nmero de regresin binomial negativa de obs = 915 LR chi2 (5) = 97,96 Dispersin = Prob media> chi2 = 0.0000 Registro de probabilidad = -1560.9583 Pseudo R2 = 0,0304 -------------------------------------------------- --------------------------art | Coef. Enfermedades de transmisin sexual. Err. z P> | z | Conf. [95%. Intervalo] -------------+------------------------------------ --------------------------fem | -. 2164184 .0726724 -2.98 0.003 -. 3588537 -. 0739832 mar | .1504895 .0821063 1.83 0.067 -. 0104359 .3114148 kid5 | -. 1764152 .0530598 -3.32 0.001 -. 2804105 -. 07242 phd | .0152712 .0360396 0.42 0.672 -. 0553652 .0859075 cin | .0290823 .0034701 8.38 0.000 .0222811 .0358836 _cons | 0.256144 .1385604 1.85 0.065 -. 0154294 .5277174 -------------+------------------------------------ --------------------------/ Lnalpha | -. 8173044 .1199372 -1.052377 -. 5822318 -------------+------------------------------------ --------------------------alfa | .4416205 .0529667 .3491069 .5586502 -------------------------------------------------- --------------------------La razn de verosimilitud de la prueba alfa = 0: chibar2 (01) = 180,20 Prob> = = 0,000 chibar2 . . estimaciones tienda nbreg escalar sigma2 = E (alfa)2

Stata alpha es la varianza del efecto multiplicador al azar y corresponde a notas. Se estima que 0,44 y es muy significativo (distinto de cero).

en las

Para probar la importancia de este parmetro, se puede pensar de la computacin doble de la diferencia en las verosimilitudes log entre este modelo y el modelo de Poisson, 180.2, y tratarlo como una chi-cuadrado con un df El asinttica normal no se aplican, sin embargo, debido a la hiptesis nula es en un lmite del espacio de parmetros. Hay algunos trabajos que muestran que una mejor aproximacin es tratar a la estadstica como en una mezcla de 50:50 de cero y una chi-cuadrado con un df y Stata implementa este procedimiento, informando de la estadstica como chi2bar . Por otra parte, el tratamiento de la estadstica como una chi-cuadrado da una prueba conservadora. De cualquier manera, tenemos evidencia abrumadora de sobredispersin.

Para las pruebas de hiptesis sobre los coeficientes de regresin que puede utilizar cualquiera de las pruebas de Wald o pruebas de razn de verosimilitud, que son posibles porque hemos hecho completa los supuestos de distribucin. Comparacin de las estimaciones y los errores estndar Las estimaciones de parmetros basados en el modelo binomial negativa no son muy diferentes de las basadas en el modelo de regresin de Poisson. Vamos a comparar los productos seleccionados. estimaciones de la tabla de Poisson overdisp nbreg, s

-------------------------------------------------- --Variable | poisson overdisp nbreg -------------+------------------------------------ --art | fem | -. -. 22459423 22459423 21641842 -. | .05461376 .07385961 .07267238 mar | .15524338 .15524338 .15048945 | .06137469 .08300309 .08210628 kid5 | -. 1848827 -. 1848827 -. 17641524 | .04012717 .05426796 .05305978 phd | .01282258 .01282258 .01527116 | .02639719 .03569955 .03603961 cin | .02554275 .02554275 .02908234 | .00200608 .00271302 .00347007 _cons | .30461683 .30461683 .25614402 | 0.139273 0.1385604 .10298215 -------------+------------------------------------ --lnalpha | _cons | 81730442 -. | .11993723 -------------------------------------------------- --leyenda: b / se

Ambos conjuntos de estimaciones de los parmetros que conducen a las mismas conclusiones. En cuanto a los errores estndar reportados justo por debajo de los coeficientes, vemos que ambos enfoques para llevar sobre-dispersin de estimaciones muy similares y que el comn de regresin de Poisson subestima los errores estndar Bondad de ajuste Una forma de calcular la desviacin del modelo binomial negativo es para alimentar a la estimacin de la varianza en glm , que pueden encajar estos modelos para un valor fijo del parmetro de escala. locales v = e (alfa)

. glm arte fem mar kid5 phd ambiente, de la familia (nota: `v ') nolog No. Los modelos lineales generalizados de obs = 915 Optimizacin: df = 909 ML residual

Parmetro escala = 1 Desviacin = 1004.2815 (1/df) Desviacin = 1,10482 Pearson = 944.5494622 (1/df) Pearson = 1.039108

de

Funcin de la varianza: V (u) = u + (0.4416000000000001) u ^ 2 [Neg. Binomio] Funcin de enlace: g (u) = ln (u) [Entrar] AIC = 3.425046 Registro de probabilidad = -1560,958338 BIC = -5.194,12 -------------------------------------------------- --------------------------| OIM art | Coef. Enfermedades de transmisin sexual. Err. z P> | z | Conf. [95%. Intervalo] -------------+------------------------------------ --------------------------fem | -. 2164184 .0726706 -2.98 0.003 -. 3588501 -. 0739867 mar | .1504895 .0821062 1.83 0.067 -. 0104358 .3114147 kid5 | -. 1764152 .0530587 -3.32 0.001 -. 2804084 -. 0724221 phd | .0152712 .0360382 0.42 0.672 -. 0553624 .0859047 cin | .0290823 .0034657 8.39 0.000 .0222896 .0358751 _cons | 0.256144 .1385256 1.85 0.064 -. 0153613 .5276493 -------------------------------------------------- ---------------------------

Vemos que el modelo binomial negativo se ajusta mucho mejor que el de Poisson, pero todava tiene una desviacin (slo) por encima del valor crtico del cinco por ciento. La funcin de varianza La distribucin de Poisson sobre-dispersos y modelos binomiales negativos tienen diferentes funciones de la varianza. Una forma de comprobar que uno puede ser ms apropiado es el de crear grupos basados en la prediccin lineal, calcular la media y la varianza para cada grupo, y, finalmente, trazar la relacin media-varianza. stos son los grupos basados en la prediccin negativa binomial lineal, creado con egen con el cut() y el subcomando group() la opcin de crear 20 grupos de igual tamao aproximado. predecir xb (Mu opcin asumida; media prevista de arte) . egen grupo de corte = (xb), grupo (20)

Ahora que el colapso de un conjunto de datos de los medios y las desviaciones estndar ( collapse no hace diferencias, pero siempre podemos cuadrado de la desviacin estndar). Tambin calcular la distribucin de Poisson ms dispersos y negativos funciones de varianza binomial y la trama todo. . preservar colapso (media) arte (sd) sart = arte, por el (grupo)

. . .

generacin Vart sart = ^ 2 generacin v_p = arte * phi generacin v_nb = arte * (1 + * sigma2 arte)

. dos vas (dispersin Vart arte) (lnea v_p arte, lp (guin)) / / / > (Mspline v_nb arte, bandas (10)) / / / >, XTitle (Media) ytitle (varianza) del ttulo ("media-varianza de Relacin") / / / > Subttulo ("Artculos publicados por bioqumicos Ph.D.") / / / > Leyenda (para (2 "Poisson" 3 "Neg.Bin.") Anillo (0) puntos de venta (5) cols (1)) . c4afig1.png grfico de las exportaciones, reemplazar (C4afig1.png archivo escrito en formato PNG) . restaurar la anchura (500)

La funcin de la variacin de Poisson hace un trabajo bastante bueno para la mayor parte de los datos, pero no logra captar las variaciones de alta de los acadmicos ms productivos. La funcin de la variacin negativa del binomio no es muy diferente, pero, siendo una de segundo grado, puede llegar ms rpido y hace un mejor trabajo en la parte alta. Llegamos a la conclusin de que el modelo binomial negativo ofrece una mejor descripcin de los datos que el modelo ms disperso Poisson. Cero inflado Poisson Un fenmeno frecuente con los datos de recuento es un exceso de ceros en comparacin con lo que se espera en un modelo de Poisson. Esto es realmente un problema con nuestros datos:. zobs gen = arte == 0

. estimaciones restaurar poisson (Resultados de Poisson se activa ahora) . predecir MUP (Mu opcin asumida; media prevista de arte) . . generacin zfitp = exp (-MUP) suma zobs zfitp

Variable | Obs media estndar. Prog. Min Max -------------+------------------------------------ ------------------zobs | 915 .3005464 .4587464 0 1 zfitp | 915 .2092071 .0794247 .0000659 .4113403

Vemos que el 30,0% de los cientficos en la muestra no public artculos en los ltimos tres aos de su doctorado, pero el modelo de Poisson predice que slo el 20,9% no tendra publicaciones. Es evidente que el modelo subestima la probabilidad de cero que cuenta. Una forma de modelo de este tipo de situaciones es asumir que los datos provienen de una mezcla de dos poblaciones, una en la que cuenta es siempre cero, y otro en la cuenta tiene una distribucin de Poisson con media. En este modelo cuenta con cero puede venir de la poblacin, mientras que los valores positivos provienen slo de la segunda. En el contexto de las publicaciones de doctorado bioqumicos podemos imaginar que algunos tenan en mente puestos de trabajo en las publicaciones no sera importante, mientras que otros tenan como objetivo para los trabajos acadmicos, donde se esperaba un registro de las publicaciones. Los miembros del primer grupo est dispuesto a publicar artculos de cero, mientras que los miembros del segundo grupo est dispuesto a publicar 0,1,2 ,..., un recuento que se puede suponer que tiene una distribucin de Poisson. La distribucin de los resultados puede ser modelado en funcin de dos parmetros, la probabilidad de que 'siempre cero, y , la media del nmero de publicaciones que no estn en el' siempre cero 'del grupo. Una forma natural de introducir covariables es el modelo logit de la probabilidad de siempre cero y el registro de la significa para aquellos que no en la clase siempre cero. Stata implementa esta combinacin en el zip comando cuando el recuento se supone Poisson. Un desarrollo paralelo usando un modelo binomial negativa para la cuenta en el segundo grupo lleva a la zinb comando. En ambos casos el modelo de la probabilidad de cero siempre se especifica en el inflate() opcin. He aqu un modelo cero inflado de Poisson con todas las covariables en ambas ecuaciones:. zip arte fem mar kid5 phd ambiente, inflar (fem mar kid5 phd cin) nolog Cero inflado Poisson Nmero de regresin de obs = 915

Distinto obs = 640

de

cero

Cero obs = 275 La inflacin modelo logit = LR chi2 (5) = 78,56 Registro de probabilidad = -1604.773 Prob> chi2 = 0.0000 -------------------------------------------------- --------------------------art | Coef. Enfermedades de transmisin sexual. Err. z P> | z | Conf. [95%. Intervalo] -------------+------------------------------------ --------------------------art | fem | -. 2091446 .0634047 -3.30 0.001 -. 3334155 -. 0848737 mar | 0.103751 0.071111 1.46 0.145 -. 035624 .243126 kid5 | -. 1433196 .0474293 -3.02 0.003 -. 2362793 -. 0503599 phd | -. 0061662 .0310086 -0.20 0.842 -. 066942 .0546096 cin | .0180977 .0022948 7.89 0.000 .0135999 .0225955 _cons | 0,640839 0,1213072 0,4030814 0,8785967 5,28 0.000 -------------+------------------------------------ --------------------------inflar | fem | .1097465 .2800813 0.39 0.695 -. 4392028 .6586958 mar | -. 3540107 .3176103 -1.11 0.265 -. 9765155 .2684941 kid5 | 0.2171001 0.196481 1.10 0.269 -. 1679956 .6021958 phd | .0012702 .1452639 0.01 0.993 -. 2834418 .2859821 cin | -. 134111 .0452461 -2.96 0.003 -. 2227918 -. 0454302 _cons | -. 5770618 .5093853 -1.13 0.257 -1.575439 0.421315 -------------------------------------------------- --------------------------. estimaciones zip tienda

En cuanto a la ecuacin de inflar vemos que el nico predictor significativo de estar en el 'siempre cero' de clase es el nmero de artculos publicados por el tutor, con cada artculo por el mentor asoci con un 12,6% menor de no publicar. En cuanto a la ecuacin de la media o artculos entre los que no en la clase siempre es cero, nos encontramos con importantes desventajas para las mujeres y los cientficos con los nios menores de cinco aos, y un efecto positivo significativo en el nmero de publicaciones realizadas por el tutor, con cada artculo asociado con un aumento del 1,8% en el nmero previsto de publicaciones. Para verificar que el modelo resuelve el problema de exceso de ceros podemos predecir y , y calcular la probabilidad combinada de ninguna publicacin. Stata predict calcula la probabilidad de cero siempre con la opcin de pr y el predictor lineal de Poisson utilizando la opcin de xb . Una tercera opcin no vamos a utilizar, n , predice el nmero como se esperaba (1-pr)*exp(xb) . As es como predecir y . . . predecir pz, pr predecir xbz, xb generacin muz = exp (xbz)

. .

generacin zfitz = pz + (1-pz) * exp (-muz) suma zfitz

Variable | Obs media estndar. Prog. Min Max -------------+------------------------------------ ------------------zfitz | 915 .2985684 .1280144 .0007119 .5815108

As que el modelo resuelve el problema de exceso de ceros, la prediccin de que el 29,9% de los bioqumicos no se publicarn artculos, mucho ms cerca del valor observado del 30,0%. Comparacin con el modelo de AIC Como es el caso, por estos datos, la distribucin binomial negativa resuelve el problema tambin. Aqu est la probablity de cero artculos en la binomial negativa. estimaciones restaurar nbreg (Nbreg resultados estn activos ahora) . predecir MUNB (Opcin n asumidos; predecir el nmero de eventos) . . . escalar tau = 1/sigma2 generacin zfitnb = (tau / (MUNB + tau)) ^ tau suma zfitnb

Variable | Obs media estndar. Prog. Min Max -------------+------------------------------------ ------------------zfitnb | 915 .3035957 .0781645 .4801816 0.015145

El modelo predice que el 30,4% de los bioqumicos se publicar ningn artculo en los tres ltimos aos de su doctorado, muy cerca del valor observado del 30,0%. Para elegir entre los modelos negativos y cero inflado binomial tenemos que recurrir a otros criterios. Una forma muy sencilla de comparar modelos con diferente nmero de parmetros para calcular el Criterio Akaike de Informacin (AIC), que definimos como AIC =-2logL + 2p donde p es el nmero de parmetros en el modelo. El primer trmino es esencialmente la desviacin y la pena de un segundo para el nmero de parmetros. Para nuestros datos. di "binomial negativa", 2 * e (ll) 2 * e (rango) Binomial negativa 3135.9167 . estimaciones restaurar zip (Zip resultados estn activos ahora) . di "Zip", 2 * e (ll) 2 * e (rango) Zip 3233.5457

Para este conjunto de datos del modelo binomial negativo es un claro ganador en trminos de la parsimonia y la bondad de ajuste. Otros criterios de diagnstico que se poda mirar a la distribucin marginal de cargos previsto y observado y las funciones de la varianza. Cero-truncada y modelos de vallas Otros modelos que no hemos cubierto es el de Poisson cero truncado y binomial negativa, diseada para datos que no incluyen ceros. Un ejemplo comn es el tiempo de estancia en un hospital, que es al menos un da. Un enfoque sensato es instalar un modelo de Poisson o binomial negativa que excluye a cero y cambia la escala de las probabilidades de otros para sumar a uno. Hay que tener cuidado, porque la interpretacin de estos modelos no es el resultado esperado, pero la media de una distribucin subyacente, que incluye los ceros. Estos modelos se implementan en el Stata comandos ztp y ztnb . Un enfoque alternativo en exceso (o falta) de ceros es utilizar un proces

Stata Registros

Documents

Transcript of Stata Registros