Curso de introducción a STATA_S5_6

download Curso de introducción a STATA_S5_6

of 6

Transcript of Curso de introducción a STATA_S5_6

  • Curso de introduccin a Stata Jordi Muoz (UAB)

    Sesiones 5 - 6: Tablas de contingencia Tablas de contingencia: qu son?

    Dos (o ms) variables categricas Explorar la relacin entre ellas Ejemplo: voto y asistencia a servicios religiosos

    Variables dependiente e independiente

    Variable dependiente: Lo que queremos explicar. La consecuencia Variable independiente: Lo que explica la dependiente. La causa

    Tablas de contingencia: las 3 reglas

    Regla 1: Poner siempre la variable dependiente en las filas, la independiente en las columnas

    Regla 2: Calcular los porcentajes de las categorias de la variable independiente (porcentajes de columna)

    Regla 3: Interpretar la tabla mediante la comparacin entre columnas para el mismo valor de la variable dependiente

    Tablas de contingencia : La hiptesis nula (independencia)

    Distribucin proporcional de los casos a lo largo de la columna, basada en los totales de fila

    Frecuencia esperada (bajo supuesto de independencia) en la celda (i,j):

    E(i,j) = (nmero total en la columna j * numero total en la fila i)/nmero total en la tabla

    E(i,j) = [(total fila/total tabla)*(total columna/total tabla)]*total = (total fila*total col)/total tabla

    Residuos

    Residuo en la celda (i,j) = frecuencia observada (i,j) frecuencia esperada (i,j)

    R(i,j)= O(i,j)-E(i,j)

    Resduos estandarizados Residuo estandarizado, de Pearson

    1

  • Curso de introduccin a Stata Jordi Muoz (UAB)

    ij

    ijij E

    RsStd Re.

    Media 0 y desviacin tipica 1

    Si son positivos, la celda est sobrerepresentada Si son negativos, est infrarepresentada

    Chi cuadrado

    Test del Chi-cuadrado

    Grados de libertad: (I-1)(J-1)

    La tabla del Chi cuadrado nos indicar la probabilidad de haber obtenido aquel valor bajo

    supuesto de independencia

    2

  • Curso de introduccin a Stata Jordi Muoz (UAB)

    Si p>; aceptamos la hiptesis nula (no hay relacin)

    Si p5 (fusionar categorias)

    Resduos estandarizados

    Los Resduos estandarizados nos dan una indicacin sobre indicios de relacin entre las

    variables: si el resduo es demasiado grande, debemos dudar de la hiptesis de independencia.

    ij

    ijij E

    RsStd Re.

    Los niveles de significacin de los resduos estandarizados:

    +/- 1.96, alrededor de 0.05.

    +/-2.58, alrededor de 0.01.

    Esto equivale a un test de la hiptesis nula que la frecuencia observada y la esperada de la

    celda son iguales.

    Tablas de contingencia: medidas de asociacin

    El Chi cuadrado nos permite decir si hay o no relacin entre las variables, pero cmo de fuerte

    es la relacin? Para responder esta pregunta tenemos que ver los estadsticos Phi y V de

    Cramer.

    La Phi es adecuada para tablas de 2*2

    La V de Cramer es adecuada para tablas ms grandes

    Varian entre -1 y 1

    -1.0 a -0.7 associacin negativa fuerte

    -0.7 a -0.3 associacin negativa

    -0.3 a +0.3 poca o ninguna associacin

    +0.3 a +0.7 associacin positiva

    +0.7 a +1.0 associacin positiva fuerte

    3

  • Curso de introduccin a Stata Jordi Muoz (UAB)

    Tablas de contingencia en Stata El comando de stata para realizar tablas de contingencia es tabulate, el mismo que empleamos para pedir tablas de frecuencias. La nica diferencia es que para obtener una

    tabla de contingencia debemos especificar las dos variables que queremos.

    Tabulate Produce una tabla de contingencia de las dos variables especificadas, colocando la primera de ellas en las filas y la segunda en las columnas. Por tanto,

    deberemos colocar siempre la variable dependiente primer lugar y la independiente en

    segundo lugar (recordar las tres reglas).

    tab2 Si intentamos especificar ms de dos variables, Stata nos devolver un mensaje

    de error (too many variables specified). Para evitar esto, existe el comando tab2, que

    dice a Stata que haga todas las tablas de contingencia por parejas de variables.

    Tab2, firstonly La opcin firstonly del comando tab2 evita que Stata haga tablas de contingencia de todas las parejas de variables especificadas, ya que a menudo lo

    que nos interesarn sern los emparejamientos de una variable dependiente con varias

    independientes. Por eso, con esta opcin, tab2 calcular las tablas de la primera

    variable especificada con cada una de las otras.

    Opciones de contenido Con estas opciones del comando tabulate (o de tab2) podemos especificar a Stata los contenidos de las casillas de las tablas:

    o Row Esta opcin nos mostrar el porcentaje de fila o Col Porcentaje de columna o Cell El porcentaje del total o Expected Frecuencia esperada o Nofreq No mostrar frecuencia

    Medidas de asociacin: Para obtener el chi cuadrado (y su valor p), deberemos especificar la opcin chi, mientras que la opcin V (mayscula) nos mostrar la V de Cramer.

    Tabchi Para obtener los resduos y los resduos estandarizados, debemos usar el comando tabchi (hay que instalarlo con el comando ssc install tab_chi porque no viene en el paquete original de Stata). Tabchi tiene las siguientes opciones:

    o Raw Resduos (frecuencia esperada observada) o Pearson resduos estandarizados o Noo y noe suprimen, respectivamente, la frecuencia observada y la esperada

    (en caso de que queramos una tabla slo con resduos).

    4

  • Curso de introduccin a Stata Jordi Muoz (UAB)

    Prctica tablas de contingencia: Actitudes hacia la inmigracin

    Despus de haber introducido los elementos estadsticos necesarios para trabajar e interpretar

    las tablas de contingencia, el siguiente paso lgico es el de ponerlo en prctica. Para ello,

    haremos una prctica con datos reales sobre las actitudes hacia la inmigracin y las variables

    que puedan estar relacionadas.

    La prctica est pensada para cubrir todo el proceso de investigacin emprica, y por lo tanto,

    tiene tres fases: preparacin de datos, anlisis y exportacin.

    1. Preparacin de datos

    Cuando hayamos conseguido abrir los datos con Stata, debemos prepararlos para el

    anlisis. La primera cuestin que debemos saber es qu variables utilizaremos. Esto, como

    hemos visto en clase, va en funcin de nuestras hiptesis. En este caso, tendremos como

    variable dependiente las actitudes hacia la inmigracin.

    Variable dependiente En la encuesta con la que trabajamos hay varias preguntas sobre la cuestin. Podemos

    elegir una de ellas o crear una nueva que resuma informacin, aunque recuerda que para

    trabajar con tablas de contingencia debe ser categrica.

    Variables independientes Como variables independientes, podemos utilizar algunas de las que ha sugerido la

    literatura sobre la cuestin. Haz una seleccin entre algunas de stas y prepralas

    convenientemente:

    -Recursos cognitivos: nivel de estudios

    -Ideologa

    -Edad

    -Estatus socioeconmico

    -Precariedad laboral y desempleo

    -Uso servicios pblicos

    -Identidad religiosa

    -Confianza interpersonal

    -Contacto con inmigrantes

    2. Anlisis de datos

    5

  • Curso de introduccin a Stata Jordi Muoz (UAB)

    6

    La tcnica de anlisis que emplearemos son las tablas de contingencia. Una vez

    tenemos seleccionadas y adecuadamente codificadas las variables que queremos

    utilizar, podemos proceder a pedir las tablas de contingencia correspondientes.

    Para cada cruce, en lnea con lo que discutimos en clase, pediremos todas las tablas

    que nos interesen. Almenos debemos pedir:

    Tabla con los porcentajes de columna Tabla con los residuos estandarizados Chi cuadrado y V de Cramer

    3. Exportacin de datos

    Podemos exportar a word las tablas que nos interese mostrar y comentar los

    resultados.