Análisis de clases latentes II

INTRODUCCIÓN AL ANÁLISIS DE VARIABLES

LATENTES (casos)

Dr. Erwin Kraenau E.

APLICACIÓN 5

El interés es estudiar el comportamiento de consumo de alcohol entre los adultos. En lugar de conceptualizar el comportamiento de consumo como una variable continua, se conceptualiza como la formación de distintas categorías o tipologías. ¿Cree Ud. que la gente cae en distintos grupos de alcohol?. Puesto que no se puede medir directamente, esta es una variable latente. Sin embargo. se tiene una serie de indicadores que se cree útiles para clasificar a las personas en categorías diferentes. Utilizando estos indicadores quisieramos:

APLICACIÓN 5 (Objetivos del Estudio)

1. Crear un modelo que permita clasificar a estas personas en diferentes tipos de bebedores. 2. Ser capaz de clasificar a la gente en cuanto a qué tipo de bebedor que son. 3. Obtener el número de personas en cada tipo de bebedor. 4. Determinar si el número de clases latentes es el número correcto de clases (es decir, hay sólo dos tipos de bebedores o tal vez hay hasta cuatro tipos de bebedores).

APLICACIÓN 5 (Descripción de las Variables)

Se tiene un archivo de datos (lca1.txt) que contiene nueve medidas acerca de la conducta de beber. Para cada medida. la persona se pregunta si la descripción se aplica a sí mismo (sí o no). Las 9 medidas son:

1. Me gusta beber 2. Bebo licor fuerte 3. He bebido por la mañana 4. He bebido en el trabajo 5. Bebo para emborracharme 6. Me gusta el sabor del alcohol 7. Bebo para ayudarme a dormir 8. El beber interfiere con mis relaciones 9. Visito con frecuencia bares

APLICACIÓN 5 (Estrategias)

• Análisis de Conglomerados - Se podría utilizar el análisis de conglomerados de datos como éstos. Sin embargo. el análisis de conglomerados no se basa en un modelo estadístico. Esto le puede decir cómo los casos se agrupan en grupos, pero no proporciona información como la probabilidad de que una determinada persona pertenezca a una clase. Además, el análisis de conglomerados no proporciona información, tales como: dado que alguien dijo "sí " a beber en el trabajo, ¿cuál es la probabilidad de que pertenezca a un grupo o clase específica?.

• Análisis factorial – Se puede tener la tentación de utilizar un análisis factorial, ya que es una técnica utilizada con variables latentes. Sin embargo, el análisis factorial se utiliza para las variables latentes continuas y por lo general normalmente distribuidas.

SINTAXIS EN MPLUS

RESULTADOS EN ESCALA DE PROBABILIDAD

Class 1 Class 2 Class 3 Etiqueta del Item

ITEM1 0.908 0.312 0.923 Me gusta beber

ITEM2 0.337 0.164 0.546 Bebo licor fuerte

ITEM3 0.067 0.036 0.426 He bebido en la mañana

ITEM4 0.065 0.056 0.418 He bebido en el trabajo

ITEM5 0.219 0.044 0.765 Bebo para emborracharme

ITEM6 0.320 0.183 0.471 Me gusta el sabor del alcohol

ITEM7 0.113 0.098 0.512 Bebo para ayudarme a dormir

ITEM8 0.140 0.110 0.619 El beber interfiere con mis relaciones

ITEM9 0.325 0.188 0.349 Visito con frecuencia bares

RESULTADOS EN ESCALA DE PROBABILIDAD

• Contiene las probabilidades condicionales.

• Por lo tanto, si alguien pertenece a la Clase 1, tiene una probabilidad del 0.908 de decir "sí, me gusta beber". Por el contrario, si alguien pertenece a la Clase 2, tiene una probabilidad de 0.312 de decir "sí, me gusta beber".

INTERPRETACIÓN

• La clase 3 se puede etiquetar como "alcohólicos". Centrándose sólo en la clase 3, son los que realmente les gusta beber (92%), beber licor fuerte (54,6%), un número bastante grande dicen que ha bebido de la mañana y en el trabajo (42,6% y 41,8% ), y más de la mitad dicen que beber interfiere con sus relaciones (61,9%).

• A la clase 2 se les etiqueta como "abstencionistas". No a muchos de ellos les gusta beber (31,2%), muy pocos les gusta el sabor del alcohol (18,3%), son pocos los visitan con frecuencia bares (18,8%), y para el resto de las preguntas que rara vez se respondió "sí".

• A la clase 1; se puede ajustar a la idea del "bebedor social“. Les gusta beber (90,8%), pero no beben licor fuerte tan a menudo como la clase 3 (33,7% frente a 54,6%). Rara vez se bebe en la mañana o en el trabajo (6,7% y 6,5%) y rara vez dicen que el beber interfiere con sus relaciones (14%). Ellos dicen que visitan con frecuencia bares similar a la clase 3 (32,5% versus 34,9%).

APLICACIÓN 6: EL USO DEL ANÁLISIS DE CLASES LATENTES EN EL DIAGNÓSTICO DE INFARTO AL MIOCARDIO

• La sensibilidad es la probabilidad de que una persona con la enfermedad será positivo en el indicador, la especificidad es la probabilidad de que una persona sin la enfermedad será negativo en el indicador. La estimación de la sensibilidad y la especificidad depende de un Gold Standard (Patrón de oro) para el diagnóstico.

• Rindskopf y Rindskopf (1986) aplicaron el ACL a este problema, y mostró que la sensibilidad y especificidad podría estimarse, en determinadas condiciones, incluso sin un patrón oro.

APLICACIÓN 6 En el estudio hecho por Rindskopf y Rindskopf (1986). Los

datos provienen de un estudio de los pacientes ingresados en una sala de emergencia que sufren de dolor en el pecho (Galen y Gambino. 1975).

Cada uno de los cuatro indicadores se puntuó de modo que indicaba un infarto de miocardio (IM, comúnmente conocido como ataque al corazón) o no indicaba IM, Los indicadores incluidos son:

• historia • electrocardiograma (onda Q invertida), y • dos análisis de sangre (CPK y LDH). Los datos fueron consistentes con un modelo simple de dos

clases- Las clases representan a las personas con y sin IM.

SALIDA MPLUS

SUMMARY OF CATEGORICAL DATA PROPORTIONS

CPK Category 1 0.436 Category 2 0.564 LDH Category 1 0.606 Category 2 0.394 HIST Category 1 0.532 Category 2 0.468 QQ Category 1 0.649 Category 2 0.351

SALIDA MPLUS

FINAL CLASS COUNTS AND PROPORTIONS FOR THE LATENT CLASSES BASED ON THE ESTIMATED MODEL

Latent Classes 1 43.03381 0.45781 2 50.96619 0.54219 CLASSIFICATION OF INDIVIDUALS BASED ON THEIR MOST LIKELY LATENT

CLASS MEMBERSHIP Class Counts and Proportions

Latent Classes 1 41 0.43617 2 53 0.56383

SALIDA MPLUS

RESULTS IN PROBABILITY SCALE Two-Tailed Estimate S.E. Est./S.E. P-Value Latent Class 1

CPK Category 1 0.000 0.000 0.000 1.000 Category 2 1.000 0.000 0.000 1.000 LDH Category 1 0.172 0.070 2.454 0.014 Category 2 0.828 0.070 11.804 0.000 HIST Category 1 0.209 0.065 3.230 0.001 Category 2 0.791 0.065 12.256 0.000 QQ Category 1 0.233 0.078 2.989 0.003 Category 2 0.767 0.078 9.832 0.000

SALIDA MPLUS

Latent Class 2 Two-Tailed Estimate S.E. Est./S.E. P-Value

CPK Category 1 0.804 0.068 11.911 0.000 Category 2 0.196 0.068 2.895 0.004 LDH Category 1 0.973 0.027 36.596 0.000 Category 2 0.027 0.027 1.012 0.311 HIST Category 1 0.805 0.063 12.825 0.000 Category 2 0.195 0.063 3.108 0.002 QQ Category 1 1.000 0.000 0.000 1.000 Category 2 0.000 0.000 0.000 1.000

SALIDA MPLUS

Chi-Square Test of Model Fit for the Binary and Ordered Categorical (Ordinal) Outcomes

Pearson Chi-Square

Value 4.223 Degrees of Freedom 6 P-Value 0.6466

Likelihood Ratio Chi-Square

MODELOS DE RASGOS LATENTES (Latent Trait Models)

Tratan de modelar la probabilidad enlazando las variables observadas con un conjunto de variables latentes. La diferencia con el análisis factorial clásico es que se tiene una matriz de datos que consiste de items binarios.

OBJETIVOS

• Explorar las interrelaciones entre las respuestas observadas

• Determinar si estas interrelaciones pueden ser explicadas por un pequeño número de variables latentes

• Asignar un puntaje a cada objeto para cada variable latente sobre la base de sus respuestas

APLICACIÓN 7

Este es un conjunto de datos con solo 4 variables extraída de la Investigación de Actitudes Sociales Británicas realizada en 1986 (McGrath y Waterton, 1986). Los datos son las respuestas dadas por 410 individuos para 4 de 7 items referentes de la actitud hacia el aborto. Después de eliminar los valores perdidos, quedaron 379 registros.

APLICACIÓN 7

Para cada item, los encuestados fueron preguntados si la ley debería permitir el aborto bajo las circunstancias presentadas por cada item. Los cuatro items utilizados en el análisis son los siguientes:

1. la mujer decide por su cuenta que no (MUJERDEC)

2. la pareja acuerda en que no desean tener el niño (PAREJADEC)

3. la mujer no está casada y no desea casarse con el hombre (NOCASADA)

4. pareja no puede permitirse tener más hijos (NOPERMIT)

FRECUENCIAS DE PATRONES DE RESPUESTA, ACTITUD HACIA EL ABORTO

Patrones de Respuesta Frecuencia

0 0 0 0 103

0 0 0 1 13

0 0 1 0 10

0 0 1 1 21

0 1 0 0 9

0 1 0 1 6

0 1 1 0 7

0 1 1 1 44

1 0 0 0 1

1 0 0 1 0

1 0 1 0 0

1 0 1 1 6

1 1 0 0 3

1 1 0 1 3

1 1 1 0 12

1 1 1 1 141

Total 379

Si se hiciera un análisis factorial tradicional, se tendrían que calcular las correlaciones (Pearson) entre pares de variables y analizaríamos los resultados. En el caso de los datos binarios miraríamos las asociaciones entre pares de variables construyendo tablas de contingencia de 2 x 2 como por ejemplo:

PAREJADEC

Total NO SI MUJERDEC NO

147 66 213

SI 7 159 166

Total 154 225 379

INDICIOS

• La tabla de contingencia anterior parece mostrar una fuerte asociación entre los dos primeros items.

• Un análisis similar para otros pares de variables producen resultados similares.

• Esto conduciría a preguntarnos si esas asociaciones pueden ser atribuidas a uno o mas factores comunes.

PROPUESTA

• Para obtener esos factores comunes tal como se plantea el caso, debemos desarrollar un modelo de rasgo latente.

• Si se pueden identificar estos factores comunes, podemos calcular puntajes para cada uno de los individuos en las dimensiones latentes.

¿Por qué el modelo del AF para variables métricas no es válido para respuestas binarias?

El modelo del Análisis Factorial Exploratorio se escribe como:

Se asume en este modelo que los residuales tienen una distribución normal con media 0 y varianza constante en cada ecuación

¿Por qué el modelo del AF para variables métricas no es válido para respuestas binarias? (cont.)

• Desde que en el modelo anterior las X’s pueden tomar cualquier valor, esto invalida este análisis para variables binarias en particular.

• Para salvar este problema se utiliza un modelo apropiado de regresión de cada X sobre las variables latentes.

• El método de regresión usual para estos casos (variable respuesta binaria) es el de la regresión logística.

PLANTEAMIENTO DEL MODELO

Como es binaria, el valor esperado de dadas las variables latentes , es equivalente a:

Donde es la probabilidad condicional que la variable binaria sea igual a uno dado los valores de las q variables latentes. Por tanto se debe especificar la forma de la probabilidad como una función de las

ix ixys

yy iix |1Pr

PLANTEAMIENTO DEL MODELO

No es adecuado modelar esta probabilidad como:

• Esta probabilidad debe tomar valores entre 0 y 1.

• Se podría esperar que la tasa de cambio en la probabilidad de respuesta afirmativa no sea la misma en el rango de las . Por lo que una relación curvilínea sería más apropiada.

qqiiii yy 110y

MODELO FACTORIAL PARA DATOS BINARIOS

El modelo logit se define como:

ii yyit

1lnlog

CASO PARTICULAR

Un caso especial ocurre cuando q = 1 . A este caso particular de modelo de rasgo latente se le llama Análisis de Respuesta al Item. El modelo queda establecido como:

CURVAS CARACTERÍSTICAS DEL ITEM (incrementando el parámetro de discriminación α1)

-8 -6 -4 -2 0 2 4 6 80

��

CURVAS CARACTERÍSTICAS DEL ITEM (incrementando el parámetro de discriminación α0)

-8 -6 -4 -2 0 2 4 6 80

�i (

PRESUNCIONES

• Independencia condicional. Se verifica con las pruebas de bondad de ajuste del modelo.

• La función enlace logit o normit.

• Las variables latentes o factores son independientes con distribuciones normales estándar

APLICACIÓN 7 (sintaxis en Mplus)

• TITLE: MODELO FACTORIAL PARA DATOS BINARIOS • DATA: FILE IS ABORTO.dat; • VARIABLE: • names are MUJERDEC PAREJADEC NOCASADA NOPERMIT; • categorical are MUJERDEC PAREJADEC NOCASADA NOPERMIT; • ANALYSIS: ESTIMATOR = MLR; • MODEL: f BY MUJERDEC-NOPERMIT*; • f@1; • OUTPUT: TECH1 TECH8; • PLOT: TYPE = PLOT3; • Savedata: file is ABORTO_save.txt ;

SALIDA DEL MPLUS

SUMMARY OF CATEGORICAL DATA PROPORTIONS

MUJERDEC Category 1 0.562 Category 2 0.438 PAREJADE Category 1 0.406 Category 2 0.594 NOCASADA Category 1 0.364 Category 2 0.636 NOPERMIT Category 1 0.383 Category 2 0.617

SALIDA DEL MPLUS

MODEL RESULTS

Two-Tailed Estimate S.E. Est./S.E. P-Value

F BY MUJERDEC 4.188 0.767 5.461 0.000 PAREJADEC 4.508 0.859 5.249 0.000 NOCASADA 5.997 1.566 3.828 0.000 NOPERMIT 3.488 0.582 5.990 0.000

Thresholds MUJERDEC$1 0.759 0.314 2.419 0.016 PAREJADE$1 -1.078 0.364 -2.960 0.003 NOCASADA$1 -2.069 0.587 -3.523 0.000 NOPERMIT$1 -1.122 0.299 -3.748 0.000

CURVAS CARACTERÍSTICAS DEL ITEM

SALIDA DEL MPLUS

Chi-Square Test of Model Fit for the Binary and Ordered Categorical (Ordinal) Outcomes

Pearson Chi-Square

Likelihood Ratio Chi-Square

FRECUENCIAS DE PATRONES DE RESPUESTA

MUJERDEC PAREJADEC NOCASADA NOPERMIT Recuento

NO NO NO NO 103

NO NO NO SI 13

NO NO SI NO 10

NO NO SI SI 21

NO SI NO NO 9

NO SI NO SI 6

NO SI SI NO 7

NO SI SI SI 44

SI NO NO NO 1

SI NO NO SI 0

SI NO SI NO 0

SI NO SI SI 6

SI SI NO NO 3

SI SI NO SI 3

SI SI SI NO 12

SI SI SI SI 141

DIAGRAMA DE UN MODELO DE CLASES LATENTES CON UNA COVARIABLE

MODELO DE CLASES LATENTES CON UNA COVARIABLE

Donde: • Yij indica la respuesta del caso i en la variable j, siendo

J el número de variables en el modelo. • Xi: representa a la variable latente; t, una clase latente

particular, siendo T el número de clases latentes. • Zi indica una variable independiente que afecta la

pertenencia a las clases latentes.

Diagrama del modelo de clases latentes con una covariable que afecta las variables observadas (Zp) y otra que afecta a la variable latente (Zc)

Modelo de clases latentes con una covariable que afecta las variables observadas (Zp) y otra que afecta a la variable latente (Zc)

Donde: • Yij indica la respuesta del caso i en la variable j, siendo J el

númerode variables. • Xi representa a la variable latente; t, a una clase latente

particular,siendo T el número de clases latentes. • Zc indica una variable independiente que afecta la

pertenencia a las clases latentes. • Zp indica una variable independiente predictora que afecta a

las variables observadas.

DIAGRAMA DEL MODELO DE CLASES LATENTES CON UNA VARIABLE AGRUPADORA Y DEPENDENCIAS

MODELO DE CLASES LATENTES CON UNA VARIABLE AGRUPADORA Y DEPENDENCIAS

MODELOS DE ECUACIONES ESTRUCTURALES (SEM)

Los modelos de ecuaciones estructurales son una familia de modelos estadísticos multivariantes que permiten estimar el efecto y las relaciones entre múltiples variables. Los modelos de ecuaciones estructurales nacieron de la necesidad de dotar de mayor flexibilidad a los modelos de regresión.

MODELO DE REGRESIÓN SIMPLE

TIPOS DE MODELOS DE ECUACIONES ESTRUCTURALES

De acuerdo con su estructura y con la naturaleza de las variables que contienen, hay varios tipos de modelos de ecuaciones estructurales: de trayectoria, factorial confirmatoria, factorial de segundo orden, de regresión estructural, mimic, de crecimiento, entre otros.

MODELO DE TRAYECTORIA RECURSIVO

MODELO DE TRAYECTORIA NO RECURSIVO

¿QUÉ ES EL ANÁLISIS FACTORIAL?

• El análisis factorial es una técnica estadística multivariada que se incorpora a la metodología cuantitativa que involucra variables latentes. Estas variables no observables, denominadas frecuentemente constructos, son variables que no pueden medirse de manera directa: se estiman a través de variables manifiestas (observadas).

• En el análisis factorial se asume que la variable latente es continua: los individuos pueden ordenarse de mayor a menor nivel del atributo bajo estudio.

OBJETIVO DEL ANÁLISIS FACTORIAL

Es estudiar la estructura de correlación entre un grupo de variables medidas, asumiendo que la asociación entre las variables puede ser explicada por una o más variables latentes, que en el caso del análisis factorial se les reconoce como factores. Dicho de otra manera, la correlación entre el grupo de variables se explica por la presencia de los factores subyacentes a ellas.

REPRESENTACIÓN DEL MODELO UNIFACTORIAL

REPRESENTACIÓN DEL MODELO MULTIFACTORIAL

EXPLICACIÓN DE LA ECUACIÓN DEL MODELO DE FACTORES

ANÁLISIS FACTORIAL CONFIRMATORIO

El modelo factorial confirmatorio permite explicar la correlación entre variables latentes y la asociación entre cada variable latente y sus correspondientes variables observadas. Como su nombre lo indica, está orientado a confirmar la estructura sugerida por medio del modelo.

MODELO FACTORIAL CONFIRMATORIO

ECUACIÓN ASOCIADA A ESTE MODELO

DIFERENCIAS ENTRE EL DIAGRAMA DE TRAYECTORIAS DE LOS MODELOS DE ANÁLISIS FACTORIAL CONFIRMATORIO Y ANÁLISIS FACTORIAL EXPLORATORIO

Cuestionario de Personalidad Eysenck (EPQ)

Neuroticismo/Estabilidad

El Neuroticismo o emocionalidad se caracteriza por altos niveles de efectos negativos, como la depresión y la ansiedad. El Neuroticismo, de acuerdo la teoría, está basado en umbrales activados en el sistema nervioso simpático o cerebro visceral. Esta es la parte del cerebro que es responsable de la respuesta enfrentar-evitar de cara al peligro.

ÍTEMS DEL EPQ-R (neuroticismo)

Z1. ¿Su estado de ánimo sufre altibajos con frecuencia?

Z2. ¿Se siente a veces desdichado sin motivo?

Z3. ¿A menudo se siente solo?

Z4. ¿Es usted una persona sufridora?

Z5. ¿Se inquieta por cosas terribles que podrían suceder?

Z6. ¿Se siente intranquilo por su salud?

z1 z2 z3 z4 z5 z6

Z1 1 .529 .352 .294 .210 .146

Z2 1 .420 .259 .216 .086

Z3 1 .307 .240 .132

Z4 1 .276 .218

Z5 1 .271

MUCHAS SOLUCIONES

POSIBLES

F1 F2 z1 z2 z3 z4 z5 z6

Z1 ? ?

Z1 .529 .352 .294 .210 .146

Z2 ? ? Z2 .526 .420 .259 .216 .086

Z3 ? ? Z3 .364 .419 .307 .240 .132

Z4 ? ? Z4 .277 .275 .271 .276 .218

Z5 ? ? Z5 .230 .205 .241 .288 .271

Z6 ? ? Z6 .133 .084 .161 .231 .251

Z2 .003

Z3 -.012 .001

Z4 .017 -.016 .036

Z5 -.021 .011 -.001 -.012

Z6 .014 .002 -.029 -.013 .021

MINIMIZAR DIFERENCIAS ENTRE LA MATRIZ DE CORRELACIONES OBSERVADA Y LA REPRODUCIDA

1 factor?

2 factores?

3 factores?

Matriz de correlaciones entre los factores

1.000 .473

.473 1.000

Factor

Método de extracción: Máxima verosimilitud.

Metodo de rotación: Normalización Oblimin con Kaiser.

ANÁLISIS FACTORIAL EXPLORATORIO Matriz de configuración.a

.628 .064

.866 -.121

.453 .185

.189 .424

.073 .505

-.078 .509

z1 (altibajos)

z2 (desdichado)

z3 (solo)

z3 (sufridora)

z5 (cosas terribles)

z6 (salud)

Factor

Método de extracción: Máxima verosimilitud.

Metodo de rotación: Normalización Oblimin con Kaiser.

La rotación ha convergido en 5 iteraciones.a.

¿Su estado de ánimo sufre altibajos con

frecuencia?

¿Se siente a veces desdichado sin motivo?

¿A menudo se siente solo?

¿Es usted una persona sufridora?

¿Se inquieta por cosas terribles que podrían

suceder?

¿Se siente intranquilo por su salud?

z1 = .628 * F1 + .064 * F2 + E1

z2 = .866 * F1 - .121 * F2 + E2

z3 = .453 *F1 + .185 * F2 + E3

z4 = .189 * F1 + .424 * F2 + E4

z5 = .073 * F1 + .505 * F2 + E5

z6 = .078 * F1 + .509 * F2 + E6

MODELO EXPLORATORIO

Cuantos factores?

Criterio para la Rotación?

REPRESENTACIÓN:

MODELO CONFIRMATORIO

Factor

Z1 0.694 0

Z2 0.736 0

Z3 0.565 0

Z4 0 0.590

Z5 0 0.520

Z6 0 0.383

rF1F2=0.631

MODELO REPLANTEADO

Factor

Z1 0 0

Z2 X 0

Z3 X X

Z4 X X

Z5 X X

Z6 X X

rF1F2= 0

AFE VERSUS AFC

SIMILITUDES • Técnica de reducción de dimensionalidad: Se buscan (pocos)

factores comunes que expliquen la matriz de varianzas - covarianzas.

• Muchos procedimientos (p.e.. de estimación) son comunes a AFE y AFC.

DIFERENCIAS • No explora la relación entre variables o constructos, sino que las

contrasta: - Se supone un número concreto de factores comunes y qué

variables empíricas (indicadores) los miden. - Se supone la existencia o no de relación entre los factores.

• Se pueden establecer correlaciones entre los términos de error. • No es necesario un método de rotación.

IDENTIFICABILIDAD DEL MODELO

En un modelo no identificable es imposible obtener de manera única el valor de cada uno de los parámetros libres. Las principales razones por las que se da este problema se deben a que se estipulan dentro del modelo parámetros que por regla general no son estimables.

MÉTODOS DE ESTIMACIÓN

La hipótesis básica en un modelo de ecuaciones estructurales se reduce a probar que la matriz de varianzas y covarianzas poblacional es igual a la matriz de varianzas y covarianzas asociada al modelo teórico, esto es:

Σ = Σ ( θ )

donde Σ es la matriz poblacional y Σ(θ) es la matriz asociada al modelo propuesto.

MÉTODOS DE ESTIMACIÓN (cont.)

• El objetivo será encontrar θˆ . de tal forma que Σ sea lo más parecido a Σ( θˆ). Partiendo del hecho de que no es posible conocer explícitamente los valores de la matriz de varianzas y covarianzas poblacional (si se conociera no tendría sentido plantearse siquiera un modelo), se utiliza a la matriz de varianzas-covarianzas muestral (S) como estimador de Σ.

• La diferencia entre estas dos matrices (S-Σ( θˆ )) se denomina residuo e indica la discrepancia entre lo observado por medio de los datos y las estimaciones arrojadas por el modelo.

FUNCIONES DE AJUSTE

EJEMPLO:COMPONENTES DE LA INTELIGENCIA

Un investigador ha recogido las notas de 275 alumnos de secundaria en 6 asignaturas:

• Lengua (L) • Filosofía (FSF) • Historia (H) • Matemáticas (M) • Física (FSC) • Química (Q) Asumiendo que las notas de un alumno miden su inteligencia (I), el

investigador desearía comprobar si estas se agrupan en dos tipos de inteligencia:

• Inteligencia Cuantitativa (IQ) • Inteligencia Verbal (IV)

DIAGRAMA CONCEPTUAL

SINTAXIS AFCInteligencia.pr2 • AFC de Inteligencia

• DA NI=6 NO=275

• LA

• L FSF H M FSC Q

• KM SY

• 0.493 1

• 0.401 0.314 1

• 0.278 0.347 0.147 1

• 0.317 0.318 0.183 0.587 1

• 0.284 0.327 0.179 0.463 0.453 1

• SD

• 1.09 0.59 0.98 1.1 0.41 1.11

• MO NX=6 NK=2 LX=FU,FI PH=SY,FR TD=SY,FI

• LK

• IV IQ

• VA 1 LX(1,1) LX(4,2)

• FR LX(2,1) LX(3,1) LX(5,2) LX(6,2)

• FR TD(1,1) TD(2,2) TD(3,3) TD(4,4) TD(5,5) TD(6,6)

• OU SC ND=3

SINTAXIS AFCInteligencia1.1.pr2 • AFC de Inteligencia

• Observed Variables

• L FSF H M FSC Q

• Latent Variables

• IV IQ

• Correlation Matrix

• 0.493 1

• 0.401 0.314 1

• 0.278 0.347 0.147 1

• 0.317 0.318 0.183 0.587 1

• 0.284 0.327 0.179 0.463 0.453 1

• Standard Deviations

• 1.09 0.59 0.98 1.1 0.41 1.11

• Relationships

• L = 1*IV

• FSF = IV

• H = IV

• M = 1*IQ

• FSC = IQ

• Q = IQ

• OPTIONS wp rs ef ss sc mi nd=2

• Path Diagram

• End of Program

BONDAD DE AJUSTE DEL MODELO

La hipótesis básica es

Ho: (S=Σ( θ )) • Prueba ji-cuadrada (χ2): donde T = (N-1) Fmin

es el estadístico de prueba, se distribuye como una ji-cuadrada con (t (t+1) / 2) - p grados de libertad (donde t = número de parámetros y p = número de variables observadas).

ÍNDICES DE AJUSTE ABSOLUTO

Evalúan directamente el ajuste del modelo. • El índice de bondad de ajuste (GFI = Goodness of

Fit Index) • El índice ajustado de bondad de ajuste (AGFI =

Adjusted Goodness of Fit Index) • El índice de aproximación de la raíz de cuadrados

medios del error (RMSEA = Root Mean Square Error of Aproximation) y

• El índice de la raíz del cuadrado medio del residuo (RMR).

ÍNDICES DE AJUSTE ABSOLUTO (cont.)

• El índice GFI puede interpretarse como una medida que determina la proporción de varianza explicada por el modelo (como la R2 en regresión lineal).

• Si además se consideran los grados de libertad y el número de variables observadas del modelo, se obtiene el índice AGFI. El valor que toman estos dos índices se encuentra entre cero y uno (aunque en casos aislados puede tomar valores negativos). En ambos casos, valores cercanos a uno determinan que el modelo tiene muy buen ajuste.

• Uno de los índices más populares es el RMSEA, que sólo puede tomar valores positivos. Un valor menor a 0.05 indica que el ajuste del modelo es bueno aunque es más deseable uno cercano a cero. El RMSEA tiene asociada la prueba de hipótesis:

Ho: RMSEA ≤ 0.05 vs Ha: RMSEA > 0.05

LOS ÍNDICES DE AJUSTE DE INCREMENTO

Comparan al modelo propuesto con el modelo de independencia, en el cual se asume que no hay asociaciones entre las variables, estos son:

• índice de ajuste normado (NFI = Normed Fit Index), • índice de ajuste no normado (NNFI o TLI = Non Normed Fit

Index), • Índice de ajuste comparativo (CFI = Comparative Fit Index), • índice incremental de ajuste (IFI o BL89 = Incremental Fit

Index), • índice relativo de ajuste (RFI = Relative Fit Index), • Índice esperado de validación cruzada (ECVI = Expected Cross

Validation Index) y • criterio de información de Akaike (AIC = Akaike Information

Criterion).

BONDAD DE AJUSTE DEL MODELO

Un punto de corte aceptable para los índices

GFI, AGFI, NFI, NNFI, CFI, IFI y RFI es de 0.9.

MODELO DE REGRESIÓN ESTRUCTURAL

APLICACIÓN 8: HABILIDAD MENTAL

Nos focalizamos sobre dos sub habilidades de inteligencia fluida, Relaciones de Inducción y Figura 1.

• La Inducción relaciona la capacidad de uno para razonar utilizando analogías y reglas de generalización para contextos más comprensivos.

• Las relaciones de la Figura1 pertenecen a nuestra habilidad para ver patrones de relaciones entre partes de figuras, mentalmente se rotan, y también utilizan formas de razonamiento inductivo con elemento de la Figura1.

Un total de nueve medidas fueron registradas desde una muestra N = 220 estudiantes de secundaria, con una presunción plausible de normalidad para los datos. A continuación se muestran las variables observadas en el estudio:

1. Puntuación 1 de Inducción obtenido en el primer año (IND1) 2. Puntuación 2 de Inducción obtenido en el primer año (IND2) 3. Puntuación 1 de Inducción obtenido en el primer año (IND3) 4. Puntaje 1 de las relaciones de la Figura1 obtenido en el primer año

(FR11) 5. Puntaje 2 de las relaciones de la Figura1 obtenido en el primer año

(FR12) 6. Puntaje 3 de las relaciones de la Figura1 obtenido en el primer año

(FR13) 7. Puntaje 1 de las relaciones de la Figura1 obtenido en el último año

(FR23)

INDUCTN FIGREL1

FIGREL2

IND1 IND2 IND3 FR11 FR12 FR13

ε1* ε2

* ε3* ε4

* ε5* ε6

* * * *

EL MODELO MIMIC (MULTIPLE INDICATORS AND MULTIPLE CAUSES OF A SINGLE LATENT VARIABLE)

Relaciones causales entre variables

• De acuerdo con la definición general de Bollen (1989). consideremos una variable y1. que está aislada de toda influencia excepto de la de una segunda variable x1. Si un cambio en y1 proviene de un cambio en x1. entonces x1 es causa de y1. La definición de causa tiene tres componentes: aislamiento. asociación y dirección de la influencia.

• Al observar los elementos en las relaciones causales. se aprecia que lo que hace casi imposible tener absoluta certeza de que una variable es causa de otra es la posibilidad de afirmar que y1 está aislada de cualquiera otra causa. excepto de x1. Aislamiento es un ideal no asequible. Podemos decir que existe un aislamiento cuando x1 y y1 están en un “vacío” que excluye cualquier otra influencia. Mucho del debate sobre el estatus causal de una relación inicia con la interrogante sobre si la asociación entre y1 y x1 no se debe a estos otros factores.

• Sin la condición de aislamiento de y1. nunca tendremos la certeza de que x1 causa a y1. Varios estudios experimentales. cuasi experimentales y observacionales. intentan aproximarse a estas condiciones de aislamiento. por medio de alguna forma de procesos de control o de aleatorización.

• En síntesis. hemos tomado una definición de causalidad orientada a los modelos de ecuaciones estructurales. pues se asume necesario contar con tres condiciones: aislamiento. asociación y dirección de la causalidad para establecer una relación causal.

Análisis de clases latentes II

Documents

Transcript of Análisis de clases latentes II

Apuntes de Clases Finanzas II

Clases Caminos II - 02 Geotecnia

Resumen Clases II Unidad

Clases Potencial Humano Unidad II

Enfermedades Latentes

Clases ci 2013 ii

BRECHAS LATENTES - cng-cdn.oxfam.org

Clases de Topografia II

Infecciones virales persistentes latentes Herpesvirus

HUELLAS LATENTES

Huellas latentes revelado

Clases de Caminos II

Ciberdelitos latentes Defendernos como consumidores

Legislación Laboral II resumen clases

Clases Penal II

Crítica de las subjetividades latentes.

Clases Periodo II

REDES LATENTES, Macame Trápaga

Clases II Semestre Sem 6

Zoologia II. Exposición. Aracnidos, Clases