Análisis de clases latentes i

118
INTRODUCCIÓN AL ANÁLISIS DE VARIABLES LATENTES (casos) I Dr. Erwin Kraenau E.

description

INTRODUCCIÓN AL ANÁLISIS DE VARIABLES LATENTES (casos) – I - Dr. Erwin Kraenau E.

Transcript of Análisis de clases latentes i

INTRODUCCIÓN AL ANÁLISIS DE VARIABLES

LATENTES (casos)

I

Dr. Erwin Kraenau E.

CASO I: APLICACIÓN DEL ANÁLISIS DE CLASES LATENTES (ACL) EN LA PREDICCION DE LAS CAÍDAS ENTRE LOS RESIDENTES EN LA

COMUNIDAD DE EDAD AVANZADA

• Caídas entre los ancianos son un problema de salud pública. Una técnica de modelado que pueda estimar la probabilidad de caída es oportuna y necesaria.

• Esta investigación fue hecha por Patrick C. Hardigan (2009) y pudo identificar 5 grupos distintos en esta comunidad, y estos fueron:

• Clase 1: es más probable que sea afectada por todas las condiciones médicas, excepto para la Enfermedad de Parkinson. Se definió como el grupo más pobre de salud.

• Clase 2: es principalmente afectada por la artritis y la presión arterial alta, en menor medida. Se definió como el grupo de artritis.

• Clase 3: no está afectada por los indicadores médicos. Se definió como el grupo saludable.

• Clase 4: es principalmente afectada por la hipertensión arterial (HTA), pero también la artritis y la diabetes. Se definió como el grupo de presión arterial alta.

• Clase 5: es principalmente afectada por la enfermedad de Parkinson (PK), por lo tanto, se definió este grupo como el grupo de Parkinson.

CASO II: IDENTIFICACIÓN DE PATRONES DE CONSUMO DE ALCOHOL EN ADOLESCENTES MEDIANTE ANÁLISIS

DE CLASES LATENTES

• Esta investigación fue desarrollada por Angelina Pilatti y otros en el año 2010.

• En este trabajo identificó los patrones de consumo de alcohol en una muestra de adolescentes argentinos asistentes a escuelas de nivel medio públicas y privadas.

• Utilizando el Análisis de Clases Latentes se logró identificar a 3 clases de adolescentes consumidores de alcohol las cuales fueron las siguientes:

• CLASE 1 se caracterizó por una alta probabilidad de consumir con una frecuencia semanal, beber una elevada cantidad de alcohol, tener borracheras semanalmente, y presentar una intención muy elevada de consumo de alcohol en la próxima semana. A esta clase se le designó como patrón de consumo “pesado”.

• CLASE 2 presentó una alta probabilidad de consumir con frecuencia mensual y de beber entre 5 y 10 tragos, siendo más probable que esta clase no se emborrache o que lo haga anualmente. La intención de consumir en la próxima semana fue moderada. Se consideró que esta clase presenta un patrón de consumo tipo “binge”.

• CLASE 3 presentó mayor probabilidad de beber con una frecuencia anual, una cantidad de tragos menor a 5, una menor probabilidad de consumo hasta la ebriedad, y una mayor probabilidad de intención de consumo en la categoría no o poco posible. Esta tercera clase de consumo se denominó “social”.

BINGE DRINKING

Un consumo masivo y episódico de alcohol durante el fin de semana, independientemente de lo alimentario y conocido en otros ámbitos como «binge drinking» o, también, como la «borrachera de los hooligans».

CASO III: EL USO DEL ANÁLISIS DE CLASES LATENTES EN EL DIAGNÓSTICO MÉDICO

• La sensibilidad es la probabilidad de que una persona con la enfermedad será positivo en el indicador. la especificidad es la probabilidad de que una persona sin la enfermedad será negativo en el indicador. La estimación de la sensibilidad y la especificidad depende de un Gold Standard (Patrón de oro) para el diagnóstico.

• Rindskopf y Rindskopf (1986) aplicaron el ACL a este problema, mostrando que la sensibilidad y especificidad podría estimarse, en determinadas condiciones, incluso sin un patrón oro.

INFARTO DE MIOCARDIO

En el estudio hecho por Rindskopf y Rindskopf (1986). Los datos provienen de un estudio de los pacientes ingresados en una sala de emergencia que sufren de dolor en el pecho (Galen y Gambino, 1975). Cada uno de los cuatro indicadores se puntuó de modo que indicaba un infarto de miocardio (IM. comúnmente conocido como ataque al corazón) o no indicaba IM. Los indicadores incluidos son la historia, electrocardiograma (onda Q invertida), y dos análisis de sangre (CPK y LDH). Los datos fueron consistentes con un modelo simple de dos clases, donde las clases representaron las personas con y sin IM.

CASO IV: EVOLUCIÓN DE LOS SÍNTOMAS PSICOLÓGICOS Y CONDUCTUALES DE LA ENFERMEDAD DEL ALZHEIMER: UN EJEMPLO DE APLICACIÓN DE MODELOS DE CRECIMIENTO LATENTE PARA DATOS LONGITUDINALES

• Los síntomas psicológicos y conductuales (SPC) de la enfermedad de Alzheimer son frecuentes y afectan a más del 80% de los pacientes durante el transcurso de la enfermedad.

• Esta investigación fue desarrollada por Josep Garre-Olmo y su objetivo fue clasificar a los pacientes según la evolución de los SPC y determinar su relación con la mortalidad.

• Su modelo ajustado pudo identificar tres grupos:

• El primer grupo está formado por pacientes por baja frecuencia y gravedad del SPC.

• El segundo grupo está formado por los pacientes con un incremento progresivo

• El tercer grupo son pacientes con disminución progresiva de SPC.

Las diferencias clínicas intergrupos sugieren que la evolución de los SPC se relaciona con la

mortalidad

VARIABLES LATENTES Y VARIABLES MANIFIESTAS

• Es usual intentar medir la inteligencia, motivación, eficiencia, percepción, habilidad verbal, etc. (fenómenos de una gran complejidad), a partir de percepciones, opiniones, indicadores y variables relativas o aproximadas. Este tipo de variables recibe un nombre genérico de: variables latentes.

• Cualquier entidad hipotética de difícil definición dentro de una teoría científica puede representarse a través de una variable latente (muchas veces denominada constructo), la cual no se puede observar o manipular de forma directa.

VARIABLES LATENTES Y VARIABLES MANIFIESTAS

Las variables manifiestas se pueden medir de manera directa y representan características observables de algún fenómeno subyacente, al contrario de las latentes. Una característica importante de estas variables es que sirven para evidenciar o definir a las variables no observadas o latentes.

CONSTRUCTO Un constructo es un concepto elaborado

para explicar el comportamiento humano, inteligencia fluida, extroversión, autoconcepto, asertividad, motivación intrínseca... son constructos y precisan de indicadores observables para su estudio. En muchas ocasiones, estos indicadores son los ítems de un test, y debe comprobarse empíricamente que resultan adecuados para reflejar el constructo de referencia.

EJEMPLO 1 DE CONSTRUCTO

En 1948 la Organización Mundial de la Salud definió la «salud» como el

completo estado de bienestar físico, mental y social, y no sólo como la

ausencia de enfermedad.

ÍTEMS DEL SF-36

8. Su salud actual. ¿le limita para agacharse o arrodillarse? 1 Sí. me limita mucho 2 Sí. me limita un poco 3 No. no me limita nada

10. Su salud actual. ¿le limita para caminar varias manzanas (varios centenares de metros)? 1 Sí. me limita mucho 2 Sí. me limita un poco 3 No. no me limita nada

EJEMPLO 2: CALIDAD DE VIDA EN ASMA

• El cuestionario de calidad de vida en asma (AQLQ) es un cuestionario de calidad de vida específico para esta enfermedad desarrollado por Juniper y colaboradores en la Universidad de McMaster de Hamilton (Ontario), Canadá.

• Su contenido se obtuvo a partir de cuestionarios generales de calidad de vida, de la discusión con neumólogos y especialmente de la aportación de pacientes asmáticos que identificaron aquellas áreas de su vida diaria afectadas por el asma.

ÍTEMS DEL AQLQ

7. ¿Se ha sentido preocupado por tener asma?

8. ¿Notó que le faltaba el aire debido al asma?

Siempre Casi siempre Gran parte del tiempo

Parte del tiempo

Poco tiempo Casi nunca Nunca

1 2 3 4 5 6 7

Siempre Casi siempre Gran parte del tiempo

Parte del tiempo

Poco tiempo Casi nunca Nunca

1 2 3 4 5 6 7

EJEMPLO 3 DE CONSTRUCTO

MOTIVACIÓN PARA DEJAR DE FUMAR

CORRELACIÓN

• En probabilidad y estadística, la correlación indica la fuerza y la dirección de una relación lineal entre dos variables aleatorias.

• La correlación entre dos variables no implica, por sí misma, ninguna relación de causalidad.

MEDIDAS DE CORRELACIÓN ENTRE VARIABLES CON DISTINTAS ESCALAS

COEFICIENTE DE CORRELACIÓN DE PEARSON

• El coeficiente de correlación de Pearson, pensado para variables cuantitativas, es un índice que mide el grado de covariación entre distintas variables relacionadas linealmente.

• Esto es, si tenemos dos variables X e Y, y definimos el coeficiente de correlación de Pearson entre estas dos variables como :

COEFICIENTE DE CORRELACIÓN DE PEARSON

COEFICIENTE DE CORRELACIÓN TETRACÓRICA

• El coeficiente de correlación tetracórica (rt) sirve para medir la asociación entre variables binarias obtenidas a partir de una distribución normal bivariada truncada.

• La correlación tetracórica requiere que las dos variables relacionadas sean continuas, normales, relacionadas linealmente y dicotomizadas artificialmente. Además requiere un N ≥ 100 y todas y cada una de las celdas deberán ser iguales o mayores que el 10% del N total. Cuando una celda es 0, no se calcula.

ad cb

n2 y y r

t z z

rt

2

2 (z2 1)( z 2 1)

rt

3

6 (z3 3z)( z 3 3 z )

rt

4

24K

COEFICIENTE DE CORRELACIÓN TETRACÓRICA

Tenemos dos psiquiatras (evaluadores 1 y 2) para hacer un diagnóstico y

detectar la presencia o ausencia de depresión mayor. Aunque el diagnóstico es dicotómico, se trata la depresión como un rasgo continuamente distribuidas en la población.

COEFICIENTE DE CORRELACIÓN TETRACÓRICA

• En concreto, se estima la ubicación de los umbrales de discretización, t1 y t2, y un tercer parámetro, rho, que determina la "gordura" de la elipse.

• Rho es el coeficiente de correlación tetracórica, o rt.

• Puede ser interpretado aquí como la correlación entre la severidad de la enfermedad juzgados según lo visto por un Evaluador 1 y Evaluador 2.

COMPARACIÓN CORRELACIONES PEARSON

TETRACÓRICA

A1 A2 A3 A4 A5 A6 A7

A1 1.000 0.881 0.879 0.898 0.668 0.670 0.675

A2 0.881 1.000 0.898 0.820 0.611 0.646 0.628

A3 0.879 0.898 1.000 0.867 0.652 0.687 0.759

A4 0.898 0.820 0.867 1.000 0.631 0.636 0.689

A5 0.668 0.611 0.652 0.631 1.000 0.922 0.605

A6 0.670 0.646 0.687 0.636 0.922 1.000 0.659

A7 0.675 0.628 0.759 0.689 0.605 0.659 1.000

A1 A2 A3 A4 A5 A6 A7

A1 1.0000 0.6413 0.6422 0.631 0.3952 0.3926 0.3509

A2 0.6413 1.0000 0.6792 0.5627 0.3543 0.3804 0.3336

A3 0.6422 0.6792 1.0000 0.6213 0.3881 0.4149 0.4338

A4 0.631 0.5627 0.6213 1.0000 0.3677 0.3698 0.3851

A5 0.3952 0.3543 0.3881 0.3677 1.0000 0.7026 0.3184

A6 0.3926 0.3804 0.4149 0.3698 0.7026 1.0000 0.3618

A7 0.3509 0.3336 0.4338 0.3851 0.3184 0.3618 1.0000

COEFICIENTE DE CORRELACIÓN BISERAL

El coeficiente de correlación biserial se utiliza cuando queremos conocer la correlación existente entre dos variables, de las cuales una aparece medida en una escala intervalar o de razón, mientras que la otra ha sido dicotomizada.

CÁLCULO DEL COEFICIENTE DE CORRELACIÓN BISERAL

donde:

LISREL (LInear Structural RELations)

• Diversos paquetes estadísticos sirven para ajustar este tipo de modelos. Algunos fueron desarrollados específicamente para este fin, como AMOS, EQS, Lisrel y M-PLUS; otros incluyen únicamente un módulo particular para realizar esta tarea. Dentro de estos últimos destacan R, S-plus, sas, spss, Stata, Systat, entre otros.

• Lisrel se mantiene a la vanguardia en el desarrollo de las rutinas computacionales para introducir los desarrollos recientes en estos modelos.

INTRODUCCIÓN A LISREL

La primera versión de Lisrel (versión 3) apareció en 1975 y es atribuido a Karl Jöreskog. Lisrel es el acrónimo de “LInear Structural RELations”, aunque en la actualidad hablar de Lisrel es sinónimo de SEM (Structural Equation Modeling). Sin embargo. no fue hasta 1998 cuando apareció la primera versión interactiva de Lisrel (versión 8.2 para Windows). La primera versión del módulo Prelis (PREprocessor for Lisrel) se lanzó en 1986. Este módulo ha ido evolucionando hasta convertirse en una herramienta exploratoria de los datos que serán usados posteriormente en Lisrel, como el cálculo de la matriz de correlaciones policóricas cuando los datos son categóricos, el cálculo de la matriz de varianzas-covarianzas asintótica, análisis descriptivo de los datos, etc.

PRELIS

Prelis es un módulo incluido en Lisrel que sirve para preparar los datos que serán usados cuando se lleve a cabo la construcción del modelo de ecuaciones estructurales, o bien para hacer otro tipo de análisis estadístico diferente a SEM. Para poder trabajar los datos en Prelis es necesario disponer de una base con extensión PSF. Hay dos formas de obtenerla:

a) Capturando directamente los datos por medio de la opción Prelis Data, ó

b) Importando una base que se encuentre en otro tipo de formato.

APLICACIÓN 1

La base de datos PARTO.txt se obtuvo a partir de un trabajo de investigación donde se analizan diversas variables de 100 madres y sus correspondientes recién nacidos en parto normal. La descripción de estas se da a continuación:

DESCRIPCIÓN DE LAS VARIABLES

• PESOM: Peso de la madre (Kg.)

• TALLAM: Talla de la madre (cm.)

• SEM: Semanas de gestación

• PASM: Presión arterial sistólica de la madre (mm Hg.)

• PADM: Presión arterial diastólica de la madre (mm Hg.)

• PESOR: Peso del recién nacido (kg.)

• TALLAR: Talla del recién nacido (cm.)

• PTR: Perímetro torácico del recién nacido (cm.)

• PCR: Perímetro craneal del recién nacido (cm.)

APLICACIÓN 2

• Este conjunto de datos contiene 204 observaciones de 12 variables.

• Las 12 variables son indicadores de las variables latentes Autoestima, Depresión e Impulsividad.

• Las 12 variables fueron observadas sobre una escala de Likert de 5 puntos.

• El conjunto de datos está contenido en el archivo DEPRESS.PSF.

• Esta base fue utilizada por Magidson and Vermunt (2001) and Schaeffer (1988).

CORRELACIONES DE PEARSON

SELF1 SELF2 SELF3 SELF4 SELF5 DEPRES1 DEPRES2 DEPRES3 DEPRES4 IMPULS1 IMPULS2 IMPULS3

SELF1 1

SELF2 0.622 1

SELF3 0.619 0.64 1

SELF4 0.533 0.649 0.619 1

SELF5 0.588 0.644 0.615 0.711 1

DEPRES1 0.489 0.551 0.576 0.635 0.733 1

DEPRES2 0.368 0.389 0.428 0.447 0.565 0.588 1

DEPRES3 0.403 0.434 0.44 0.44 0.513 0.667 0.49 1

DEPRES4 0.482 0.504 0.518 0.459 0.614 0.639 0.589 0.61 1

IMPULS1 0.133 0.121 0.111 0.098 0.079 0.055 0.103 -0.03 0.052 1

IMPULS2 0.043 0.078 -0.038 -0.041 0.036 -0.002 0.127 0.026 0.02 0.509 1

IMPULS3 0.284 0.334 0.273 0.28 0.348 0.344 0.318 0.304 0.319 0.342 0.311 1

CORRELACIONES POLICÓRICAS

SELF1 SELF2 SELF3 SELF4 SELF5 DEPRES1 DEPRES2 DEPRES3 DEPRES4 IMPULS1 IMPULS2 IMPULS3

SELF1 1

SELF2 0.667 1

SELF3 0.671 0.692 1

SELF4 0.568 0.714 0.68 1

SELF5 0.632 0.717 0.688 0.778 1

DEPRES1 0.533 0.601 0.646 0.699 0.796 1

DEPRES2 0.449 0.458 0.521 0.54 0.684 0.703 1

DEPRES3 0.435 0.461 0.494 0.467 0.571 0.708 0.582 1

DEPRES4 0.523 0.554 0.577 0.502 0.67 0.692 0.695 0.67 1

IMPULS1 0.215 0.224 0.192 0.143 0.135 0.08 0.211 -0.075 0.106 1

IMPULS2 0.12 0.155 -0.012 -0.06 0.097 0.015 0.273 0.079 0.1 0.74 1

IMPULS3 0.335 0.372 0.313 0.309 0.418 0.382 0.368 0.344 0.358 0.473 0.497 1

APLICACIÓN 3

La base de datos BCANCERDEP.txt se obtuvo a partir de un trabajo de investigación donde se analizan diversas variables de mujeres con diagnóstico de cáncer a la mama. La descripción de estas se da a continuación:

DESCRIPCIÓN DE LAS VARIABLES

• EDAD: Edad (años)

• TAMAÑO: Tamaño del tumor patológico (cm.)

• NIVHIST: Nivel histológico

• TUMORCAT: Tamaño del tumor patológico(categorías)

• TIEMPO: Tiempo (meses)

REPRESENTACIÓN DE UN MODELO LATENTE

CLASIFICACIÓN DE MODELOS CON VARIABLES LATENTES DE ACUERDO CON LOS NIVELES DE MEDICIÓN

BONDADES DE LOS MODELOS DE CLASES LATENTES

Diversos investigadores (Agresti. 2002; Bartholomew et al.. 2002; Hagenaars. 1990; McCutcheon. 1987; Vermunt. 2003 y 2004) han resaltado algunas de las bondades de los modelos de clases latentes:

• Reducen la complejidad de los datos identificando un número pequeño de variables (clases latentes) que son suficientes para explicar las relaciones entre las variables manifiestas.

• Explican las relaciones “verdaderas” entre variables observadas. Se dice que las variables no-observadas (latentes) explican relaciones “verdaderas”. ya que al incorporarlas en los modelos controlan diversas fuentes de error.

• Permiten estimar la probabilidad que tiene cada uno de los participantes de pertenecer a una de las clases latentes.

• Analizan datos categóricos en las escalas en que fueron medidos, sin requerir transformaciones para lograr normalidad multivariada.

PATH DIAGRAM

(diagrama causal ó diagrama de rutas ó diagrama de trayectorias)

44

TIPOS DE VARIABLES

OBSERVABLES:

LATENTES: Muy importante el concepto de factor latente!

F1

x2

x1

x3

x1

45

Tipos de relaciones (siempre lineales):

FLECHAS BIDIRECCIONALES:

Covarianzas o correlaciones

FLECHAS UNIDIRECCIONALES:

Pesos no estandarizados

o pesos estandarizados

x1

F1

x1

x2

E1

E2

RELACIÓN DE COVARIACIÓN

APTITUD RENDIMIENTO

RELACIÓN DE TIPO CAUSAL

NÚMERO DE FUMADORES

CANTIDAD DE HUMO

RELACIÓN CAUSAL INDIRECTA

APTITUD MOTIVACIÓN RENDIMIENTO

RELACIONES DIRECTA E INDIRECTA

APTITUD MOTIVACIÓN

RENDIMIENTO

RELACIÓN CAUSAL RECÍPROCA

ANSIEDAD RENDIMIENTO

RELACIÓN ESPURIA

• En una relación causal básica o una relación de covariación hay involucradas dos variables. En una relación espuria la relación comprende al menos tres variables. Una relación espuria se refiere a la existencia de covariación entre dos variables que es debida, total o parcialmente, a la relación común de ambas variables con una tercera. Esta es la razón por la cual la covariación entre dos variables puede ser muy elevada y, sin embargo, ser nula su relación causal.

• Un ejemplo de relación espuria es la que se da entre estatura e inteligencia en preescolares. Si medimos ambas variables en niños de preescolar es muy posible que encontremos una alta relación entre ellas; sin embargo. a nadie se le ocurre pensar que la estatura causa la inteligencia. Existe una tercera variable, el desarrollo del niño (la edad), que es causa de ambas variables y que hace que se observe esa relación.

EJEMPLO DE RELACIÓN ESPÚRIA

EDAD

ESTATURA

INTELIGENCIA

53

EXÓGENAS: Variables que en el modelo NO se intentan explicar (ninguna flecha las apunta)

ENDÓGENAS: Variables que en el modelo se intentan explicar. Toda variable endógena tiene un error.

F1

x1

x2

x3

e1

e2

e3

APLICACIÓN 4

• Estos datos representan los puntajes obtenidos a partir de nueve pruebas psicológicas de 145 estudiantes de sétimo y octavo grado de la escuela Grant-White en Chicago. Esas nueve pruebas psicológicas fueron construcciones teóricas para medir la percepción visual, la habilidad verbal y rapidez numérica.

• Los datos están en el formato del sistema de archivos del PRELIS y se llama NPV.PSF.

DIAGRAMA DE TRAYECTORIA PARA UN MODELO DE MEDIDA DE LA PERCEPCIÓN VISUAL. HABILIDAD VERBAL Y RAPIDEZ NUMÉRICA

SINTAXIS EN LISREL (NPV.SPL)

• Raw Data from File NPV.PSF • Latent Variables • Visual Verbal Numerical • Relationships • VISPERC CUBES LOZENGES = Visual • PARCOMP SENCOMP WORDMEAN = Verbal • ADDITION COUNTDOT SCCAPS = Numerical • Path Diagram • End of Problem

DIAGRAMA 2 DE TRAYECTORIA PARA UN MODELO DE MEDIDA DE LA PERCEPCIÓN VISUAL. HABILIDAD VERBAL Y RAPIDEZ NUMÉRICA

SINTAXIS EN LISREL (NPV2.SPL)

• Raw Data from File NPV.PSF • Latent Variables • Visual Verbal Numerical • Relationships • VISPERC CUBES LOZENGES = Visual • PARCOMP SENCOMP WORDMEAN = Verbal • ADDITION COUNTDOT SCCAPS = Numerical • SCCAPS=Visual • Path Diagram • End of Problem

ANÁLISIS DE CLASES LATENTES (ACL)

• Es una herramienta estadística que permite modelar las relaciones entre las variables observadas, suponiendo que la estructura de relaciones subyacentes es explicada por una variable latente categórica (no observada).

• Esta metodología clasificatoria se basa en la estimación de probabilidades condicionales, lo que permite analizar variables medidas en diferentes métricas, especialmente datos categóricos (Magidson y Vermunt, 2001, 2004).

USOS DEL ACL

• Al igual que el análisis factorial. el ACL permite tanto explorar las relaciones entre las variables como probar hipótesis acerca de las estructuras.

• Como técnica exploratoria con esta herramienta estadística es posible reducir datos en una sola variable latente que identifica la membrecía de las clases.

• Como análisis confirmatorio, esta técnica puede confirmar la heterogeneidad de la población bajo estudio, permitiendo al investigador probar sus hipótesis acerca de la estructura de las relaciones entre las variables manifiestas.

ANÁLISIS DE CLASES LATENTES (BÁSICO O ESTÁNDAR)

El ACL básico es usado generalmente como un método analítico que permite identificar el menor número posible de clases latentes que son suficientes para explicar las relaciones entre las variables observadas o manifiestas que pueden reportar datos dicotómicos, politómicos, nominales, ordinales, o bien combinaciones de variables en diferentes escalas de medición.

SUPUESTO

Un supuesto muy importante que subyace en el análisis de clases latentes básico es el de independencia local (Lazarsfeld y Henry. 1968). Si al incluir una variable latente en el análisis, las correlaciones entre las variables observadas son cercanas a cero, se dice que las variables manifiestas son independientes localmente. Esta condición es un método relevante para determinar si las relaciones de un conjunto de variables observadas son espurias, es decir, si desaparecerían al incorporar una variable no-observada (McCutcheon. 1987).

REPRESENTACIÓN GRÁFICA DE UN MODELO DE CLASES LATENTES BÁSICO

MODELO DE CLASES LATENTES BÁSICO (cont.)

En el ACL la variable X del modelo gráfico es una variable latente categórica nominal. Asumiendo que cada variable manifiesta es una variable categórica que puede tener el valor de 0 o 1, podemos tener diferentes patrones de respuesta a los que comúnmente se les denomina vector. Así, de las variables y1...y4, se podría tener un vector de respuesta como 0001, el cual refleja que un individuo tuvo valores de 0 en y1, y2, y3, y de 1 en la variable y4. Este vector de respuesta es una función de dos probabilidades:

MODELO DE CLASES LATENTES BÁSICO (cont.)

• La probabilidad de que el individuo pertenezca a una clase de la variable latente.

• La probabilidad de que en cada variable manifiesta obtenga el valor 0 o 1, dado la pertenencia a la clase latente.

El supuesto de independencia local, permite estimar la probabilidad conjunta del vector de respuestas, dada la pertenencia a la clase latente, como el producto de las probabilidades de cada respuesta.

MODELO DE CLASES LATENTES PARA VARIABLES CATEGÓRICAS

Donde: • Yi indica el vector de respuesta del caso i. • Yij indica la respuesta del caso i en la variable j; con J,

el número de variables en el modelo. • Xi representa a la variable latente; t indica una clase

latente particular; con • T, el número de clases latentes.

ESTIMACIÓN DE LOS MODELOS

• Depende de la escala de medición de las variables observadas, ya que se asumen diferentes distribuciones para las variables nominales, ordinales y continuas. Los modelos pueden incluir un conjunto de variables medidas en diferentes escalas.

• Las variables observadas nominales que se asumen provienen de una distribución multinomial, se modelan mediante una regresión logística multinomial; las variables ordinales, mediante regresiones logísticas ordinales, y las variables dicotómicas, mediante regresiones logísticas binarias. Las variables continuas se estiman mediante regresiones lineales estándares (Vermunt y Magidson. 2005).

EVALUACIÓN DEL AJUSTE DEL MODELO

• Una vez que conocemos cómo modelar clases latentes, otra herramienta indispensable es la que nos permite valorar cuál de los modelos propuestos se ajusta mejor a los datos que estamos trabajando.

• En el ACL el estadístico más usado para evaluar el ajuste de los modelos de clases latentes es el criterio de información bayesiana (Bayesian Information Criterion, BIC). Este y otros estadísticos similares ponderan, según el número de parámetros, la bondad del ajuste de un modelo medido por el valor de máxima verosimilitud obtenido. Este estadístico es especialmente útil cuando en la población que se estudia hay datos esparcidos o casos escasos.

BIC (Bayesian Criterion Information)

Donde:

• es el valor maximizado del logaritmo de la función de verosimilitud

• p es el número de parámetros del modelo (incluyendo la constante)

• n es el tamaño de la muestra.

¿QUÉ ES EL MPLUS? • Mplus es un programa para el modelamiento estadístico que

provee a los investigadores una herramienta flexible para el análisis de sus datos.

• Mplus ofrece a los investigadores una amplia variedad de modelos, estimadores, y algoritmos en un programa que tiene salidas gráficas de los datos y análisis de los resultados.

• Mplus permite el análisis de datos transversales y longitudinales, datos de un solo nivel o multinivel y datos que vienen de distintas poblaciones con heterogeneidad observada o no observada.

• Los análisis pueden llevarse a cabo para variables observadas continuas, censuradas, binarias, ordinales, nominales, conteos, o combinaciones de estas.

• Mplus tiene especiales características para datos perdidos, muestras complejas, y datos multinivel.

• Mplus tiene grandes habilidades para la simulación Monte Carlo simulation.

ESTRUCTURA DE LOS COMANDOS • Mplus es un programa basado en comandos

• Hay nueve conjuntos de comandos en el Mplus:

– TITLE:

– DATA:

– VARIABLE:

– DEFINE:

– ANALYSIS:

– MODEL:

– OUTPUT:

– SAVEDATA:

– PLOT:

– MONTECARLO:

APLICACIÓN 5

El interés es estudiar el comportamiento de consumo de alcohol entre los adultos. En lugar de conceptualizar el comportamiento de consumo como una variable continua, se conceptualiza como la formación de distintas categorías o tipologías. ¿Cree Ud. que la gente cae en distintos grupos de alcohol?. Puesto que no se puede medir directamente, esta es una variable latente. Sin embargo. se tiene una serie de indicadores que se cree útiles para clasificar a las personas en categorías diferentes. Utilizando estos indicadores quisieramos:

APLICACIÓN 5 (Objetivos del Estudio)

1. Crear un modelo que permita clasificar a estas personas en diferentes tipos de bebedores. 2. Ser capaz de clasificar a la gente en cuanto a qué tipo de bebedor que son. 3. Obtener el número de personas en cada tipo de bebedor. 4. Determinar si el número de clases latentes es el número correcto de clases (es decir, hay sólo dos tipos de bebedores o tal vez hay hasta cuatro tipos de bebedores).

APLICACIÓN 5 (Descripción de las Variables)

Se tiene un archivo de datos (lca1.txt) que contiene nueve medidas acerca de la conducta de beber. Para cada medida. la persona se pregunta si la descripción se aplica a sí mismo (sí o no). Las 9 medidas son:

1. Me gusta beber 2. Bebo licor fuerte 3. He bebido por la mañana 4. He bebido en el trabajo 5. Bebo para emborracharme 6. Me gusta el sabor del alcohol 7. Bebo para ayudarme a dormir 8. El beber interfiere con mis relaciones 9. Visito con frecuencia bares

APLICACIÓN 5 (Estrategias)

• Análisis de Conglomerados - Se podría utilizar el análisis de conglomerados de datos como éstos. Sin embargo. el análisis de conglomerados no se basa en un modelo estadístico. Esto le puede decir cómo los casos se agrupan en grupos, pero no proporciona información como la probabilidad de que una determinada persona pertenezca a una clase. Además, el análisis de conglomerados no proporciona información, tales como: dado que alguien dijo "sí " a beber en el trabajo, ¿cuál es la probabilidad de que pertenezca a un grupo o clase específica?.

• Análisis factorial – Se puede tener la tentación de utilizar un análisis factorial, ya que es una técnica utilizada con variables latentes. Sin embargo, el análisis factorial se utiliza para las variables latentes continuas y por lo general normalmente distribuidas.

SINTAXIS EN MPLUS

RESULTADOS EN ESCALA DE PROBABILIDAD

Class 1 Class 2 Class 3 Etiqueta del Item

ITEM1 0.908 0.312 0.923 Me gusta beber

ITEM2 0.337 0.164 0.546 Bebo licor fuerte

ITEM3 0.067 0.036 0.426 He bebido en la mañana

ITEM4 0.065 0.056 0.418 He bebido en el trabajo

ITEM5 0.219 0.044 0.765 Bebo para emborracharme

ITEM6 0.320 0.183 0.471 Me gusta el sabor del alcohol

ITEM7 0.113 0.098 0.512 Bebo para ayudarme a dormir

ITEM8 0.140 0.110 0.619 El beber interfiere con mis relaciones

ITEM9 0.325 0.188 0.349 Visito con frecuencia bares

RESULTADOS EN ESCALA DE PROBABILIDAD

• Contiene las probabilidades condicionales.

• Por lo tanto, si alguien pertenece a la Clase 1, tiene una probabilidad del 90,8% de decir "sí, me gusta beber". Por el contrario, si alguien pertenece a la Clase 2, tiene una probabilidad de 31.2% de decir "sí, me gusta beber".

INTERPRETACIÓN

• La clase 3 se puede etiquetar como "alcohólicos". Centrándose sólo en la clase 3, son los que realmente les gusta beber (92%), beber licor fuerte (54,6%), un número bastante grande dicen que ha bebido de la mañana y en el trabajo (42,6% y 41,8% ), y más de la mitad dicen que beber interfiere con sus relaciones (61,9%).

• A la clase 2 se les etiqueta como "abstencionistas". No a muchos de ellos les gusta beber (31,2%), muy pocos les gusta el sabor del alcohol (18,3%), son pocos los visitan con frecuencia bares (18,8%), y para el resto de las preguntas que rara vez se respondió "sí".

• A la clase 1; se puede ajustar a la idea del "bebedor social“. Les gusta beber (90,8%), pero no beben licor fuerte tan a menudo como la clase 3 (33,7% frente a 54,6%). Rara vez se bebe en la mañana o en el trabajo (6,7% y 6,5%) y rara vez dicen que el beber interfiere con sus relaciones (14%). Ellos dicen que visitan con frecuencia bares similar a la clase 3 (32,5% versus 34,9%).

APLICACIÓN 6: EL USO DEL ANÁLISIS DE CLASES LATENTES EN EL DIAGNÓSTICO DE INFARTO AL MIOCARDIO

• La sensibilidad es la probabilidad de que una persona con la enfermedad será positivo en el indicador. la especificidad es la probabilidad de que una persona sin la enfermedad será negativo en el indicador. La estimación de la sensibilidad y la especificidad depende de un Gold Standard (Patrón de oro) para el diagnóstico.

• Rindskopf y Rindskopf (1986) aplicaron el ACL a este problema. y mostró que la sensibilidad y especificidad podría estimarse. en determinadas condiciones. incluso sin un patrón oro.

APLICACIÓN 6 En el estudio hecho por Rindskopf y Rindskopf (1986). Los

datos provienen de un estudio de los pacientes ingresados en una sala de emergencia que sufren de dolor en el pecho (Galen y Gambino. 1975).

Cada uno de los cuatro indicadores se puntuó de modo que indicaba un infarto de miocardio (IM. comúnmente conocido como ataque al corazón) o no indicaba IM. Los indicadores incluidos son:

• historia • electrocardiograma (onda Q invertida), y • dos análisis de sangre (CPK y LDH). Los datos fueron consistentes con un modelo simple de dos

clases- Las clases representan a las personas con y sin IM.

SALIDA MPLUS

SUMMARY OF CATEGORICAL DATA PROPORTIONS

CPK Category 1 0.436 Category 2 0.564 LDH Category 1 0.606 Category 2 0.394 HIST Category 1 0.532 Category 2 0.468 QQ Category 1 0.649 Category 2 0.351

SALIDA MPLUS

FINAL CLASS COUNTS AND PROPORTIONS FOR THE LATENT CLASSES BASED ON THE ESTIMATED MODEL

Latent Classes 1 43.03381 0.45781 2 50.96619 0.54219 CLASSIFICATION OF INDIVIDUALS BASED ON THEIR MOST LIKELY LATENT

CLASS MEMBERSHIP Class Counts and Proportions

Latent Classes 1 41 0.43617 2 53 0.56383

SALIDA MPLUS

RESULTS IN PROBABILITY SCALE Two-Tailed Estimate S.E. Est./S.E. P-Value Latent Class 1

CPK Category 1 0.000 0.000 0.000 1.000 Category 2 1.000 0.000 0.000 1.000 LDH Category 1 0.172 0.070 2.454 0.014 Category 2 0.828 0.070 11.804 0.000 HIST Category 1 0.209 0.065 3.230 0.001 Category 2 0.791 0.065 12.256 0.000 QQ Category 1 0.233 0.078 2.989 0.003 Category 2 0.767 0.078 9.832 0.000

SALIDA MPLUS

Latent Class 2 Two-Tailed Estimate S.E. Est./S.E. P-Value

CPK Category 1 0.804 0.068 11.911 0.000 Category 2 0.196 0.068 2.895 0.004 LDH Category 1 0.973 0.027 36.596 0.000 Category 2 0.027 0.027 1.012 0.311 HIST Category 1 0.805 0.063 12.825 0.000 Category 2 0.195 0.063 3.108 0.002 QQ Category 1 1.000 0.000 0.000 1.000 Category 2 0.000 0.000 0.000 1.000

SALIDA MPLUS

Chi-Square Test of Model Fit for the Binary and Ordered Categorical (Ordinal) Outcomes

Pearson Chi-Square

Value 4.223 Degrees of Freedom 6 P-Value 0.6466

Likelihood Ratio Chi-Square

Value 4.293 Degrees of Freedom 6 P-Value 0.6371

MODELOS DE RASGOS LATENTES (Latent Trait Models)

Tratan de modelar la probabilidad enlazando las variables observadas con un conjunto de variables latentes. La diferencia con el análisis factorial clásico es que se tiene una matriz de datos que consiste de items binarios.

OBJETIVOS

• Explorar las interrelaciones entre las respuestas observadas

• Determinar si estas interrelaciones pueden ser explicadas por un pequeño número de variables latentes

• Asignar un puntaje a cada objeto para cada variable latente sobre la base de sus respuestas

APLICACIÓN 7

Este es un conjunto de datos con solo 4 variables extraída de la Investigación de Actitudes Sociales Británicas realizada en 1986 (McGrath y Waterton, 1986). Los datos son las respuestas dadas por 410 individuos para 4 de 7 items referentes de la actitud hacia el aborto. Después de eliminar los valores perdidos, quedaron 379 registros.

APLICACIÓN 7

Para cada item, los encuestados fueron preguntados si la ley debería permitir el aborto bajo las circunstancias presentadas por cada item. Los cuatro items utilizados en el análisis son los siguientes:

1. la mujer decide por su cuenta que no (MUJERDEC)

2. la pareja acuerda en que no desean tener el niño (PAREJADEC)

3. la mujer no está casada y no desea casarse con el hombre (NOCASADA)

4. pareja no puede permitirse tener más hijos (NOPERMIT)

FRECUENCIAS DE PATRONES DE RESPUESTA, ACTITUD HACIA EL ABORTO

Patrones de Respuesta Frecuencia

0 0 0 0 103

0 0 0 1 13

0 0 1 0 10

0 0 1 1 21

0 1 0 0 9

0 1 0 1 6

0 1 1 0 7

0 1 1 1 44

1 0 0 0 1

1 0 0 1 0

1 0 1 0 0

1 0 1 1 6

1 1 0 0 3

1 1 0 1 3

1 1 1 0 12

1 1 1 1 141

Total 379

Si se hiciera un análisis factorial tradicional, se tendrían que calcular las correlaciones (Pearson) entre pares de variables y analizaríamos los resultados. En el caso de los datos binarios miraríamos las asociaciones entre pares de variables construyendo tablas de contingencia de 2 x 2 como por ejemplo:

PAREJADEC

Total NO SI MUJERDEC NO

147 66 213

SI 7 159 166

Total 154 225 379

INDICIOS

• La tabla de contingencia anterior parece mostrar una fuerte asociación entre los dos primeros items.

• Un análisis similar para otros pares de variables producen resultados similares.

• Esto conduciría a preguntarnos si esas asociaciones pueden ser atribuidas a uno o mas factores comunes.

PROPUESTA

• Para obtener esos factores comunes tal como se plantea el caso, debemos desarrollar un modelo de rasgo latente.

• Si se pueden identificar estos factores comunes, podemos calcular puntajes para cada uno de los individuos en las dimensiones latentes.

¿Por qué el modelo del AF para variables métricas no es válido para respuestas binarias?

El modelo del Análisis Factorial Exploratorio se escribe como:

Se asume en este modelo que los residuales tienen una distribución normal con media 0 y varianza constante en cada ecuación

¿Por qué el modelo del AF para variables métricas no es válido para respuestas binarias? (cont.)

• Desde que en el modelo anterior las X’s pueden tomar cualquier valor, esto invalida este análisis para variables binarias en particular.

• Para salvar este problema se utiliza un modelo apropiado de regresión de cada X sobre las variables latentes.

• El método de regresión usual para estos casos (variable respuesta binaria) es el de la regresión logística.

PLANTEAMIENTO DEL MODELO

Como es binaria, el valor esperado de dadas las variables latentes , es equivalente a:

Donde es la probabilidad condicional que la variable binaria sea igual a uno dado los valores de las q variables latentes. Por tanto se debe especificar la forma de la probabilidad como una función de las

ix ixys

yy iix |1Pr

yi

ix

yi ys

PLANTEAMIENTO DEL MODELO

No es adecuado modelar esta probabilidad como:

• Esta probabilidad debe tomar valores entre 0 y 1.

• Se podría esperar que la tasa de cambio en la probabilidad de respuesta afirmativa no sea la misma en el rango de las . Por lo que una relación curvilínea sería más apropiada.

qqiiii yy 110y

ys

MODELO FACTORIAL PARA DATOS BINARIOS

El modelo logit se define como:

ó

qqiii

i

ii yyit

110

1lnlog

y

yy

qqiii

qqiii

iyy

yy

110

110

exp1

expy

CASO PARTICULAR

Un caso especial ocurre cuando q = 1 . A este caso particular de modelo de rasgo latente se le llama Análisis de Respuesta al Item. El modelo queda establecido como:

110

110

1exp1

exp

y

yy

ii

ii

i

CURVAS CARACTERÍSTICAS DEL ITEM (incrementando el parámetro de discriminación α1)

-8 -6 -4 -2 0 2 4 6 80

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

y

��

i (y)

CURVAS CARACTERÍSTICAS DEL ITEM (incrementando el parámetro de discriminación α0)

-8 -6 -4 -2 0 2 4 6 80

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

y

�i (

y)

PRESUNCIONES

• Independencia condicional. Se verifica con las pruebas de bondad de ajuste del modelo.

• La función enlace logit o normit.

• Las variables latentes o factores son independientes con distribuciones normales estándar

APLICACIÓN 7 (sintaxis en Mplus)

• TITLE: MODELO FACTORIAL PARA DATOS BINARIOS • DATA: FILE IS ABORTO.dat; • VARIABLE: • names are MUJERDEC PAREJADEC NOCASADA NOPERMIT; • categorical are MUJERDEC PAREJADEC NOCASADA NOPERMIT; • ANALYSIS: ESTIMATOR = MLR; • MODEL: f BY MUJERDEC-NOPERMIT*; • f@1; • OUTPUT: TECH1 TECH8; • PLOT: TYPE = PLOT3; • Savedata: file is ABORTO_save.txt ;

SALIDA DEL MPLUS

SUMMARY OF CATEGORICAL DATA PROPORTIONS

MUJERDEC Category 1 0.562 Category 2 0.438 PAREJADE Category 1 0.406 Category 2 0.594 NOCASADA Category 1 0.364 Category 2 0.636 NOPERMIT Category 1 0.383 Category 2 0.617

SALIDA DEL MPLUS

MODEL RESULTS

Two-Tailed Estimate S.E. Est./S.E. P-Value

F BY MUJERDEC 4.188 0.767 5.461 0.000 PAREJADEC 4.508 0.859 5.249 0.000 NOCASADA 5.997 1.566 3.828 0.000 NOPERMIT 3.488 0.582 5.990 0.000

Thresholds MUJERDEC$1 0.759 0.314 2.419 0.016 PAREJADE$1 -1.078 0.364 -2.960 0.003 NOCASADA$1 -2.069 0.587 -3.523 0.000 NOPERMIT$1 -1.122 0.299 -3.748 0.000

CURVAS CARACTERÍSTICAS DEL ITEM

SALIDA DEL MPLUS

Chi-Square Test of Model Fit for the Binary and Ordered Categorical (Ordinal) Outcomes

Pearson Chi-Square

Value 18.188 Degrees of Freedom 7 P-Value 0.0112

Likelihood Ratio Chi-Square

Value 18.936 Degrees of Freedom 7 P-Value 0.0084

FRECUENCIAS DE PATRONES DE RESPUESTA

MUJERDEC PAREJADEC NOCASADA NOPERMIT Recuento

NO NO NO NO 103

NO NO NO SI 13

NO NO SI NO 10

NO NO SI SI 21

NO SI NO NO 9

NO SI NO SI 6

NO SI SI NO 7

NO SI SI SI 44

SI NO NO NO 1

SI NO NO SI 0

SI NO SI NO 0

SI NO SI SI 6

SI SI NO NO 3

SI SI NO SI 3

SI SI SI NO 12

SI SI SI SI 141

DIAGRAMA DE UN MODELO DE CLASES LATENTES CON UNA COVARIABLE

MODELO DE CLASES LATENTES CON UNA COVARIABLE

Donde: • Yij indica la respuesta del caso i en la variable j, siendo

J el número de variables en el modelo. • Xi: representa a la variable latente; t, una clase latente

particular, siendo T el número de clases latentes. • Zi indica una variable independiente que afecta la

pertenencia a las clases latentes.

Diagrama del modelo de clases latentes con una covariable que afecta las variables observadas (Zp) y otra que afecta a la variable latente (Zc)

Modelo de clases latentes con una covariable que afecta las variables observadas (Zp) y otra que afecta a la variable latente (Zc)

Donde: • Yij indica la respuesta del caso i en la variable j, siendo J el

númerode variables. • Xi representa a la variable latente; t, a una clase latente

particular,siendo T el número de clases latentes. • Zc indica una variable independiente que afecta la

pertenencia a las clases latentes. • Zp indica una variable independiente predictora que afecta a

las variables observadas.

DIAGRAMA DEL MODELO DE CLASES LATENTES CON UNA VARIABLE AGRUPADORA Y DEPENDENCIAS

MODELO DE CLASES LATENTES CON UNA VARIABLE AGRUPADORA Y DEPENDENCIAS