Valores Perdidos (3)

18
Análisis de valores perdidos Ana María López Departamento de Psicología Experimental

description

valores perdidos estadistica ppt

Transcript of Valores Perdidos (3)

  • Anlisis de valores perdidosAna Mara LpezDepartamento de Psicologa Experimental

  • Introduccin

    La presencia de valores perdidos (informacin ausente o faltante) es un problema comn a cualquier investigacin y no puede ser ignorado en el anlisis de datos. Ignorar los datos ausentes puede tener repercusiones graves que van desde la perdida de potencia del estudio hasta la aparicin de sesgos inaceptables. La eliminacin de sujetos con caractersticas especiales limita la representatividad o validez externa de los resultados del estudio. Las razones para la ausencia de datos pueden ser diversas: fallos en los instrumentos de medida, los sujetos no asisten a la entrevista (en diseos longitudinales pueden abandonar el estudio en una oleada concreta), no contestan a una serie de preguntas o responden con la opcin no sabe/no contesta incorporada en el cuestionario, etc. Por todas estas razones y muchas otras los datos perdidos son ubicuos en la investigacin en ciencias sociales y de la salud (Allison, 2002).

  • IntroduccinHay una solucin fcil para el tratamiento de bases de datos con valores perdidos y consiste en analizar slo los casos con Informacin completa en el conjunto de variables. Esta solucin, es la opcin por defecto de la mayora de los paquetes estadsticos, se conoce como anlisis de casos completos (Casewise, Listwise). El anlisis de casos completos tiene la ventaja de su simplicidad pero el inconveniente de que se pueden excluir a muchos casos y perder potencia en los anlisis estadsticos.

  • Patrones de prdida de informacin

    La forma o patrn para la prdida de datos puede ser muy variada. En la figura siguiente aparecen representada tres posibles matrices de datos con perdida de informacin univariante, montona y aleatoria.

  • Mecanismos de perdida de datosSe distinguen tres mecanismos de perdida de datos:Datos perdidos completamente al azar (MCAR = missing completely at random)Datos perdidos al azar (MAR= missing completely at random)Datos perdidos no ignorables o no debidos al azar (MNI=missing non-ignorable, o MNAR=missing not at random).

  • Mecanismos de perdida de datosSe considera que los datos perdidos son MCAR cuando las caractersticas de los sujetos con informacin son las mismas que las de los sujetos sin informacin. Dicho de otra manera la probabilidad de que un sujeto presente un valor ausente en una variable no depende ni de otras variables del cuestionario ni de los valores de la propia variable con valores perdidos. Las observaciones con datos perdidos son una muestra aleatoria del conjunto de observaciones. Ejemplo de MCAR:1. Las personas que no nos proporcionan su salario tienen, en promedio, el mismo salario que las personas que nos lo proporcionan.2. Las caractersticas estadsticas (media, porcentajes) del resto de las variables son las misma para los sujetos que nos proporcionan su salario y para los que no lo proporcionan.

  • Mecanismos de perdida de datosLa perdida de datos es MAR cuando los sujetos con datos incompletos son diferentes significativamente de los que presentan datos completos en alguna variable, y el patrn de ausencia de datos puede ser predecible a partir de variables con datos observados en la base de datos del estudio que no muestran ausencia de datos. La probabilidad de que se produzca la ausencia de una observacin depende de otras variables pero no de los valores de la variable con el valor ausente. Es imposible probar si la condicin MAR es satisfecha y la razn es que dado que no conocemos la informacin faltante no podemos comparar los valores de aquellos sujetos que tienen informacin con los que no la tienen. Un ejemplo de MARLa prdida de valores en la variable sueldo es MAR si depende del estado civil pero dentro de cada categora, la probabilidad de missing no est relacionada con el sueldo.

  • Mecanismos de perdida de datosLa perdida de datos es MNAR cuando la probabilidad de los datos perdidos sobre una variable Y depende de los valores de dicha variable una vez que se han controlado el resto de las variables. Ejemplo:Si son los hogares de renta mayor los que con menos probabilidad nos proporcionan el salario, una vez controladas el resto de las variables, entonces la perdida de datos no es aleatoria ni ignorable. En los siguientes archivos se simula el mecanismo MAR y MNAR para una variable y para dos variables. En este ltimo ejemplo tomado de Schafer y Graham, 2002 se simulan los tres mecanismos de prdida con dos variables.

  • Anlisis de Valores perdidos con SPSS

  • Anlisis de Valores perdidos con SPSSArchivo: opinion.sav

  • Anlisis de valores perdidos

  • Anlisis de valores perdidosTablas de contingencia de variables indicador frente a categricas

  • Anlisis de valores perdidos

  • Anlisis de valores perdidosEstadsticos segn listaEstadsticos segn pareja

  • Anlisis de valores perdidosEstadsticos de EM estimadosEstadsticos de regresin estimados

  • Anlisis de casos completos: para el conjunto de variables (Listwise, Complete case)Anlisis de casos completos: por pares de variables (Pairwise)Mtodos para tratar valores perdidos

  • Mtodos de imputacin de datosImputacin simpleSustitucin por la media de las observaciones con informacin. Imputacin mediante regresin mltiple. Asigna a los valores missing los valores predichos por una ecuacin de regresin estimada a partir de los sujetos con informacin completa. Algoritmo EM

    2.Imputacin mltipleMtodos para tratar valores perdidos

  • Allison, P.D. (2002). Missing values. SageLittle, R. J. A. y Rubin, D. B. (1989) The Analysis of Social Science Data with Missing Values. Sociological Methods and Research 18: 292-326.Little, R. J. A. y Rubin, D.B. Statistical Analysis with Missing Data,2nd edition. New York: Wiley.Rejas, J. Imputacin de datos ausentes en estudios de calidad de vida relacionados con la salud: patrones de prdida de datos y mtodos de imputacin. Investig. Cln. Farm. 2005, Vol. 2 (1): 23-29Schafer, J.L. y Graham, J.W. (2002). Missing Data: Our View of the State of the Art. Psychological Methods, Vol. 7, No. 2, 14777Tutorial sobre anlisis de valores perdidos con SPSS 13. http://www2.chass.ncsu.edu/garson/pa765/missing.htm

    Referencias bibliogrficas:

    El problema de los datos perdidos no es tanto la cantidad sino el mecanismo por el que se han producido los valores perdidos.Imaginemos que preguntamos sobre la ley de matrimonios homosexuales en una escala de 1 (muy desfavorable) hasta 7 (muy favorable) y que relacionamos la opinin con la clase social medida por el salario. Supongamos que un 40% de los sujetos no nos proporcionan informacin acerca de su salario. Cmo afectara a la opinin si slo analizamos los sujetos con informacin completa?, Los datos perdidos en salario corresponden a sujetos con opiniones distribuidas aleatoriamente en el rango completo de la escala de opinin?, los datos perdidos corresponden a las opiniones ms desfavorables?, son ignorables?. Todas estas preguntas son objeto del anlisis de valores perdidos. MAR: slo se podra probar a posteriori consiguiendo la informacin que falta.MAR: slo se podra probar a posteriori consiguiendo la informacin que falta.Pairwise: utiliza muestras de tamao distinto para diferentes parmetros. La principal virtud de los mtodos basados en la eliminacin de casos es su simplicidad y, en el caso de listwise proporciona estimaciones insesgadas cuando el nmero de valores perdidos no es grande y el mecanismo es mcar. Los principales inconvenientes de listwise es que ignora posibles diferencias entre casos completos e incompletos. Los errores estndar generalmente sern menores en la muestra analizada con listwise. Proporciona estimaciones sesgadas si la muestra reducida no es una submuestra aleatoria de la original. Requiere el supuesto de MCAR. Media: Este mtodo tiene la desventaja de que reduce la varianza y errores estndar se infraestiman y altera las covarianzas y correlaciones entre las variables. Regresin: no es un mtodo recomendado porque sobreestima las correlaciones entre Y y las variables predictoras incluidas en la regresin estimada para realizar la imputacin. En general la desventaja fundamental de los mtodos de imputacin simple es que tienden a infraestimar la varianza, dado que reemplazan los valores ausentes por valores ya existentes en la base de datos o, en el caso de la regresin, por valores estimados a partir de covariables que pueden disminuir la variabilidad espontnea de las observaciones en caso de haberse llevado a cabo.

    La imputacin mltiple resuelve el problema de la infraestimacin de la varianza de la muestra. Requiere que el mecanismo de prdida sea MAR o MCAR.