S6 1 Intro Imput

Taller de Análisis Estadístico COEP

Sesión 06-1Métodos de imputaciónPaul Ramírez De la Cruz

23 may 2008 Métodos de imputación 2

Introducción Se le llama método de imputación a cualquier

procedimiento mediante el cual se busca eliminar los datos perdidos de un archivo con información estadística, asignándoles un valor válido

En esta sesión hablaremos sobre algunos métodos de imputación

Algunos de estos son comúnmente utilizados en oficinas de estadística oficial

Otros han sido poco explorados, posiblemente por su nivel de sofisticación


¿Cuándo es necesario imputar? El tratamiento que la mayoría de los paquetes

estadísticos dan a los datos faltantes (missing data) es el de omitirlos del estudio

Se pueden omitir por pares o por lista La omisión de datos por pares consiste en excluir de

cualquier análisis que incluya a las variables Xj y Xk todo caso que tenga un valor perdido en Xj, en Xk o en ambas La ventaja es que se utiliza en cada análisis la mayor

cantidad posible de información disponible La desventaja es que los resultados obtenidos

estarán basados en distintos tamaños de muestra


¿Cuándo es necesario imputar? En la omisión de datos por lista se excluye de todos los

análisis cualquier caso que tenga al menos un dato perdido en una variable La ventaja es que todos los resultados están basados

en la misma muestra La desventaja es que produce una pérdida de

información mucho mayor que el enfoque por pares Si se tiene una pérdida de datos muy pequeña,

cualquiera de estos dos enfoques resulta suficiente Si la pérdida de información es mayor, puede resultar

de utilidad “completar” el archivo de datos


Consideraciones sobre la imputación

Debe tenerse cuidado al aplicar métodos de imputación a algún conjunto de datos

Una imputación mal conducida puede llegar a modificar las características estadísticas de la información en la que se aplica

Cualquiera que sea el método de imputación utilizado, debe verificarse que las distribuciones conjuntas de los datos producidos por este no difieran significativamente de las de aquellos datos obtenidos en campo


Clasificación de métodos de imputación

Poco recomendables Por medida de tendencia central Asignación aleatoria

Determinístico De donación

Cold deck Hot deck


Clasificación de métodos de imputación

Estadísticos Regresión Regresión aleatoria Análisis discriminante lineal

Computacionales (aprendizaje de máquina o inteligencia artificial) Árboles de clasificación y regresión Redes neuronales Máquinas de soporte vectorial


Métodos de imputación no recomendables: Tendencia central

Imputación por alguna medida de tendencia central (media, mediana, etc)

Ventajas Es muy simple de realizar Mantiene inalterada la medida de

tendencia central utilizada


Métodos de imputación no recomendables: Tendencia central

Desventajas Crea artificialmente un “bordo” en la

parte central de la distribución, en consecuencia cambiando la forma de esta

Disminuye artificialmente el valor de las medidas de dispersión

No toma en cuenta las relaciones de la variable imputada con otras del estudio


Métodos de imputación no recomendables: Asignación aleatoria

Asignación aleatoria de alguno de los valores válidos de la variable

Ventajas Es muy simple de realizar Mantiene la distribución y por tanto las medidas

de tendencia central y de dispersión Desventajas

No toma en cuenta las relaciones de la variable imputada con otras del estudio

Puede distorsionar la relación entre la variable imputada y otras variables


Método determinístico de imputación

Hace uso de relaciones entre las variables dentro de un instrumento, o entre instrumentos para deducir qué valor debería tener el dato perdido

Ventajas Fácil de implementar Hace uso explícito de ciertas relaciones

entre las variables del instrumento


Método determinístico de imputación

Desventajas Solamente se puede utilizar cuando hay

una relación clara entre variables Aún en el caso anterior, puede no dar un

valor puntual para el dato perdido, sino solamente un intervalo de valores entre los que pudiera estar


Ejemplo

Supongamos que un cuestionario para educadora no unitaria, primera parte, tiene un dato perdido en el año de acreditación de la licenciatura en educación primaria

Por otro lado, se cuenta con información de que la educadora tiene 25 años de edad


Ejemplo Se propone la hipótesis de que,

difícilmente, una educadora concluiría un programa de licenciatura antes de cumplir 20 años

Se deduce entonces que no podría haber concluido su instrucción antes de 2003

Notemos que el resultado no es un valor puntual, sino un intervalo y que el valor imputado podría ser cualquiera de entre 2003, 2004, 2005, 2006, 2007 y 2008


Métodos de imputación por donación: Hot deck

Los métodos de donación hacen uso de un dato tomado de un caso con información completa para imputar un valor perdido en otro caso

La aplicación del método requiere la identificación de k casos completos que sean “similares” al actual que está incompleto



Se hace uso del método del “vecino más cercano” para establecer dicha similitud

Consiste en crear conglomerados de observaciones a partir de la distancia que los separa Euclidiana Euclidiana ponderada De Mahalanobis



El término hot deck significa “mazo (de cartas) caliente”

Se refiere a los inicios de la computación cuando los datos se introducían mediante tarjetas perforadas

Al pasar por la máquina lectora, las tarjetas quedaban calientes

El nombre del método tiene que ver con el uso de un donador con información completa, tomado del mazo caliente de cartas, para completar la información de un caso que tuviera algún valor perdido


Métodos de imputación por donación: Cold deck

Es el mismo método que hot deck, con la diferencia de que se utiliza información de una investigación previa, muy similar a la actual

Dado que las tarjetas donadoras no acababan de ser leídas en la máquina, ya estaban frías, de allí el nombre del método


Métodos de imputación por donación

Ventajas Son relativamente simples, en realidad son

los más simples entre los métodos de aprendizaje máquina

Mantienen las distribuciones de la variable imputada y su relación con otras variables Siempre y cuando se tomen precauciones para

evitar caer en el caso de imputación por medida de tendencia central o en el de imputación aleatoria


Métodos de imputación por donación

Desventajas Requieren cierto grado de implementación

(aunque, por ejemplo, hay un par de opciones implementadas en paquetes de R)

Es posible que se necesite cierta cantidad de “experimentación” para establecer un modelo eficiente


Paquetes de R para imputación

yaImpute: Imputación por k-NN (k nearest neighbours o k vecinos más cercanos)

mitools: Herramientas para imputación múltiple de datos faltantes


Métodos estadísticos de imputación: Regresión

Se elabora un modelo de regresión (lineal, polinomial, logística o de otro tipo) con la variable que se busca imputar como variable respuesta y una o más variables relacionadas con la primera como variables explicativas

La selección de las variables que fungirán como explicativas debe estar basada en la teoría sustantiva del área del estudio y apoyada por información estadística: por ejemplo, correlaciones entre las variables


Imputación por regresión Ventajas

Es relativamente simple de implementar Toma en cuenta las relaciones entre la variable

que se imputa y otras Resulta de utilidad, principalmente, para

variables continuas (lineal, polinomial) o binarias (logística)

Desventajas Requiere del ajuste de un modelo para cada

variable a imputar Si el ajuste no es bueno, puede producir valores

improbables de la variable imputada


Métodos estadísticos de imputación: Regresión aleatoria

Es una extensión del modelo anterior Al resultado previo se le agrega un

error aleatorio para evitar que dos casos imputados con los mismos valores en las variables explicativas tengan el mismo valor en la variable imputada


Regresión aleatoria

Ventajas Es relativamente simple de

implementar Toma en cuenta las relaciones entre la

variable que se imputa y otras Permite mayor variabilidad en los

valores imputados


Regresión aleatoria Desventajas

Requiere del ajuste de un modelo para cada variable a imputar

Si el ajuste no es bueno, puede producir valores improbables de la variable imputada

Implica cierto conocimiento de la variable a imputar para saber de qué tamaño debe ser el error aleatorio agregado


Métodos estadísticos de imputación: Análisis discriminante lineal (ADL)

Es un método multivariado que se basa en un conjunto, llamado de entrenamiento, de observaciones que están clasificadas en dos o más categorías

El ADL tiene como objetivo encontrar una combinación lineal de las variables originales que produzca la mejor separación entre las categorías


Métodos estadísticos de imputación: Análisis discriminante lineal (ADL)

Una vez calculada dicha combinación lineal, esta se utiliza como un “clasificador” o método para asignar un nuevo caso a la categoría más adecuada, de acuerdo con sus valores en las otras variables

Ventajas Es relativamente simple de implementar, por ejemplo

se puede hacer de manera interactiva en SPSS Toma en cuenta las relaciones entre la variable que

se imputa y otras Funciona mucho mejor que los métodos de regresión

en variables categóricas


Análisis discriminante lineal

Desventajas Requiere del ajuste de un modelo para

cada variable a imputar Dependiendo de las relaciones entre las

variables y la dificultad para “separar bien” los distintos grupos (categorías de la variable que se imputa) puede dar un alto porcentaje de clasificaciones erróneas


Métodos computacionales Son métodos de desarrollo reciente (menos

de 10 años) que se utilizan en minería de datos y aprendizaje de máquina, entre otras cosas, para reconocimiento de patrones

La teoría detrás de ellos es compleja La aplicación puede ser medianamente

simple si se utilizan implementaciones disponibles, por ejemplo, en R

En general, producen clasificadores muy eficientes


Árboles de clasificación Consisten en la división binaria sucesiva de

los recorridos de variables seleccionadas Los árboles de clasificación dividen el

espacio de búsqueda en rectángulos y luego ajustan un modelo simple, por ejemplo una constante, en cada uno de ellos

Dicha constante corresponde con una de las categorías de la variable que se busca predecir

Separaci n de Grupos rbol de Clasificaci n

X

Y

-2 0 2 4 6 8

-4-2

02

4

0 0 0

0

1

0

0

1 1

0

1

11 0

1

0 0

0

|Y<1.52137

Y<0.943743Y<0.475154Y<0.587101 X<3.12812

X<0.785682

X<4.50567

Y<2.3659

X<1.47718X<3.78852

Y<2.0184

X<3.56239X<4.02114Y<3.89761X<3.70785

X<5.15816Y<2.25638

0

0

00 00 00

00 1

0

1

1

10 1

11 1 0

11 1111 1 0 1

000 0 0


Árboles de clasificación

Ventajas Comienzan con el grupo completo de

variables y utilizan solamente aquellas que proporcionan “la mejor separación”

Son de fácil interpretación Hay varias herramientas al respecto

implementadas en R Desventajas

Consideran las variables para separación una a la vez


Paquetes de R para árboles de clasificación

tree: Classification and regression trees http://cran.r-project.org/web/packages/tree/index.html

maptree: Mapping, pruning, and graphing tree models http://cran.r-project.org/web/packages/maptree/index.html

pinktoe: Graphically traverse a tree via GUI widgets or web based system http://cran.r-project.org/web/packages/pinktoe/index.html

http://cran.r-project.org/web/packages/tree/index.html

http://cran.r-project.org/web/packages/maptree/index.html

http://cran.r-project.org/web/packages/pinktoe/index.html


Redes neuronales Una red neuronal es un

modelo de regresión o clasificación que se puede representar gráficamente como se indica a continuación:

Observemos que se cuenta con tres capas (aunque puede haber más): de entrada, oculta y de salida

En la capa de entrada se tienen m variables explicativas, en la capa de salida hay n variables respuesta y en la capa oculta hay k neuronas

Redes neuronales

Para regresión, típicamente se tiene n=1, es decir, una única salida

Cuando se quiere clasificar a las observaciones en n categorías, se tienen n unidades en la capa de salida y la i-ésima unidad de salida proporciona la probabilidad de que ocurra la clase i

-4 -2 0 2 4 6 8

-20

24

Separación de Grupos mediante una Red Neuronal

X

Y

Redes neuronales Ventajas

Toman en cuenta las relaciones entre las variables Son muy modificables y potentes para separar

grupos con un alto grado de precisión Existen implementaciones en R

Desventajas La teoría subyacente es altamente compleja La interpretación de la forma en que participan las

variables en el modelo final no es sencilla La obtención de un modelo parsimonioso no es

sencilla


Paquetes de R

nnet: Modelos de redes neuronales de alimentación progresiva y modelos log-lineales multinomiales

neuralnet: Entrenamiento de redes neuronales

neural: Paquete para trabajo con modelos de redes neuronales


Métodos computacionales de imputación: Máquinas de soporte vectorial

Una máquina de soporte vectorial (MSV) es un método de clasificación en dos categorías que obtiene el mejor clasificador con el margen más amplio de separación entre las categorías

Una MSV realiza la clasificación construyendo un hiperplano n-dimensional que separa de manera óptima las dos categorías

Está relacionado de manera cercana con las redes neuronales

-11

-2 0 2 4 6

-2

0

2

4

6

o

o

o

o

o

oo

o

o

o

o

o oo

o

o

ooo

o

oo

o

o

ooo

oo

o

o

oo

oo

o

o

o

o

o

o

o

o

o

o

o

oo

o

o

o

o

oo

o

o

o

ooo

o

o

o

o

o

o

oo

o

oo

o

o oo

o

o

ooo

o

oo o

o

oo

ooo

o

oo

ooo

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

oo

o

oo

o

o

oo

o

o

o o

o

o

oo

o

oo

o

o

o

o

o

ooo

o

o oo

o

o

o

oo

o

o

o

o

o

o

oo

o

oo

o

o

o

o

oo

oo

oo

o

oo

o

o

o

o

o oo

o

oo

o

o

o

o

o

oo

o

oo

o

o

o

o

oo

o

o

oo

o

x

x

x

SVM classification plot

Y

X


Máquinas de soporte vectorial

Ventajas Superan en desempeño a los árboles de

clasificación y a las redes neuronales, es decir, cometen menos errores en la clasificación

Existen implementaciones en R Desventajas

La teoría requerida es compleja Funcionan solamente para dos categorías La interpretación del modelo resultante puede

no ser simple


Conclusiones

Se ha visto un panorama amplio de los distintos tipos de métodos que podrían utilizarse en la imputación de datos faltantes

De estos, algunos son claramente no recomendables, otros podrían tenerse en consideración y algunos más parecen costosos en implementación debido al nivel de sofisticación


Conclusiones

Sin embargo no habría que descartar para futuros estudios la utilización de métodos de mayor complejidad que por otro lado permitan aumentar notablemente la calidad de la información imputada, y en consecuencia, de los resultados del estudio


Propuesta Se considera que se pueden utilizar dos

tipos de imputación: Hot deck como método por omisión, para la

mayoría de las variables que cumplan al menos una de las siguientes características: Tengan un nivel muy bajo de omisión de

respuesta No sean variables eje del estudio No se utilizarían en análisis posteriores


Propuesta

Regresión lineal múltiple, para aquellas variables no imputadas por hot deck que sean de tipo numérico

Análisis discriminante, para aquellas variables no imputadas por hot deck que sean de tipo categórico


Referencias Backhoff, E. (2007). Factores Escolares y Aprendizaje en

México. El caso de la Educación Básica. INEE. México Blanco, E. (2007). Eficacia Escolar en México. Factores

escolares asociados a los aprendizajes en la Educación Primaria. Tesis Doctoral no publicada. Facultad Latinoamericana de Ciencias Sociales. México

Hair, J.; Anderson, R.; Tatham, R. & Black, W. (1999) Análisis multivariante. 5ª. Edición. Pearson Prentice Hall. España

Hastie, T.; Tibshirani, R. & Friedman, J. (2001) The elements of statistical learning. Springer-Verlag. EUA

National Center for Education Statistics (2002). NCES statistical standards. NCES. EUA


Referencias R Contributors. R packages repository en http://

cran.cnr.berkeley.edu/ y http://hosho.ees.hokudai.ac.jp/~kubo/Rdoc/doc/html/packages.html , consultados el 21 de mayo de 2008

Soares, F.(2007). Recursos Familiares e o Desempenho Cognitivo dos Alunos do Ensino Básico Brasileiro

Tourkin, S.; Warner, T.; Parmer, R.; Cole, C.; Jackson, B.; Zukerger, A.; Cox, S. & Soderborg, A. (2007) Documentation for the 2003-04 Schools and Staffing Survey. National Center for Education Statistics. EUA

Lewis, R. An introduction to classification and regression trees. UCLA Medical Center. Documento en http://www.saem.org/download/lewis1.pdf consultado el 23 de mayo de 2008

http://cran.cnr.berkeley.edu/




http://hosho.ees.hokudai.ac.jp/~kubo/Rdoc/doc/html/packages.html













http://www.saem.org/download/lewis1.pdf

S6 1 Intro Imput

Technology

Transcript of S6 1 Intro Imput