Imputación de datos: teoría y práctica

Compartir
Título de la revista
ISSN de la revista
Título del volumen
Símbolo ONU
Citación

Imputación de datos: teoría y práctica

Resumen

Documento preparado por Fernando Medina y Marco Galván, Asesor Regional y Asistente de Investigación, respectivamente, de la Unidad de Estadísticas Sociales de la División de Estadística y Proyecciones Económicas de la CEPAL.Las opiniones expresadas en este documento, que no ha sido sometido a revisión editorial, son de exclusiva responsabilidad de los autores y pueden no coincidir con las de la Organización. RESUMEN La presencia de datos faltantes, es la situación a la que permanentemente se enfrentan investigadores y tomadores de decisiones. Disponer de un archivo de datos completos es ideal, pero aplicar métodos de imputación inapropiados para lograrlo, puede generar más problemas de los que resuelve. Durante las últimas décadas se han desarrollado procedimientos que tienen mejores propiedades estadísticas que las opciones tradicionales como la eliminación de datos (listwise), el pareo de observaciones (pairwise), el método de medias y el hot-deck. Los algoritmos de imputación múltiple (IM) se pueden aplicar utilizando paquetes comerciales y de acceso gratuito, pero imputar información no debe entenderse como un fin en sí mismo. Sus implicaciones en el análisis secundario de datos deben evaluarse con cautela, y este trabajo concluye que no existe el método de imputación ideal. Cada situación es diferente, y la tasa de no respuesta y su distribución espacial cambia entre encuestas, por lo que no es conveniente adoptar —a priori— el mismo procedimiento de imputación para todas las variables, en todas las encuestas. En la primera parte se analiza la teoría en la que se sustentan los procedimientos de imputación utilizados, y en la segunda se aplican ocho métodos alternativos para imputar distintos conceptos de ingreso para datos provenientes de una encuesta de hogares, y se evalúa la sensibilidad de los índices de pobreza y desigualdad (Gini, Theil y Atkinson (ε = 2), a las técnicas de imputación utilizadas. Se demuestra que los índices de pobreza son sensibles a los métodos de imputación, en tanto el procedimiento de sustitución de información tiene menor impacto en los indicadores de desigualdad.

TIPO DE DOCUMENTO

Resumen
Documento preparado por Fernando Medina y Marco Galván, Asesor Regional y Asistente de Investigación, respectivamente, de la Unidad de Estadísticas Sociales de la División de Estadística y Proyecciones Económicas de la CEPAL.Las opiniones expresadas en este documento, que no ha sido sometido a revisión editorial, son de exclusiva responsabilidad de los autores y pueden no coincidir con las de la Organización. RESUMEN La presencia de datos faltantes, es la situación a la que permanentemente se enfrentan investigadores y tomadores de decisiones. Disponer de un archivo de datos completos es ideal, pero aplicar métodos de imputación inapropiados para lograrlo, puede generar más problemas de los que resuelve. Durante las últimas décadas se han desarrollado procedimientos que tienen mejores propiedades estadísticas que las opciones tradicionales como la eliminación de datos (listwise), el pareo de observaciones (pairwise), el método de medias y el hot-deck. Los algoritmos de imputación múltiple (IM) se pueden aplicar utilizando paquetes comerciales y de acceso gratuito, pero imputar información no debe entenderse como un fin en sí mismo. Sus implicaciones en el análisis secundario de datos deben evaluarse con cautela, y este trabajo concluye que no existe el método de imputación ideal. Cada situación es diferente, y la tasa de no respuesta y su distribución espacial cambia entre encuestas, por lo que no es conveniente adoptar —a priori— el mismo procedimiento de imputación para todas las variables, en todas las encuestas. En la primera parte se analiza la teoría en la que se sustentan los procedimientos de imputación utilizados, y en la segunda se aplican ocho métodos alternativos para imputar distintos conceptos de ingreso para datos provenientes de una encuesta de hogares, y se evalúa la sensibilidad de los índices de pobreza y desigualdad (Gini, Theil y Atkinson (ε = 2), a las técnicas de imputación utilizadas. Se demuestra que los índices de pobreza son sensibles a los métodos de imputación, en tanto el procedimiento de sustitución de información tiene menor impacto en los indicadores de desigualdad.
Evento
Proyecto