Hot-Deckeditar
Un método de imputación que alguna vez fue común fue la imputación de hot-deck, donde se imputó un valor faltante de un registro similar seleccionado aleatoriamente. El término «hot deck» se remonta al almacenamiento de datos en tarjetas perforadas e indica que los donantes de información provienen del mismo conjunto de datos que los destinatarios. La pila de tarjetas estaba «caliente» porque se estaba procesando en ese momento.
Una forma de imputación de cubierta caliente se llama» última observación llevada hacia adelante » (o LOCF para abreviar), que implica ordenar un conjunto de datos de acuerdo con cualquiera de una serie de variables, creando así un conjunto de datos ordenado. A continuación, la técnica encuentra el primer valor faltante y utiliza el valor de celda inmediatamente anterior a los datos que faltan para imputar el valor faltante. El proceso se repite para la siguiente celda con un valor faltante hasta que se hayan imputado todos los valores faltantes. En el escenario común en el que los casos son mediciones repetidas de una variable para una persona u otra entidad, esto representa la creencia de que si falta una medición, la mejor suposición es que no ha cambiado desde la última vez que se midió. Se sabe que este método aumenta el riesgo de sesgo creciente y conclusiones potencialmente falsas. Por esta razón, no se recomienda el uso de LOCF.
Cold-deckEdit
La imputación de Cold-deck, por el contrario, selecciona donantes de otro conjunto de datos. Debido a los avances en la potencia de la computadora, los métodos de imputación más sofisticados generalmente han reemplazado las técnicas de imputación de cubierta caliente aleatorias y ordenadas originales. Es un método para reemplazar con valores de respuesta de elementos similares en encuestas anteriores. Está disponible en encuestas que miden intervalos de tiempo.
Sustitución de mediaseditar
Otra técnica de imputación consiste en reemplazar cualquier valor faltante con la media de esa variable para todos los demás casos, lo que tiene el beneficio de no cambiar la media muestral para esa variable. Sin embargo, la imputación media atenúa cualquier correlación que involucre la variable o variables que se imputan. Esto se debe a que, en los casos con imputación, se garantiza que no haya relación entre la variable imputada y cualquier otra variable medida. Por lo tanto, la imputación media tiene algunas propiedades atractivas para el análisis univariado, pero se vuelve problemática para el análisis multivariado.
La imputación media se puede llevar a cabo dentro de las clases (p. ej. categorías como el género), y puede ser expresada como: y ^ i = y h {\displaystyle {\hat {y}}_{i}={\bar {y}}_{h}}
donde y ^ i {\displaystyle {\hat {y}}_{i}}
es el valor imputado de registro i {\displaystyle i}
e y h {\displaystyle {\bar {y}}_{h}}
es el promedio de la muestra de datos responde dentro de la clase h {\displaystyle h}
. Este es un caso especial de imputación de regresión generalizada:
y ^ m i = b i 0 + ∑ j b r j z m i j + e ^ m i {\displaystyle {\hat {y}}_{mi}=b_{r0}+\sum _{j}{b_{rj}z_{mij}+{\hat {e}}_{mi}}}
Aquí los valores de b r 0 , b r j {\displaystyle b_{r0},b_{rj}}
son estimados a partir de la regresión de y {\displaystyle y}
x {\displaystyle x}
no de los datos imputados, z {\displaystyle z}
es una variable ficticia para la pertenencia a la clase, y los datos se dividen en demandado ( r {\displaystyle r}
) y desaparecidos ( m {\displaystyle m}
).
Factorización de matriz no negativaeditar
La factorización de matriz no negativa (NMF) puede tomar datos faltantes al tiempo que minimiza su función de costo, en lugar de tratar estos datos faltantes como ceros que podrían introducir sesgos. Esto lo convierte en un método matemáticamente probado para la imputación de datos. Al probar primero que los datos faltantes se ignoran en la función de costo, luego probar que el impacto de los datos faltantes puede ser tan pequeño como un efecto de segundo orden.
Regresióneditar
La imputación de regresión tiene el problema opuesto de la imputación media. Se estima un modelo de regresión para predecir los valores observados de una variable en función de otras variables, y ese modelo se utiliza para imputar valores en los casos en que falta el valor de esa variable. En otras palabras, la información disponible para casos completos e incompletos se utiliza para predecir el valor de una variable específica. Los valores ajustados del modelo de regresión se utilizan para imputar los valores faltantes. El problema es que los datos imputados no tienen un término de error incluido en su estimación, por lo que las estimaciones encajan perfectamente a lo largo de la línea de regresión sin ninguna varianza residual. Esto hace que las relaciones estén sobre identificadas y sugieren una mayor precisión en los valores imputados de la que se justifica. El modelo de regresión predice el valor más probable de los datos faltantes, pero no proporciona incertidumbre sobre ese valor.
La regresión estocástica fue un intento bastante exitoso de corregir la falta de un término de error en la imputación de regresión agregando la varianza de regresión promedio a las imputaciones de regresión para introducir el error. La regresión estocástica muestra mucho menos sesgo que las técnicas mencionadas anteriormente, pero aún así se omitió una cosa: si los datos se imputan intuitivamente, uno pensaría que se debería introducir más ruido al problema que la simple varianza residual.