Maybaygiare.org

Blog Network

Imputation (statistiques)

Hot-deckEdit

Une méthode d’imputation autrefois courante était l’imputation à chaud où une valeur manquante était imputée à partir d’un enregistrement similaire sélectionné au hasard. Le terme « hot deck » remonte au stockage de données sur des cartes perforées, et indique que les donneurs d’informations proviennent du même ensemble de données que les destinataires. La pile de cartes était « chaude » car elle était en cours de traitement.

Une forme d’imputation à chaud est appelée « dernière observation reportée » (ou LOCF pour faire court), qui consiste à trier un ensemble de données en fonction d’un certain nombre de variables, créant ainsi un ensemble de données ordonné. La technique trouve ensuite la première valeur manquante et utilise la valeur de cellule immédiatement avant les données manquantes pour imputer la valeur manquante. Le processus est répété pour la cellule suivante avec une valeur manquante jusqu’à ce que toutes les valeurs manquantes aient été imputées. Dans le scénario courant dans lequel les cas sont des mesures répétées d’une variable pour une personne ou une autre entité, cela représente la croyance que si une mesure est manquante, la meilleure hypothèse est qu’elle n’a pas changé depuis la dernière fois qu’elle a été mesurée. Cette méthode est connue pour augmenter le risque de biais croissant et de conclusions potentiellement fausses. Pour cette raison, l’utilisation de LOCF n’est pas recommandée.

Cold-deckEdit

L’imputation de la plate-forme froide, en revanche, sélectionne les donneurs d’un autre ensemble de données. En raison des progrès de la puissance de l’ordinateur, des méthodes d’imputation plus sophistiquées ont généralement remplacé les techniques d’imputation à chaud aléatoires et triées d’origine. Il s’agit d’une méthode de remplacement par des valeurs de réponse d’éléments similaires dans des enquêtes antérieures. Il est disponible dans les enquêtes qui mesurent les intervalles de temps.

Mean substitutionEdit

Une autre technique d’imputation consiste à remplacer toute valeur manquante par la moyenne de cette variable pour tous les autres cas, ce qui a l’avantage de ne pas modifier la moyenne de l’échantillon pour cette variable. Cependant, l’imputation moyenne atténue toute corrélation impliquant la ou les variables imputées. En effet, dans les cas d’imputation, il est garanti qu’il n’y a pas de relation entre la variable imputée et les autres variables mesurées. Ainsi, l’imputation moyenne a certaines propriétés intéressantes pour l’analyse univariée, mais devient problématique pour l’analyse multivariée.

L’imputation moyenne peut être effectuée dans des classes (i.e. les catégories telles que le genre), et peuvent être exprimées comme y ^i = y h {\displaystyle {\hat{y}}_{i} = {\bar{y}}_{h}}

{\displaystyle{\hat{y}}_{i} = {\bar{y}}_{h}}

où y ^ i {\displaystyle{\hat{y}} }_{i}}

{\displaystyle{\hat{y}}_{i}}

est la valeur imputée pour l’enregistrement i{\displaystyle i}

i

et y h {\displaystyle{\bar{y}} _ {h}}

{\displaystyle{\bar{y}}_{h}}

est la moyenne de l’échantillon des données des répondants dans une classe h {\displaystyle h}

h

. Il s’agit d’un cas particulier d’imputation par régression généralisée:

y ^ m i = b r 0 + ∑j b r j z m i j + e ^ m i {\displaystyle {\hat {y}}_{mi} =b_ {r0} +\sum _{j}{b_{rj}z_{mij}+{\hat{e}}_{mi}}}

{\displaystyle {\hat{y}}_ {mi}= b_{r0} +\sum_{j}{b_{rj}z_{mij} +{\hat{e}}_{mi}}}

Voici les valeurs b r 0, b r j {\displaystyle b_{r0}, b_{rj}}

{\displaystyle b_{r0}, b_{rj}}

sont estimées à partir de la régression de y {\displaystyle y}

y

sur x {\displaystyle x}

x

dans des données non imputées, z {\displaystyle z}

z

est une variable factice pour l’appartenance à une classe, et les données sont divisées en répondant(r{\displaystyle r}

r

) et manquant (m{\displaystyle m}

m

).

Factorisation matricielle non négativedit

La factorisation matricielle non négative (NMF) peut prendre des données manquantes tout en minimisant sa fonction de coût, plutôt que de traiter ces données manquantes comme des zéros qui pourraient introduire des biais. Cela en fait une méthode éprouvée mathématiquement pour l’imputation des données. En prouvant d’abord que les données manquantes sont ignorées dans la fonction de coût, puis en prouvant que l’impact des données manquantes peut être aussi faible qu’un effet de second ordre.

RégressionEdit

L’imputation par régression a le problème inverse de l’imputation moyenne. Un modèle de régression est estimé pour prédire les valeurs observées d’une variable en fonction d’autres variables, et ce modèle est ensuite utilisé pour imputer des valeurs dans les cas où la valeur de cette variable est manquante. En d’autres termes, les informations disponibles pour les cas complets et incomplets sont utilisées pour prédire la valeur d’une variable spécifique. Les valeurs ajustées du modèle de régression sont ensuite utilisées pour imputer les valeurs manquantes. Le problème est que les données imputées n’ont pas de terme d’erreur inclus dans leur estimation, de sorte que les estimations s’adaptent parfaitement le long de la ligne de régression sans variance résiduelle. Cela entraîne une sur-identification des relations et suggère une plus grande précision dans les valeurs imputées que ce qui est justifié. Le modèle de régression prédit la valeur la plus probable des données manquantes, mais ne fournit pas d’incertitude quant à cette valeur.

La régression stochastique a été une tentative assez réussie de corriger l’absence de terme d’erreur dans l’imputation de régression en ajoutant la variance de régression moyenne aux imputations de régression pour introduire une erreur. La régression stochastique montre beaucoup moins de biais que les techniques mentionnées ci-dessus, mais elle a tout de même manqué une chose: si les données sont imputées, on pourrait penser intuitivement que plus de bruit devrait être introduit dans le problème que la simple variance résiduelle.

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée.