Maybaygiare.org

Blog Network

Imputation (Statistik)

Hot-deckEdit

Eine früher übliche Methode der Imputation war die Hot-Deck-Imputation, bei der ein fehlender Wert aus einem zufällig ausgewählten ähnlichen Datensatz unterstellt wurde. Der Begriff „Hot Deck“ geht auf die Speicherung von Daten auf Lochkarten zurück und zeigt an, dass die Informationsspender aus demselben Datensatz stammen wie die Empfänger. Der Kartenstapel war „heiß“, weil er gerade verarbeitet wurde.Eine Form der Hot-Deck-Imputation wird als „last observation carried forward“ (oder kurz LOCF) bezeichnet, bei der ein Datensatz nach einer beliebigen Anzahl von Variablen sortiert wird, wodurch ein geordneter Datensatz erstellt wird. Die Technik findet dann den ersten fehlenden Wert und verwendet den Zellenwert unmittelbar vor den fehlenden Daten, um den fehlenden Wert zuzurechnen. Der Vorgang wird für die nächste Zelle mit fehlendem Wert wiederholt, bis alle fehlenden Werte unterstellt sind. Im allgemeinen Szenario, in dem die Fälle wiederholte Messungen einer Variablen für eine Person oder eine andere Entität sind, stellt dies die Annahme dar, dass, wenn eine Messung fehlt, die beste Vermutung ist, dass sie sich seit der letzten Messung nicht geändert hat. Es ist bekannt, dass diese Methode das Risiko zunehmender Verzerrungen und potenziell falscher Schlussfolgerungen erhöht. Aus diesem Grund wird LOCF nicht zur Verwendung empfohlen.

Cold-deckEdit

Cold-deck imputation hingegen wählt Spender aus einem anderen Datensatz aus. Aufgrund der Fortschritte in der Computerleistung haben anspruchsvollere Methoden der Imputation im Allgemeinen die ursprünglichen zufälligen und sortierten Hot-Deck-Imputationstechniken abgelöst. Es ist eine Methode zum Ersetzen durch Antwortwerte ähnlicher Elemente in früheren Umfragen. Es ist in Umfragen verfügbar, die Zeitintervalle messen.

Mean substitutionEdit

Eine andere Imputationstechnik besteht darin, einen fehlenden Wert durch den Mittelwert dieser Variablen für alle anderen Fälle zu ersetzen, was den Vorteil hat, dass der Stichprobenmittelwert für diese Variable nicht geändert wird. Die mittlere Imputation dämpft jedoch alle Korrelationen, die die unterstellten Variablen betreffen. Dies liegt daran, dass in Fällen mit Imputation garantiert keine Beziehung zwischen der unterstellten Variablen und anderen Messgrößen besteht. Somit hat die mittlere Imputation einige attraktive Eigenschaften für die univariate Analyse, wird jedoch für die multivariate Analyse problematisch.

Die mittlere Imputation kann innerhalb von Klassen (z. kategorien wie Geschlecht), und kann ausgedrückt werden als y ^ i = y h {\displaystyle {\hat {y}}_{i}={\bar {y}}_{h}}

{\displaystyle {\hat {y}}_{i}={\bar {y}}_{h}}

wobei y ^ i {\displaystyle {\hat {y}}_{i}}

{\displaystyle {\hat {y}}_{i}}

ist der unterstellte Wert für Datensatz i {\displaystyle i}

i

und y h {\displaystyle {\bar {y}}_{h}}

{\displaystyle {\bar {y}}_{h}}

ist der Stichprobenmittelwert der befragten Daten innerhalb einer Klasse h {\displaystyle h}

h

. Dies ist ein Sonderfall der verallgemeinerten Regressionsanrechnung:

y ^ m i = b r 0 + ∑ j b r j z m i j + e ^ m i {\displaystyle {\hut {y}}_{mi}=b_{r0}+\Summe _{j}{b_{rj}z_{mij}+{\hut {e}}_{mi}}}

{\displaystyle {\hut {y}}_{mi}=b_{r0 }+\sum _{j}{b_{rj}z_{mij}+{\sum {e}}_{mi}}}

Hier werden die Werte b r 0, b r j {\displaystyle b_{r0},b_{rj}}

{\displaystyle b_{r0},b_{rj}}

regressieren von y {\displaystyle y}

y

auf x {\displaystyle x}

x

in nicht imputierten Daten, z {\displaystyle z}

z

ist eine Dummy-Variable für die Klassenmitgliedschaft, und die Daten werden in Befragte ( r {\displaystyle r}

r

) und fehlende ( m {\displaystyle m}

m

) aufgeteilt.

Nicht-negative Matrixfaktorisierung

Nicht-negative Matrixfaktorisierung (NMF) kann fehlende Daten übernehmen und gleichzeitig ihre Kostenfunktion minimieren, anstatt diese fehlenden Daten als Nullen zu behandeln, die Verzerrungen verursachen könnten. Dies macht es zu einer mathematisch bewährten Methode zur Datenimputation. Indem Sie zuerst beweisen, dass die fehlenden Daten in der Kostenfunktion ignoriert werden, und dann beweisen, dass die Auswirkungen fehlender Daten so gering sein können wie ein Effekt zweiter Ordnung.

RegressionEdit

Regressionsimputation hat das entgegengesetzte Problem der mittleren Imputation. Ein Regressionsmodell wird geschätzt, um beobachtete Werte einer Variablen basierend auf anderen Variablen vorherzusagen, und dieses Modell wird dann verwendet, um Werte in Fällen zu unterstellen, in denen der Wert dieser Variablen fehlt. Mit anderen Worten, verfügbare Informationen für vollständige und unvollständige Fälle werden verwendet, um den Wert einer bestimmten Variablen vorherzusagen. Angepasste Werte aus dem Regressionsmodell werden dann verwendet, um die fehlenden Werte zu unterstellen. Das Problem besteht darin, dass die unterstellten Daten keinen Fehlerterm in ihrer Schätzung enthalten, sodass die Schätzungen perfekt entlang der Regressionsgeraden ohne Restvarianz passen. Dies führt dazu, dass Beziehungen überbewertet werden und eine größere Genauigkeit der kalkulatorischen Werte nahelegen, als dies gerechtfertigt ist. Das Regressionsmodell sagt den wahrscheinlichsten Wert fehlender Daten voraus, liefert jedoch keine Unsicherheit über diesen Wert.Die stochastische Regression war ein ziemlich erfolgreicher Versuch, das Fehlen eines Fehlerterms in der Regressionszurechnung zu korrigieren, indem die durchschnittliche Regressionsvarianz zu den Regressionszurechnungen addiert wurde, um Fehler einzuführen. Die stochastische Regression zeigt viel weniger Verzerrung als die oben genannten Techniken, aber sie vermisst immer noch eine Sache – wenn Daten unterstellt werden, würde man intuitiv denken, dass mehr Rauschen in das Problem eingeführt werden sollte als einfache Restvarianz.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht.