Maybaygiare.org

Blog Network

Imputacja (statystyka)

Hot-deckEdit

kiedyś popularną metodą imputacji była imputacja hot-deck, gdzie brakująca wartość została przypisana z losowo wybranego podobnego rekordu. Termin „hot deck” odnosi się do przechowywania danych na kartach perforowanych i oznacza, że dawcy informacji pochodzą z tego samego zbioru danych, co odbiorcy. Stos kart był „gorący”, ponieważ był obecnie przetwarzany.

jedna z form imputacji hot-deck nazywa się „last observation carried forward” (W skrócie LOCF), która polega na sortowaniu zbioru danych według dowolnej liczby zmiennych, tworząc w ten sposób uporządkowany zbiór danych. Technika znajduje pierwszą brakującą wartość i wykorzystuje wartość komórki bezpośrednio przed brakującymi danymi, aby przypisać brakującą wartość. Proces jest powtarzany dla następnej komórki z brakującą wartością, dopóki wszystkie brakujące wartości nie zostaną przypisane. W powszechnym scenariuszu, w którym przypadki są powtarzanymi pomiarami zmiennej dla osoby lub innego podmiotu, oznacza to przekonanie, że jeśli brakuje pomiaru, najlepszym przypuszczeniem jest to, że nie zmienił się od ostatniego pomiaru. Wiadomo, że metoda ta zwiększa ryzyko zwiększenia uprzedzeń i potencjalnie fałszywych wniosków. Z tego powodu LOCF nie jest zalecany do stosowania.

Cold-deckEdit

Cold-deck imputation wybiera natomiast dawców z innego zbioru danych. Ze względu na postęp w mocy komputera, bardziej wyrafinowane metody imputacji na ogół zastąpiły oryginalne techniki imputacji losowej i sortowanej na gorącym pokładzie. Jest to metoda zastępowania wartościami odpowiedzi podobnych elementów w poprzednich badaniach. Jest on dostępny w ankietach mierzących przedziały czasowe.

Średnia podstawieniaedit

inna technika imputacji polega na zastąpieniu żadnej brakującej wartości średnią tej zmiennej dla wszystkich innych przypadków, co ma tę zaletę, że nie zmienia średniej próby dla tej zmiennej. Jednak imputacja średnia łagodzi wszelkie korelacje dotyczące zmiennej(zmiennych), które są przypisywane. Dzieje się tak dlatego, że w przypadkach z imputacją nie ma żadnej zależności między przypisaną zmienną a innymi mierzonymi zmiennymi. Tak więc imputacja średnia ma pewne atrakcyjne właściwości dla analizy jednowymiarowej, ale staje się problematyczna dla analizy wielowymiarowej.

średnia imputacja może być przeprowadzona w ramach klas (tj. kategorie takie jak płeć) i mogą być wyrażone jako y ^ i = y h {\displaystyle {\hat {y}}_{i}={\bar {y}}_{h}}

{\displaystyle {\hat {y}}_{i}={\bar {y}}_{h}}

gdzie y ^ i {\displaystyle {\hat {y}}_{i}}

{\displaystyle {\Hat {y}}_{i}}

jest przypisaną wartością rekordu i {\displaystyle i}

i

I y h {\displaystyle {\bar {y}}_{h}}

{\displaystyle {\bar {y}}_{h}}

jest średnią próbną danych respondenta w ramach pewnej klasy H {\displaystyle H}

h

. Jest to szczególny przypadek uogólnionej imputacji regresji:

y ^ m i = b R 0 + ∑ J b R j Z M I J + E ^ M i {\displaystyle {\hat {y}}_{mi}=b_{R0}+\sum _{j}{b_{RJ}z_{mij}+{\hat {e}}_{mi}}

{\displaystyle {\hat {y}}_{mi}=b_{R0}+\Sum _{j} {b_{RJ} z_{mij}+{\Hat {e}}_{mi}}}

tutaj wartości B R 0 , b r j {\displaystyle b_{R0}, b_{RJ}}

{\displaystyle b_{R0}, b_{RJ}}

są szacowane na podstawie regresji y {\displaystyle y}

y

na X {\displaystyle X}

x

w danych nie przypisanych, z {\displaystyle z}

z

jest zmienną obojętną dla członkostwa w klasie, a dane są podzielone na respondenta ( r {\displaystyle r}

r

) I brakujące ( m {\displaystyle m}

m

).

Nie-ujemna Faktoryzacja macierzyedit

nie-ujemna Faktoryzacja macierzy (NMF) może przyjmować brakujące dane, minimalizując swoją funkcję kosztową, zamiast traktować te brakujące dane jako zera, które mogłyby wprowadzić uprzedzenia. To sprawia, że jest to matematycznie sprawdzona metoda imputacji danych. Najpierw udowadniając, że brakujące dane są ignorowane w funkcji kosztowej, a następnie udowadniając, że wpływ brakujących danych może być tak mały, jak efekt drugiego rzędu.

Regresjaedit

imputacja regresji ma przeciwny problem średniej imputacji. Model regresji szacuje się przewidywać obserwowane wartości zmiennej na podstawie innych zmiennych, a model ten jest następnie używany do przypisania wartości w przypadkach, gdy wartość tej zmiennej brakuje. Innymi słowy, dostępne informacje dla kompletnych i niekompletnych przypadków są wykorzystywane do przewidywania wartości określonej zmiennej. Dopasowane wartości z modelu regresji są następnie wykorzystywane do przypisania brakujących wartości. Problem polega na tym, że przypisane dane nie mają terminu błędu uwzględnionego w ich szacowaniu, a zatem szacunki idealnie pasują wzdłuż linii regresji bez resztkowej wariancji. Powoduje to, że relacje są nad zidentyfikowane i sugerują większą precyzję przypisanych wartości niż jest to uzasadnione. Model regresji przewiduje najbardziej prawdopodobną wartość brakujących danych, ale nie dostarcza niepewności co do tej wartości.

regresja stochastyczna była dość udaną próbą skorygowania braku terminu błędu w imputacji regresji poprzez dodanie średniej wariancji regresji do imputacji regresji w celu wprowadzenia błędu. Regresja stochastyczna wykazuje znacznie mniejsze odchylenie niż wyżej wymienione techniki, ale nadal pomija jedną rzecz – jeśli dane są przypisywane, to intuicyjnie można by pomyśleć, że więcej szumu powinno zostać wprowadzone do problemu niż prosta wariancja resztkowa.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany.