Maybaygiare.org

Blog Network

Imputace (statistiky)

Hot-deckEdit

jednou společnou metodu imputace byla hot-deck imputace, kde chybí hodnota imputované z náhodně vybrané podobné záznam. Termín „hot deck“ sahá až do ukládání dat na děrované karty, a označuje, že dárci informací pocházejí ze stejného datového souboru jako příjemci. Stoh karet byl „horký“, protože byl v současné době zpracováván.

jedna forma hot-deck imputace se nazývá „last observation carried forward“ (nebo zkráceně LOCF), což zahrnuje třídění datové sady podle kterékoli z mnoha proměnných, čímž se vytvoří uspořádaná datová sada. Technika pak najde první chybějící hodnotu a použije hodnotu buňky bezprostředně před chybějícími daty, aby připsala chybějící hodnotu. Proces se opakuje pro další buňku s chybějící hodnotou, dokud nebudou imputovány všechny chybějící hodnoty. Ve společném scénáři, ve kterém jsou případy opakovanými měřeními proměnné pro osobu nebo jinou entitu, to představuje přesvědčení, že pokud měření chybí, nejlepší odhad je, že se nezměnilo od posledního měření. Je známo, že tato metoda zvyšuje riziko zvýšení zaujatosti a potenciálně nepravdivých závěrů. Z tohoto důvodu se LOCF nedoporučuje používat.

Cold-deckEdit

cold-deck imputation naopak vybírá dárce z jiné datové sady. Vzhledem k pokroku v počítačové síle, sofistikovanější metody imputace obecně nahradily původní náhodné a tříděné techniky imputace horké paluby. Jedná se o metodu nahrazení hodnot odpovědí podobných položek v minulých průzkumech. Je k dispozici v průzkumech, které měří časové intervaly.

substitutionEdit

Další přičtení technika zahrnuje nahrazení chybějící hodnoty s tím, že proměnné ve všech ostatních případech, což má výhodu, že nemění výběrový průměr pro tuto proměnnou. Průměrná imputace však zmírňuje jakékoli korelace zahrnující proměnnou(proměnné), které jsou imputovány. To je proto, že v případech s imputace, tam je zaručeno, že se žádný vztah mezi imputované proměnné a jiné měřené veličiny. Tím pádem, průměrná imputace má některé atraktivní vlastnosti pro jednorozměrnou analýzu, ale stává se problematickou pro vícerozměrnou analýzu.

Střední imputaci lze provést v rámci tříd (tj. kategorie jako rod), a může být vyjádřena jako y ^ i = y h {\displaystyle {\hat {y}}_{i}={\bar {y}}_{h}}

{\displaystyle {\hat {y}}_{i}={\bar {y}}_{h}}

, kde y ^ i {\displaystyle {\hat {y}}_{i}}

{\displaystyle {\hat {y}}_{i}}

je imputované hodnoty pro záznam jsem {\displaystyle i}

i

y h {\displaystyle {\bar {y}}_{h}}

{\displaystyle {\bar {y}}_{h}}

je průměr vzorku respondentů údajů v rámci některé třídy h {\displaystyle h}

h

. Toto je zvláštní případ generalizované regresní imputace:

y ^ m i = b r 0 + ∑ j b r j z m i j + e ^ m {\displaystyle {\hat {y}}_{mi}=b_{r0}+\sum _{j}{b_{rj}z_{mij}+{\hat {e}}_{mi}}}

{\displaystyle {\hat {y}}_{mi}=b_{r0}+\sum _{j}{b_{rj}z_{mij}+{\hat {e}}_{mi}}}

Zde hodnoty b, r 0 , b r j {\displaystyle b_{r0},b_{rj}}

{\displaystyle b_{r0},b_{rj}}

se odhaduje, že z regrese y {\displaystyle y‘}

y

x {\displaystyle x}

x

v non-dopočtené údaje, z {\displaystyle z}

z

je dummy proměnná pro třídy členství, a data jsou rozdělena na respondenta ( r, {\displaystyle r}

r

) a chybějící ( m, {\displaystyle m}

m

).

Non-negative matrix factorizationEdit

Non-negative matrix faktorizace (NMF), může si chybějící údaje a zároveň minimalizovat své náklady funkce, spíše než léčení tyto chybějící data jako nuly, které by mohly zavést předsudky. To z něj činí matematicky ověřenou metodu pro imputaci dat. Nejprve prokázáním, že chybějící data jsou ve funkci nákladů ignorována, a poté prokázáním, že dopad chybějících dat může být stejně malý jako efekt druhého řádu.

regresní imputace

regresní imputace má opačný problém střední imputace. Regresní model je odhadem předpovědět pozorované hodnoty proměnné založena na dalších proměnných, a že model je pak použit k přičítat hodnoty v případech, kdy hodnota této proměnné chybí. Jinými slovy, dostupné informace pro úplné a neúplné případy se používají k předpovědi hodnoty konkrétní proměnné. Přiřazené hodnoty z regresního modelu se pak použijí k přičtení chybějících hodnot. Problém je v tom, že imputovaná data nemají do svého odhadu zahrnut chybový termín, odhady tedy dokonale zapadají podél regresní linie bez zbytkové rozptylu. To způsobí, že vztahy budou více než identifikovány a naznačují větší přesnost imputovaných hodnot, než je zaručeno. Regresní model předpovídá nejpravděpodobnější hodnotu chybějících dat, ale neposkytuje nejistotu ohledně této hodnoty.

Stochastické regrese byl poměrně úspěšný pokus k nápravě nedostatku chybová termín v regresní imputace přidáním průměrné regresní rozptyl regresní imputace zavést chyby. Stochastické regrese ukazuje mnohem méně zkreslení, než výše uvedené techniky, ale stále chyběla jedna věc – pokud jsou údaje imputované pak intuitivně by si člověk myslel, že větší hluk by měl být představen problém, než jednoduché reziduální rozptyl.

Napsat komentář

Vaše e-mailová adresa nebude zveřejněna.