Maybaygiare.org

Blog Network

Imputáció (statisztika)

Hot-decked

az imputálás egykor elterjedt módszere a hot-deck imputáció volt, ahol egy véletlenszerűen kiválasztott hasonló rekordból hiányzó értéket számoltak be. A “hot deck” kifejezés az adatok lyukasztott kártyákon történő tárolására nyúlik vissza, és azt jelzi, hogy az információadományozók ugyanabból az adatkészletből származnak, mint a címzettek. A kártyacsomag “forró” volt, mert jelenleg feldolgozás alatt állt.

a hot-deck imputáció egyik formáját “utolsó megfigyelésnek” (vagy röviden LOCF-nek) nevezzük, amely magában foglalja az adatkészlet rendezését a számos változó bármelyike szerint, így rendezett adatkészletet hozva létre. A technika ezután megkeresi az első hiányzó értéket, és a hiányzó adatok előtt közvetlenül a cellaértéket használja a hiányzó érték beszámításához. A folyamat megismétlődik a következő cellában egy hiányzó értékkel, amíg az összes hiányzó értéket be nem számítják. Abban a közös forgatókönyvben, amelyben az esetek egy változó ismételt mérése egy személy vagy más entitás számára, ez azt a meggyőződést képviseli, hogy ha hiányzik egy mérés, akkor a legjobb tipp az, hogy nem változott az utolsó méréshez képest. Ez a módszer köztudottan növeli a növekvő elfogultság és a potenciálisan hamis következtetések kockázatát. Ezért a LOCF használata nem ajánlott.

Hidegfedélzet

Hidegfedélzeti imputáció ezzel szemben egy másik adatkészletből választja ki a donorokat. A számítógépes teljesítmény fejlődése miatt az imputálás kifinomultabb módszerei általában felváltották az eredeti véletlenszerű és rendezett forró fedélzeti imputációs technikákat. Ez egy módszer a korábbi felmérések hasonló elemeinek válaszértékeivel való helyettesítésére. Rendelkezésre áll az időintervallumokat mérő felmérésekben.

átlagos szubsztitúciószerkesztés

egy másik imputációs technika magában foglalja a hiányzó érték helyettesítését az adott változó átlagával minden más esetben, amelynek az az előnye, hogy nem változtatja meg az adott változó minta átlagát. Az átlagos imputáció azonban gyengíti az imputált változó(ke) t érintő korrelációkat. Ennek oka, hogy az imputálás esetén garantáltan nincs kapcsolat az imputált változó és más mért változók között. Így az átlagos imputációnak van néhány vonzó tulajdonsága az egyváltozós elemzéshez, de problematikussá válik a többváltozós elemzésnél.

Az átlagos imputálás osztályokon belül is elvégezhető (pl. I = y h {\displaystyle {\hat {y}}_{i}={\bar {y}}_{h}}

{\displaystyle {\hat {y}}_{i}={\bar {y}}_{h}}

ahol Y ^ i {\displaystyle {\{y}}_{i}}

{\displaystyle {\hat {y}}_{i}}

az i {\displaystyle i}

I

és y h {\displaystyle {\Bar {y}}_{h}}

{\displaystyle {\bar {y}}_{h}}

a válaszadó adatainak a minta átlaga valamilyen h {\displaystyle h}osztályon belül

h

. Ez az általánosított regressziós imputáció speciális esete:

y ^ m i = b r 0 + b b r j z i i j + e ^ m i {\displaystyle {\hat {y}}_{mi}=b_{R0}+\sum _{j}{b_{rj}z_{mij}+{\hat {e}}_{mi}}}

{\displaystyle {\hat {y}}_{mi}=b_{R0}+\sum _{j}{b_{RJ}z_{mij}+{\hat {e}}_{mi}}}

itt az értékek b r 0 , b r j {\displaystyle b_{R0},b_{rj}}

{\displaystyle b_{R0},b_{rj}}

az y {\displaystyle y}

y

az X {\displaystyle x}

x

nem imputált adatokban, z {\displaystyle z}

z

az osztálytagság dummy változója, és az adatok válaszadókra vannak osztva ( r {\displaystyle r}

r

) és hiányoznak ( m {\displaystyle m}

m

).

nem negatív mátrix faktorizációszerkeszt

a nem negatív mátrix faktorizálás (NMF) elveszítheti a hiányzó adatokat, miközben minimalizálja költségfüggvényét, ahelyett, hogy ezeket a hiányzó adatokat nullákként kezelné, amelyek torzításokat vezethetnek be. Ez matematikailag bizonyított módszer az adatok imputálására. Először bizonyítva, hogy a hiányzó adatokat figyelmen kívül hagyják a költségfüggvényben, majd bizonyítva, hogy a hiányzó adatok hatása olyan kicsi lehet, mint egy másodrendű hatás.

RegressionEdit

a regressziós imputációnak ellentétes problémája van az átlagos imputációval. A regressziós modell becslések szerint megjósolja a változó megfigyelt értékeit más változók alapján, majd ezt a modellt használják az értékek beszámítására azokban az esetekben, amikor az adott változó értéke hiányzik. Más szavakkal, a teljes és hiányos esetekre rendelkezésre álló információkat egy adott változó értékének előrejelzésére használják. A regressziós modell illesztett értékeit ezután a hiányzó értékek beszámítására használják. A probléma az, hogy az imputált adatok nem tartalmaznak hibakifejezést a becslésükben, így a becslések tökéletesen illeszkednek a regressziós vonal mentén maradék variancia nélkül. Ez a kapcsolatok túlzott azonosítását eredményezi, és az indokoltnál nagyobb pontosságot sugall az imputált értékekben. A regressziós modell megjósolja a hiányzó adatok legvalószínűbb értékét, de nem ad bizonytalanságot az értékkel kapcsolatban.

a sztochasztikus regresszió meglehetősen sikeres kísérlet volt a hibakifejezés hiányának kijavítására a regressziós imputációkban az átlagos regressziós variancia hozzáadásával a regressziós imputációkhoz a hiba bevezetése érdekében. A sztochasztikus regresszió sokkal kevesebb torzítást mutat, mint a fent említett technikák, de még mindig hiányzott egy dolog-ha az adatokat beszámítják, akkor intuitív módon azt gondolnánk, hogy több zajt kell bevezetni a problémába, mint az egyszerű maradék varianciát.

Vélemény, hozzászólás?

Az e-mail-címet nem tesszük közzé.