Maybaygiare.org

Blog Network

Imputaatio (tilastot)

Hot-deckEdit

aikoinaan yleinen imputointimenetelmä oli hot-deck imputation, jossa puuttuva arvo imputoitiin satunnaisesti valitusta samanlaisesta tietueesta. Termi ”hot deck” juontaa juurensa reikäkorttien tietojen tallentamiseen ja viittaa siihen, että tietojen luovuttajat tulevat samasta datajoukosta kuin vastaanottajat. Korttipino oli ”kuuma”, koska sitä parhaillaan käsiteltiin.

eräs hot-deck-imputaation muoto on ”last observation carried forward” (tai lyhyesti LOCF), jossa datajoukko lajitellaan jonkin muuttujan mukaan, jolloin syntyy järjestynyt datajoukko. Tekniikka sitten löytää ensimmäisen puuttuvan arvon ja käyttää solun arvoa välittömästi ennen puuttuvia tietoja laskemaan puuttuvan arvon. Prosessi toistetaan seuraavalle solulle, jonka arvo puuttuu, kunnes kaikki puuttuvat arvot on imputoitu. Yleisessä skenaariossa, jossa tapaukset ovat henkilön tai muun kokonaisuuden muuttujan toistuvia mittauksia, tämä edustaa uskomusta, että jos mitta puuttuu, paras arvaus on, että se ei ole muuttunut edellisestä mittauskerrasta. Tämän menetelmän tiedetään lisäävän vinouman ja mahdollisesti väärien johtopäätösten riskiä. Tästä syystä LOCF: n käyttöä ei suositella.

Kylmäasteikko

Kylmäasteikko imputaatio sen sijaan valitsee luovuttajat toisesta aineistosta. Tietokonetehon kehittyessä kehittyneemmät imputointimenetelmät ovat yleensä syrjäyttäneet alkuperäiset satunnais-ja lajiteltu hot deck-imputointitekniikat. Se on tapa korvata vastaavanlaisten erien vastearvoilla aiemmissa kyselyissä. Se on saatavilla kyselyissä, jotka mittaavat aikavälejä.

keskimääräinen substituutiomedit

toinen imputointimenetelmä on korvata puuttuva arvo kyseisen muuttujan keskiarvolla kaikissa muissa tapauksissa, minkä etuna on, ettei kyseisen muuttujan otoskeskiarvoa muuteta. Keskimääräinen imputaatio kuitenkin vaimentaa kaikki imputoituihin muuttujiin liittyvät korrelaatiot. Tämä johtuu siitä, että imputoinnin tapauksessa imputoidun muuttujan ja muiden mitattujen muuttujien välillä ei ole varmuudella suhdetta. Näin ollen keskiarvoimputaatiolla on joitakin houkuttelevia ominaisuuksia univariaattianalyysille, mutta monimuuttuja-analyysille siitä tulee ongelmallinen.

Keskimääräinen imputointi voidaan suorittaa luokissa (ts. kategoriat kuten sukupuoli), ja voidaan ilmaista muodossa y ^ i = y h {\displaystyle {\hat {y}}_{i}={\bar {y}}_{h}}

{\displaystyle {\hat {y}}_{i}={\bar {y}}_{h}}

missä y ^ i {\displaystyle {\hat {y}}_{h}} missä y ^ i{\displaystyle {\hat {\hat} {y}}_{i}}

{\displaystyle {\Hat {y}}_{i}}

on tietueiden i{\displaystyle i}

I

ja Y h {\displaystyle {\Bar{y}}_{h}}

{\displaystyle {\bar {y}} _ {h}}

on jonkin luokan h vastaajatietojen otoskeskiarvo

h

. Tämä on yleistetyn regressioimputaation erikoistapaus:

y ^ m i = b r 0 + ∑ j b r j z m i j + e ^ m i {\displaystyle {\hat {y}}_{mi}=b_{r0}+\sum _{j}{b_{RJ}z_{mij}+{\hat {e}}_{mi}}}

{\displaystyle {\hat {y}}_{mi}=b_{R0}+\Sum _{j}{b_{RJ}Z_{mij}+{\Hat {e}}_{mi}}}

tässä arvot B R 0 , b r j {\displaystyle b_{R0},b_{RJ}}

{\displaystyle b_{R0},b_{RJ}}

on estimoitu taantumasta y {\displaystyle y}

y

x {\displaystyle x}

X

laskennattomissa tiedoissa, Z {\displaystyle z}

z

on dummy-muuttuja luokkajäsenyydelle, ja tiedot jakautuvat vastaajiin ( r {\displaystyle r}

r

) ja puuttuviin ( m {\displaystyle m}

m

).

ei-negatiivinen matriisi factorizationEdit

ei-negatiivinen matriisi factorizationedit (NMF) voivat ottaa puuttuvat tiedot minimoiden kustannusfunktionsa sen sijaan, että nämä puuttuvat tiedot käsiteltäisiin nollina, jotka voisivat aiheuttaa harhoja. Tämä tekee siitä matemaattisesti todistetun menetelmän data-imputoinnille. Osoittamalla ensin, että puuttuvat tiedot jätetään huomiotta kustannusfunktiossa, todistamalla sitten, että puuttuvien tietojen vaikutus voi olla yhtä pieni kuin toisen kertaluvun vaikutus.

Regressioimputaatiolla

Regressioimputaatiolla on päinvastainen keskimääräisen imputaation ongelma. Regressiomallin arvioidaan ennustavan muuttujan havaitut arvot muiden muuttujien perusteella, ja tätä mallia käytetään laskemaan arvot tapauksissa, joissa kyseisen muuttujan arvo puuttuu. Toisin sanoen valmiista ja epätäydellisistä tapauksista saatavilla olevaa tietoa käytetään tietyn muuttujan arvon ennustamiseen. Regressiomallin sovitettuja arvoja käytetään puuttuvien arvojen laskennassa. Ongelmana on, että imputoiduilla tiedoilla ei ole estimointiin sisältyvää virhetermiä, jolloin estimaatit sopivat täydellisesti regressiolinjaan ilman jäännösvarianssia. Tämä aiheuttaa sen, että suhteet ovat liian tunnistettuja ja viittaavat siihen, että laskennalliset arvot ovat tarkempia kuin on perusteltua. Regressiomalli ennustaa puuttuvan tiedon todennäköisimmän arvon, mutta ei anna epävarmuutta kyseisestä arvosta.

Stokastinen regressio oli melko onnistunut yritys korjata regressioimputaation virhetermin puuttuminen lisäämällä regressioimputaatioihin keskimääräinen regressiovarianssi virheen aikaansaamiseksi. Stokastinen regressio osoittaa paljon vähemmän bias kuin edellä mainitut tekniikat, mutta se silti jäi yksi asia – jos tiedot on laskennallinen sitten intuitiivisesti voisi ajatella, että enemmän melua olisi otettava käyttöön ongelma kuin yksinkertainen jäljellä varianssi.

Vastaa

Sähköpostiosoitettasi ei julkaista.