Maybaygiare.org

Blog Network

Imputatie (statistieken)

Hot-deckEdit

een eensgebruikte methode voor imputatie was hot-deck imputatie waarbij een ontbrekende waarde werd toegerekend uit een willekeurig geselecteerde vergelijkbare record. De term “hot deck” gaat terug tot de opslag van gegevens op ponskaarten, en geeft aan dat de informatiedonors uit dezelfde dataset komen als de ontvangers. De stapel kaarten was ” hot ” omdat het momenteel wordt verwerkt.

een vorm van hot-deck imputatie wordt “last observation carried forward” (of LOCF in het kort) genoemd, wat inhoudt dat een dataset wordt gesorteerd volgens een van een aantal variabelen, waardoor een geordende dataset wordt gecreëerd. De techniek vindt dan de eerste ontbrekende waarde en gebruikt de celwaarde onmiddellijk voorafgaand aan de gegevens die ontbreken om de ontbrekende waarde toe te rekenen. Het proces wordt herhaald voor de volgende cel met een ontbrekende waarde totdat alle ontbrekende waarden zijn toegerekend. In het gebruikelijke scenario waarin de gevallen herhaalde metingen van een variabele voor een persoon of andere entiteit zijn, vertegenwoordigt dit de overtuiging dat als een meting ontbreekt, de beste gok is dat het niet is veranderd ten opzichte van de laatste keer dat het werd gemeten. Deze methode is bekend om het risico van toenemende vooringenomenheid en potentieel valse conclusies te verhogen. Daarom wordt LOCF niet aanbevolen voor gebruik.

Cold-deckEdit

Cold-deck imputation selecteert daarentegen donoren uit een andere dataset. Door de vooruitgang in computervermogen hebben meer geavanceerde methoden van toerekening over het algemeen de oorspronkelijke willekeurige en gesorteerde hot deck toerekentechnieken vervangen. Het is een methode om te vervangen door responswaarden van vergelijkbare items in eerdere enquêtes. Het is beschikbaar in enquêtes die tijdsintervallen meten.

mean substitutionEdit

een andere verrekeningstechniek houdt in dat elke ontbrekende waarde wordt vervangen door het gemiddelde van die variabele voor alle andere gevallen, wat het voordeel heeft dat het steekproefgemiddelde voor die variabele niet wordt gewijzigd. De gemiddelde toerekening vermindert echter alle correlaties met de toegerekende variabele (s). Dit komt omdat er in gevallen met toerekening gegarandeerd geen verband bestaat tussen de toegerekende variabele en andere gemeten variabelen. Dus, gemiddelde toerekening heeft een aantal aantrekkelijke eigenschappen voor univariate analyse, maar wordt problematisch voor multivariate analyse.

gemiddelde toerekening kan worden uitgevoerd binnen klassen (d.w.z. categorieën zoals geslacht), en kan worden uitgedrukt als y ^ i = y h {\displaystyle {\hat {y}}_{i}={\bar {y}}_{h}}

{\displaystyle {\hat {y}}_{i}={\bar {y}}_{h}}

y ^ i {\displaystyle {\hat {y}}_{i}}

{\displaystyle {\hat {y}}_{i}}

is de toegerekende waarde voor record i {\displaystyle i}

i

en y h {\displaystyle {\bar {y}}_{h}}

{\displaystyle {\bar {y}}_{h}}

is het steekproefgemiddelde van de gegevens van respondenten binnen een bepaalde klasse h {\displaystyle i}

h

. Dit is een bijzonder geval van veralgemeende regressie toerekening:

y ^ m i = b-r-0 + ∑ j b r j m z i j + e ^ m i {\displaystyle {\hat {y}}_{mi}=b_{r0}+\som _{j}{b_{rj}z_{mij}+{\hat {e}}_{mi}}}

{\displaystyle {\hat {y}}_{mi}=b_{r0}+\som _{j}{b_{rj}z_{mij}+{\hat {e}}_{mi}}}

Hier de waarden b r 0 , b r j {\displaystyle b_{r0},b_{rj}}

{\displaystyle b_{r0},b_{rj}}

zijn geschat op basis van de overgang y {\displaystyle y}

y

x {\displaystyle x}

x

in de niet-toegerekende gegevens, z {\displaystyle z}

z

is een dummy variabele voor class lidmaatschap, en gegevens worden opgesplitst in respondent ( r {\displaystyle r}

r

) en ontbreken ( m {\displaystyle m}

m

).

niet-negatieve matrix factorizationEdit

niet-negatieve matrix factorization (NMF) kan ontbrekende gegevens opnemen terwijl de kostenfunctie wordt geminimaliseerd, in plaats van deze ontbrekende gegevens te behandelen als nullen die vooringenomenheid kunnen introduceren. Dit maakt het een wiskundig bewezen methode voor data imputatie. Door eerst te bewijzen dat de ontbrekende gegevens worden genegeerd in de kostenfunctie, dan te bewijzen dat de impact van ontbrekende gegevens zo klein kan zijn als een tweede orde effect.

Regressiedit

regressietoewijzing heeft het tegenovergestelde probleem van gemiddelde toeschrijving. Een regressiemodel wordt geschat om waargenomen waarden van een variabele te voorspellen op basis van andere variabelen, en dat model wordt vervolgens gebruikt om waarden toe te rekenen in gevallen waarin de waarde van die variabele ontbreekt. Met andere woorden, beschikbare informatie voor volledige en onvolledige gevallen wordt gebruikt om de waarde van een specifieke variabele te voorspellen. Vervolgens worden de waarden van het regressiemodel gebruikt om de ontbrekende waarden toe te rekenen. Het probleem is dat de toegerekende gegevens geen foutterm in hun schatting hebben opgenomen, zodat de schattingen perfect langs de regressielijn passen zonder enige resterende variantie. Dit zorgt ervoor dat relaties te meer worden geïdentificeerd en suggereren een grotere precisie in de toegerekende waarden dan gerechtvaardigd is. Het regressiemodel voorspelt de meest waarschijnlijke waarde van ontbrekende gegevens, maar levert geen onzekerheid over die waarde op.

stochastische regressie was een redelijk succesvolle poging om het ontbreken van een foutterm in regressieimputatie te corrigeren door de gemiddelde regressievariantie toe te voegen aan de regressieimputaties om fouten in te voeren. Stochastische regressie toont veel minder bias dan de bovengenoemde technieken, maar het nog steeds gemist een ding-als gegevens worden toegeschreven dan intuïtief zou men denken dat meer ruis moet worden ingevoerd om het probleem dan eenvoudige resterende variantie.

Geef een antwoord

Het e-mailadres wordt niet gepubliceerd.