Maybaygiare.org

Blog Network

Imputation (statistik)

Hot-deckEdit

en engang almindelig metode til imputation var hot-deck imputation, hvor en manglende værdi blev beregnet fra en tilfældigt valgt lignende post. Udtrykket” hot deck ” går tilbage til lagring af data på stansede kort og indikerer, at informationsdonorerne kommer fra det samme datasæt som modtagerne. Stakken af kort var” varm”, fordi den i øjeblikket blev behandlet.

en form for hot-deck-imputation kaldes “Sidste observation fremført” (eller kort sagt LOCF), som involverer sortering af et datasæt i henhold til et hvilket som helst af et antal variabler, hvilket skaber et ordnet datasæt. Teknikken finder derefter den første manglende værdi og bruger celleværdien umiddelbart før de data, der mangler, til at beregne den manglende værdi. Processen gentages for den næste celle med en manglende værdi, indtil alle manglende værdier er beregnet. I det almindelige scenarie, hvor sagerne er gentagne målinger af en variabel for en person eller anden enhed, repræsenterer dette troen på, at hvis en måling mangler, er det bedste gæt, at den ikke har ændret sig fra sidste gang den blev målt. Denne metode er kendt for at øge risikoen for stigende bias og potentielt falske konklusioner. Af denne grund anbefales LOCF ikke til brug.

Cold-deckEdit

cold-deck imputation vælger derimod donorer fra et andet datasæt. På grund af fremskridt inden for computerkraft har mere sofistikerede metoder til imputation generelt erstattet de originale tilfældige og sorterede hot deck imputationsteknikker. Det er en metode til at erstatte med svarværdier af lignende emner i tidligere undersøgelser. Det er tilgængeligt i undersøgelser, der måler tidsintervaller.

gennemsnitlig substitutionEdit

en anden imputationsteknik indebærer at erstatte enhver manglende værdi med gennemsnittet af denne variabel for alle andre tilfælde, hvilket har fordelen ved ikke at ændre prøvegennemsnittet for den variabel. Gennemsnitlig imputation dæmper imidlertid eventuelle korrelationer, der involverer de variable(er), der er beregnet. Dette skyldes, at der i tilfælde med imputation garanteret ikke er noget forhold mellem den beregnede variabel og andre målte variabler. Således har gennemsnitlig imputation nogle attraktive egenskaber til univariat analyse, men bliver problematisk for multivariat analyse.

gennemsnitlig imputation kan udføres inden for klasser (dvs. som køn) og kan udtrykkes som y ^ I = y H {\displaystyle {\hat {Y}}_{i}={\bar {y}}_{h}}

{\displaystyle {\hat {y}}_{i}={\bar {y}}_{h}}

hvor y ^ i {\displaystyle {\hat {Y}}_{i}}

{\displaystyle {\hat {y}}_{i}}

er den beregnede værdi for post i {\displaystyle i}

i

og Y H {\displaystyle {\Bar {y}}_{h}}

{\displaystyle {\Bar {Y}}_{H}}

er prøvegennemsnittet af respondentdata inden for en klasse H {\displaystyle h}

h

. Dette er et specielt tilfælde af generaliseret regressionsimputation:

y ^ M i = b r 0 + l j b r J S M i j + e ^ m i {\displaystyle {\hat {y}}_{mi}=b_{r0}+\sum _{j}{b_{rj}S_{mij}+{\hat {e}}_{mi}}

{\displaystyle {\hat {y}}_{mi}=b_{R0}+\sum _{j} {b_{RJ} å_{mij}+{\hat {e}}_{mi}}

Her værdierne b r 0 , b r j {\displaystyle b_{R0}, b_{RJ}}

{\displaystyle b_{R0}, b_{RJ}}

estimeres ud fra regressering y {\displaystyle y}

y

på {\displaystyle}

x

I ikke-imputerede data, å {\displaystyle å}

å

er en dummyvariabel for klassemedlemskab, og data er opdelt i respondent ( r {\displaystyle r}

r

) og mangler ( m {\displaystyle m}

m

).

ikke-negativ matriksfaktoriseringredit

ikke-negativ matriksfaktorisering (NMF) kan tage manglende data, samtidig med at omkostningsfunktionen minimeres, snarere end at behandle disse manglende data som nuller, der kan indføre forstyrrelser. Dette gør det til en matematisk bevist metode til dataimputation. Ved først at bevise, at de manglende data ignoreres i omkostningsfunktionen, og derefter bevise, at virkningen fra manglende data kan være så lille som en anden ordreeffekt.

RegressionEdit

Regressionsimputation har det modsatte problem med gennemsnitlig imputation. En regressionsmodel estimeres til at forudsige observerede værdier for en variabel baseret på andre variabler, og denne model bruges derefter til at beregne værdier i tilfælde, hvor værdien af denne variabel mangler. Med andre ord bruges tilgængelig information til komplette og ufuldstændige tilfælde til at forudsige værdien af en bestemt variabel. Monterede værdier fra regressionsmodellen bruges derefter til at beregne de manglende værdier. Problemet er, at de imputerede data ikke har et fejludtryk inkluderet i deres estimering, således at estimaterne passer perfekt langs regressionslinjen uden nogen resterende varians. Dette får forhold til at blive identificeret og antyder større præcision i de beregnede værdier, end det er berettiget. Regressionsmodellen forudsiger den mest sandsynlige værdi af manglende data, men giver ikke usikkerhed om denne værdi.

stokastisk regression var et ret vellykket forsøg på at rette op på manglen på et fejludtryk i regressionsimputation ved at tilføje den gennemsnitlige regressionsvarians til regressionsimputationerne for at indføre fejl. Stokastisk regression viser meget mindre bias end de ovennævnte teknikker, men det gik stadig glip af en ting-hvis data tilregnes, ville man intuitivt tro, at der skulle introduceres mere støj til problemet end simpel restvarians.

Skriv et svar

Din e-mailadresse vil ikke blive publiceret.