Maybaygiare.org

Blog Network

Imputering (statistikk)

Hot-deckEdit

en gang vanlig metode for imputering var hot-dekk imputering der en manglende verdi ble tilregnet fra en tilfeldig valgt lignende post. Begrepet «hot deck» går tilbake til lagring av data på hullede kort, og indikerer at informasjonsdonatorene kommer fra samme datasett som mottakerne. Bunken med kort var «varm» fordi den for tiden ble behandlet.

en form for hot-deck imputering kalles «last observation carried forward» (ELLER LOCF for kort), som innebærer å sortere et datasett i henhold til noen av en rekke variabler, og dermed skape et ordnet datasett. Teknikken finner deretter den første manglende verdien og bruker celleverdien umiddelbart før dataene som mangler, for å beregne den manglende verdien. Prosessen gjentas for den neste cellen med en manglende verdi til alle manglende verdier er beregnet. I det vanlige scenariet der tilfellene gjentas målinger av en variabel for en person eller annen enhet, representerer dette troen på at hvis en måling mangler, er det beste gjetningen at den ikke har endret seg fra forrige gang den ble målt. Denne metoden er kjent for å øke risikoen for økende skjevhet og potensielt falske konklusjoner. AV denne grunn ANBEFALES IKKE LOCF til bruk.

Cold-deckEdit

cold-deck imputation, derimot, velger givere fra et annet datasett. På grunn av fremskritt i datakraft, har mer sofistikerte metoder for imputering generelt erstattet de opprinnelige tilfeldige og sorterte hot deck imputering teknikker. Det er en metode for å erstatte med svarverdier av lignende elementer i tidligere undersøkelser. Den er tilgjengelig i undersøkelser som måler tidsintervaller.

mean substitutioned

En annen imputasjonsteknikk innebærer å erstatte enhver manglende verdi med gjennomsnittet av den variabelen for alle andre tilfeller, som har fordelen av ikke å endre utvalgsgjennomsnittet for den variabelen. Imidlertid demper mean imputation eventuelle korrelasjoner som involverer variabelen (e) som er beregnet. Dette skyldes at i tilfeller med imputering er det garantert ikke noe forhold mellom den imputerte variabelen og andre målte variabler. Dermed har mean imputation noen attraktive egenskaper for univariate analyse, men blir problematisk for multivariate analyse.

Gjennomsnittlig imputasjon kan utføres innenfor klasser (dvs. kan uttrykkes som y ^ i = y h {\displaystyle {\hat {y}}_{i}={\bar {y}}_{h}}

{\displaystyle {\hat {y}}_{i}={\bar {y}}_{h}}

hvor y ^ i {\displaystyle {\hat {y}}}_{i}}

{\displaystyle {\hat {y}}_{i}}

i og y h {\displaystyle {\bar {y}}_{h}}

{\displaystyle {\bar {y}}_{h}}{\displaystyle{\bar {y}}_{h}}

er utvalgsgjennomsnittet av respondentdata innenfor en klasse h {\displaystyle h}

h

. Dette er et spesielt tilfelle av generalisert regresjon imputasjon:

y ^ m i = b r 0 + ④ j b r j z m i j + e ^ m i {\displaystyle {\hat {y}}_{mi}=b_{r0}+\sum _{j}{b_{rj}z_{mij}+{\hat {e}}_{mi}}

{\displaystyle {\hat {y}}_{mi}=b_{r0}+\sum _{j} {b_{rj} z_{mij}+{\hat {e}}_{mi}}

her er verdiene b r 0 , b r j {\displaystyle b_{r0}, b_{rj}}

{\displaystyle b_{r0}, b_{rj}}

er estimert fra regressering y {\displaystyle y}

y

på x {\displaystyle x}

x

i ikke-tilregnede data, z {\displaystyle z}

z

er en dummy-variabel for klassemedlemskap, og data er delt inn i respondent ( r {\displaystyle r}

r

) og mangler ( m {\displaystyle m}

m

).

Ikke-negativ matrisefaktorisering (NMF) kan ta manglende data mens kostnadsfunksjonen minimeres, i stedet for å behandle disse manglende dataene som nuller som kan introdusere skjevheter. Dette gjør det til en matematisk bevist metode for dataimputering. Ved først å bevise at de manglende dataene ignoreres i kostnadsfunksjonen, og deretter bevise at virkningen fra manglende data kan være så liten som en annenordenseffekt.

Regresjonrediger

Regresjonsimputering har det motsatte problemet med gjennomsnittlig imputering. En regresjonsmodell estimeres for å forutsi observerte verdier av en variabel basert på andre variabler, og den modellen brukes deretter til å beregne verdier i tilfeller der verdien av den variabelen mangler. Med andre ord brukes tilgjengelig informasjon for komplette og ufullstendige tilfeller til å forutsi verdien av en bestemt variabel. Monterte verdier fra regresjonsmodellen brukes da til å beregne de manglende verdiene. Problemet er at de tilregnede dataene ikke har en feilbetegnelse inkludert i estimeringen, slik at estimatene passer perfekt langs regresjonslinjen uten gjenværende varians. Dette fører til at relasjoner blir over identifisert og foreslår større presisjon i de beregnede verdiene enn det som er berettiget. Regresjonsmodellen forutsier den mest sannsynlige verdien av manglende data, men gir ikke usikkerhet om den verdien.Stokastisk regresjon var et ganske vellykket forsøk på å korrigere mangelen på en feilbegrep i regresjonsimputasjon ved å legge til den gjennomsnittlige regresjonsvariansen til regresjonsimputasjonene for å introdusere feil. Stokastisk regresjon viser mye mindre bias enn de ovennevnte teknikkene – men det savnet fortsatt en ting – hvis data blir tilregnet, så intuitivt ville man tro at mer støy bør innføres i problemet enn enkel gjenværende varians.

Legg igjen en kommentar

Din e-postadresse vil ikke bli publisert.