Maybaygiare.org

Blog Network

Imputation (statistik)

Hot-deckEdit

en en gång vanlig metod för imputation var hot-deck imputation där ett saknat värde beräknades från en slumpmässigt vald liknande post. Termen ”hot deck” går tillbaka till lagring av data på stansade kort och indikerar att informationsgivarna kommer från samma dataset som mottagarna. Stacken med kort var” het ” eftersom den för närvarande behandlades.

en form av hot-deck imputation kallas” last observation carried forward ” (eller LOCF för kort), vilket innebär att man sorterar en dataset enligt någon av ett antal variabler, vilket skapar en ordnad dataset. Tekniken hittar sedan det första saknade värdet och använder cellvärdet omedelbart före de data som saknas för att beräkna det saknade värdet. Processen upprepas för nästa cell med ett saknat värde tills alla saknade värden har beräknats. I det vanliga scenariot där Fallen upprepas mätningar av en variabel för en person eller annan enhet, representerar detta tron att om en mätning saknas är den bästa gissningen att den inte har förändrats från förra gången den mättes. Denna metod är känd för att öka risken för ökad bias och potentiellt falska slutsatser. Av denna anledning rekommenderas inte LOCF för användning.

Cold-deckEdit

Cold-deck imputation väljer däremot givare från en annan dataset. På grund av framsteg inom datorkraft har mer sofistikerade metoder för imputering i allmänhet ersatt de ursprungliga slumpmässiga och sorterade hot deck imputation-teknikerna. Det är en metod att ersätta med svarvärden för liknande objekt i tidigare undersökningar. Det finns i undersökningar som mäter tidsintervall.

Mean substitutionEdit

en annan imputeringsteknik innebär att man ersätter något saknat värde med medelvärdet för den variabeln för alla andra fall, vilket har fördelen att inte ändra provmedelvärdet för den variabeln. Mean imputation dämpar emellertid eventuella korrelationer som involverar variabeln(erna) som beräknas. Detta beror på att det i fall med imputering garanteras att det inte finns något samband mellan den beräknade variabeln och andra uppmätta variabler. Således har genomsnittlig imputering några attraktiva egenskaper för univariat analys men blir problematisk för multivariat analys.

Genomsnittlig imputering kan utföras inom klasserna (dvs. och kan uttryckas som y ^ i = Y h {\displaystyle {\hat {y}}_{i}={\bar {y}}_{h}}

{\displaystyle {\hat {y}}_{i}={\bar {y}}_{h}}

där y ^ i {\displaystyle {\hat {y}}_{i}}

{\displaystyle {\hat {y}}_{i}}

är det beräknade värdet för posten i {\displaystyle i}

i

och Y H {\displaystyle {\bar {y}}_{h}}

{\displaystyle {\bar {y}}_{h}}

är exempelmedelvärdet för respondentdata inom någon klass H {\displaystyle H}

h

. Detta är ett speciellt fall av generaliserad regressionsimputation:

y ^ m i = b r 0 + oc i j b r j z m i j + e ^ m i {\displaystyle {\hat {y}}_{mi}=b_{r0}+\summa _{j}{b_{RJ}z_{mij}+{\hat {e}}_{mi}}

{\displaystyle {\hat {y}}_{mi}=b_{R0}+\sum _{j} {b_{RJ} z_{mij}+{\hat {e}}_{mi}}}

här värdena b r 0 , b r J {\displaystyle b_{R0}, b_{RJ}}

{\displaystyle b_{R0}, b_{RJ}}

uppskattas från regressing y {\displaystyle y}

y

på X {\displaystyle X}

X

i icke-imputerade data, Z {\displaystyle z}

z

är en dummyvariabel för klassmedlemskap, och data delas upp i respondent ( r {\displaystyle r}

r

) och saknas ( m {\displaystyle m}

m

).

icke-negativ matrisfaktoriseringredigera

icke-negativ matrisfaktorisering (NMF) kan ta saknade data samtidigt som dess kostnadsfunktion minimeras, snarare än att behandla dessa saknade data som nollor som kan införa fördomar. Detta gör det till en matematiskt beprövad metod för dataimputering. Genom att först bevisa att de saknade uppgifterna ignoreras i kostnadsfunktionen och sedan bevisa att effekten från saknade data kan vara så liten som en andra ordningseffekt.

RegressionEdit

Regression imputation har det motsatta problemet med genomsnittlig imputation. En regressionsmodell beräknas förutsäga observerade värden för en variabel baserat på andra variabler, och den modellen används sedan för att beräkna värden i fall där värdet på den variabeln saknas. Med andra ord används tillgänglig information för fullständiga och ofullständiga fall för att förutsäga värdet av en specifik variabel. Monterade värden från regressionsmodellen används sedan för att beräkna de saknade värdena. Problemet är att de beräknade uppgifterna inte har en felterm som ingår i deras uppskattning, så uppskattningarna passar perfekt längs regressionslinjen utan någon kvarvarande varians. Detta gör att relationer över identifieras och föreslår större precision i de beräknade värdena än vad som är motiverat. Regressionsmodellen förutsäger det mest sannolika värdet av saknade data men ger inte osäkerhet om det värdet.

stokastisk regression var ett ganska framgångsrikt försök att korrigera bristen på en felterm i regressionsimputation genom att lägga till den genomsnittliga regressionsvariansen till regressionsimputationerna för att införa fel. Stokastisk regression visar mycket mindre förspänning än de ovan nämnda teknikerna, men det missade fortfarande en sak-om data beräknas skulle man intuitivt tro att mer ljud skulle introduceras till problemet än enkel restvarians.

Lämna ett svar

Din e-postadress kommer inte publiceras.