Maybaygiare.org

Blog Network

Imputare (statistici)

hot-deckEdit

o metodă comună de imputare a fost imputarea hot-deck unde o valoare lipsă a fost imputată dintr-o înregistrare similară selectată aleatoriu. Termenul „hot deck” datează de la stocarea datelor pe carduri perforate și indică faptul că donatorii de informații provin din același set de date ca și destinatarii. Teancul de cărți a fost „fierbinte”, deoarece în prezent era procesat.

o formă de imputare hot-deck se numește „ultima observație reportată” (sau LOCF pe scurt), care implică sortarea unui set de date în funcție de oricare dintre mai multe variabile, creând astfel un set de date ordonat. Tehnica găsește apoi prima valoare lipsă și folosește valoarea celulei imediat înainte de datele care lipsesc pentru a imputa valoarea lipsă. Procesul se repetă pentru următoarea celulă cu o valoare lipsă până când toate valorile lipsă au fost imputate. În scenariul comun în care cazurile sunt măsurători repetate ale unei variabile pentru o persoană sau altă entitate, aceasta reprezintă convingerea că, dacă o măsurare lipsește, cea mai bună presupunere este că nu s-a schimbat față de ultima dată când a fost măsurată. Se știe că această metodă crește riscul de creștere a prejudecăților și a concluziilor potențial false. Din acest motiv, LOCF nu este recomandat pentru utilizare.

Cold-deckEdit

imputarea Cold-deck, prin contrast, Selectează donatorii dintr-un alt set de date. Datorită progreselor în puterea computerului, metodele mai sofisticate de imputare au înlocuit, în general, tehnicile originale de imputare ale punții fierbinți aleatorii și sortate. Este o metodă de înlocuire cu valorile de răspuns ale elementelor similare din sondajele anterioare. Este disponibil în sondaje care măsoară intervalele de timp.

substituție medie

o altă tehnică de imputare implică înlocuirea oricărei valori lipsă cu media variabilei respective pentru toate celelalte cazuri, ceea ce are avantajul de a nu modifica media eșantionului pentru acea variabilă. Cu toate acestea, imputarea medie atenuează orice corelații care implică variabila(variabilele) care sunt imputate. Acest lucru se datorează faptului că, în cazurile cu imputare, nu este garantată nicio relație între variabila imputată și orice alte variabile măsurate. Astfel, imputarea medie are unele proprietăți atractive pentru analiza univariată, dar devine problematică pentru analiza multivariată.

imputarea medie poate fi efectuată în cadrul claselor (adică. și poate fi exprimată ca Y ^ I = y h {\displaystyle {\hat {y}}_{i}={\bar {y}}_{h}}

{\displaystyle {\hat {y}}_{i}={\bar {y}}_{h}}

unde y ^ i {\displaystyle {\hat {y}}_{i}}

{\displaystyle {\hat {y}}_{i}}

este valoarea imputată pentru înregistrarea i {\displaystyle i}

i

și y h {\displaystyle {\bar {y}}_{h}}

{\displaystyle {\bar {y}}_{h}}

este media eșantionului de date respondente din clasa h {\displaystyle H}

h

. Acesta este un caz special de imputare de regresie generalizată:

y ^ m i = b r 0 + j b r j z z m i j + e ^ m i {\displaystyle {\hat {y}}_{mi}=b_{r0}+\sum _{j}{b_{RJ}z_{mij}+{\hat {e}}_{mi}}}

{\displaystyle {\hat {y}}_{mi}=b_{R0}+\sum _{j}{b_{RJ}z_{mij}+{\hat {e}}_{mi}}}

aici valorile b r 0 , b r j {\displaystyle b_{R0},b_{RJ}}

{\displaystyle b_{R0},b_{RJ}}

sunt estimate din regresarea y {\displaystyle y}

y

pe x {\displaystyle x}

x

în datele neimputate, z {\displaystyle z}

z

este o variabilă fictivă pentru apartenența la clasă, iar datele sunt împărțite în respondent ( r {\displaystyle r}

r

) și lipsă ( m {\displaystyle M}

m

).

non-negative matrix factorizationEdit

non-negative matrix factorization (NMF) poate lua date lipsă în timp ce minimizarea funcției sale de cost, mai degrabă decât tratarea acestor date lipsă ca zerouri care ar putea introduce prejudecăți. Acest lucru îl face o metodă dovedită matematic pentru imputarea datelor. Dovedind mai întâi că datele lipsă sunt ignorate în funcția cost, apoi dovedind că impactul datelor lipsă poate fi la fel de mic ca un efect de ordinul doi.

regresie

imputarea regresiei are problema opusă imputării medii. Un model de regresie este estimat pentru a prezice valorile observate ale unei variabile pe baza altor variabile, iar acel model este apoi utilizat pentru a imputa valori în cazurile în care valoarea acelei variabile lipsește. Cu alte cuvinte, informațiile disponibile pentru cazuri complete și incomplete sunt utilizate pentru a prezice valoarea unei variabile specifice. Valorile montate din modelul de regresie sunt apoi utilizate pentru a imputa valorile lipsă. Problema este că datele imputate nu au un termen de eroare inclus în estimarea lor, astfel estimările se potrivesc perfect de-a lungul liniei de regresie fără nicio variație reziduală. Acest lucru face ca relațiile să fie identificate și sugerează o precizie mai mare în valorile imputate decât este justificat. Modelul de regresie prezice valoarea cea mai probabilă a datelor lipsă, dar nu furnizează incertitudine cu privire la această valoare.

regresia stocastică a fost o încercare destul de reușită de a corecta lipsa unui termen de eroare în imputarea regresiei prin adăugarea varianței medii de regresie la imputările de regresie pentru a introduce eroarea. Regresia stocastică arată mult mai puțină părtinire decât tehnicile menționate mai sus, dar totuși a ratat un lucru-dacă datele sunt imputate, atunci intuitiv s – ar crede că ar trebui introdus mai mult zgomot în problemă decât varianța reziduală simplă.

Lasă un răspuns

Adresa ta de email nu va fi publicată.