Maybaygiare.org

Blog Network

Imputazione (statistiche)

Hot-deckEdit

Un metodo comune di imputazione era l’imputazione a caldo in cui un valore mancante veniva imputato da un record simile selezionato casualmente. Il termine” hot deck ” risale alla memorizzazione dei dati sulle schede perforate e indica che i donatori di informazioni provengono dallo stesso set di dati dei destinatari. La pila di carte era “calda” perché era attualmente in fase di elaborazione.

Una forma di imputazione hot-deck è chiamata “last observation carried forward” (o LOCF in breve), che comporta l’ordinamento di un set di dati in base a una qualsiasi delle numerose variabili, creando così un set di dati ordinato. La tecnica trova quindi il primo valore mancante e utilizza il valore della cella immediatamente prima dei dati mancanti per imputare il valore mancante. Il processo viene ripetuto per la cella successiva con un valore mancante fino a quando non sono stati imputati tutti i valori mancanti. Nello scenario comune in cui i casi sono misurazioni ripetute di una variabile per una persona o un’altra entità, questo rappresenta la convinzione che se manca una misurazione, l’ipotesi migliore è che non sia cambiata dall’ultima volta che è stata misurata. Questo metodo è noto per aumentare il rischio di aumentare pregiudizi e potenzialmente false conclusioni. Per questo motivo LOCF non è raccomandato per l’uso.

Cold-deckEdit

Cold-deck imputation, al contrario, seleziona donatori da un altro set di dati. A causa dei progressi nella potenza del computer, i metodi più sofisticati di imputazione hanno generalmente sostituito le tecniche di imputazione a caldo casuali e ordinate originali. È un metodo di sostituzione con valori di risposta di elementi simili in precedenti indagini. È disponibile in sondaggi che misurano gli intervalli di tempo.

Mean substitutionEdit

Un’altra tecnica di imputazione comporta la sostituzione di qualsiasi valore mancante con la media di quella variabile per tutti gli altri casi, il che ha il vantaggio di non modificare la media del campione per quella variabile. Tuttavia, l’imputazione media attenua tutte le correlazioni che coinvolgono le variabili imputate. Questo perché, nei casi con imputazione, non è garantita alcuna relazione tra la variabile imputata e qualsiasi altra variabile misurata. Pertanto, l’imputazione media ha alcune proprietà interessanti per l’analisi univariata ma diventa problematica per l’analisi multivariata.

L’imputazione media può essere effettuata all’interno di classi (es. categorie (come il sesso), e può essere espressa come y ^ i = y h {\displaystyle {\hat {y}_{i}={\bar {y}_{h}}

{\displaystyle {\hat {y}_{i}={\bar {y}_{h}}

dove y ^ i {\displaystyle {\hat {y}_{i}}

{\displaystyle {\hat {y}_{i}}

è il valore imputato per registrare i {\displaystyle i}

i

e y h {\displaystyle {\bar {y}_{h}}

{\displaystyle {\bar {y}_{h}}

è la media del campione di dati rispondente all’interno di alcune di classe h {\displaystyle h}

h

. Questo è un caso speciale di regressione generalizzata imputazione:

y ^ m i = b r 0 + ∑ j b b r a i j z m i j + e ^ m i {\displaystyle {\hat {y}_{mi}=b_{r0}+\sum _{j}{b_{rj}z_{mij}+{\hat {e}}_{mi}}}

{\displaystyle {\hat {y}}_{mi}=b_{r0}+\sum _{j}{b_{rj}z_{mij}+{\hat {e}}_{mi}}}

Ecco i valori di b r 0 , b r j {\displaystyle b_{r0},b_{rj}}

{\displaystyle b_{r0},b_{rj}}

sono stimato dalla regressione y {\displaystyle y}

y

x {\displaystyle x}

x

non dati imputati, z {\displaystyle z}

z

è una variabile fittizia per l’appartenenza alla classe e i dati sono suddivisi in rispondente ( r {\displaystyle r}

r

) e mancante ( m {\displaystyle m}

m

).

Fattorizzazione a matrice non negativamodifica

La fattorizzazione a matrice non negativa (NMF) può prendere dati mancanti riducendo al minimo la sua funzione di costo, piuttosto che trattare questi dati mancanti come zeri che potrebbero introdurre pregiudizi. Questo lo rende un metodo matematicamente provato per l’imputazione dei dati. Dimostrando innanzitutto che i dati mancanti vengono ignorati nella funzione di costo, quindi dimostrando che l’impatto dei dati mancanti può essere piccolo come un effetto del secondo ordine.

RegressionEdit

L’imputazione di regressione ha il problema opposto dell’imputazione media. Si stima che un modello di regressione preveda i valori osservati di una variabile in base ad altre variabili e tale modello viene quindi utilizzato per imputare i valori nei casi in cui manca il valore di tale variabile. In altre parole, le informazioni disponibili per casi completi e incompleti vengono utilizzate per prevedere il valore di una variabile specifica. I valori montati dal modello di regressione vengono quindi utilizzati per imputare i valori mancanti. Il problema è che i dati imputati non hanno un termine di errore incluso nella loro stima, quindi le stime si adattano perfettamente lungo la linea di regressione senza alcuna varianza residua. Ciò fa sì che le relazioni siano sopra identificate e suggeriscano una maggiore precisione nei valori imputati di quanto sia garantito. Il modello di regressione prevede il valore più probabile dei dati mancanti, ma non fornisce incertezza su tale valore.

La regressione stocastica è stato un tentativo abbastanza riuscito di correggere la mancanza di un termine di errore nell’imputazione di regressione aggiungendo la varianza di regressione media alle imputazioni di regressione per introdurre l’errore. La regressione stocastica mostra molto meno bias rispetto alle tecniche sopra menzionate, ma manca ancora una cosa: se i dati vengono imputati, intuitivamente si potrebbe pensare che dovrebbe essere introdotto più rumore al problema rispetto alla semplice varianza residua.

Lascia un commento

Il tuo indirizzo email non sarà pubblicato.