Maybaygiare.org

Blog Network

Imputação (estatísticas)

Deckedit a quente

um método de imputação uma vez comum foi a imputação no convés quente, onde um valor em falta foi imputado a partir de um registo similar seleccionado aleatoriamente. O termo “baralho quente” remonta ao armazenamento de dados em cartões perfurados, e indica que os doadores de informação vêm do mesmo conjunto de dados que os destinatários. A pilha de cartas estava “quente” porque estava sendo processada.

uma forma de imputação de convés quente é chamada de “última observação realizada” (ou LOCF para abreviar), que envolve a ordenação de um conjunto de dados de acordo com qualquer uma de uma série de variáveis, criando assim um conjunto de dados ordenado. A técnica então encontra o primeiro valor em falta e usa o valor da célula imediatamente antes dos dados que faltam para imputar o valor em falta. O processo é repetido para a célula seguinte com um valor em falta até que todos os valores em falta tenham sido imputados. No cenário comum em que os casos são medições repetidas de uma variável para uma pessoa ou outra entidade, isso representa a crença de que se uma medida está faltando, o melhor palpite é que ela não mudou a partir da última vez que foi medida. Este método é conhecido por aumentar o risco de viés crescente e conclusões potencialmente falsas. Por esta razão, não se recomenda a utilização de LOCF.

Deckedit a frio

Cold-deck imputation, by contrast, selects donors from another dataset. Devido aos avanços no poder dos computadores, métodos mais sofisticados de imputação geralmente superaram as técnicas de imputação de baralhos quentes aleatórios e ordenados originais. É um método de substituição por valores de resposta de itens similares em pesquisas anteriores. Está disponível em pesquisas que medem intervalos de tempo.

substituições médias

outra técnica de imputação envolve a substituição de qualquer valor em falta pela média dessa variável para todos os outros casos, o que tem o benefício de não alterar a média da amostra para essa variável. No entanto, a imputação média atenua quaisquer correlações que envolvam a(s) variável (s) imputada (s). Isto porque, em casos de imputação, é garantido que não há relação entre a variável imputada e quaisquer outras variáveis medidas. Assim, a imputação média tem algumas propriedades atrativas para análise univariada, mas se torna problemática para análise multivariada.

a imputação média pode ser realizada dentro de classes (i.e. categorias como gênero), e pode ser expressa como y ^ i = y h {\displaystyle {\hat {y}}_{i}={\bar {y}}_{h}}

{\displaystyle {\hat {y}}_{i}={\bar {y}}_{h}}

onde y ^ i {\displaystyle {\hat {y}}_{i}}

{\displaystyle {\hat {y}}_{i}}

é o valor atribuído para o registro i {\displaystyle i}

i

e y h {\displaystyle {\bar {y}}_{h}}

{\displaystyle {\bar {y}}_{h}}

é a média da amostra de dados do entrevistado dentro de alguma classe h {\displaystyle h}

. Este é um caso especial de imputação de regressão generalizada:

y ^ m i = b i 0 + ∑ j b r j z m i j + e ^ m i {\displaystyle {\hat {y}}_{mi}=b_{r0}+\sum _{j}{b_{rj}z_{mij}+{\hat {e}}_{mi}}}

{\displaystyle {\hat {y}}_{mi}=b_{r0}+\sum _{j}{b_{rj}z_{mij}+{\hat {e}}_{mi}}}

Aqui os valores de a b r 0 , b r j {\displaystyle b_{r0},b_{rj}}

{\displaystyle b_{r0},b_{rj}}

são estimados a partir da regressão de y {\displaystyle y}

y

x {\displaystyle x}

x

não imputados dados, z {\displaystyle z}

z

é uma variável dummy para os membros da classe, e os dados são divididos em demandado ( r {\displaystyle r}

r

) e falta ( m {\displaystyle m}

m

).

factorizationEdit de matriz não-negativa

factorization de matriz não-negativa (NMF) pode tomar dados em falta ao minimizar a sua função de custo, em vez de tratar estes dados em falta como zeros que poderiam introduzir distorções. Isso o torna um método matematicamente comprovado para a imputação de dados. Provando primeiro que os dados em falta são ignorados na função de custo, em seguida, provando que o impacto de dados em falta pode ser tão pequeno quanto um efeito de segunda ordem.

RegressionEdit

Regressão imputação tem o problema oposto da imputação média. Um modelo de regressão é estimado para prever valores observados de uma variável baseada em outras variáveis, e esse modelo é então usado para imputar valores em casos em que o valor dessa variável está faltando. Por outras palavras, a informação disponível para casos completos e incompletos é utilizada para prever o valor de uma variável específica. Os valores instalados do modelo de regressão são então utilizados para imputar os valores em falta. O problema é que os dados imputados não têm um termo de erro incluído em sua estimativa, assim as estimativas encaixam perfeitamente ao longo da linha de regressão sem qualquer variação residual. Isto faz com que as relações sejam excessivamente identificadas e sugere maior precisão nos valores imputados do que se justifica. O modelo de regressão prevê o valor mais provável dos dados em falta, mas não fornece incerteza sobre esse valor.

regressão estocástica foi uma tentativa bastante bem sucedida de corrigir a falta de um termo de erro na imputação de regressão, adicionando a variância média de regressão às imputações de regressão para introduzir erro. Regressão estocástica mostra muito menos viés do que as técnicas acima mencionadas, mas ainda falhou uma coisa – se os dados são imputados então intuitivamente se pensaria que mais ruído deve ser introduzido ao problema do que variância residual simples.

Deixe uma resposta

O seu endereço de email não será publicado.