Maybaygiare.org

Blog Network

代入(statistics)

Hot-deckEdit

かつて一般的な代入方法は、ランダムに選択された類似レコードから欠損値が代入されたhot-deck代入でした。 “ホットデッキ”という用語は、パンチカード上のデータの格納にさかのぼり、情報提供者が受信者と同じデータセットから来ていることを示しています。 それは現在処理されていたので、カードのスタックは”ホット”でした。

ホットデッキ代入の一形態は、”last observation carried forward”(または略してLOCF)と呼ばれ、いくつかの変数のいずれかに従ってデータセットをソートし、順序付けられたデータセットを作成することを含む。 この手法では、最初の欠損値が検出され、欠損値を代入するために欠損データの直前のセル値が使用されます。 このプロセスは、すべての欠損値が代入されるまで、欠損値を持つ次のセルに対して繰り返されます。 ケースが人または他のエンティティの変数の繰り返し測定である一般的なシナリオでは、これは、測定が欠落している場合、最良の推測は、それが測定された最後の時間から変更されていないことであるという信念を表しています。 この方法は、バイアスの増加および潜在的に誤った結論のリスクを増加させることが知られている。 このため、LOCFの使用は推奨されません。

Cold-deckEdit

Cold-deck代入は、対照的に、別のデータセットからドナーを選択します。 コンピュータのパワーの進歩により、より洗練された代入方法は、一般的に元のランダムでソートされたホットデッキ代入技術に取って代わられています。 これは、過去の調査で同様の項目の回答値に置き換える方法です。 これは、時間間隔を測定する調査で利用可能です。

Mean substitutionEdit

別の代入手法では、欠損値を他のすべての場合のその変数の平均に置き換えることが含まれます。 ただし、平均代入は、代入される変数を含むすべての相関を減衰させます。 これは、代入の場合、代入された変数と他の測定された変数との間に関係がないことが保証されるためです。 したがって,平均代入は一変量解析ではいくつかの魅力的な特性を有するが,多変量解析では問題となる。

平均代入はクラス内で実行できます(つまり、

平均代入はクラス内で実行できます)。 例えば性別などのカテゴリ)で表され、y^i=y h{\displaystyle{\hat{y}}_{i}={\bar{y}}_{h}}

{\displaystyle{\hat{y}}_{i}={\bar{y}}_{h}}

ここでy^i{\displaystyle{\hat{y}}_{i}}

{\displaystyle{\hat{y}}_{i}}”>

は、レコードi{\displaystyle i}

i

およびy h{\displaystyle{\bar{y}}_{h}}

{\displaystyle{\bar{y}}{\displaystyle{\bar{y}}{\displaystyle{\bar{y}}{\displaystyle{\bar{y}}{\displaystyle{\bar{y}}{\displaystyle{\bar{y}}_{h}}

は、あるクラスh{\displaystyle H}内の回答者データの標本平均です

h

。 これは一般化回帰代入の特殊なケースです:

y^m i=b r0+∑j b r j z m i j+e^m i{\displaystyle{\hat{y}}_{mi}=b_{r0}+\sum_{j}{b_{rj}z_{mij}+{\hat{e}}_{mi}}}

{\displaystyle{\hat{y}}_{mi}=b_{r0}+ここで、値b r0,b r j{\displaystyle b_{r0},b_{rj}}

{\displaystyle b_{r0},b_{rj}}

はy{\displaystyle y}の回帰から推定される。y}

y

x{\displaystyle x}

x

帰属しないデータでは、z{\displaystyle z}

z

はクラスメンバーシップのダミー変数であり、データは回答者(r{\displaystyle r}

r

)と欠落(m{\displaystyle m}

m

)に分割される。

Non-negative matrix factorizationEdit

Non-negative matrix factorization(NMF)は、これらの欠損データをバイアスを導入する可能性のあるゼロとして扱うのではなく、コスト関数を最小化しながら欠損データ これは、データ代入のための数学的に証明された方法になります。 最初にコスト関数で欠損データが無視されることを証明し、次に欠損データからの影響が2次効果と同じくらい小さいことを証明することによって。

RegressionEdit

回帰代入は、平均代入の反対の問題を持っています。 回帰モデルは、他の変数に基づいて変数の観測値を予測するために推定され、そのモデルは、その変数の値が欠落している場合に値を代入するため つまり、完全なケースと不完全なケースで利用可能な情報は、特定の変数の値を予測するために使用されます。 回帰モデルからの近似値は、欠損値を代入するために使用されます。 問題は、帰属されたデータには推定に誤差項が含まれていないため、推定値は残差分散なしに回帰直線に完全に適合することです。 これにより、関係が過剰に識別され、保証されている値よりも帰属された値の精度が高いことが示唆されます。 回帰モデルは、欠損データの可能性が最も高い値を予測しますが、その値に関する不確実性は提供しません。

確率回帰は、誤差を導入するために回帰代入に平均回帰分散を追加することにより、回帰代入における誤差項の欠如を修正するためのかなり成功した試みであった。 確率的回帰は、上記の技術よりもはるかに少ないバイアスを示していますが、それはまだ一つのことを逃しました-データが帰属している場合、直感的に

コメントを残す

メールアドレスが公開されることはありません。