関連する動画はこちら:Principal Component Analysis
内容 |
主成分分析(PCA)は線形の組み合わせからある値のセットの分散―共分散の構造を説明するために使用されます。これは次元縮退テクニックとして使用されます。
PCAを使用する主な理由は2つあります。
PCAは通常入力変数が大きすぎて有益な分析を行えない場合のデータ分析の中間段階として使用されます。
PCAは一般的に強く相関している変数同士で使用されます。変数間の関係性が弱い場合、PCAはデータをうまく減らせなくなります。詳細は相関行列で確認してください。一般的に、ほとんどの相関係数が0.3より小さい場合、PCAはうまく働きません。
常にどれだけの主成分を残しておくかという質問が出てきます。詳しくはスクリープロットと相関行列の固有値をご覧ください。
相関行列は共分散行列のすべての変数が1になるように正規化されたものです。もし変数の目盛りが同じようであるならば、共分散行列の方が好まれています。これは相関行列は変数の正規化を行っているときに情報を失うからです。変数がそれぞれ異なるスケールで計測されている場合、相関行列がおすすめされます。
ペアワイズかリストワイズで欠損値を取り除くのはその欠損値の状況によります。そこに一つの変数内でいくつかの欠損値があるならば、その行全体を削除することが一般的に行われます。これがリストワイズで除外です。もし2つ以上の変数で欠損値がある場合、ペアワイズで除外するのが一般的に一番良いといわれています。
このセクションで説明している項目 |