主成分分析

Video Image.png関連する動画はこちら:Principal Component Analysis

内容

  1. 1 目的
  2. 2 手順の流れ
    1. 2.1 分析データの準備
    2. 2.2 主要仕様を選ぶ
      1. 2.2.1 主成分の数
      2. 2.2.2 相関行列か共分散行列から開始する
      3. 2.2.3 リストワイズまたはペアワイズで欠損値を取り除く
  3. 3 主成分分析を実行する


主成分分析(PCA)は線形の組み合わせからある値のセットの分散―共分散の構造を説明するために使用されます。これは次元縮退テクニックとして使用されます。

目的

PCAを使用する主な理由は2つあります。

PCAは通常入力変数が大きすぎて有益な分析を行えない場合のデータ分析の中間段階として使用されます。

手順の流れ

分析データの準備

PCAは一般的に強く相関している変数同士で使用されます。変数間の関係性が弱い場合、PCAはデータをうまく減らせなくなります。詳細は相関行列で確認してください。一般的に、ほとんどの相関係数が0.3より小さい場合、PCAはうまく働きません。

主要仕様を選ぶ

主成分の数

常にどれだけの主成分を残しておくかという質問が出てきます。詳しくはスクリープロット相関行列の固有値をご覧ください。

相関行列か共分散行列から開始する

相関行列は共分散行列のすべての変数が1になるように正規化されたものです。もし変数の目盛りが同じようであるならば、共分散行列の方が好まれています。これは相関行列は変数の正規化を行っているときに情報を失うからです。変数がそれぞれ異なるスケールで計測されている場合、相関行列がおすすめされます。

リストワイズまたはペアワイズで欠損値を取り除く

ペアワイズかリストワイズで欠損値を取り除くのはその欠損値の状況によります。そこに一つの変数内でいくつかの欠損値があるならば、その行全体を削除することが一般的に行われます。これがリストワイズで除外です。もし2つ以上の変数で欠損値がある場合、ペアワイズで除外するのが一般的に一番良いといわれています。

主成分分析を行う

このセクションで説明している項目