判別分析
Discriminant-Analysis
判別分析は明確な違いがある観測値を識別し、新たな観測値を以前組み分けしたグループに配置するために使用されます。この方法は生物学の種の分類や、医学的な腫瘍の分類、顔認識のテクノロジー、またクレジットカードや保険業界でリスクを割り出すのに使用されます。
目的
判別分析には2つの大きな目的があります。
- 識別
- 現在わかっている集団で観測データの分類子を組み立て、識別できるようにします。
- 分類
- ラベル付されていない観測データをラベル付されている観測グループに作成した分類子を使って振り分ます。この時、重要な点は新たな観測データをきちんと分類できる分類子の作成にあります。
仮定
判別モデルには次の仮定があります。
- 多変量正規性
- データの値は正規分布から来たものです。正規性検定 を使い、これを確認できます。しかし、通常正規の仮定を置くことは”致命的”ではありません。結果の優位性検定の信頼性はまだあるかもしれません[2]。
- グループ内分散―共分散の均一性
- 各グループ内の共分散行列は均一です。共分散行列における相当性の検定を使用して確認できます。もし迷ったら分析を2次式方法でやり直すか、観測値を追加するまたは1つや2つのクループを取り除いてやり直してみてください。
- 変数の多重共線性の低さ
- 2個以上の変数がある中で多重共線性が高い場合、判別関数の係数はグループメンバーシップの予測を高い信頼性で行うことはできません。多重共線性を確認するには プールされた郡内の相関行列を使うことができます。相関係数が0.8より大きかった場合、いくつかの変数を取り除くか主成分分析を先に行ってください。
手順の流れ
分析データの準備
- 十分なサンプルサイズ
- ルールとして、最も小さなサンプルサイズは変数の数より大きくしてください。通常、最低20ずつの値を各変数ごとに取るのがベストです。この小さいサンプルサイズはうまくいくかもしれませんがあまりお勧めされません。各変数に付き、最低5つの観測値が必要です。
- 独立した乱数サンプル(外れ値なし)
- 判別分析は各観測値がお互いに独立していることが必要になってきます。つまり、繰り返しの観測やマッチペアデータ(お互いに関連しあうデータ)がない状態です。さらに、判別分析は外れ値を含んだとき、結果が大きく変わってきてしまいます。外れ値を観測するにはボックスチャート を使用するか正準判別関数のスコアプロットで外れ値の疑いがあるデータを確認します。
- 正しい変数を設定する
- 抑制変数は取り除いてください。これは一変量 ANOVA表を見ることで確認できます。
- サンプルを分けます。
- トレーニングデータの分類サマリーは同じデータの観測値を判別関数で判断したものです。”エラー率”は通常テストデータで判断した時の方が大きくなりますが、判別関数判断には使われていません。ですので、今回は観測データのセットをさらに小さく分け、初めの1つを判別モデルの判断に使い(トレーニングセット)、もう1つのセットをその結果の信頼性の確認のために使います(テストセット)。しかし、もしユーザがサンプルを分けたい場合、十分な大きさが必要です。サンプルサイズは100以上の大きさである必要があります[3],[4]。
仮定の検証
正規性検定、共分散行列における相当性の検定とプールされた郡内の相関行列を使用して仮定を検証できます。詳しくは仮定をご覧ください。
判別手法を選ぶ
- 線形または二次
- 二次式判別分析(QDA)は線形判別分析(LDA)とほぼ同じですが、線形の共分散行列が等しいという違いがあります。もし共分散行列の正規性検定が棄却できない場合は、QDA を選んでください。
- しかし、二次式 は線形より柔軟に対応できますが、推定するパラメータの量が増えます。二次式では各グループごとに別々の共分散行列が必要になるので、たくさんのグループはあるが各観測値が少ない場合おすすめされません。
-
-
Note: 線形判別関数(LDA)は判別関数内の線形で、二次式判別関数(QDA)は判別関数内の二次式になります。 |
- 特定できる事前確率
- 判別分析はグループメンバーシップの事前確率は特定可能であると仮定しています。もしグループ集団数が等しくない場合、事前確率は変わってくるかもしれません。各グループの記述統計表からNが各グループで異なった場合、事前確率でグループサイズに比例を選んでください。
結果の確認と解釈
判別関数を編集する情報、判別関数が良いかどうか判断する、または観測値を分類することについては結果の解釈ページをご覧ください。
結果の確認にはテストデータの結果、またはトレーニングデータの交差確認から判断できます。しかし上記の方法はサンプルサイズにより結果が変動しやすいので注意してください。サンプルサイズが小さい場合、結果の信頼性が損なわれる可能性があります。
Note: クロス検証は「ひとつを取り除くクロス検証」とも呼ばれています。N個の観測値がある場合、判別分析はN回実行されます。各回で1つのポイント以外のデータに付いて検証され、そのポイントについての推定がなされるからです。 |
判別分析を実行する
- メニューから統計:多変量解析:判別分析と選択します。
- または
- スクリプトウィンドウでdiscrim -dと打ち込んでください。