判別分析の結果を解釈するには
判別結果シート
記述統計量
記述統計表はその変数の特徴を判断するのに役立ちます。これをもとにデータの大きさや欠損値を見ることができます。平均と標準偏差の確認で一変量/分散のグループ間の違いを見つけることもできます。
共分散行列(全体)
共分散行列(全体)は全ての観測データを一つのサンプルから手に入れたように扱い、すべてのデータの共分散行列を提供します。
相関行列(全体)
この表は各変数間の関係を明らかにするのに使用できます。
クループ距離行列
グループ距離行列はグループ平均間のマハラノビス距離を表しています。
一変量ANOVA
この表じゃ各変数がグループ平均よりどれだけ違うのかを検定します。もしProb>Fの値が0.05よりも小さい場合、それは各グループの平均は有意に異なることを表しています。気を付けていただきたいのは、もし変数同士に関連がある場合はこの表の値は信頼できません。この一変量の見方は変数間の共有分散(相関)については考慮されていません。
共分散行列における等価性テスト
判別分析は共分散の行列が同等であると仮定しています。もしこの仮定が満たされなかった場合、いくつかの考えるべきオプションがあります。その中に外れ値の削除、データ変換、および通常使用されるプールされた共分散行列ではなく、別々の共分散行列を使用すること(二乗法)があります。
対数の行列式
この表は各共分散行列とプールされたグループ内の共分散の間の行列式を自然対数で表わしています。理想では共分散の等しさが仮定されているので、行列式はお互いにほとんど同じ状態になっています。
尤度比率検定
尤度比率検定は母集団の共分散行列がグループ内で等しいかテストするものです。もしp値>0.05であるならば、行列の共分散は等しいといえます。データはグループ内の分散―共分散行列とともに多変量正規分布に従っている、と仮定されています。しかし、判別分析はこれらの推定および仮定の違反に対しておおざっぱな対応をするので、経験則では通常この結果をあまり重要視しないようにしています。
グループ内でプールされた共分散/相関行列
グループ内でプールされた相関行列は二変数の相関をすべての変数間で行います。今後問題になりえることを多重共線性で見つけることができます。もしいくつかの相関係数が0.8より大きくなったときは気を付けてください。
グループ内共分散行列
各グループごとに共分散行列を分離します。
正準判別分析
固有値
固有値表は判別関数の固有値を出力し、それとともに判別関数の正準相関も計算されます。固有値が大きければ、その分だけ多くの分散が線形の関係を共有していることになります。重要度の高いものから順に固有値は保存されています。ですので、初めのものはそのうちの大多数の分散を説明しています。
表の2列目は分散のパーセンテージがあり、これは判別関数の大切性を示しています。3列目、累積は、各関数が表に追加されるごとに分散の累積パーセンテージを算出していきます。もしそこに判別関数が複数あった場合、始めいくつかの合計パーセンテージが90%よりも大きいかどうかが分析の中で一番大切なことになってきます。
4列目は正準相関で、こちらは各関数の正準相関の係数を表しています。正準相関値はその関数の判別スコアと各グループ間はr値で表されています。それはさらに各判別関数の重要度を測るのにも使用されます。
ウィルクのλ検定
ウィルクのλ検定は判別分析でどちらの変数の方がより多くの値を占めているかを計算します。ウィルクのλが0に近ければ近いほどその変数が判別関数内でしめる重要度は上がります。この表はさらにカイ二乗統計もウィルクのλの優位性を見せるために表示されています。p値が0.05よりも小さかった場合、それはそれと対応する関数がグループメンバーシップについての説明をしっかりと行えているとしています。
正規化されている正準係数
正規化されている正準判別係数は各変数の重要度をランクとしてまとめることができます。正規化されている正準判別係数の値が大きいとき、それはグループ間の値は大きく違う可能性を示しています。
正規化されていない正準係数
正規化されていない正準係数はパラメータの推定値となっており、Ciの式は次のようになっています。
ここで
- Dj はj番目の観測データに対する判別スコアです。
- Xijはi番目の変数にとってのj番目の観測データです。
正準判別分析の目的はグループ間の平均判別スコアの違いが最大になるように一番良い推測ができる係数を見つけることです。
正準構造行列
正準構造行列から各モデルと各判別関数間の相関関係が分かってきます。これらは各判別関数の因子負荷量と認識することができます。これらの相関を比較することも可能で、各関数にどれだけ関係しているかを見ることもできます。通常、相関数値が0.3よりも大きいものは重要であると認識されます。
正準構造行列を使用して判別関数に意味のあるラベルを付けることができます、正規化された判別関数の係数は各独立変数の判別関数への貢献度の重要性を見るのに使われます。
正準グループ平均
正準グループ平均は他の呼ばれ方で重心とも呼ばれており、各グループ内の正準観測スコア(数式(1))から算出された真野です。正準グループ平均の違いが大きければ大きいほど正準判別分析の予測力はよりよくなっており、観測点を分類するのに役立ちます。
線形判別関数の係数
線形判別関数の係数表はフィッシャーの理論を元に判断しているので、これは判別関数の中で線形が選ばれているときのみ使用できます。
線形判別関数、あるいは“分類関数”は、各観測点に対して次のように計算されています。
ここで
- Ckはグループkの分類スコアになります。
- C'sは表の中の係数です。
一つの観測点について、(2)の式のようにそのスコアを各グループごとに計算することができます。その観測点は最も高いスコアを出したグループ置かれるべきになっています。
追加して係数は分類の際にどの変数がより大きく影響を与えているかを判断する際に役立ちます。グループ間で値を比べると、より大きい係数はその変数がそのグループにより大きい比重で属しているということになります。
トレーニングデータの分類サマリー
分類カウント
分類カウント表の行は観測データの中のグループを、列は予測されたグループを表しています。表の中で対角線に位置する値はその観測点の正しいグループへの分類を表しています。
エラー率
エラー率表は各グループの事前確立のリストと分類ミスの割合を表しています。
トレーニングデータをクロス検証する
クロス検証では各トレーニングデータはテストデータとして扱われ、トレーニングデータから外されてどのグループに属するか算出され、その分類が正しいか否かを確認します。分類カウントとエラー率の表はトレーニングデータの分類サマリーブランチと同じ意味があります。
テストデータの分類サマリー
テストデータの分類サマリー表はテストデータがどのように分類されたかを示しています。各グループにいくつのデータが入っているのかを表に書き、そのパーセンテージも表しています。
分類サマリープロット
分類サマリープロットは事実上観測されたグループ対予測されたグループのプロットをしています。より多くのグループ化された色が横棒にあれば分類は正しいことになります。
分類フィットプロット
分類表の対角線にある値は個々をグループに配属した時の正しい分類を表しています。これは観測点の事後確率対その判別寸法のスコアをプロットしたものです。ここでは外れ値に気を付けます。これは分類が間違ったものを表しているからです。
正準スコアプロット
正準スコアプロットは初めの2つの正準関数が観測データを分類していくのに、観測スコア(数式(1)使用)を使ってプロットしていくことです。プロットは観測データの分類に関して十分なサマリーを提供しています。観測データがより明確に分類されるということは、分類モデルがより良いということになります。
Note:正準スコアプロットは初めの2つの正準関数にのみ提供されます。この2つは分類モデルの中のほとんどの変数を代表しています。しかし、もし正準スコアをほかの正準関数にプロットするには正準スコアシート内のデータでご自分で行ってください。 |
トレーニング/テスト結果
分類
元のトレーニングデータ、観測されたグループ、そして予測グループをトレーニング結果に表示されます。グループより(From Group)の列とグループに配置(Allocated to Group)列より、トレーニングデータの分類サマリーとして結論付けることができます。
事後確率
事後確率は観測点がちゃんとグループ内にいる確率を示しています。すると観測点は最も事後確率が高いグループに入れられます。
異形性インデックス
異形性インデックスは観測点をがそのグループの中でより典型的かどうかの確率を見ます。もし異形性インデックスの値が1に近い場合、その観測点はトレーニングデータ内にない、他のグループから来た可能性があります。
距離
距離とは各グループ平均からのマハラノビス距離をもとに算出しました。観測データは一番近いグループに所属します。つまり、距離の値が一番小さいものです。
正準スコア
正準スコアシートとはトレーニングとテストの観測データが(数式(1)によって計算された)それぞれの正準スコアと相関しています。
|