Cluster-Analysis
クラスター分析は大きいデータを小さいグループ(クラスター)に分けるのによく使われる手法です。判別分析と同じように、クラスター分析は観測データを分類することを重要な課題としています。ところが判別分析はグループメンバーシップが分かっている状態でのみ分類のルールを生成します。クラスター分析はより初歩的な手法でグループの数またはグループメンバーシップについての仮定は何も持っていません。
階層的クラスター分析は、測定された特徴について比較的均一的なクラスターを見つける統計的な第一手法です。まず、それぞれの特徴が別々のクラスターに分類され、順次クラスター同士が統合していきます。各段階でクラスターの数を減らしていき、最終的に1つのクラスターが残るまで行われます。クラスター手法としては相違点、あるいはクラスターを形成する際の距離を使用しています。
階層的クラスター分析は小さい数のサンプルに適しています。もしサンプル(n)が大きい場合、結果にたどり着くまでのアルゴリズムがとても遅くなるかもしれません。通常、サンプルサイズが200より大きくなる場合、K-means法クラスター分析を使用することをお勧めします。
階層的クラスター分析は均一的な変数のグループがいかに形成されたのかを見ることができる唯一の手法になります。K-means法クラスター分析は観測値を分類することしかできません。
分析にいくつのクラスターを設定すればいいのか、ということに対して決まった方法はありません。一度樹形図とクラスターの特徴を確認して、それからクラスターの数を反復しながら調整していく必要があるかもしれません。
もし変数が別々のスケール(目盛り)で計測されていた場合、3つの方法のうち1つを使い変数を標準化することができます。全てのこの結果は距離の計測により等しい割合で貢献していますが、変数内の違いに関する情報が失われる可能性もあります。
K-means法クラスター分析は観測値を分類するのに、K個のクラスターを使います。この考え方はデータとそれが対応するクラスター重心間の距離が最小になるようにするものです。K-means法分析はクラスター分析を行う中でも最も簡単なアルゴリズムの1つを使う方法なので階層的クラスター分析よりも速く分析結果が出てきます。
一般にサンプルサイズが100より大きくなる場合、K-means法分析を使用することを考慮してください。しかしK-meansクラスター分析はユーザが観測データの重心、または最低限、クラスターに分けられるグループ数をすでに知っているものであると仮定しています。
K-meansクラスター分析での最初のステップはクラスター中心を見つけることです。階層的クラスター分析を小さなサンプルサイズで行い、適当な初期のクラスター中心を求めてください。または、クラスター数を指定してOriginが自動で十分に離れている値を初期のクラスター中心として設定します。この自動解析は外れ値に敏感にできています。ですので、分析を始める前に外れ値の有無を確認してください。
トレーニングデータ/グループ範囲に、欠損値がある場合、全てのケース(全行)が分析から除外されます。
このセクションで説明している項目