クラスター分析

内容

クラスター分析は大きいデータを小さいグループ(クラスター)に分けるのによく使われる手法です。判別分析と同じように、クラスター分析は観測データを分類することを重要な課題としています。ところが判別分析はグループメンバーシップが分かっている状態でのみ分類のルールを生成します。クラスター分析はより初歩的な手法でグループの数またはグループメンバーシップについての仮定は何も持っていません。

目的

階層的クラスター分析

階層的クラスター分析は、測定された特徴について比較的均一的なクラスターを見つける統計的な第一手法です。まず、それぞれの特徴が別々のクラスターに分類され、順次クラスター同士が統合していきます。各段階でクラスターの数を減らしていき、最終的に1つのクラスターが残るまで行われます。クラスター手法としては相違点、あるいはクラスターを形成する際の距離を使用しています。


観測値を分類する

階層的クラスター分析は小さい数のサンプルに適しています。もしサンプル(n)が大きい場合、結果にたどり着くまでのアルゴリズムがとても遅くなるかもしれません。通常、サンプルサイズが200より大きくなる場合、K-means法クラスター分析を使用することをお勧めします。


変数を分類する

階層的クラスター分析は均一的な変数のグループがいかに形成されたのかを見ることができる唯一の手法になります。K-means法クラスター分析は観測値を分類することしかできません。


クラスター手法を選ぶ

クラスターの数

分析にいくつのクラスターを設定すればいいのか、ということに対して決まった方法はありません。一度樹形図とクラスターの特徴を確認して、それからクラスターの数を反復しながら調整していく必要があるかもしれません。

変数の標準化

もし変数が別々のスケール(目盛り)で計測されていた場合、3つの方法のうち1つを使い変数を標準化することができます。全てのこの結果は距離の計測により等しい割合で貢献していますが、変数内の違いに関する情報が失われる可能性もあります。

距離の測定

Notes:データが正規化された場合、ユークリッドと平方ユークリッド距離は両方とも影響されます。分析の途中でデータを正規化したい場合、city-block距離をお使いください。

クラスター法

重心法または中央値法が選択された場合、平方ユークリッド距離を使用することをお勧めします。

K-Means 法クラスター分析

K-means法クラスター分析は観測値を分類するのに、K個のクラスターを使います。この考え方はデータとそれが対応するクラスター重心間の距離が最小になるようにするものです。K-means法分析はクラスター分析を行う中でも最も簡単なアルゴリズムの1つを使う方法なので階層的クラスター分析よりも速く分析結果が出てきます。

一般にサンプルサイズが100より大きくなる場合、K-means法分析を使用することを考慮してください。しかしK-meansクラスター分析はユーザが観測データの重心、または最低限、クラスターに分けられるグループ数をすでに知っているものであると仮定しています。

クラスター手法を選ぶ

K-meansクラスター分析での最初のステップはクラスター中心を見つけることです。階層的クラスター分析を小さなサンプルサイズで行い、適当な初期のクラスター中心を求めてください。または、クラスター数を指定してOriginが自動で十分に離れている値を初期のクラスター中心として設定します。この自動解析は外れ値に敏感にできています。ですので、分析を始める前に外れ値の有無を確認してください。

欠損値の扱い

トレーニングデータ/グループ範囲に、欠損値がある場合、全てのケース(全行)が分析から除外されます。


このセクションで説明している項目