内容 |
階層的クラスター分析は階層樹を作るのに使用されます。それぞれが一つのオブジェクトを持ったn個のクラスターから始まります。まずは2つのクラスターを1つに統合してより大きなクラスターを最終的に1つの大きなクラスターになるまで行います。このプロセスは樹形図で見ることができます。
階層的クラスター分析でクラスターに分類されるオブジェクトは観測データでも変数でも可能です。
距離または不同性行列は、対称行列にゼロ斜線要素を追加した行列です。ij 番目の要素が、i 番目とj 番目のオブジェクト間がどれだけ離れてる、または似ていないかを表しています。2つのオブジェクト間で距離を計算する方法はクラスター観測とクラスター変数で違ってきます。
Originはクラスター観測に関して、距離を計算する前にまず正規化を行います。欠損値がある観測データは分析から除外されます。
は次のように標準化されます。
、そして
と
はこの変数の平均と標準偏差を表しています。標準化変数は平均0と標準偏差1になります。
は次のように正規化されます。
.変数は0から1の間で標準化されます。Originは3つの距離タイプをサポートします。
で、i 番目の観測データとk番目の観測データは次のように表わされています。
/math-9b4e398de3c2f5d2506b9b45fe329ccc.png)
/math-00782c326cb91952af29de57a841a9c2.png)
/math-95f211a025ebc7daa3e1605459b1cbd2.png)
/math-b9b1c3b4992cc70b4946348c159f37e6.png)
/math-36d3bef9314267d27776738195752c04.png)
と
が成り立ちます。/math-c8ba27ae461ab7e05dfd221d6f617dfe.png)
Originはクラスター変数で2つの距離タイプをサポートしています。観測値は共分散や係数を計算する2つの変数のうち、どちらか一方に欠損値がある場合は除かれます。
で、i番目の変数とk番目の変数は次のように表わされています。
はj番目の変数とk番目の変数の相関関係を示しています。/math-51b38858ea57d12c43210595a9d3661f.png)
各ステージで、最も近しい2つのクラスターは統合されます。Originはいくつかの手法を用いて新規クラスターと他のクラスター間の距離を計算しています。クラスターjとkを統合してクラスターjkとします。
、
、
を順にクラスターi、クラスターjそしてクラスターkのオブジェクト数とし、
、
、
を2つのクラスター間の距離とします。するとクラスターjkとクラスターi
の距離 は次のように計算されます。
/math-1decc6265d2731648206786ae0cc44e7.png)
/math-88af2544aa89b6c5eb3bd10fbfc65fac.png)
/math-a117d8802250e31ee98a59d789fb3728.png)
/math-a1e87a55511ee73bf5adfe0699ff3114.png)
/math-f7defcfc31776fe2c1319c4424b56a88.png)
/math-ebce4775175a80790a9f3ce946072790.png)
クラスターjとkで j<k の場合、統合された新しいクラスターはクラスター段階表でクラスターjとして表記されます。
樹形図は階層的な木のような図で、どの距離で2つのクラスターが統合するのかを表示しています。各段階は1つのユニットとして樹形図では示されています。各段階で一番上にあるユニットは2つのクラスターを統合したものを示しています。その高さは2つの統合したクラスター間の距離を示しています。
樹形図の終点はn個のオブジェクトを表しています。樹形図内のn個のオブジェクトは統合されたクラスターが隣り合うようにソートされています。樹形図の最初の終点は常に初めのオブジェクトを表しています。
特定されたkクラスターのn個のプロジェクトは樹形図またはクラスター段階の情報によって判別できます。kクラスターはn-k番目の段階にあり、これは各オブジェクトの所属は初めのn-k段階で知ることができます。そしてオブジェクト1は常にクラスター1に所属しています。
クラスター中心と観測データおよびクラスター間の距離はクラスター観測データのために計算されます。もし正規化が分析内で選択されていた場合、観測データは計算の中で正規化されます。