階層的クラスター分析ダイアログボックス


ダイアログテーマ

ダイアログテーマをロードまたは保存します。また、スクリプトの生成は現在のダイアログ設定を使ったXファンクションを生成します。

再計算

再計算モードを設定します。

入力

変数 階層的クラスター分析のためのデータを指定します。各列のデータは一つの変数に対応しており、各行は観測値に対応していいます。
観測値ラベル 観測値のラベルを選択します。ラベルが選ばれた場合、X軸目盛りとして樹形図に表示されます。これは観測値がクラスターに分類されるものでないと選択できません。ラベル列がテキスト列の場合、カテゴリー列に設定します。

設定

階層的クラスター分析のための設定を指定します。

クラスター オブジェクトの種類を指定します。
  • 観測値
クラスターの観測値です。入力データの行はグループごとに分けられています。
  • 変数
クラスターの変数です。入力データの列はグループごとに分けられています。

オブジェクトの種類が違う場合、使用できる距離の種類も変わってきます。

クラスター法 クラスターと新規のクラスター間の距離を計算するリンク法を選びます。6つの方法が利用できます。
  • 最短距離
基準のクラスターからの距離が最も短い2つのクラスターが統合されて新しいクラスターになります。または単連結法とも呼ばれています。
  • 最長距離
基準のクラスターからの距離が最も長い2つのクラスターが統合されて新しいクラスターになります。または完全連結法とも呼ばれています。
  • 群平均
2つの距離の平均で2つのクラスターが統合されて新しいクラスターになります。
  • 重心
重心はクラスター中心間の距離が最大になるように生成されます。
  • 中央値
1つのクラスター内にある物ともう1つのクラスター内にある物の中央値になります。
  • Ward
クラスター内分散が最小になるようにクラスターが統合されます。


結合法の詳細については結合法のアルゴリズムをご覧ください。

距離のタイプ 階層的クラスター分析の距離のタイプを選びます。

観測値をクラスターにする場合、3つの手法を選ぶことができます。

  • ユークリッド距離
2つの観測値間の差の二乗和の平方根を取った値です。
  • 平方ユークリッド距離
2つの観測値間の差の二乗和を取った値です。
  • 都市ブロック距離
2つの観測値間の絶対差を取った値です。またはマンハッタン距離とも呼ばれています。
  • Cosine
1とコサイン係数の2つの観測値の違いです。コサイン係数は、2つのベクトル間の距離の余弦です。
  • ピアソン相関
1と相関した2つの観測値の違いです。
  • Jaccard
1とJaccard係数の2つの観測値の違いです。バイナリデータに関しては、Jaccard係数は2つの観測値の交点と統合したサイズの比と等しくなります。


変数をクラスターにする場合、2つの手法を選ぶことができます。欠損値はペアワイズ方式で取り除かれ、相関が計算されます。

  • 相関
1と相関した2つの変数の違いをもとにしています。
  • 絶対相関
1と絶対相関した2つの変数の違いをもとにしています。


距離の計算に関する詳細は距離のアルゴリズムをご覧ください。

標準化変数 変数を標準化する方法を指定します。これは観測値がクラスターに分類される時のみ有効になります。
  • なし
変数は標準化されません。
  • Zスコア(N(0, 1)で正規化)
変数は平均0で標準偏差1の状態に標準化されます。
  • [0,1]に正規化
変数は0から1の間で標準化されます。
クラスターの数 クラスターの数を指定します。ここの値は0より大きくて、有効な観測値(観測値クラスター)または変数(変数クラスター)より大きくなってはいけません。
クラストロイド検索 クラストロイド(最大/最小代理変数/観測値)を検索する手法を指定します。
  • 距離の和
クラスター内の全ての観測値/変数から測った距離の和を使用して、クラストロイドを検索します。クラスターでは、最大代表変数/観測は最小の距離を持ち、最小代表変数/観測は、最大の距離の和をもちます。
  • 最大距離
クラスター内の全ての観測値/変数から測った距離の中で最大のものを使用してクラストロイドを検索します。クラスターでは、最大代表変数/観測は最も小さい最大距離を持ち、最小代表変数/観測は、最も大きい最大距離を持ちます。
  • 距離の二乗和
クラスター内の全ての観測値/変数から測った距離の二乗和を使用して、クラストロイドを検索します。クラスターでは、最大代表変数/観測は最小の距離の二乗和を持ち、最小代表変数/観測は、最大の距離の二乗和をもちます。

階層的クラスター分析を計算するための量を指定します。記述統計とクラスターメンバーシップは階層的クラスター分析の結果の中にデフォルトで含まれています。

相違行列 距離行列を出力するかどうかを指定します。オブジェクト数が大きい場合、この距離行列はレポート内ではなく個別のワークシートに表示されます。
クラスターステージ クラスターステージを出力するかどうかを指定します。各ステージでは2つのクラスターが統合され、1つの新しいクラスターになっていきます。
クラスター中心 クラスター中心を計算するかどうかを指定できます。これは観測値がクラスターに分類されるときでないと選択できません。設定ブランチ内の標準化変数で標準化手法が選択されている場合、クラスター中心はこの標準化された変数で計算されます。
クラスター中心間の距離 クラスター中心間の距離を計算するかどうかを指定できます。これは観測値がクラスターに分類されるときでないと選択できません。
観測とクラスター間の距離 各観測値とクラスター中心間の距離を計算するかどうかを指定できます。これは観測値がクラスターに分類されるときでないと選択できません。
クラストロイド情報 最大/最小代表変数あるいは観測を表示するか指定します。

プロット

樹形図を表示するか、表示するならどのように表示するかを指定できます。

樹形図 樹形図を表示するかどうかを指定できます。デフォルトの樹状図は、ノードとサブツリーを強調表示して入れ替えることができる、より動的な「系統樹」にすることができます。
Y 軸で表示
  • 距離
距離は、距離のタイプで計算されます。
  • 類似性
類似性は100*(1-d/dmax),として計算されます。ここで、dは距離、dmaxはすべての観測値の最大距離、つまりクラスターステージ表の最後の距離の計算です。各クラスターを個別にプロットする設定(プロットタブ > 樹形図を表示)の場合、dmaxは全グラフにおける最大値です。

Hierarchical cluster dialog box image001.png

樹形図を表示 樹形図を1つのグラフで表示するかクラスターごとに別々に表示するかを指定します。これは樹形図にチェックがついている時のみ利用できます。
  • 1つのグラフ内
樹形図を1つのグラフ内に表示します。別々のクラスターは色分けされています。
  • クラスターの別々のグラフ内
クラスターの樹形図を別々のグラフとして表示します。各クラスターは個別のグラフに出力されます。
方向 樹形図の向きを指定します。これは樹形図にチェックがついている時のみ利用できます。
  • 垂直
樹形図を垂直にプロットします。
  • 水平
樹形図を水平にプロットします。
円形の樹形図をプロットします。

出力設定

階層的クラスター分析結果の出力先を指定します。

クラスターレポート 階層的クラスター分析レポートの出力シートを指定します。デフォルトは入力データがあるワークブックに新しいシートを作成して表示します。
クラスターメンバーシップ クラスターメンバーシップと観測値とクラスター間の距離を表示するシートを指定します。デフォルトは入力データがあるワークブックに新しいシートを作成して表示します。