Dialog der Hierarchischen Clusteranalyse

 

Dialogdesign

Laden oder speichern Sie das Dialogdesign. Außerdem können Sie für die X-Funktion mit Hilfe der aktuellen Dialogeinstellungen Skript erzeugen.

Neu berechnen

Legen Sie den Modus der Neuberechnung fest.

Eingabe

Variablen Wählen Sie die Daten für die Hierarchische Clusteranalyse. Die Daten in jeder Spalte entsprechen einer Variablen und jede Zeile einer Beobachtung.
Beobachtungsbeschriftungen Wählen Sie Beschriftungen für die Beobachtungen. Wenn Beschriftungen ausgewählt sind, werden sie als Hilfsstriche der X-Achse im Dendrogramm gezeigt. Diese Option ist nur aktiviert, wenn die zu clusternden Objekte Beobachtungen sind. Die Beschriftungsspalte wird als kategorial festgelegt, wenn es sich um eine Textspalte handelt.

Einstellungen

Legen Sie die Einstellungen für die Hierarchische Clusteranalyse fest.

Cluster Legen Sie den zu clusternden Objekttyp fest.
  • Beobachtungen
Die Beobachtungen werden geclustert. Zeilen in den Eingabedaten werden als Gruppen zu Klassen eingeteilt.
  • Variablen
Die Variablen werden geclustert. Spalten in den Eingabedaten werden als Gruppen zu Klassen eingeteilt.

Beachten Sie, dass für verschiedene zu clusternde Objekttypen auch die verfügbaren Distanztypen unterschiedlich sind.

Clustermethode Wählen Sie die Verknüpfungsmethode zum Berechnen der Distanz zwischen einem Cluster und einem neuen Cluster. Sechs Methoden sind verfügbar.
  • Nächster Nachbar
Das Minimum der zwei Distanzen zwischen einem Cluster und zwei Clustern zusammengefügt zu einem neuen Cluster; wird auch als einzelne Verknüpfung bezeichnet.
  • Entferntester Nachbar
Das Maximum der Distanzen zwischen einem Cluster und zwei Clustern zusammengefügt zu einem neuen Cluster; wird auch als vollständige Verknüpfung bezeichnet.
  • Gruppendurchschnitt
Der Mittelwert der zwei Distanzen zwischen einem Cluster und zwei Clustern zusammengefügt zu einem neuen Cluster
  • Zentrum
Cluster werden erzeugt, die die Distanz zwischen den Clusterzentren maximieren.
  • Median
Die Mediandistanz zwischen einem Element in einem Cluster und einem Element in dem anderen Cluster
  • Ward
Cluster werden erzeugt, die die Varianz innerhalb von Clustern minimieren.


Um mehr über die Verknüpfungsmethoden zu erfahren, lesen Sie bitte den Abschnitt zum Algorithmus der Verknüpfungsmethoden.

Distanztyp Wählen Sie einen Distanztyp für die Hierarchische Clusteranalyse.

Zum Clustern von Beobachtungen sind drei Methoden verfügbar.

  • Euklidisch
Die Quadratwurzel der Summe der quadrierten Differenzen zwischen zwei Beobachtungen
  • Quadratisch Euklidisch
Die Summe der quadrierten Differenzen zwischen zwei Beobachtungen
  • City Block
Die Summe der quadrierten Differenzen zwischen zwei Beobachtungen; auch bezeichnet als Manhattan-Distanz.
  • Kosinus
Die Differenz zwischen 1 und dem Kosinus-Koeffizienten von zwei Beobachtungen Der Kosinus-Koeffizient ist der Kosinus des Winkels zwischen zwei Vektoren.
  • Pearsons Korrelation
Differenz zwischen 1 und der Korrelation von zwei Beobachtungen
  • Jaccard
Die Differenz zwischen 1 und dem Jaccard-Koeffizienten von zwei Beobachtungen Für binäre Daten ist der Jaccard-Koeffizient gleich dem Größenverhältnis der Überschneidung und Gesamtmenge von zwei Beobachtungen.


Zum Clustern von Variablen sind zwei Methoden verfügbar. Fehlende Werte werden paarweise ausgeschlossen, um die Korrelation zu berechnen.

  • Korrelation
Die Differenz zwischen 1 und der Korrelation von zwei Variablen
  • Absolute Korrelation
Die Differenz zwischen 1 und der absoluten Korrelation von zwei Variablen


Um mehr darüber zu erfahren, wie eine Distanz berechnet wird, lesen Sie bitte den Abschnitt zum Algorithmus der Distanz.

Variablen standardisieren Legen Sie die Methode zum Standardisieren der Variablen fest. Diese Option ist nur verfügbar, wenn die zu clusternden Objekte Beobachtungen sind.
  • Keine
Variablen werden nicht standardisiert.
  • Z-Score (Auf N (0,1) standardisieren)
Variablen werden mit einem Mittelwert bei 0 und einer einheitlichen Standardabweichung standardisiert.
  • Auf (0,1) normieren
Variablen werden in dem Bereich zwischen 0 und 1 standardisiert.
Anzahl der Cluster Legen Sie die Anzahl der Cluster fest. Der Wert sollte größer als 0 sein und nicht größer als die Anzahl der effektiven Beobachtungen (Beobachtungen clustern) oder Variablen (Variablen clustern).
Clustroid suchen nach Legen Sie die Methode fest, um den Clustroid zu suchen: die am meisten oder wenigsten repräsentative Variable/Beobachtung.
  • Summe der Distanzen
Der Clustroid wird mit Hilfe der Summe der Distanzen gesucht, die auf Grundlage von allen anderen Beobachtungen/Variablen in dem Cluster gemessen wird. In einem Cluster besitzt die repräsentativste Variable/Beobachtung die minimale Summe der Distanzen; die am wenigsten repräsentative Variable/Beobachtung hat die maximale Summe der Distanzen.
  • Maximale Distanz
Der Clustroid wird mit Hilfe der maximalen Distanz unter allen Distanzen gesucht, die auf Grundlage von anderen Beobachtungen/Variablen in dem Cluster gemessen werden. In einem Cluster besitzt die repräsentativste Variable/Beobachtung die kleinste maximale Distanz; die am wenigsten repräsentative Variable/Beobachtung hat die größte maximale Distanz.
  • Summe der Quadrate der Distanzen
Der Clustroid wird mit Hilfe der Summe der Quadrate der Distanzen gesucht, die auf Grundlage von allen anderen Beobachtungen/Variablen in dem Cluster gemessen wird. In einem Cluster besitzt die repräsentativste Variable/Beobachtung die minimale Summe der Quadrate der Distanzen; die am wenigsten repräsentative Variable/Beobachtung hat die maximale Summe der Quadrate der Distanzen.

Eigenschaften

Legt die für die Hierarchische Clusteranalyse zu berechnenden Mengen fest. Beachten Sie, dass deskriptive Statistik und Clusterzugehörigkeit standardmäßig in dem Ergebnis der Hierarchischen Clusteranalyse eingeschlossen sind.

Unähnlichkeitsmatrix Legen Sie fest, ob die Distanzmatrix ausgegeben wird. Für eine große Anzahl von Objekten wird die Distanzmatrix in einem Blatt anstatt in dem Bericht angezeigt.
Clusterstufen Legen Sie fest, ob die Clusterstufen ausgegeben werden. Auf jeder Stufe werden zwei Cluster zu einem neuen Cluster zusammengefügt.
Clusterzentrum Legen Sie fest, ob Clusterzentren berechnet werden. Diese Option ist nur verfügbar, wenn die zu clusternden Objekte Beobachtungen sind. Wenn eine Standardisierungsmethode unter Variablen standardisieren im Zweig Einstellungen gewählt wurde, werden Clusterzentren aus standardisierten Variablen berechnet.
Distanz zwischen Clusterzentren Legen Sie fest, ob die Distanzen zwischen den Clusterzentren berechnet werden sollen. Diese Option ist nur verfügbar, wenn die zu clusternden Objekte Beobachtungen sind.
Distanz zwischen Beobachtungen und Clustern Legen Sie fest, ob die Distanz zwischen jeder Beobachtung und den Clusterzentren berechnet werden soll. Diese Option ist nur verfügbar, wenn die zu clusternden Objekte Beobachtungen sind.
Clustroid-Info Legen Sie fest, ob die repräsentativste/am wenigsten repräsentative Variable bzw. Beobachtung aufgeführt werden soll.

Zeichnung

Legen Sie fest, ob und wie das Dendrogramm gezeigt wird.

Dendrogramm Legen Sie fest, ob das Dendrogramm gezeigt wird. Beachten Sie, dass das Standarddendrogramm gegen einen dynamischeren "Phylogenetischen Baum" ausgetauscht werden kann, in dem Knoten und Unterbäume hervorgehoben und vertauscht werden können.
Y-Achse zeigen mit
  • Distanz
Die Distanz wird nach Distanztyp berechnet.
  • Ähnlichkeit
Die Ähnlichkeit wird als 100*(1-d/dmax) berechnet, wobei d die Distanz ist und dmax die maximale Distanz für alle Beobachtungen, d. h. die letzte Distanzberechnung in der Tabelle Clusterstufen. Wenn Sie entschieden haben, ein separates Diagramm für jeden Cluster zu zeichnen (Registerkarte Diagramm > Schaltfläche Dendrogramm zeigen), dann ist dmax das Maximum für alle Diagramme.

Hierarchical cluster dialog box image001.png

Dendrogramm zeigen Legen Sie fest, ob das Dendrogramm in einer einzelnen Grafik oder in mehreren separaten Grafiken für Cluster gezeigt werden soll. Diese Option ist nur verfügbar, wenn Dendrogramm aktiviert ist.
  • In einem einzelnen Diagramm
Das Dendrogramm wird in einer einzelnen Grafik abgebildet. Cluster werden durch unterschiedlichen Farben unterschieden.
  • In separaten Diagrammen für Cluster
Das Dendrogramm wird in separaten Grafiken gezeigt. Jedes Cluster wird in einem separaten Diagramm ausgegeben.
Orientierung Legen Sie die Ausrichtung des Dendrogramms fest. Diese Option ist nur verfügbar, wenn Dendrogramm aktiviert ist.
  • Vertikal
Das Dendrogramm wird vertikal gezeichnet.
  • Horizontal
Das Dendrogramm wird horizontal gezeichnet.
  • Zirkulär
Zeichnen Sie ein zirkuläres Dendrogramm.

Ausgabeeinstellungen

Legen Sie das Ziel der Ausgabeergebnisse für die Hierarchische Clusteranalyse fest.

Clusterbericht Legen Sie das Blatt für den Bericht der Hierarchischen Clusteranalyse fest. Der Standardwert ist ein neues Blatt in der Arbeitsmappe der Eingabedaten.
Clusterzugehörigkeit Legen Sie das Blatt für die Clusterzugehörigkeit und Distanz zwischen Beobachtungen und Clustern fest. Der Standardwert ist ein neues Blatt in der Arbeitsmappe der Eingabedaten.