Algorithmus (Diskriminanzanalyse)

Inhalt


Die Diskriminanzanalyse wird verwendet, um Beobachtungen Gruppen zuzuweisen. Hierfür werden Informationen über Beobachtungen, deren Gruppenzugehörigkeit bekannt ist, verwendet, d.h. Schulungsdaten.

X_t\ seien die Schulungsdaten mit n Beobachtungen und p Variablen bei ng Gruppen. \bar{x}_j ist ein Zeilenvektor des Stichprobenmittelwerts für die j-te Gruppe, n_j\ ist die Anzahl der Beobachtungen für die j-te Gruppe. Die Kovarianzmatrix innerhalb der Gruppe für Gruppe j kann ausgedrückt werden durch:

S_j=\frac{1}{n_j-1}\cdot (X_{t}-\bar{x}_j)^T(X_{t}-\bar{x}_j)

Die gepoolte Kovarianzmatrix innerhalb der Gruppe ist:

S=\frac{1}{n-n_g}\cdot\sum_{j=1}^{n_g} (X_{t}-\bar{x}_j)^T(X_{t}-\bar{x}_j)

Beachten Sie, dass fehlende Werte listenweise aus der Analyse ausgeschlossen werden, d.h., eine Beobachtung, die einen oder mehrere fehlende Werte enthält, wird aus der Analyse ausgeschlossen.

Gleichheitstest von Kovarianzmatrizen innerhalb von Gruppen

Wenn angenommen wird, dass die Schulungsdaten einer multivariaten Normalverteilung folgen, kann die folgende Statistik des Likelihood-Verhältnis-Tests G verwendet werden, um auf Gleichheit der Kovarianzmatrizen innerhalb der Gruppe zu testen.

G=C{(n-n_g) \mathrm{log} |S|-\sum_{j=1}^{n_g} (n_j-1) \mathrm{log} |S_j|}

wobei

C=1-\frac{2p^2+3p-1}{6(p+1)(n_g-1)}\cdot(\sum_{j=1}^{n_g} \frac{1}{n_j-1} -\frac{1}{n-n_g})

Für große n ist G ungefähr als eine \chi^2\ Variable mit \frac{1}{2}\cdot p(p+1)(n_g-1) Freiheitsgeraden verteilt.

Kanonische Diskriminanzanalyse

Die kanonische Diskriminanzanalyse wird verwendet, um die lineare Kombination der p Variablen zu suchen, die das Verhältnis der Streuung von "zwischen Gruppen" und "innerhalb der Gruppe" maximiert. Die gebildeten kanonischen Variate können dann verwendet werden, um zwischen Gruppen zu unterscheiden.

Die Schulungsdaten mit subtrahierten Gesamtmittelwerten sei X und der Rang sei k, dann kann die orthogonale Matrix Q aus der QR Zerlegung (voller Spaltenrang) oder SVD aus X berechnet werden. Q_X\ ist die erste k Spalte von Q. Q_g\ sei eine orthogonale n x ng - 1-Matrix zum Definieren von Gruppen. Dann sei k mal n_g-1\ Matrix V

V=Q_X^TQ_g

Die SVD von V ist:

V=U_X \triangle U_g^T

Diagonale Elemente (nicht Null) der Matrix \triangle sind die l kanonischen Korrelationen verbunden mit den l kanonischen Variaten \delta_i\ i=1,2,...,l und l=\mathrm{min}(k, n_g)\ .

Eigenwerte der Matrix zu den Summen der Quadrate innerhalb der Gruppen sind:

\lambda_i=\frac{\delta_i^2}{1-\delta_i^2}

 

  • Wilks' Lambda
Testen auf eine signifikante Dimensionalität größer als i:
\Lambda_i=\prod_{j=i+1}^{l} 1/(1+\lambda_j)
Eine \chi^2\ Statistik mit (k-i)(n_g-1-i)\ Freiheitsgraden wird verwendet:
(n-1-n_g-\frac{1}{2}(k-n_g))\sum_{j=i+1}^{l} \mathrm{log}(1+\lambda_j)\ i=0,1,...,l-1
  • Nicht standardisierte kanonische Koeffizienten
Das Laden von Matrix B für kanonische Variate kann berechnet werden aus U_X\ . Dies ist skaliert, so dass die kanonischen Variate eine einheitliche gepoolte Varianz innerhalb der Gruppen haben, d.h.
B^TSB=I\
Beachten Sie, dass das Vorzeichen des Eigenwerts in dem Ergebnis der SVD nicht einzigartig ist, das heißt, jede Spalte B kann mit -1 multipliziert werden. Origin normiert seine Vorzeichen, indem die Summe jeder Spalte in RB\ positiv gemacht wird, wobei R die Cholesky-Faktorisierung von S ist.
Konstante Elemente können wie folgt berechnet werden:
C_0=-X_mB\
wobei X_m\ ein Zeilenvektor der Mittelwerte für Variablen ist.
  • Standardisierte kanonische Koeffizienten
D=S_aB\
wobei S_a\ eine diagonale Matrix ist, deren diagonale Elemente die Quadratwurzeln der diagonalen Elemente der gepoolten Gruppenvarianzmatrix S innerhalb der Gruppen sind
  • Kanonische Strukturmatrix
C=S_a^{-1}SB\
  • Kanonische Gruppenmittelwerte
M_j=C_0+\bar{x}_jB\
wobei M_j\ und \bar{x}_j\ Zeilenvektoren des kanonischen Gruppenmittelwerts bzw. des Gruppenmittelwerts für die j-te Gruppe sind.
  • Kanonische Scores
A_i=C_0+X_iB\
wobei A_i\ der kanonische Score für die i-te Beobachtung X_i\ sind.
Beachten Sie, dass hier die i-te Beobachtung Schulungsdaten oder Testdaten sein können.

Mahalanobis-Distanz

Die Mahalanobis-Distanz ist ein Maß der Distanz einer Beobachtung von einer Gruppe. Sie hat zwei Formen. Für eine Beobachtung x_i\ aus der j-ten Gruppe ist die Distanz:

  • Mit Hilfe der Kovarianzmatrix innerhalb der Gruppe
D_{ij}^2=(x_i-\bar{x}_j)S_j^{-1}(x_i-\bar{x}_j)^T
  • Mit Hilfe der gepoolten Kovarianzmatrix innerhalb der Gruppen
D_{ij}^2=(x_i-\bar{x}_j)S^{-1}(x_i-\bar{x}_j)^T

Klassifizieren

A-priori-Zugehörigkeitswahrscheinlichkeit

Die A-priori-Zugehörigkeitswahrscheinlichkeit gibt die Ansicht des Anwenders wieder hinsichtlich der Wahrscheinlichkeit, dass die Beobachtungen aus unterschiedlichen Gruppen stammen. Origin unterstützt zwei Arten von A-priori-Zugehörigkeitswahrscheinlichkeiten:

  • Gleich
\pi_j=1/n_g\
  • Proportional zur Gruppengröße
\pi_j=n_j/n\
wobei n_j\ die Anzahl der Beobachtungen in der j-ten Gruppe der Schulungsdaten darstellt.

A-posteriori-Zugehörigkeitswahrscheinlichkeit

Von den p Variablen der Beobachtungen wird angenommen, dass sie einer multivariaten Normalverteilung mit Mittelwert \mu_j\ und Kovarianzmatrix \Sigma_j\ folgen, wenn die Beobachtung aus der j-ten Gruppe stammt. Wenn p(x_i|\mu_j,\Sigma_j)\ die Wahrscheinlichkeit ist, die Beobachtung x_i\ in Gruppe j zu beobachten, dann ist die A-posteriori-Zugehörigkeitswahrscheinlichkeit zur Gruppe j:

q_j=p(j|x_i,\mu_j,\Sigma_j)\propto p(x_i|\mu_j,\Sigma_j)\pi_j

Die Parameter \mu_j\ und \Sigma_j\ werden in den Schulungsdaten X_t\ geschätzt. Die Beobachtung wird der Gruppe mit der höhsten A-posteriori-Zugehörigkeitswahrscheinlichkeit zugewiesen. Origin bietet zwei Methoden zum Berechnen der A-posteriori-Zugehörigkeitswahrscheinlichkeit.

  • Lineare Diskriminanzfunktion
Kovarianzmatrizen innerhalb der Gruppe werden als gleich angenommen.
\mathrm{log}(q_j)=-\frac{1}{2}D_{ij}^2+\mathrm{log}(\pi_j)+c_0
wobei D_{ij}^2 die Mahalanobis-Distanz der i-ten Beobachtung aus der j-ten Gruppe unter Verwendung der gepoolten Kovarianzmatrix innerhalb der Gruppe und c_0\ eine Konstante ist.
  • Quadratische Diskriminanzfunktion
Kovarianzmatrizen innerhalb der Gruppe werden nicht als gleich angenommen.
\mathrm{log}(q_j)=-\frac{1}{2}D_{ij}^2+\mathrm{log}(\pi_j)-\frac{1}{2}\mathrm{log}|S_j|+c_0
wobei D_{ij}^2 die Mahalanobis-Distanz der i-ten Beobachtung aus der j-ten Gruppe unter Verwendung der Kovarianzmatrizen innerhalb der Gruppe und c_0\ eine Konstante ist.

q_j\ sind folgendermaßen standardisiert und c_0\ wird durch die Standardisierung bestimmt.

\sum_{j=1}^{n_g} q_j=1

Typikalitätsindex

Der Typikalitätsindex I_j(x_i)\ gibt die Wahrscheinlichkeit an, mit der Sie eine Beobachtung erhalten, die typischer für Gruppe j ist als die i-te Beobachtung. Wenn sie für alle Gruppen nah bei 1 liegen, ist das ein Hinweis darauf, dass die Beobachtung von einer Gruppierung stammen könnte, die nicht in den Schulungsdaten dargestellt ist. Der Typikalitätsindex wird berechnet mit:

I_j(x_i)=P(B\le z:\frac{1}{2}p,\frac{1}{2}(n_j-d))

wobei P(B\le \beta:\ a, b) die untere Wahrscheinlichkeit aus einer Beta-Verteilung für gleiche Kovarianzmatrizen innerhalb von Gruppen is,

z=D_{ij}^2/(D_{ij}^2+(n-n_g)(n_j-1)/n_j)

für nicht gleiche Kovarianzmatrizen innerhalb der Gruppe,

z=D_{ij}^2/(D_{ij}^2+(n_j^2-1)/n_j)

Lineare Koeffizienten der Diskriminanzfunktion

Die lineare Diskriminanzfunktion (auch bekannt als Fishers lineare Diskriminanzfunktionen) kann berechnet werden mit:

  • Linearer Koeffizient für die j-te Gruppe:
b_j=S^{-1}\bar{x}_j^T
wobei b_j\ ein Spaltenvektor mit der Größe von p ist.
  • Konstanter Koeffizient für die j-te Gruppe:
a_j=\bar{x}_jb_j

Schulungsdaten klassifizieren

Jede Beobachtung in den Schulungsdaten kann durch A-posteriori-Zugehörigkeitswahrscheinlichkeiten klassifiziert werden, d.h., sie wird der Gruppe mit der höchsten A-posteriori-Zugehörigkeitswahrscheinlichkeit zugeordnet. Die quadrierte Mahalanobis-Distanz von jeder Gruppe und der Typikalitätsindex von jeder Gruppe können ebenfalls berechnet werden.

Das Klassifizierungsergebnis für Schulungsdaten wird zusammengefasst, indem gegebene Gruppenzugehörigkeit und vorhergesagte Gruppenzugehörigkeit verglichen werden. Eine fehlklassifizierte Fehlerrate wird durch den Prozentsatz der fehlklassifizierten Beobachtungen berechnet, gewichtet durch die A-priori-Zugehörigkeitswahrscheinlichkeiten der Gruppen. d.h.

E=\sum_{j=1}^{n_g} e_j\pi_j

wobei e_j\ der Prozentsatz der fehlklassifizierten Beobachtungen für die j-te Gruppe ist.

Kreuzvalidierung für Schulungsdaten

Es erfolgt der gleiche Vorgang wie beim Klassifizieren der Schulungsdaten, nur dass, um eine Beobachtungszugehörigkeit in den Schulungsdaten vorhersagen zu können, die Beobachtung während der Berechnung der Kovarianzmatrizen innerhalb der Gruppe oder der gepoolten Kovarianzmatrix innerhalb der Gruppe ausgeschlossen ist.

Testdaten klassifizieren

Kovarianzmatrizen innerhalb der Gruppe und die gepoolte Kovarianzmatrix innerhalb der Gruppe werden aus den Schulungsdaten berechnet. Jede Beobachtung in den Testdaten kann durch A-posteriori-Zugehörigkeitswahrscheinlichkeiten klassifiziert werden, d.h., sie wird der Gruppe mit der höchsten A-posteriori-Zugehörigkeitswahrscheinlichkeit zugeordnet.