Algorithmen (Dreifache ANOVA)

Inhalt

Theorie der dreifachen ANOVA

Angenommen, N Beobachtungen werden mit drei Faktoren verbunden, Faktor A mit I Stufen, Faktor B mit J Stufen und Faktor C mit K Stufen.

y_{hijk}\,\! sei die h-te Beobachtung auf Stufe I des Faktors A, Stufe j des Faktors B und Stufe k des Faktors C. Dann kann das Modell der dreifachen ANOVA wie folgt geschrieben werden:

y_{hijk}=\mu +\alpha _i+\beta _j+\gamma _k+(\alpha\beta)_{ij}+(\alpha\gamma)_{ik}+(\beta\gamma)_{jk}+(\alpha\beta\gamma)_{ijk}+\varepsilon _{hijk}

wobei \mu \,\! der Mittelwert der gesamten Antwortdaten, \alpha _i\,\! die Abweichung auf Stufe i des Faktors A; \beta _j\,\! die Abweichung auf Stufe j des Faktors B, \gamma _k\,\! die Abweichung auf Stufe k des Faktors C, (\alpha\beta)_{ij}\,\! der Wechselwirkungsterm zwischen den Faktoren A und B, (\alpha\gamma)_{ij}\,\! der Wechselwirkungsterm zwischen den Faktoren A und C, (\beta\gamma)_{ij}\,\! der Wechselwirkungsterm zwischen den Faktoren B und C, (\alpha\beta\gamma)_{ijk}\,\! der Wechselwirkungsterm unter den Faktoren A und B und C und \varepsilon _{hijk}\,\! der Fehlerterm ist.

In der dreifachen ANOVA können Anwender ihr Modell festlegen. Sie können beispielsweise den Term (\alpha\beta)_{ij}\,\! ausschließen (falls das so ist, wird der Term (\alpha\beta\gamma)_{ijk}\,\! im gleichen Moment selbständig ausgeschlossen), so dass ihr Modell folgendermaßen aussieht:

y_{hijk}=\mu +\alpha _i+\beta _j+\gamma _k+(\alpha\gamma)_{ik}+(\beta\gamma)_{jk}+\varepsilon _{hijk}

Die Variation der Stichproben eines festgelegten Modells kann durch die Methode der so genannten "Designmatrix" erreicht werden. Wenn das vollständige Modell als Beispiel herangezogen wird, sieht die kurze Vorgehensweise für diese Methode folgendermaßen aus:

Freiheitsgrade (DF) für das gesamte Modell sind df_{Model}=IJK-1. Die gesamte Designmatrix ist X:= X_{N\times df_{Model}} = [X_\mu |X_A |X_B |X_C |X_{AB} |X_{AC} |X_{BC} |X_{ABC}], wobei X_\mu die Teildesignmatrix für \mu ist, die sich normalerweise aus allen "1" zusammensetzt, und weiteren Teildesignmatrizen, bestehend aus ihren tiefgestellten Werten. Angenommen X_{-*} beschreibt X, indem die entsprechende Teildesignmatrix mit Nullen ersetzt wird, zum Beispiel X_{-AB} = [X_\mu |X_A |X_B |X_C |0 |X_{AC} |X_{BC} |X_{ABC}]

Definieren

R_0 = Y^T X_{\mu}(X_{\mu}^T X_{\mu})^{-1}X_{\mu}^T Y

R_\mu = Y^T Y

R_{Model} = Y^T X(X^T X)^{-1}X^T Y

R_A = Y^T X_{-A}(X_{-A}^T X_{-A})^{-1}X_{-A}^T Y

R_B = Y^T X_{-B}(X_{-B}^T X_{-B})^{-1}X_{-B}^T Y

R_C = Y^T X_{-C}(X_{-C}^T X_{-C})^{-1}X_{-C}^T Y

R_{AB} = Y^T X_{-AB}(X_{-AB}^T X_{-AB})^{-1}X_{-AB}^T Y

R_{AC} = Y^T X_{-AC}(X_{-AC}^T X_{-AC})^{-1}X_{-AC}^T Y

R_{BC} = Y^T X_{-BC}(X_{-BC}^T X_{-BC})^{-1}X_{-BC}^T Y

R_{ABC} = Y^T X_{-ABC}(X_{-ABC}^T X_{-ABC})^{-1}X_{-ABC}^T Y

Dann wäre die Summe der Quadratfehler

SS_A = R_{Model}-R_A

SS_B = R_{Model}-R_B

SS_C = R_{Model}-R_C

SS_{AB} = R_{Model}-R_{AB}

SS_{AC} = R_{Model}-R_{AC}

SS_{BC} = R_{Model}-R_{BC}

SS_{ABC} = R_{Model}-R_{ABC}

SS_{Error} = R_{\mu}-R_{Model}

SS_{Total} = R_{\mu}-R_{0}


Für das vollständige Modell wird die ANOVA-Tabelle wie unten zusammengefasst:

Quelle der Variation Freiheitsgrade (DF) Summe der Quadrate (SS) Mittel der Quadrate (MS) F-Wert Wahrsch. > F
Faktor A I - 1 SS_A MS_A MS_A / MS_{Error} P\{F\geq F_{(I-1,df_e,\alpha )}\}
Faktor B J - 1 SS_B MS_B MS_B / MS_{Error} P\{F\geq F_{(J-1,df_e,\alpha )}\}
Faktor C K - 1 SS_C MS_C MS_C / MS_{Error} P\{F\geq F_{(K-1,df_e,\alpha )}\}
A*B (I- 1) (J - 1) SS_{AB} MS_{AB} MS_{AB} / MS_{Error} P\{F\geq F_{((I-1)(J-1),df_e,\alpha )}\}
A*C (I- 1) (K - 1) SS_{AC} MS_{AC} MS_{AC} / MS_{Error} P\{F\geq F_{((I-1)(K-1),df_e,\alpha )}\}
B*C (J- 1) (K - 1) SS_{BC} MS_{BC} MS_{BC} / MS_{Error} P\{F\geq F_{((J-1)(K-1),df_e,\alpha )}\}
A*B*C (I- 1) (J - 1)(K - 1) SS_{ABC} MS_{ABC} MS_{ABC} / MS_{Error} P\{F\geq F_{((I-1)(J-1)(K-1),df_e,\alpha )}\}
Error df_e=N-IJK SS_{Error} MS_{Error}
Gesamtsumme N - 1 SS_{Total}

Mehrfache Mittelwertvergleiche

Es gibt verschiedene Methoden des Mittelwertvergleichs in Origin. Wir verwenden die NAG-Funktion ocstat_dlsm_mean_comparison(), um Mittelwertvergleiche durchzuführen.

Zwei Typen des mehrfachen Mittelwertvergleichs:

Ein-Schritt-Methode Sie erstellt simultane Konfidenzintervalle, um zu zeigen, wie sich die Mittelwerte unterscheiden. Dazu gehören Tukey-Kramer, Bonferroni, Dunn-Sidak, Fisher’s LSD und Scheffé.

Schrittweise Methode Diese Methode führt nacheinander die Hypothesentests aus. Dazu gehören der Holm-Bonferroni- und der Holm-Sidak-Test.

Analyse der Trennschärfe

Die Analyse der Trennschärfe berechnet die Ist-Trennschärfe für die Stichprobendaten als auch die hypothetische Trennschärfe, falls zusätzliche Stichprobenumfänge angegeben sind.

Die Trennschärfe einer dreifachen Varianzanalyse ist ein Maß für deren Empfindlichkeit. Die Trennschärfe ist die Wahrscheinlichkeit, dass die ANOVA Unterschiede in den Mittelwerten der Grundgesamtheiten aufdeckt, wenn tatsächliche Unterschiede existieren. Drückt man dies mit den Begriffen der Null- und Alternativhypothese aus, so ist die Trennschärfe die Wahrscheinlichkeit dafür, dass die Teststatistik F stark genug ist, um die Nullhypothese zu verwerfen, wenn sie tatsächlich verworfen werden sollte (d.h. die Nullhypothese ist nicht wahr).

Der Dialog Dreifache ANOVA in Origin kann Trennschärfen für Faktor A, Faktor B und Faktor C berechnen. Wenn die festgelegten Schnittterme ausgewählt sind, kann Origin auch die Trennschärfe für sie berechnen.

Die Trennschärfe wird durch folgende Gleichung definiert:

power=1-probf(f,df,dfe,nc)\,\!

wobei f die Abweichung von der nicht zentrierten F-Verteilung mit df und dfe Freiheitsgraden und nc = SS/MSE ist. SS ist die Summe der Quadrate der Quelle A, B, C, A*B, A*C, B*C oder A*B*C. MSE ist das Mittel der Quadrate des Fehlers, df sind die Freiheitsgrade des Zählers, dfe sind die Freiheitsgrade der Fehler. Alle Werte (SS, MSE, df und dfe) werden der ANOVA-Tabelle entnommen. Der Wert von probf( ) wird durch die NAG-Funktion nag_prob_non_central_f_dist (g01gdc) ermittelt. Beachten Sie bitte die NAG-Dokumentation für weitere Hintergrundinformationen.

Die obige Beschreibung ist eine kurze Übersicht über den Algorithmus der dreifachen ANOVA. Weitere Informationen über die Einzelheiten der mathematischen Deduktion finden Sie im entsprechenden Teil des Anwenderhandbuchs.

Levene-Test der Varianzhomogenität

Wir verwenden die folgenden Statistiken, um Levenes Test durchzuführen.

L = \frac{(N-k)\sum_{k}^{i=1}n_i(Z_i-Z)^2}{(k-1)\sum_{k}^{i=1}\sum_{n_i}^{j=1}(Z_{ij}-Z_i)^2}

wobei

N ist die Anzahl der Beobachtung, k = IJK ist die Anzahl der Teilgruppen mit n_i(i=1,...,k) Beobachtung.

Z_{ij} = |Y_{ij}-T_i|

T_i = \frac{1}{n_i}\sum_{n_i}^{j=1}Y_{ij}

Z_i = \frac{1}{n_i}\sum_{n_i}^{j=1}Z_{ij}

Z = \frac{1}{N}\sum_{k}^{i=1}Z_i

Sie erhalten dann den p-Wert, der 1-F_{k-1,N-k}(L) ist.