アルゴリズム (二元配置分散分析)

内容

  1. 1 Two-Way ANOVAの理論
  2. 2 複数の平均比較
  3. 3 検出力解析

二元配置分散分析(Two-Way ANOVA)の理論

y_{ij,k}\,\!を因子AのレベルI と因子Bのレベル j でのk番目の観測値を表すものとすると、二元配置分散分析モデルは下記のように書くことができます。

y_{ij,k}=\mu +\alpha _i+\beta _j+\gamma _{ij}+\varepsilon _{ij,k}

ここで、\mu \,\!は反応データ全体の平均、\alpha _i\,\!は因子Aのレベル I での偏差、\beta _j\,\! は因子Bのレベル j での偏差、\gamma _{ij}\,\!は2つの因子間の交互作用で、\varepsilon _{ij,k}\,\! は誤差項です。そして、標本の変化は、3つの部分に分けられ、3つの仮説検定を行うことができます。

ですから、因子Aに関しては、帰無仮説はrの異なる母集団の平均が同じとし、対立仮説は、少なくとも1つの標本の平均が、他とは異なるということになります。

H_{01}:\alpha _1=\alpha _2=\ldots =\alpha _r=0

H_{A1}:\alpha _p\neq \alpha _qのとき、いくつかの pq において, pは1と等しくなく、qはrと等しくありません。

ですから、因子Bに関しては、帰無仮説はsの異なる母集団の平均が同じとし、対立仮説は、少なくとも1つの標本の平均が、他とは異なるということになります。

H_{02}:\beta _1=\beta _2=\ldots =\beta _s=0

H_{A2}:\beta _p\neq \beta _qのとき、いくつかの pq において, pは1と等しくなく、qはsと等しくありません。

交互作用の項に対して、帰無仮説は、2つのファクター間の交互作用が無いということです。

H_{03}:\gamma _1=\gamma _2=\ldots =\gamma _{rs}=0

H_{A3}:\gamma _p\neq \gamma _qのとき、いくつかの pq において, pは1と等しくなく、qはrsと等しくありません。

これらの仮説を検定するため、標本全体を4つの部分に分け、標本の変化で推定します。

SS_{Total}=SS_{Error}+SS_A+SS_B+SS_{AB}\,\!

ここで

SS_{Total}=\sum_{i=1}^r\sum_{j=1}^s\sum_{k=1}^t(y_{ij,k}-\bar y)^2

SS_{Error}=\sum_{i=1}^r\sum_{j=1}^s\sum_{k=1}^t(y_{ij,k}-\bar y_{ijm})^2

SS_A=st\sum_{i=1}^r(\bar y_{imm}-\bar y)^2

SS_B=rt\sum_{j=1}^s(\bar y_{mjm}-\bar y)^2

S_{AB}=t\sum_{i=1}^r\sum_{j=1}^s(\bar y_{ijm}-\bar y_{imm}-\bar y_{mjm}+\bar y)^2

すると、次の値を得ることができます。

\bar y=\frac 1{rst}\sum_{i=1}^r\sum_{j=1}^s\sum_{k=1}^ty_{ij,k}

\bar y_{ij}=\frac 1t\sum_{k=1}^ty_{ij,k}

\bar y_{imm}=\frac 1{st}\sum_{j=1}^s\sum_{k=1}^ty_{ij,k}

\bar y_{mjm}=\frac 1{rt}\sum_{i=1}^r\sum_{k=1}^ty_{ij,k}

SS_{Total}は合計二乗和、 SS_Aは因子Aからの平均差の変化、SS_B は因子Bからの平均の変化をそれぞれ表します。そして、 SS_{AB}は交互作用の変化を、SS_{Error}ははすべての個別の標本の変化を表します。そして、 F 検定はそれらの間の分散の有意差を検定するのに使います。

F_A=\frac{MS_A}{MS_{Error}}=\frac{SS_A/(r-1)}{SS_{Error}/(rs(t-1))}\sim F_\alpha (r-1,rs(t-1))

F_B=\frac{MS_B}{MS_{Error}}=\frac{SS_B/(s-1)}{SS_{Error}/(rs(t-1))}\sim F_\alpha (s-1,rs(t-1))

F_{AB}=\frac{MS_{AB}}{MS_{Error}}=\frac{SS_{AB}/((r-1)(s-1))}{SS_{Error}/(rs(t-1))}\sim F_\alpha ((r-1)(s-1),rs(t-1))

ある有意水準\alphaが与えられると、 F 統計量が重要な値F_\alphaを超える場合、またはF統計量のP値が有意水準\alpha以下の場合、帰無仮説H_0 は棄却されます。

二元配置分散分析の計算は以下のようにまとめることができます。

分散の入力 自由度 (DF) 平方和 (SS) 平均平方 (MS) F Prob > F
因子A r - 1 SS_A MS_A MS_A / MS_{Error} P\{F\geq F_{(r-1,rs(t-1),\alpha )}\}
Factor B s - 1 SS_B MS_B MS_B / MS_{Error} P\{F\geq F_{(s-1,rs(t-1),\alpha )}\}
交互作用 (r- 1) (s - 1) SS_{AB} MS_{AB} MS_{AB}/ MS_{Error} P\{F\geq F_{((r-1)(s-1),rs(t-1),\alpha )}\}
Error rs (t - 1) SS_{Error} MS_{Error}    
合計 rst - 1 SS_{Total}      

Originの二元配置分散分析は、いくつかのNAG関数を使っています。NAG関数 nag_dummy_vars (g04eac)は、必要な形の行列を作成し、NAG関数nag_regsn_mult_linear (g02dac) は、必要な形の線形回帰を実行します。線形回帰の結果は、二元配置ANOVA表を作成するのに使われます。詳細はNAG文書をご覧ください。

複数の平均比較

少なくとも1つのファクターレベルの平均が統計的に他のファクターレベルの平均と異なることを調べる二元配置ANOVAを実行すると、それに続けて、平均が異なるかどうかすべてのファクターでの可能な組合せで、平均の比較が行われます。Originでは、平均比較にさまざまな方法があり、これはNAG関数のnag_anova_confid_interval (g04dbc)を使って行っています。

複数の平均の比較法の2種類がOriginに含まれています。

シングルステップ法これは、Tukey-Kramer, Bonferroni, Dunn-Sidak, Fisher’s LSD, Scheffé, Dunnettを含む、平均がどの程度違うのかを示すために信頼区間を作成します。

ステップワイズ法Holm-Bonferroni 、Holm-Sidak 検定を含む仮説検定を実行します。

検出力解析

検出力分析は、サンプルデータに対する仮説の検出力だけでなく、実際の検出力を計算します。

二元配置ANOVAの検出力は、その敏感度の計測です。検出力は、ANOVAが実際の差があるときの標本の平均の差を検出するものです。帰無仮説および対立仮説に関して、検出力は検定する統計量 F が、実際に帰無仮説を棄却すべき(例:与えられた帰無仮説が真でない)ときに、帰無仮説を棄却するのに十分であるという確率です。

Originの二元配置ANOVAダイアログは、因子A および因子B に対する検出力を計算します。「交互作用」チェックボックスが選択されている場合、OriginはA*Bの交互作用に対して、検出力を計算することが出来ます。

検出力は次式で定義されます。

power=1-probf(f,df,dfe,nc)\,\!

ここで f は、非中心の F-分布の偏りで、このF分布は自由度df および dfenc = SS/MSEを持ちます。SS はA, B, A*Bの二乗和で、 MSEは誤差の平均平方、 df は元のA, B, A*Bに関しての分子の自由度、 dfe は誤差の自由度です。全ての値(SS, MSE, df, dfe) は、ANOVA表で取得できます。probf( ) の値が、NAG関数nag_prob_non_central_f_dist (g01gdc)を使って取得されます。詳細はNAG文書をご覧ください。

上記は、簡単な一元配置ANOVAのアルゴリズムの概要であり、詳細な数学的な演算については、このマニュアルの対応する部分やNAG文書を参照してください。