アルゴリズム (一元配置分散分析)

内容

  1. 1 One-Way ANOVAの理論
  2. 2 分散の等質性
  3. 3 複数の平均比較
  4. 4 検出力解析

一元配置分散分析(One-Way ANOVA)の理論

k 個のレベルで測定された反応データがあるとします。ここでy_{ij}\,\! は、 j 番目のファクターレベル (j = 1, 2, ..., k)での、i番目の観測値(i = 1, 2, ...n_j) の値を表します。そして、一元配置ANOVAのモデルを以下のように書きます。

y_{ij}=u+t_j+\varepsilon _{ij},j = 1,2, ..., k; i = 1, 2, ...n_j

ANOVA検定は、2つ以上の母集団(レベル)が等しいかどうかを調べます。ですから、帰無仮説は、異なる母集団の平均が同じとし、対立仮説は、少なくとも1つの標本の平均が、他とは異なるということになります。数学的に、これは次のように表すことができます。

H0:\mu =\mu _1=\mu _2=\cdots =\mu _k

H1:\mu _p\neq \mu _qいくつかのpqでは、1 \leq pq \geq kが成り立ちます。

ここで \mu _i\,\!は、 j番目の標本の平均です。仮説を検定するには、全サンプルをいくつかのグループに分け、グループ内の変化に対して 、F-検定を行い、2つの変化が異なるかどうかを検定します。

数学的には、 変化を推定する各部の平均平方を使うことが出来ます。

\sum_{j=1}^k\sum_{i=1}^{n_1}(y_{ij}-\bar y)^2=\sum_{j=1}^kn_j(\bar y_j-\bar y)^2+\sum_{j=1}^k\sum_{i=1}^{n_1}(y_{ij}-\bar y_j)^2

ここで、左側の項は、二乗和の合計で、 2番目の項はtreatmentの二乗和で、これはグループ間の変化を表し、3番目の項は、誤差の二乗和で、グループ内の変化を表します。式は、一般に次のように表します。

SS_{Total}=SS_{Treatment}+SS_{Error}\,\!

H_0\,\! が真のとき、k レベルの標本データは、正規かつ独立して分散しており、平均 \mu\,\!と分散 \sigma ^2\,\!を持っています。つまり、統計量は

F=\frac{MS_{Treatment}}{MS_{Error}}=\frac{ss_{Treatment}/(k-1)}{ss_{Error}/(n-k)}

F分布 F_{(k-1, n-k)}\,\! に従い、MS_{Treatment}はtreatmentsの平均平方、MS_{Error}はは誤差の平均平方になり、これらはそれぞれ自由度で二乗和を除算した形になっています。ある有意水準\alpha\,\!が与えられてF 統計量が棄却値F_{(k-1,n-k,\alpha)}\,\! を超える場合、帰無仮説は棄却されます。このとき、F 統計量は、有意水準\alpha\,\! または同等の有意水準以下のP値で k-1 および n-k の自由度を持つF分布のこれは表形式の値です。

通常、ANOVA表の分散分析の結果を表します。

分散の入力 自由度 (DF) 平方和 (SS) 平均平方 (MS) F Prob > F
モデル (ファクター) k-1 SS_{Treatme} MS_{Treatment} MS_{Treatment} / MS_{Error} P\{F\geq F_{(k-1,n-k,\alpha )}\}
誤差 n-k SS_{Error} MS_{Error}    
合計 n-1        

分散の等質性

分散分析で、ことなるサンプルが等分散であると仮定すると、それは、一般に分散の等質性と呼ばれます。Levene検定とBrown-Forsythe検定は、仮定を検証するのに使うことができます。k 個の反応データの標本があるものとします。ここでy_{ij}\,\!は、jt番目のファクターレベル (j = 1, 2, ..., k)でのi番目の観測 (i = 1, 2, ...n_j) を表します。Levene検定とBrown-Forsythe検定の両方の仮説は、次の式で表すことが出来ます。

H0:\sigma^2 _1=\sigma^2 _2=\cdots =\sigma^2 _k

H1:\sigma^2 _p\neq \sigma^2 _q 少なくとも1組の(p, q)に対して1\leq p,q\leq k

Z_{ij}\,\! を異なる検定に従い、次の3つのように定義します。

  1. 絶対Levene検定:Z_{ij}=|y_{ij}-\bar y_j|
  2. Squared Levene検定:Z_{ij}^2=(y_{ij}-\bar y_j)^2
  3. Brown-Forsythe検定:Z_{ij}=|y_{ij}-m_j|\,\!

H_0 を持つと、検定の統計量は

F=\frac{\sum_{j=1}^kn_j(\bar Z_j-\bar Z)^2/(k-1)}{\sum_{j=1}^k\sum_{i=1}^{n_1}(Z_{ij}-\bar Z_j)^2/(n-k)}

になり、これは(近似的に)F分布F_{(k-1,n-k)}\,\!に従い、\overline{Z_j}\overline{Z}は、それぞれZ_{ij}\,\!の集団平均および全体平均となります。

複数の平均比較

少なくとも1つの母平均が十分異なることを調べるANOVAを実行すると、それに続けて、平均が異なるかどうかすべてのファクターでの可能な組合せで、複数の平均の比較が行われます。Originでは、平均比較にさまざまな方法があり、これはNAG関数のnag_anova_confid_interval (g04dbc) を使って行っています。

複数の平均の比較法の2種類がOriginに含まれています。

  1. シングルステップ法これは、Tukey-Kramer, Bonferroni, Dunn-Sidak, Fisher’s LSD, Schefféを含む、平均がどの程度違うのかを示すために信頼区間を作成します。
  2. ステップワイズ法Holm-Bonferroni 、Holm-Sidak 検定を含む仮説検定を実行します。

詳細はNAGヘルプを参照してください。

検出力解析

検出力分析は、サンプルデータに対する仮説の検出力だけでなく、実際の検出力を計算します。

一元配置ANOVAの検出力は、その敏感度の計測です。検出力は、一元配置ANOVAが実際の差があるときの標本の平均の差を検出するものです。帰無仮説および対立仮説に関して、検出力は検定する統計量 F が、実際に帰無仮説を棄却すべき(例:与えられた帰無仮説が真でない)ときに、帰無仮説を棄却するのに十分であるという確率です。

検出力は次式で定義されます。

power=1-probf(f,dfa,dfe,nc)\,\!

ここで f は、非心のF-分布の偏りで、このF分布は dfa (モデルの自由度)とdfe(誤差の自由度) を持ちます。そして、nc = SST/MSE, ここで、SST は、モデルの二乗和、MSE は、誤差の平均平方です。probf( ) の値が、NAG関数nag_prob_non_central_f_dist (g01gdc)を使って取得されます。詳細はNAG文書をご覧ください。

上記は、簡単な一元配置ANOVAのアルゴリズムの概要であり、詳細な数学的な演算については、このマニュアルの対応する部分やNAG文書を参照してください。