アルゴリズム (一元配置分散分析)

内容

1 One-Way ANOVAの理論
2 分散の等質性
3 複数の平均比較
4 検出力解析

一元配置分散分析(One-Way ANOVA)の理論

k 個のレベルで測定された反応データがあるとします。ここで $y_{ij}\,\!$ は、 j 番目のファクターレベル (j = 1, 2, ..., k)での、i番目の観測値(i = 1, 2, ... $n_j$ ) の値を表します。そして、一元配置ANOVAのモデルを以下のように書きます。

$y_{ij}=u+t_j+\varepsilon _{ij}$ ,j = 1,2, ..., k; i = 1, 2, ... $n_j$

ANOVA検定は、2つ以上の母集団(レベル)が等しいかどうかを調べます。ですから、帰無仮説は、異なる母集団の平均が同じとし、対立仮説は、少なくとも1つの標本の平均が、他とは異なるということになります。数学的に、これは次のように表すことができます。

H0: $\mu =\mu _1=\mu _2=\cdots =\mu _k$

H1: $\mu _p\neq \mu _q$ いくつかのpとqでは、 $1 \leq p$ と $q \geq k$ が成り立ちます。

ここで $\mu _i\,\!$ は、 j番目の標本の平均です。仮説を検定するには、全サンプルをいくつかのグループに分け、グループ内の変化に対して、F-検定を行い、2つの変化が異なるかどうかを検定します。

数学的には、変化を推定する各部の平均平方を使うことが出来ます。

$\sum_{j=1}^k\sum_{i=1}^{n_1}(y_{ij}-\bar y)^2=\sum_{j=1}^kn_j(\bar y_j-\bar y)^2+\sum_{j=1}^k\sum_{i=1}^{n_1}(y_{ij}-\bar y_j)^2$

ここで、左側の項は、二乗和の合計で、 2番目の項はtreatmentの二乗和で、これはグループ間の変化を表し、3番目の項は、誤差の二乗和で、グループ内の変化を表します。式は、一般に次のように表します。

$SS_{Total}=SS_{Treatment}+SS_{Error}\,\!$

$H_0\,\!$ が真のとき、k レベルの標本データは、正規かつ独立して分散しており、平均 $\mu\,\!$ と分散 $\sigma ^2\,\!$ を持っています。つまり、統計量は

$F=\frac{MS_{Treatment}}{MS_{Error}}=\frac{ss_{Treatment}/(k-1)}{ss_{Error}/(n-k)}$

F分布 $F_{(k-1, n-k)}\,\!$ に従い、 $MS_{Treatment}$ はtreatmentsの平均平方、 $MS_{Error}$ はは誤差の平均平方になり、これらはそれぞれ自由度で二乗和を除算した形になっています。ある有意水準 $\alpha\,\!$ が与えられてF 統計量が棄却値 $F_{(k-1,n-k,\alpha)}\,\!$ を超える場合、帰無仮説は棄却されます。このとき、F 統計量は、有意水準 $\alpha\,\!$ または同等の有意水準以下のP値で k-1 および n-k の自由度を持つF分布のこれは表形式の値です。

通常、ANOVA表の分散分析の結果を表します。

分散の入力	自由度 (DF)	平方和 (SS)	平均平方 (MS)	F 値	Prob > F
モデル (ファクター)	k-1	$SS_{Treatme}$	$MS_{Treatment}$	$MS_{Treatment}$ / $MS_{Error}$	$P\{F\geq F_{(k-1,n-k,\alpha )}\}$
誤差	n-k	$SS_{Error}$	$MS_{Error}$
合計	n-1

分散の等質性

分散分析で、ことなるサンプルが等分散であると仮定すると、それは、一般に分散の等質性と呼ばれます。Levene検定とBrown-Forsythe検定は、仮定を検証するのに使うことができます。k 個の反応データの標本があるものとします。ここで $y_{ij}\,\!$ は、jt番目のファクターレベル (j = 1, 2, ..., k)でのi番目の観測 (i = 1, 2, ... $n_j$ ) を表します。Levene検定とBrown-Forsythe検定の両方の仮説は、次の式で表すことが出来ます。

$H 0$ : $\sigma^2 _1=\sigma^2 _2=\cdots =\sigma^2 _k$

$H 1$ : $\sigma^2 _p\neq \sigma^2 _q$ 少なくとも1組の(p, q)に対して $1\leq p,q\leq k$

$Z_{ij}\,\!$ を異なる検定に従い、次の3つのように定義します。

絶対Levene検定: $Z_{ij}=|y_{ij}-\bar y_j|$
Squared Levene検定: $Z_{ij}^2=(y_{ij}-\bar y_j)^2$
Brown-Forsythe検定: $Z_{ij}=|y_{ij}-m_j|\,\!$

$H_0$ を持つと、検定の統計量は

$F=\frac{\sum_{j=1}^kn_j(\bar Z_j-\bar Z)^2/(k-1)}{\sum_{j=1}^k\sum_{i=1}^{n_1}(Z_{ij}-\bar Z_j)^2/(n-k)}$

になり、これは(近似的に)F分布 $F_{(k-1,n-k)}\,\!$ に従い、 $\overline{Z_j}$ と $\overline{Z}$ は、それぞれ $Z_{ij}\,\!$ の集団平均および全体平均となります。

複数の平均比較

少なくとも1つの母平均が十分異なることを調べるANOVAを実行すると、それに続けて、平均が異なるかどうかすべてのファクターでの可能な組合せで、複数の平均の比較が行われます。Originでは、平均比較にさまざまな方法があり、これはNAG関数のnag_anova_confid_interval (g04dbc) を使って行っています。

複数の平均の比較法の2種類がOriginに含まれています。

シングルステップ法これは、Tukey-Kramer, Bonferroni, Dunn-Sidak, Fisher’s LSD, Schefféを含む、平均がどの程度違うのかを示すために信頼区間を作成します。
ステップワイズ法Holm-Bonferroni 、Holm-Sidak 検定を含む仮説検定を実行します。

詳細はNAGヘルプを参照してください。

検出力解析

検出力分析は、サンプルデータに対する仮説の検出力だけでなく、実際の検出力を計算します。

一元配置ANOVAの検出力は、その敏感度の計測です。検出力は、一元配置ANOVAが実際の差があるときの標本の平均の差を検出するものです。帰無仮説および対立仮説に関して、検出力は検定する統計量 F が、実際に帰無仮説を棄却すべき(例：与えられた帰無仮説が真でない)ときに、帰無仮説を棄却するのに十分であるという確率です。

検出力は次式で定義されます。

$power=1-probf(f,dfa,dfe,nc)\,\!$

ここで f は、非心のF-分布の偏りで、このF分布は dfa (モデルの自由度)とdfe(誤差の自由度) を持ちます。そして、nc = SST/MSE, ここで、SST は、モデルの二乗和、MSE は、誤差の平均平方です。probf( ) の値が、NAG関数nag_prob_non_central_f_dist (g01gdc)を使って取得されます。詳細はNAG文書をご覧ください。

上記は、簡単な一元配置ANOVAのアルゴリズムの概要であり、詳細な数学的な演算については、このマニュアルの対応する部分やNAG文書を参照してください。

Skip Navigation Links

One, Two, and Three Way ANOVA

English | Deutsch | 日本語