アルゴリズム (一元配置分散分析)
一元配置分散分析(One-Way ANOVA)の理論
k 個のレベルで測定された反応データがあるとします。ここで は、 j 番目のファクターレベル (j = 1, 2, ..., k)での、i番目の観測値(i = 1, 2, ... ) の値を表します。そして、一元配置ANOVAのモデルを以下のように書きます。
,j = 1,2, ..., k; i = 1, 2, ...![n_j n_j](//d2mvzyuse3lwjc.cloudfront.net/doc/ja/UserGuide/images/One_Way_ANOVA_Algorithms/math-4aa861124eff57dd7988faa6753e8b7e.png)
ANOVA検定は、2つ以上の母集団(レベル)が等しいかどうかを調べます。ですから、帰無仮説は、異なる母集団の平均が同じとし、対立仮説は、少なくとも1つの標本の平均が、他とは異なるということになります。数学的に、これは次のように表すことができます。
H0:![\mu =\mu _1=\mu _2=\cdots =\mu _k \mu =\mu _1=\mu _2=\cdots =\mu _k](//d2mvzyuse3lwjc.cloudfront.net/doc/ja/UserGuide/images/One_Way_ANOVA_Algorithms/math-c73bd204f60c2fb90a3fdc612f03dfba.png)
H1: いくつかのpとqでは、 と が成り立ちます。
ここで は、 j番目の標本の平均です。仮説を検定するには、全サンプルをいくつかのグループに分け、グループ内の変化に対して 、F-検定を行い、2つの変化が異なるかどうかを検定します。
数学的には、 変化を推定する各部の平均平方を使うことが出来ます。
![\sum_{j=1}^k\sum_{i=1}^{n_1}(y_{ij}-\bar y)^2=\sum_{j=1}^kn_j(\bar y_j-\bar y)^2+\sum_{j=1}^k\sum_{i=1}^{n_1}(y_{ij}-\bar y_j)^2 \sum_{j=1}^k\sum_{i=1}^{n_1}(y_{ij}-\bar y)^2=\sum_{j=1}^kn_j(\bar y_j-\bar y)^2+\sum_{j=1}^k\sum_{i=1}^{n_1}(y_{ij}-\bar y_j)^2](//d2mvzyuse3lwjc.cloudfront.net/doc/ja/UserGuide/images/One_Way_ANOVA_Algorithms/math-318b2225240c5d36c702a65d9791e911.png)
ここで、左側の項は、二乗和の合計で、 2番目の項はtreatmentの二乗和で、これはグループ間の変化を表し、3番目の項は、誤差の二乗和で、グループ内の変化を表します。式は、一般に次のように表します。
![SS_{Total}=SS_{Treatment}+SS_{Error}\,\! SS_{Total}=SS_{Treatment}+SS_{Error}\,\!](//d2mvzyuse3lwjc.cloudfront.net/doc/ja/UserGuide/images/One_Way_ANOVA_Algorithms/math-2e316f3d38bb44586a05ad68555264bc.png)
が真のとき、k レベルの標本データは、正規かつ独立して分散しており、平均 と分散 を持っています。つまり、統計量は
![F=\frac{MS_{Treatment}}{MS_{Error}}=\frac{ss_{Treatment}/(k-1)}{ss_{Error}/(n-k)} F=\frac{MS_{Treatment}}{MS_{Error}}=\frac{ss_{Treatment}/(k-1)}{ss_{Error}/(n-k)}](//d2mvzyuse3lwjc.cloudfront.net/doc/ja/UserGuide/images/One_Way_ANOVA_Algorithms/math-3ae802b4468722915b610b8a10caa5ca.png)
F分布 に従い、 はtreatmentsの平均平方、 はは誤差の平均平方になり、これらはそれぞれ自由度で二乗和を除算した形になっています。ある有意水準 が与えられてF 統計量が棄却値 を超える場合、帰無仮説は棄却されます。このとき、F 統計量は、有意水準 または同等の有意水準以下のP値で k-1 および n-k の自由度を持つF分布のこれは表形式の値です。
通常、ANOVA表の分散分析の結果を表します。
分散の入力 |
自由度 (DF) |
平方和 (SS) |
平均平方 (MS) |
F 値 |
Prob > F |
モデル (ファクター) |
k-1 |
![SS_{Treatme} SS_{Treatme}](//d2mvzyuse3lwjc.cloudfront.net/doc/ja/UserGuide/images/One_Way_ANOVA_Algorithms/math-37ee04e2b0deee9bf057596e95fa9d4a.png) |
![MS_{Treatment} MS_{Treatment}](//d2mvzyuse3lwjc.cloudfront.net/doc/ja/UserGuide/images/One_Way_ANOVA_Algorithms/math-fe639299f2dbf4e9160e4f8086e83caf.png) |
/ ![MS_{Error} MS_{Error}](//d2mvzyuse3lwjc.cloudfront.net/doc/ja/UserGuide/images/One_Way_ANOVA_Algorithms/math-ff8dc369a4b279c7e064cb1ef6fc4ba1.png) |
![P\{F\geq F_{(k-1,n-k,\alpha )}\} P\{F\geq F_{(k-1,n-k,\alpha )}\}](//d2mvzyuse3lwjc.cloudfront.net/doc/ja/UserGuide/images/One_Way_ANOVA_Algorithms/math-4cfa5369bc0906fc9a5c5d9297de4180.png) |
誤差 |
n-k |
![SS_{Error} SS_{Error}](//d2mvzyuse3lwjc.cloudfront.net/doc/ja/UserGuide/images/One_Way_ANOVA_Algorithms/math-349fb0475e9b16a6353bbc1aae235e6a.png) |
![MS_{Error} MS_{Error}](//d2mvzyuse3lwjc.cloudfront.net/doc/ja/UserGuide/images/One_Way_ANOVA_Algorithms/math-ff8dc369a4b279c7e064cb1ef6fc4ba1.png) |
|
|
合計 |
n-1 |
|
|
|
|
分散の等質性
分散分析で、ことなるサンプルが等分散であると仮定すると、それは、一般に分散の等質性と呼ばれます。Levene検定とBrown-Forsythe検定は、仮定を検証するのに使うことができます。k 個の反応データの標本があるものとします。ここで は、jt番目のファクターレベル (j = 1, 2, ..., k)でのi番目の観測 (i = 1, 2, ... ) を表します。Levene検定とBrown-Forsythe検定の両方の仮説は、次の式で表すことが出来ます。
H0:![\sigma^2 _1=\sigma^2 _2=\cdots =\sigma^2 _k \sigma^2 _1=\sigma^2 _2=\cdots =\sigma^2 _k](//d2mvzyuse3lwjc.cloudfront.net/doc/ja/UserGuide/images/One_Way_ANOVA_Algorithms/math-6ae18486367863bbc938e896756f8df8.png)
H1: 少なくとも1組の(p, q)に対して![1\leq p,q\leq k 1\leq p,q\leq k](//d2mvzyuse3lwjc.cloudfront.net/doc/ja/UserGuide/images/One_Way_ANOVA_Algorithms/math-f3befe30a4a0d18509558e6012408028.png)
を異なる検定に従い、次の3つのように定義します。
- 絶対Levene検定:
![Z_{ij}=|y_{ij}-\bar y_j| Z_{ij}=|y_{ij}-\bar y_j|](//d2mvzyuse3lwjc.cloudfront.net/doc/ja/UserGuide/images/One_Way_ANOVA_Algorithms/math-b4e5bd6341b0f8ff84bf4a86cd819c58.png)
- Squared Levene検定:
![Z_{ij}^2=(y_{ij}-\bar y_j)^2 Z_{ij}^2=(y_{ij}-\bar y_j)^2](//d2mvzyuse3lwjc.cloudfront.net/doc/ja/UserGuide/images/One_Way_ANOVA_Algorithms/math-ca90d368003ebe629f44501f0e71c07a.png)
- Brown-Forsythe検定:
![Z_{ij}=|y_{ij}-m_j|\,\! Z_{ij}=|y_{ij}-m_j|\,\!](//d2mvzyuse3lwjc.cloudfront.net/doc/ja/UserGuide/images/One_Way_ANOVA_Algorithms/math-face015854160d6388d3424185d3c24a.png)
を持つと、検定の統計量は
![F=\frac{\sum_{j=1}^kn_j(\bar Z_j-\bar Z)^2/(k-1)}{\sum_{j=1}^k\sum_{i=1}^{n_1}(Z_{ij}-\bar Z_j)^2/(n-k)} F=\frac{\sum_{j=1}^kn_j(\bar Z_j-\bar Z)^2/(k-1)}{\sum_{j=1}^k\sum_{i=1}^{n_1}(Z_{ij}-\bar Z_j)^2/(n-k)}](//d2mvzyuse3lwjc.cloudfront.net/doc/ja/UserGuide/images/One_Way_ANOVA_Algorithms/math-9550c1c345a48df5bdeda1954598b3a4.png)
になり、これは(近似的に)F分布 に従い、 と は、それぞれ の集団平均および全体平均となります。
複数の平均比較
少なくとも1つの母平均が十分異なることを調べるANOVAを実行すると、それに続けて、平均が異なるかどうかすべてのファクターでの可能な組合せで、複数の平均の比較が行われます。Originでは、平均比較にさまざまな方法があり、これはNAG関数のnag_anova_confid_interval (g04dbc) を使って行っています。
複数の平均の比較法の2種類がOriginに含まれています。
- シングルステップ法これは、Tukey-Kramer, Bonferroni, Dunn-Sidak, Fisher’s LSD, Schefféを含む、平均がどの程度違うのかを示すために信頼区間を作成します。
- ステップワイズ法Holm-Bonferroni 、Holm-Sidak 検定を含む仮説検定を実行します。
詳細はNAGヘルプを参照してください。
検出力解析
検出力分析は、サンプルデータに対する仮説の検出力だけでなく、実際の検出力を計算します。
一元配置ANOVAの検出力は、その敏感度の計測です。検出力は、一元配置ANOVAが実際の差があるときの標本の平均の差を検出するものです。帰無仮説および対立仮説に関して、検出力は検定する統計量 F が、実際に帰無仮説を棄却すべき(例:与えられた帰無仮説が真でない)ときに、帰無仮説を棄却するのに十分であるという確率です。
検出力は次式で定義されます。
![power=1-probf(f,dfa,dfe,nc)\,\! power=1-probf(f,dfa,dfe,nc)\,\!](//d2mvzyuse3lwjc.cloudfront.net/doc/ja/UserGuide/images/One_Way_ANOVA_Algorithms/math-994e2581ef30349da587e03faa17ce2b.png)
ここで f は、非心のF-分布の偏りで、このF分布は dfa (モデルの自由度)とdfe(誤差の自由度) を持ちます。そして、nc = SST/MSE, ここで、SST は、モデルの二乗和、MSE は、誤差の平均平方です。probf( ) の値が、NAG関数nag_prob_non_central_f_dist (g01gdc)を使って取得されます。詳細はNAG文書をご覧ください。
上記は、簡単な一元配置ANOVAのアルゴリズムの概要であり、詳細な数学的な演算については、このマニュアルの対応する部分やNAG文書を参照してください。
|