アルゴリズム(2群のt検定)

2群の t検定はスチューデントのt統計量と関連する確率を計算し、2つの標本の平均の差が\mu_d\,\!に等しいかどうかを検定します(例:2つの平均が等しいかどうかを検定するにはその差が0、つまり\mu_1-\mu_2=\mu_d=0\,\!であるかどうかを検定します)。そして、仮説は次の形式をとります。

H_0:\mu_1-\mu_2=\mu_d\,\! Vs H_1:\mu_1-\mu_2 \ne \mu_d 両側

H_0:\mu_1-\mu_2 \le \mu_d Vs H_1:\mu_1-\mu_2 > \mu_d 上側

H_0:\mu_1-\mu_2 \ge \mu_d Vs H_1:\mu_1-\mu_2 < \mu_d 下側

検定統計量

標本サイズがx_1\,\!x_2\,\!、平均がn_1\,\!n_2\,\!、分散が\mu_1\,\!\mu_2\,\!である2つの独立した標本\sigma_1^2\,\!\sigma_2^2\,\!が、2つの正規分布する母集団からそれぞれ得られたものだとすると、下記の式で表すことができます。

\bar{x}_1=\frac{1}{n_1}\sum_{j=1}^{n_1}x_{1j}, \bar{x}_2=\frac{1}{n_2}\sum_{j=1}^{n_2}x_{2j}, s_1^2=\frac{1}{n_1-1}\sum_{j=1}^{n_1}{(x_{1j}-\bar{x}_1)^2}, s_2^2=\frac{1}{n_2-1}\sum_{j=1}^{n_2}{(x_{2j}-\bar{x}_2)^2}

ここで、\bar{x}_1\,\!\bar{x}_2\,\!は標本平均で、s_1^2\,\!s_2^2\,\!は標本分散です。そして、t 検定統計量を次の式で計算します。

ここでは、等しい分散であると仮定され、それは\sigma_1^2=\sigma_2^2\,\!になります。

検定の統計量tは次のようになります。

t=\frac{(\bar{x}_1-\bar{x}_2)-\mu_d}{s_p\sqrt{(1/n_1+1/n_2)}}

これは自由度 (v = n_1+n_2-2) を持つt 分布であり、

s_p=\sqrt{\frac{(n_1-1)s_1^2+(n_2-1)s_2^2}{n_1+n_2-2}}

は、2つの標本のプール分散です。

等しい分散ではないと見なされる場合

通常の2標本の t統計量はt分布ではないので、近似した検定の統計量t'が使われます。

t'=\frac{(\bar{x}_1-\bar{x}_2)-\mu_d}{\sqrt{\frac{s_1^2}{n_1}+\frac{s_2^2}{n_2}}}

そして、自由度vを持つt分布が、t’の分布の近似に使われます。

v=\frac{(s_1^2/n_1+s_2^2/n_2)^2}{\frac{(s_1^2/n_1)^2}{n_1-1}+\frac{(s_2^2/n_2)^2}{n_2-1}}

限界値を持つtの値を比較し、次の場合、帰無仮説H_0\,\!を棄却します。

両側検定: |t| > t_{\sigma/2}\,\!;

上側検定: t > t_\sigma\,\!;

下側検定: t < -t_\sigma\,\!;

p 値もユーザ指定の有意水準, \sigma\,\!と比較され、その値は通常0.05が使われます。帰無仮説H_0\,\!は、p < \mu\,\!の場合棄却されます。

信頼区間

上側と下側(1-\sigma )\times 100\%の平均の相違に対する信頼水準(\mu_1 - \mu_2)\,\!は次のように計算されます。

等しい分散であると見なされる場合

帰無仮説 信頼区間
H_0:\mu_1-\mu_2=\mu_d\,\! \left[(\bar{x}_1-\bar{x}_2)- t_{\alpha/2}s_p\sqrt{\frac{1}{n_1}+\frac{1}{n_2}}, (\bar{x}_1-\bar{x}_2)+ t_{\alpha/2}s_p\sqrt{\frac{1}{n_1}+\frac{1}{n_2}}\right]
H_0:\mu_1-\mu_2 \le \mu_d \left[(\bar{x}_1-\bar{x}_2)- t_{\alpha}s_p\sqrt{\frac{1}{n_1}+\frac{1}{n_2}},  \infty\right]
H_0:\mu_1-\mu_2 \ge \mu_d \left[-\infty, (\bar{x}_1-\bar{x}_2)+ t_{\alpha}s_p\sqrt{\frac{1}{n_1}+\frac{1}{n_2}}\right]

等しい分散ではないと見なされる場合

帰無仮説 信頼区間
H_0:\mu_1-\mu_2=\mu_d\,\! \left[(\bar{x}_1-\bar{x}_2)- t_{\alpha/2}\sqrt{\frac{s_1^2}{n_1}+\frac{s_2^2}{n_2}}, (\bar{x}_1-\bar{x}_2)+ t_{\alpha/2}\sqrt{\frac{s_1^2}{n_1}+\frac{s_2^2}{n_2}}\right]
H_0:\mu_1-\mu_2 \le \mu_d \left[(\bar{x}_1-\bar{x}_2)- t_{\alpha}\sqrt{\frac{s_1^2}{n_1}+\frac{s_2^2}{n_2}}, \infty\right]
H_0:\mu_1-\mu_2 \ge \mu_d \left[-\infty, (\bar{x}_1-\bar{x}_2)+ t_{\alpha}\sqrt{\frac{s_1^2}{n_1}+\frac{s_2^2}{n_2}}\right]


ここで、t_{\sigma/2}\,\!は自由度vを持つt-分布の限界値です。

検出力解析

2群の t検定の検出力は、その感度の測定です。検出力の計算に関する詳細なアルゴリズムについては、検出力とサンプルサイズヘルプをご覧下さい。

参考文献

2群のt検定の計算は、NAG関数nag_2_sample_t_test (g07cac)を使っています。アルゴリズムについての詳細は、対応するNAG文書を参照して下さい。