アルゴリズム(2群の比率の検定)


サンプル1の大きさをn_{1}\!、イベントまたは成功の数をx_{1}\!とすると、サンプルの比率\tilde{p_{1}}\!は以下のように計算されます。\tilde{p_{1}}=\frac{x_{1}}{n_{1}}

同様に、異なるサンプルでは、サンプルサイズはn_{2}\!で、イベントの数をx_{2}\!とすると、サンプルの比率は\tilde{p_{2}}=\frac{x_{2}}{n_{2}}

仮説

p_{1}\!及びp_{1}\!は、サンプル1と2の真の母比率とし、d_{0}\!は母比率と仮説の差とします。

H_0:p_{1}-p_{2}=d_{0}\! 両側検定

H_0:p_{1}-p_{2}\ge d_{0}\! 片側検定

H_0:p_{1}-p_{2}\le d_{0}\! 片側検定

正規近似

P値

仮説:x_{1}\ge10\! および n_{1}-x_{1}\ge10\!x_{2}\ge10\! および n_{2}-x_{2}\ge10\!により、正規近似検定を実行できます。

検定を行うために、z\! p_{value}\!の値を計算します。

z=\frac{\tilde{p_{1}}-\tilde{p_{2}} -d_{0}}{\sqrt{\frac{\tilde{p_{1}}(1-\tilde{p_{1}})}{n_{1}}}+\frac{\tilde{p_{2}}(1-\tilde{p_{2}})}{n_{2}}}
\! .

d_{0} が0になるような特殊な場合、Originでは、ダイアログで「検定にプールされたP値を使用」をチェックすることで、pを込みにした推定を使用できます。

z=\frac{\tilde{p_{1}}-\tilde{p_{2}}}{\sqrt{\tilde{p_{0}}(1-\tilde{p_{0}})({\frac{1}{n_{1}}+ \frac{1}{n_{2}}}})}\! 、ここでp_{0}=\frac{x_{1}+x_{2}}{n_{1}+n_{2}}

各仮説で、p値は以下のように与えられます。

H_0:p_{1}-p_{2}=d_{0}\!p_{value}=2P(Z_{1}\ge|z|)\!、 両側検定

H_0:p_{1}-p_{2}\ge d_{0}\!p_{value}=P(Z_{1}\le z)\!、 上側検定

H_0:p_{1}-p_{2}\le d_{0}\!p_{value}=P(Z_{1}\ge z)\!、 下側検定

信頼区間

与えられた信頼度 1-\alpha について、サンプルの比率における信頼区間は以下のようにして与えられます。

帰無仮説 信頼区間
H_0:p_{1}-p_{2}=d_{0}\! \left[(\tilde{p_{1}}-\tilde{p_{2}})- Z_{\frac{\alpha}{2}}\sqrt{\frac{\tilde{p_{1}}(1-\tilde{p_{1}})}{n_{1}}+ \frac{\tilde{p_{2}}(1-\tilde{p_{2}})}{n_{2}}}, (\tilde{p_{1}}-\tilde{p_{2}})+ Z_{\frac{\alpha}{2}}\sqrt{\frac{\tilde{p_{1}}(1-\tilde{p_{1}})}{n_{1}}+ \frac{\tilde{p_{2}}(1-\tilde{p_{2}})}{n_{2}}}\right]
H_0:p_{1}-p_{2}\ge d_{0}\! \left[(\tilde{p_{1}}-\tilde{p_{2}})- Z_{\frac{\alpha}{2}}\sqrt{\frac{\tilde{p_{1}}(1-\tilde{p_{1}})}{n_{1}}+ \frac{\tilde{p_{2}}(1-\tilde{p_{2}})}{n_{2}}}, 1\right]
H_0:p_{1}-p_{2}\le d_{0}\! \left[-1, (\tilde{p_{1}}-\tilde{p_{2}})+ Z_{\frac{\alpha}{2}}\sqrt{\frac{\tilde{p_{1}}(1-\tilde{p_{1}})}{n_{1}}+ \frac{\tilde{p_{2}}(1-\tilde{p_{2}})}{n_{2}}}\right]

フィッシャーの正確確率検定

正確なP値

フィッシャーの正確確率検定は、d_{0} \!が0であるときにすべてのサンプルサイズのために使用されます。 X= xのとき、超幾何分布の確率p(x)を表してみましょう。

P(X=x)=\frac{\begin{pmatrix}x_{1}+x_{2} \\{x}\end{pmatrix}\begin{pmatrix}{n_{1}+n_{2}-x_{1}-x_{2}}\\{n_{1}-x}\end{pmatrix}}{\begin{pmatrix}{n_{1}+n_{2}}\\{n_{1}}\end{pmatrix}}

Mを超幾何分布モードで表します。M=\left \lfloor \frac{(n_1+1)(x_1+x_2+1)}{n_1+n_2+2}\right \rfloor

各仮説で、p値は以下のように与えられます。

H_0:p_{1}\ge p_{2}\!, p_{value}=P(x\le x_{1})\!

H_0:p_{1}\le p_{2}\!, p_{value}=P(x\ge x_{1})\!

H_0:p_{1}= p_{2}\!のとき

a:x_{1} < M\!: p_{value} = P(X\le x_{1}) + P(X\ge y)

ここでyは、p(y) \le p(x_1)\!のような最小の整数\ge Mです。

b:x_{1} = M\!

p_{value} = 1.0\!

c: x_1 > M\!

p_{value} = P(X\ge x_{1}) + P(X\le y)

ここでyは、p(y) \le p(x_1)\!のような最大の整数\le Mです。