アルゴリズム (正規性の検定)

内容

1 シャピロ・ウイルク検定
2 コルモゴルフ・スミルノフ検定
3 リリーフォースの正規性の検定
4 Anderson-Darling検定
5 D'Agostino-K 二乗
6 Chen-Shapiro検定

シャピロ・ウイルク検定

昇順または降順のどちらかでソートされた観測データ $X\{x_1,x_2,\ldots x_n\}$ が与えられる場合、シャピロ・ウィルクのW統計量は次のように定義されます。

$w=\frac{\left (\sum_{i=1}^n a_ix_i\right)^2}{\sum_{i=1}^n (x_i-\bar{x})^2}$

ここで

$\bar{x}=\frac{1}{n}\sum_{1}^n x_i$

上記は標本の平均で、 aiのi=1, 2, …, n は数学的な重みであり、その値は、サンプルサイズnだけに依存します。

Originで使われるアルゴリズムは、Patrick Royston (1995)による Applied Statistics Algorithm R94 を利用しています。関数はサンプルサイズ3をサポートしています。

自由度(DF)は、サンプルサイズと同じです。

コルモゴルフ・スミルノフ検定

Originは、この統計量を計算するのに、NAG関数nag_1_sample_ks_test (g08cbc) を呼び出します。アルゴリズムについての詳細は、関連のNAG文書を参照して下さい。

リリーフォースの正規性の検定

リリフォース検定は、コルモゴルフ－スミルノフ検定を改良したもので、統計値はコルモゴルフ－スミルノフ検定と同じ方法で計算されます。しかし、p値はリリーフォース検定がデータの平均と分散を考慮しないので、コルモゴルフ－スミルノフ検定のp値とは異なります。DallalとWilkinson (1986)の方法がp値の計算に使われます。

Anderson-Darling 検定

昇順または降順のどちらかでソートされた観測データ $X\{x_1,x_2,\ldots x_n\}$ が与えられる場合、Anderson Darling統計量は次のように定義されます。

$A 2 = - n - S$

ここで

$S=\sum_{i=1}^n \frac{2i-1}{n}[lnF(x_i)+ln(1-F(x_n+1-i))]$

$F$ は $F$ 分布の累積分布関数を表しています。

D'Agostino-K 二乗

統計の歪み
1. 歪み $\sqrt{b_1}$ をデータから計算します。
  
  $\sqrt{b_1}= \frac{\frac{1}{n} \sum_{i=1}^n \left( x_i - \bar{x} \right)^3}{\left( \frac{1}{n} \sum_{i=1}^n \left( x_i - \bar{x} \right)^2 \right)^{3/2}}$
2. 算出結果
  
  $Y=\sqrt{b_1}[\frac{(n+1)(n+3)}{6(n-2)}]^{1/2}$
  
  $\beta_2(\sqrt{b_1})=\frac{3(n^2+27n-70)(n+1)(n+3)}{(n-2)(n+5)(n+7)(n+9)}$
  
  $W^2=-1+[2(\beta_2(\sqrt{b_1})-1)]^{1/2}$
  
  $\delta=\frac{1}{\sqrt{lnW}}$
  
  $\delta=\frac{1}{\sqrt{lnW}}$
3. 統計の歪み $Z(\sqrt{b_1})$ は以下の等式で計算されます。
  
  $Z(\sqrt{b_1}) = \delta ln(Y/\alpha+[(Y/\alpha)^2+1]^{1/2})$

尖度の統計
1. データから尖度 $b_2$ を算出します。
  
  $b_2 = \frac{\frac{1}{n} \sum_{i=1}^n \left( x_i - \bar{x} \right)^4}{\left( \frac{1}{n} \sum_{i=1}^n \left( x_i - \bar{x} \right)^2 \right)^2} - 3$
2. $b_2$ の平均と分散を算出します。
  
  $E(b_2)=\frac{3(n-1)}{n+1}$
  
  $var(b_2)=\frac{24n(n-2)(n-3)}{(n+1)^2(n+3)(n+5)}$
3. $b_2$ の瞬間標準化を計算するには次のように行います。
  
  $\sqrt{\beta_1(b_2)}=\frac{6(n^2-5n+2)}{(n+7)(n+9)}\sqrt{\frac{6(n+3)(n+5)}{n(n-2)(n-3)}}$
4. 算出結果
  
  $A=6+\frac{8}{\sqrt{\beta_1(b_2)}} [\frac{2}{\sqrt{\beta_1(b_2)}}+\sqrt{1+\frac{4}{\beta_1(b_2)}}]$
5. 尖度の統計 $Z(b_2)$ は以下の数式で計算されます。
  
  $Z(b_2)=((1-\frac{2}{9A})-[\frac{1-2/A}{1+x\sqrt{2/(A-4)}}]^{1/3})/\sqrt{2/(9A)}$

D'Agostinoのカイ二乗統計

$K^2 = Z^2(\sqrt{b_1})+Z^2(b_2)$

Chen-Shapiro検定

昇順または降順のどちらかでソートされた観測データ $X\{x_1,x_2,\ldots x_n\}$ が与えられる場合、Chen-Shapiro 統計量は次のように定義されます。

$QH =\sqrt{N}(1-\frac{1}{(n-1)S}\sum_{i=1}^{n-1}\frac{x_{i+1}-x_i}{H_{i+1}-H_i})$

ここで

$H_i = \Phi^{-1} ((i-3/8)/(n+1/4))$ と $\Phi^{-1}$ は標準正規分布の逆になります。