アルゴリズム (正規性の検定)

内容

  1. 1 シャピロ・ウイルク検定
  2. 2 コルモゴルフ・スミルノフ検定
  3. 3 リリーフォースの正規性の検定
  4. 4 Anderson-Darling検定
  5. 5 D'Agostino-K 二乗
  6. 6 Chen-Shapiro検定

シャピロ・ウイルク検定

昇順または降順のどちらかでソートされた観測データ  X\{x_1,x_2,\ldots x_n\}  が与えられる場合、シャピロ・ウィルクのW統計量は次のように定義されます。

w=\frac{\left (\sum_{i=1}^n a_ix_i\right)^2}{\sum_{i=1}^n (x_i-\bar{x})^2}

ここで

\bar{x}=\frac{1}{n}\sum_{1}^n x_i

上記は標本の平均で、 aiのi=1, 2, …, n は数学的な重みであり、その値は、サンプルサイズnだけに依存します。

Originで使われるアルゴリズムは、Patrick Royston (1995)による Applied Statistics Algorithm R94 を利用しています。関数はサンプルサイズ3をサポートしています。

自由度(DF)は、サンプルサイズと同じです。

コルモゴルフ・スミルノフ検定

Originは、この統計量を計算するのに、NAG関数nag_1_sample_ks_test (g08cbc) を呼び出します。アルゴリズムについての詳細は、関連のNAG文書を参照して下さい。

リリーフォースの正規性の検定

リリフォース検定は、コルモゴルフ-スミルノフ検定を改良したもので、統計値はコルモゴルフ-スミルノフ検定と同じ方法で計算されます。しかし、p値はリリーフォース検定がデータの平均と分散を考慮しないので、コルモゴルフ-スミルノフ検定のp値とは異なります。DallalとWilkinson (1986)の方法がp値の計算に使われます。

Anderson-Darling 検定

昇順または降順のどちらかでソートされた観測データ  X\{x_1,x_2,\ldots x_n\}  が与えられる場合、Anderson Darling統計量は次のように定義されます。

A2 = - n - S

ここで

S=\sum_{i=1}^n \frac{2i-1}{n}[lnF(x_i)+ln(1-F(x_n+1-i))]

FF 分布の累積分布関数を表しています。

D'Agostino-K 二乗

  • 統計の歪み
    1. 歪み \sqrt{b_1}  をデータから計算します。
      \sqrt{b_1}= \frac{\frac{1}{n} \sum_{i=1}^n \left( x_i - \bar{x} \right)^3}{\left( \frac{1}{n} \sum_{i=1}^n \left( x_i - \bar{x} \right)^2 \right)^{3/2}}
    2. 算出結果
      Y=\sqrt{b_1}[\frac{(n+1)(n+3)}{6(n-2)}]^{1/2}
      \beta_2(\sqrt{b_1})=\frac{3(n^2+27n-70)(n+1)(n+3)}{(n-2)(n+5)(n+7)(n+9)}
      W^2=-1+[2(\beta_2(\sqrt{b_1})-1)]^{1/2}
      \delta=\frac{1}{\sqrt{lnW}}
      \delta=\frac{1}{\sqrt{lnW}}
    3. 統計の歪み Z(\sqrt{b_1}) は以下の等式で計算されます。
      Z(\sqrt{b_1}) = \delta ln(Y/\alpha+[(Y/\alpha)^2+1]^{1/2})
  • 尖度の統計
    1. データから尖度  b_2 を算出します。
      b_2 = \frac{\frac{1}{n} \sum_{i=1}^n \left( x_i - \bar{x} \right)^4}{\left( \frac{1}{n} \sum_{i=1}^n \left( x_i - \bar{x} \right)^2 \right)^2} - 3
    2.  b_2 の平均と分散を算出します。
      E(b_2)=\frac{3(n-1)}{n+1}
      var(b_2)=\frac{24n(n-2)(n-3)}{(n+1)^2(n+3)(n+5)}
    3.  b_2 の瞬間標準化を計算するには次のように行います。
      \sqrt{\beta_1(b_2)}=\frac{6(n^2-5n+2)}{(n+7)(n+9)}\sqrt{\frac{6(n+3)(n+5)}{n(n-2)(n-3)}}
    4. 算出結果
      A=6+\frac{8}{\sqrt{\beta_1(b_2)}} [\frac{2}{\sqrt{\beta_1(b_2)}}+\sqrt{1+\frac{4}{\beta_1(b_2)}}]
    5. 尖度の統計Z(b_2)は以下の数式で計算されます。
      Z(b_2)=((1-\frac{2}{9A})-[\frac{1-2/A}{1+x\sqrt{2/(A-4)}}]^{1/3})/\sqrt{2/(9A)}
  • D'Agostinoのカイ二乗統計
    K^2 = Z^2(\sqrt{b_1})+Z^2(b_2)

Chen-Shapiro検定

昇順または降順のどちらかでソートされた観測データ  X\{x_1,x_2,\ldots x_n\}  が与えられる場合、Chen-Shapiro 統計量は次のように定義されます。

QH =\sqrt{N}(1-\frac{1}{(n-1)S}\sum_{i=1}^{n-1}\frac{x_{i+1}-x_i}{H_{i+1}-H_i})

ここで

H_i = \Phi^{-1} ((i-3/8)/(n+1/4)) \Phi^{-1}  は標準正規分布の逆になります。