アルゴリズム(分布フィット)

内容

  1. 1 分布と最尤法(MLE)
    1. 1.1 正規分布
      1. 1.1.1 PDF
      2. 1.1.2 最尤法(MLE)
        1. 1.1.2.1 パラメータ
        2. 1.1.2.2 信頼区間
    2. 1.2 対数正規分布
      1. 1.2.1 PDF
      2. 1.2.2 最尤法(MLE)
        1. 1.2.2.1 パラメータ
        2. 1.2.2.2 信頼区間
    3. 1.3 ワイブル分布
      1. 1.3.1 PDF
      2. 1.3.2 最尤法(MLE)
    4. 1.4 指数分布
      1. 1.4.1 PDF
      2. 1.4.2 最尤法(MLE)
        1. 1.4.2.1 パラメータ
        2. 1.4.2.2 信頼区間
    5. 1.5 ガンマ分布
      1. 1.5.1 PDF
      2. 1.5.2 最尤法(MLE)
        1. 1.5.2.1 パラメータ
        2. 1.5.2.2 信頼区間
    6. 1.6 二項分布
      1. 1.6.1 PDF
      2. 1.6.2 最尤法(MLE)
        1. 1.6.2.1 パラメータ
        2. 1.6.2.2 信頼区間
    7. 1.7 ポアソン分布
      1. 1.7.1 PDF
      2. 1.7.2 最尤法(MLE)
        1. 1.7.2.1 パラメータ
        2. 1.7.2.2 信頼区間
  2. 2 フィットの良さ(適合度)
    1. 2.1 Kolmogorov-Smirnov
    2. 2.2 Kolmogorov-Smirnov(修正)
      1. 2.2.1 正規/対数正規分布
      2. 2.2.2 ワイブル分布
      3. 2.2.3 指数分布
      4. 2.2.4 ガンマ分布
    3. 2.3 Anderson-Darling検定
      1. 2.3.1 正規/対数正規分布
      2. 2.3.2 ワイブル分布
      3. 2.3.3 指数分布
      4. 2.3.4 ガンマ分布
  3. 3 平均値検定
    1. 3.1 Z検定
      1. 3.1.1 検定の統計
      2. 3.1.2 P値
      3. 3.1.3 信頼区間
    2. 3.2 T検定



変数に分布をフィットするために分布フィットを使用します。

与えられた変数のフィットには、7つの分布を使用できます。パラメータ推定量として最尤法を計算します。いくつかの連続分布では、信頼限界だけでなくフィットの良さの検定を利用できます。

分布と最尤法(MLE)

正規分布

PDF

\frac{1}{\sqrt{2\pi \sigma^2}}\exp [-\frac{(x-\mu)^2}{2\sigma^2}]

ここで -\infty <x, \mu<\infty かつ0 < \sigmaです。E(X)=\muVar(X)=\sigma^2です。

最尤法(MLE)

パラメータ
  • \hat{\mu} = \bar{X}_n
  • \hat{\sigma} = \sqrt{\frac{1}{n}\sum_{i=1}^n (X_i - \bar{X}_n)^2}.
信頼区間

\mu\sigma の信頼区間は

\left[ \hat{\mu} - z \hat{\mu}_{se}, \hat{\mu} + z\hat{\mu}_{se} \right]
\left[ \frac{\hat{\sigma}}{\exp \left[ (z \hat{\sigma}_{se})/\hat{\sigma} \right]},\hat{\sigma}\exp \left[ (z \hat{\sigma}_{se})/\hat{\sigma} \right] \right]

ここで z は、信頼水準 95\% の標準正規分布の 0.975 棄却値です。\hat{\mu}_{se} は、\hat{\sigma}_{se}\sigmaである時の\muの標準誤差です。

対数正規分布

PDF

\frac{1}{x\sqrt{2\pi \sigma^2}} exp\left[ -\frac{(\ln(x)-\mu)^2}{2\sigma^2}\right]

ここで 0 \leq x, -\infty < \mu < \infty かつ 0 < \sigmaです。E(X)=exp(\mu + \sigma^2/2)Var(X)=exp(2(\mu + \sigma^2)) -exp(2\mu + \sigma^2 )です。

最尤法(MLE)

パラメータ
  • \hat{\mu} = ln\left(\bar{X}_n \right)
  • \hat{\sigma} =ln\left(\sqrt{\frac{1}{n}\sum_{i=1}^n (X_i - \bar{X}_n)^2} \right).
信頼区間

\mu\sigma の信頼区間は

\left[ \hat{\mu} - z \hat{\mu}_{se}, \hat{\mu} + z \hat{\mu}_{se} \right]
\left[ \frac{\hat{\sigma}}{\exp \left[ (z \hat{\sigma}_{se})/\hat{\sigma} \right]},\hat{\sigma}\exp \left[ (z \hat{\sigma}_{se})/\hat{\sigma} \right] \right]

ここで z は、信頼水準 95\% の標準正規分布の 0.975 棄却値です。\hat{\mu}_{se} は、\hat{\sigma}_{se}\sigmaである時の\muの標準誤差です。

ワイブル分布

PDF

\frac{\beta}{\alpha^\beta}x^{\beta -1} exp\left[ -\left(\frac{x}{\alpha}\right)^\beta\right],

ここで、\alpha , \beta > 0です。E(X)=\alpha \Gamma \left(1+ \frac{1}{\beta}\right)Var(X)=\alpha ^2 \{ \Gamma \left(1+\frac{2}{\beta}\right) -\Gamma ^2 \left(1+\frac{1}{\beta} \right) \}です。

最尤法(MLE)

Originは、ワイブル分布の統計の(MLE) のためにNAG関数 nag_estim_weibull (g07bec) を呼び出します。アルゴリズムについての詳細は、関連のNAG文書を参照して下さい。

指数分布

PDF

\frac{1}{\sigma} exp\left[ -\frac{x}{\sigma}\right]

ここで 0 \leq x, -\infty < \mu < \infty かつ 0 < \sigmaです。E(X)=\sigmaVar(X)=\sigma^2です。

最尤法(MLE)

パラメータ

\hat{\sigma} = \bar{X}_n

信頼区間

\sigma の信頼区間は

\left[ \frac{\hat{\sigma}}{\exp \left[ (z \hat{\sigma}_{se})/\hat{\sigma} \right]},\hat{\sigma}\exp \left[ (z \hat{\sigma}_{se})/\hat{\sigma} \right] \right]

ここで z は、信頼水準 95\% の標準正規分布の 0.975 棄却値です。\hat{\sigma}_{se}\sigma の標準誤差です。

ガンマ分布

PDF

\frac{1}{\Gamma(\alpha)\sigma^\alpha}x^{\alpha -1} exp(-x/\sigma),

ここで、\alpha , \sigma > 0です。E(X)=\alpha \sigmaVar(X)=\alpha \sigma ^2です。

最尤法(MLE)

パラメータ

\alpha\sigma のMLEを手動で計算するのは、簡単ではありません。しかし、Newton-Raphsonメソッドを使用すれば、簡易化できます。尤度関数の平方根を生成するために、次式であらわされる、適切な初期推定値が必要です。 \alpha_0 = \frac{3-s+\sqrt{(s-3)^2+24s}}{12s}$,where $s = \ln \left(\frac{1}{n}\sum_{i=1}^{n}x_i \right) - \frac{1}{n}\sum_{i=1}^{n}\ln (x_i).

信頼区間

\alpha\theta の信頼区間は

\left[ \hat{\alpha} - z \hat{\alpha}_{se}, \hat{\alpha} + z\hat{\alpha}_{se} \right]
\left[ \frac{\hat{\theta}}{\exp \left[ (z \hat{\theta}_{se})/\hat{\theta} \right]},\hat{\theta}\exp \left[ (z \hat{\theta}_{se})/\hat{\theta} \right] \right]

ここで z は、信頼水準 95\% の標準正規分布の 0.975 棄却値です。\hat{\alpha}_{se} は、\hat{\theta}_{se}\thetaである時の\alphaの標準誤差です。

二項分布

PDF

\left( \begin{matrix} n \\ x \end{matrix}\right) p^x (1-p)^{n-x},

ここで 0 \leq p \leq 1 かつx=0,1,2,...,nです。E(X)=npVar(X)=np(1-p)です。与えられた成功数 x とサンプルサイズ n です。

最尤法(MLE)

パラメータ

\hat{p} = x/n

信頼区間
\left[\frac{1}{1+z^2/n}\left(\hat{p}+\frac{z^2}{2n} - z \sqrt{\frac{1}{n}\hat{p}(1-\hat{p})+\frac{z^2}{4n^2}}\right),\frac{1}{1+z^2/n}\left(\hat{p}+\frac{z^2}{2n} + z \sqrt{\frac{1}{n}\hat{p}(1-\hat{p})+\frac{z^2}{4n^2}}\right)\right]

ここで z は、信頼水準 95\% の標準正規分布の 0.975 棄却値です。

ポアソン分布

PDF

e^{-\lambda}\frac{{\lambda}^x}{x!},

ここで、x=1,2,...,nです。E(X)=Var(X)=\lambdaです。

最尤法(MLE)

パラメータ

\hat{\lambda} = \frac{1}{n}\sum_{k=1}^{n}x_k.

信頼区間

\lambda の信頼区間は

\left[ \hat{\lambda} - z \sqrt{\hat{\lambda}}, \hat{\lambda} + z \sqrt{\hat{\lambda}} \right]

ここで z は、信頼水準 95\% の標準正規分布の 0.975 棄却値です。

フィットの良さ

Kolmogorov-Smirnov

Originは、この統計量を計算するのに、NAG関数nag_1_sample_ks_test (g08cbc) を呼び出します。アルゴリズムについての詳細は、関連のNAG文書を参照して下さい。

Kolmogorov-Smirnov(修正)

  • 修正Kolmogorov-Smirnov 統計

修正Kolmogorov-Smirnov 統計は、異なる分布をベースにしたKolmogorov-Smirnov 統計の修正です。

  • P値

Kolmogorov-Smirnov のp値は、D’Agostino と Stephens (1986)による以下の棄却値表をベースにして計算されます。Dの値が2つの確率レベル間にある場合、p値の推定に線形補間が使用されます。


ここで D_n は、Kolmogorov-Smirnov 統計です。

正規/対数正規分布

  • 修正Kolmogorov-Smirnov 統計
D=D_n\left(\sqrt{N}-0.01+\frac{0.85}{\sqrt{N}}\right)
  • 棄却値表
D <0.775 0.775 0.819 0.895 0.995 1.035 >1.035
P値 >=0.15 0.15 0.10 0.05 0.025 0.01 <=0.01


ワイブル分布

  • 修正Kolmogorov-Smirnov 統計
D=D_n\sqrt{N}
  • 棄却値表
D <1.372 1.372 1.477 1.577 1.671 >1.671
P値 >=0.1 0.1 0.05 0.025 0.01 <=0.01

指数分布

  • 修正Kolmogorov-Smirnov 統計
D=\left(D_n-\frac{0.2}{N}\right)\left(\sqrt{N}+0.26+\frac{0.5}{\sqrt{N}}\right)
  • 棄却値表
D <0.926 0.926 0.995 1.094 1.184 1.298 >1.298
P値 >=0.15 0.15 0.10 0.05 0.025 0.01 <=0.01


ガンマ分布

  • 修正Kolmogorov-Smirnov 統計
D=D_n\left(\sqrt{N}+\frac{0.3}{\sqrt{N}}\right)
  • 棄却値表
D <0.74 0.74 0.780 0.800 0.858 0.928 0.990 1.069 1.13 >1.13
P値 >=0.25 0.25 0.20 0.15 0.10 0.05 0.025 0.01 0.005 <=0.005

Anderson-Darling

  • Anderson-Darling 統計
z=-N-\sum_{i=1}^n\frac{(2i-1)}{N}\left[lnF(Y_i)+ln(1-F(Y_{N+1-i})\right]
ここで
  • F は指定した分布の累積分布関数を表しています。
  • Y_i は順序データです: Y_{1} \leq Y_2 \leq ... \leq Y_{n-1} \leq Y_n
  • P値
    調整されたAnderson-Darlingのp値は、D’Agostino と Stephens (1986)による以下の棄却値表をベースにして計算されます。z^{*}の値が2つの確率レベル間にある場合、p値の推定に線形補間が使用されます。

正規/対数正規分布

  • 調整Anderson-Darling 統計
z^*=z\left(1 + \frac{0.75}{N}+\frac{2.25}{N^2}\right)
  • P値
p=\begin{cases} 1-e^{-13.436+101.14z^{*}-223.73z^{*2}}, z^{*} \leq 0.2\ 1-e^{-8.318+42.796z^{*}-59.938z^{*2}}, 0.2 < z^{*} \leq 0.34\ e^{0.9177-4.279z^{*}-1.38z^{*2}}, 0.34 < z^{*} \leq 0.6\ e^{1.2937-5.709z^{*}+0.0186z^{*2}}, z^{*} \geq 153.467 \end{cases}

ワイブル分布

  • 調整Anderson-Darling 統計
    z^{*}=\left(1+\frac{0.2}{N}\right)
  • 棄却値表
z^{*} <0.474 0.474 0.637 0.757 0.877 1.038 >1.038
P値 >=0.25 0.25 0.10 0.05 0.025 0.01 <=0.01

指数分布

  • 調整Anderson-Darling 統計
    z^{*}=z\left(1+\frac{0.6}{N}\right)
  • P値
p=\begin{cases} 1-e^{-12.2204+67.459z^{*}-110.3z^{*2}}, z^{*} \leq 0.26\ 1-e^{-6.1327+20.218z^{*}-18.663z^{*2}}, 0.26 < z^{*} \leq 0.51\ e^{0.9209-3.353z^{*}-0.3z^{*2}}, 0.51 < z^{*} \leq 0.95\ e^{0.731-3.009z^{*}+0.15z^{*2}}, 0.95 < z^{*} \leq 10.03\ 0, z^{*} \geq 10.03 \end{cases}


ガンマ分布

  • 棄却値表
 0 < \alpha \leq 1
z <0.486 0.486 0.657 0.786 0.917 1.092 1.227 >1.227
P値 >=0.25 0.25 0.10 0.05 0.025 0.01 0.005 <=0.005


 1 < \alpha \leq 8
z <0.473 0.473 0.637 0.759 0.883 1.048 1.173 >1.173
P値 >=0.25 0.25 0.10 0.05 0.025 0.01 0.005 <=0.005


 \alpha \geq 8
z <0.470 0.470 0.631 0.752 0.873 1.035 1.159 >1.159
P値 >=0.25 0.25 0.10 0.05 0.025 0.01 0.005 <=0.005

平均値検定

Z検定

検定統計量

t=\frac{\bar{x}-\mu_0}{\sigma/\sqrt{n}}

ここで

  • \bar{x}: \frac{1}{n}\sum_{i=1}^n x_i
  • \mu_0:指定された検定平均
  • \sigma:指定された標準偏差

P値

P は、推定正規検定統計 Z をベースにして返されます。


信頼区間

指定した有意水準で、標本の平均に対する信頼区間は次式になります。

帰無仮説 信頼区間
H_0:z=z_0\,\! \left[\bar{x}-Z_{\frac{\sigma}{2}}(\frac{\sigma}{\sqrt{n}}),\bar{x}+Z_{\frac{\sigma}{2}}(\frac{\sigma}{\sqrt{n}})\right]
H_0:z \le z_0 \left[\bar{x}-Z_{\frac{\sigma}{2}}(\frac{\sigma}{\sqrt{n}}), \infty\right]
H_0:z \ge z_0 \left[-\infty, \bar{x}+Z_{\frac{\sigma}{2}}(\frac{\sigma}{\sqrt{n}})\right]

T検定

 アルゴリズム(1集団のt検定)