Algorithmen (Verteilungsanpassung)

Inhalt



Verwenden Sie die Verteilungsanpassung, um eine Verteilung an eine Variable anzupassen.

Es gibt sieben Verteilungen, die verwendet werden können, um eine gegebene Variable anzupassen. Die Maximum-Likelihood-Schätzung (MLE) wird als Parameterschätzer berechnet. Für einige stetige Verteilungen wird nicht nur die Konfidenzgrenze angegeben, sondern auch der Test der Anpassungsgüte angeboten.

Verteilungen und Maximum-Likelihood-Schätzung (MLE)

Normalverteilung

PDF

\frac{1}{\sqrt{2\pi \sigma^2}}\exp [-\frac{(x-\mu)^2}{2\sigma^2}]

wobei -\infty <x, \mu<\infty und 0 < \sigma. Mit E(X)=\mu und Var(X)=\sigma^2.

Maximum-Likelihood-Schätzung (MLE)

Parameter
  • \hat{\mu} = \bar{X}_n
  • \hat{\sigma} = \sqrt{\frac{1}{n}\sum_{i=1}^n (X_i - \bar{X}_n)^2}.
Konfidenzintervalle

Das Konfidenzintervall für \mu und \sigma ist:

\left[ \hat{\mu} - z \hat{\mu}_{se}, \hat{\mu} + z\hat{\mu}_{se} \right]
\left[ \frac{\hat{\sigma}}{\exp \left[ (z \hat{\sigma}_{se})/\hat{\sigma} \right]},\hat{\sigma}\exp \left[ (z \hat{\sigma}_{se})/\hat{\sigma} \right] \right]

wobei z der kritische Wert 0.975 für die Standard-Normalverteilung darstellt, für die das Konfidenzniveau bei 95\% liegt. \hat{\mu}_{se} ist der Standardfehler für \mu und \hat{\sigma}_{se} für \sigma.

LogNormal-Verteilung

PDF

\frac{1}{x\sqrt{2\pi \sigma^2}} exp\left[ -\frac{(\ln(x)-\mu)^2}{2\sigma^2}\right],

wobei0 \leq x, -\infty < \mu < \infty und  0 < \sigma. Mit E(X)=exp(\mu + \sigma^2/2) und Var(X)=exp(2(\mu + \sigma^2)) -exp(2\mu + \sigma^2 ).

Maximum-Likelihood-Schätzung (MLE)

Parameter
  • \hat{\mu} = ln\left(\bar{X}_n \right)
  • \hat{\sigma} =ln\left(\sqrt{\frac{1}{n}\sum_{i=1}^n (X_i - \bar{X}_n)^2} \right).
Konfidenzintervall

Das Konfidenzintervall für \mu und \sigma ist:

\left[ \hat{\mu} - z \hat{\mu}_{se}, \hat{\mu} + z \hat{\mu}_{se} \right]
\left[ \frac{\hat{\sigma}}{\exp \left[ (z \hat{\sigma}_{se})/\hat{\sigma} \right]},\hat{\sigma}\exp \left[ (z \hat{\sigma}_{se})/\hat{\sigma} \right] \right]

wobei z den kritischen Wert 0.975 für die Standard-Normalverteilung darstellt, für die das Konfidenzniveau bei 95\% liegt. \hat{\mu}_{se} ist der Standardfehler für \mu und \hat{\sigma}_{se} für \sigma.

Weibull-Verteilung

PDF

\frac{\beta}{\alpha^\beta}x^{\beta -1} exp\left[ -\left(\frac{x}{\alpha}\right)^\beta\right],

wobei \alpha , \beta > 0. Mit E(X)=\alpha \Gamma \left(1+ \frac{1}{\beta}\right) und Var(X)=\alpha ^2 \{ \Gamma \left(1+\frac{2}{\beta}\right) -\Gamma ^2 \left(1+\frac{1}{\beta} \right) \}.

Maximum-Likelihood-Schätzung (MLE)

Origin ruft eine NAG-Funktion nag_estim_weibull (g07bec) für die MLE der Statistikwerte der Weibull-Verteilung auf. Bitte lesen Sie weitere Einzelheiten zu dem Algorithmus im entsprechenden NAG-Dokument nach.

Exponential-Verteilung

PDF

\frac{1}{\sigma} exp\left[ -\frac{x}{\sigma}\right],

wobei 0 \leq x, -\infty < \mu < \infty und  0 < \sigma. Mit E(X)=\sigma und Var(X)=\sigma^2.

Maximum-Likelihood-Schätzung (MLE)

Parameter

\hat{\sigma} = \bar{X}_n

Konfidenzintervall

Das Konfidenzintervall für \sigma ist:

\left[ \frac{\hat{\sigma}}{\exp \left[ (z \hat{\sigma}_{se})/\hat{\sigma} \right]},\hat{\sigma}\exp \left[ (z \hat{\sigma}_{se})/\hat{\sigma} \right] \right]

wobei z den kritischen Wert 0.975 für die Standard-Normalverteilung darstellt, für die das Konfidenzniveau bei 95\% liegt. \hat{\sigma}_{se} ist der Standardfehler für \sigma.

Gamma-Verteilung

PDF

\frac{1}{\Gamma(\alpha)\sigma^\alpha}x^{\alpha -1} exp(-x/\sigma),

wobei \alpha , \sigma > 0. Mit E(X)=\alpha \sigma und Var(X)=\alpha \sigma ^2.

Maximum-Likelihood-Schätzung (MLE)

Parameter

Es ist nicht einfach, die MLE von \alpha und \sigma manuell zu berechnen. Mit der Newton-Raphson-Methode jedoch können Sie leicht Ihr Ziel erreichen. Um eine gute Wurzel der Likelihood-Schätzung zu erhalten, muss ein geeigneter Anfangsschätzer zur Verfügung stehen, der gegeben werden kann durch: \alpha_0 = \frac{3-s+\sqrt{(s-3)^2+24s}}{12s}$,where $s = \ln \left(\frac{1}{n}\sum_{i=1}^{n}x_i \right) - \frac{1}{n}\sum_{i=1}^{n}\ln (x_i).

Konfidenzintervall

Das Konfidenzintervall für \alpha und \theta ist:

\left[ \hat{\alpha} - z \hat{\alpha}_{se}, \hat{\alpha} + z\hat{\alpha}_{se} \right]
\left[ \frac{\hat{\theta}}{\exp \left[ (z \hat{\theta}_{se})/\hat{\theta} \right]},\hat{\theta}\exp \left[ (z \hat{\theta}_{se})/\hat{\theta} \right] \right]

wobei z den kritischen Wert 0.975 für die Standard-Normalverteilung darstellt, für die das Konfidenzniveau bei 95\% liegt. \hat{\alpha}_{se} ist der Standardfehler für \alpha und \hat{\theta}_{se} für \theta.

Binomial-Verteilung

PDF

\left( \begin{matrix} n \\ x \end{matrix}\right)
p^x (1-p)^{n-x},

wobei 0 \leq p \leq 1 und x=0,1,2,...,n. Mit E(X)=np und Var(X)=np(1-p). Gegeben sind eine Anzahl von Erfolgen x und der Stichprobenumfang. n

Maximum-Likelihood-Schätzung (MLE)

Parameter

\hat{p} = x/n

Konfidenzintervall
\left[\frac{1}{1+z^2/n}\left(\hat{p}+\frac{z^2}{2n} - z \sqrt{\frac{1}{n}\hat{p}(1-\hat{p})+\frac{z^2}{4n^2}}\right),\frac{1}{1+z^2/n}\left(\hat{p}+\frac{z^2}{2n} + z \sqrt{\frac{1}{n}\hat{p}(1-\hat{p})+\frac{z^2}{4n^2}}\right)\right]

wobei z den kritischen Wert 0.975 für die Standard-Normalverteilung darstellt, für die das Konfidenzniveau bei 95\% liegt.

Poisson-Verteilung

PDF

e^{-\lambda}\frac{{\lambda}^x}{x!},

wobei x=1,2,...,n. Mit E(X)=Var(X)=\lambda.

Maximum-Likelihood-Schätzung (MLE)

Parameter

\hat{\lambda} = \frac{1}{n}\sum_{k=1}^{n}x_k.

Konfidenzintervall

Das Konfidenzintervall für \lambda ist:

\left[ \hat{\lambda} - z \sqrt{\hat{\lambda}}, \hat{\lambda} + z \sqrt{\hat{\lambda}} \right]

wobei z den kritischen Wert 0.975 für die Standard-Normalverteilung darstellt, für die das Konfidenzniveau bei 95\% liegt.

Anpassungsgüte

Kolmogorov-Smirnov

Origin ruft eine NAG-Funktion nag_1_sample_ks_test (g08cbc) auf, um die Statistik zu berechnen. Bitte lesen Sie weitere Einzelheiten zu dem Algorithmus im entsprechenden NAG-Dokument nach.

Kolmogorov-Smirnov (Modifiziert)

  • Modifizierte Kolmogorov-Smirnov-Statistik

Die modifizierte Kolmogorov-Smirnov-Statistik ist eine Modifikation der Kolmogorov-Smirnov-Statistik basierend auf verschiedenen Verteilungen.

  • p-Wert

Der p-Wert für die Kolmogorov-Smirnov-Statistik wird auf Grundlage der Tabelle mit den kritischen Werten unten berechnet, die von D’Agostino und Stephens (1986) bereit gestellt wurde. Wenn der Wert von D zwischen den Wahrscheinlichkeitsstufen liegt, wird die lineare Interpolation verwendet, um den p-Wert zu schätzen.


Hier ist D_n die Kolmogorov-Smirnov-Statistik.

Normal-/Lognormal-Verteilung

  • Modifizierte Kolmogorov-Smirnov-Statistik:
D=D_n\left(\sqrt{N}-0.01+\frac{0.85}{\sqrt{N}}\right)
  • Tabelle der kritischen Werte
D <0,775 0,775 0,819 0,895 0,995 1,035 >1,035
p-Wert >=0,15 0,15 0,10 0,05 0,025 0,01 <=0,01


Weibull-Verteilung

  • Modifizierte Kolmogorov-Smirnov-Statistik:
D=D_n\sqrt{N}
  • Tabelle der kritischen Werte
D <1,372 1,372 1,477 1,577 1,671 >1,671
p-Wert >=0,1 0,1 0,05 0,025 0,01 <=0,01

Exponential-Verteilung

  • Modifizierte Kolmogorov-Smirnov-Statistik:
D=\left(D_n-\frac{0.2}{N}\right)\left(\sqrt{N}+0.26+\frac{0.5}{\sqrt{N}}\right)
  • Tabelle der kritischen Werte
D <0,926 0,926 0,995 1,094 1,184 1,298 >1,298
p-Wert >=0,15 0,15 0,10 0,05 0,025 0,01 <=0,01


Gamma-Verteilung

  • Modifizierte Kolmogorov-Smirnov-Statistik:
D=D_n\left(\sqrt{N}+\frac{0.3}{\sqrt{N}}\right)
  • Tabelle der kritischen Werte
D <0,74 0,74 0,780 0,800 0,858 0,928 0,990 1,069 1,13 >1,13
p-Wert >=0,25 0,25 0,20 0,15 0,10 0,05 0,025 0,01 0,005 <=0,005

Anderson-Darling

  • Anderson-Darling-Statistik
z=-N-\sum_{i=1}^n\frac{(2i-1)}{N}\left[lnF(Y_i)+ln(1-F(Y_{N+1-i})\right]
wobei
  • F die kumulative Verteilungsfunktion der festgelegten Verteilung ist.
  • Y_i die geordneten Datenpunkte sind: Y_{1} \leq Y_2 \leq ... \leq Y_{n-1} \leq Y_n
  • p-Wert
    Der p-Wert für die Angepasste Anderson-Darling-Statistik wird auf Grundlage der Tabelle mit den kritischen Werten unten berechnet, die von D’Agostino und Stephens (1986) bereit gestellt wurde. Wenn der Wert von z^{*} zwischen den Wahrscheinlichkeitsstufen liegt, wird die lineare Interpolation verwendet, um den p-Wert zu schätzen.

Normal-/Lognormal-Verteilung

  • Angepasste Anderson-Darling-Statistik
z^*=z\left(1 + \frac{0.75}{N}+\frac{2.25}{N^2}\right)
  • p-Wert
p=\begin{cases}
1-e^{-13.436+101.14z^{*}-223.73z^{*2}}, z^{*}  \leq 0.2\\
1-e^{-8.318+42.796z^{*}-59.938z^{*2}}, 0.2 < z^{*}  \leq 0.34\\
e^{0.9177-4.279z^{*}-1.38z^{*2}}, 0.34 < z^{*}  \leq 0.6\\
e^{1.2937-5.709z^{*}+0.0186z^{*2}}, z^{*}  \geq 153.467
\end{cases}

Weibull-Verteilung

  • Angepasste Anderson-Darling-Statistik
    z^{*}=\left(1+\frac{0.2}{N}\right)
  • Tabelle der kritischen Werte
z^{*} <0,474 0,474 0,637 0,757 0,877 1,038 >1,038
p-Wert >=0,25 0,25 0,10 0,05 0,025 0,01 <=0,01

Exponential-Verteilung

  • Angepasste Anderson-Darling-Statistik
    z^{*}=z\left(1+\frac{0.6}{N}\right)
  • p-Wert
p=\begin{cases}
1-e^{-12.2204+67.459z^{*}-110.3z^{*2}}, z^{*}  \leq 0.26\\
1-e^{-6.1327+20.218z^{*}-18.663z^{*2}}, 0.26 < z^{*}  \leq 0.51\\
e^{0.9209-3.353z^{*}-0.3z^{*2}}, 0.51 < z^{*}  \leq 0.95\\
e^{0.731-3.009z^{*}+0.15z^{*2}}, 0.95 < z^{*}  \leq 10.03\\
0, z^{*}  \geq 10.03
\end{cases}


Gamma-Verteilung

  • Tabelle der kritischen Werte
0 < \alpha \leq 1
z <0,486 0,486 0,657 0,786 0,917 1,092 1,227 >1,227
p-Wert >=0,25 0,25 0,10 0,05 0,025 0,01 0,005 <=0,005


1 < \alpha \leq 8
z <0,473 0,473 0,637 0,759 0,883 1,048 1,173 >1,173
p-Wert >=0,25 0,25 0,10 0,05 0,025 0,01 0,005 <=0,005


\alpha \geq 8
z <0,470 0,470 0,631 0,752 0,873 1,035 1,159 >1,159
p-Wert >=0,25 0,25 0,10 0,05 0,025 0,01 0,005 <=0,005

Mittelwerttest

z-Test

Teststatistik

t=\frac{\bar{x}-\mu_0}{\sigma/\sqrt{n}}

wobei

  • \bar{x}: \frac{1}{n}\sum_{i=1}^n x_i
  • \mu_0: Der festgelegte Testmittelwert
  • \sigma: Die festgelegte Standardabweichung

p-Wert

Das P wird basierend auf einer approximativen Statistik des Tests auf Normalverteilung Z wiedergegeben.


Konfidenzintervalle

Für das festgelegte Signifikanzniveau ist das Konfidenzintervall für den Stichprobenmittelwert:

Nullhypothese Konfidenzintervall
H_0:z=z_0\,\! \left[\bar{x}-Z_{\frac{\sigma}{2}}(\frac{\sigma}{\sqrt{n}}),\bar{x}+Z_{\frac{\sigma}{2}}(\frac{\sigma}{\sqrt{n}})\right]
H_0:z \le z_0 \left[\bar{x}-Z_{\frac{\sigma}{2}}(\frac{\sigma}{\sqrt{n}}), \infty\right]
H_0:z \ge z_0 \left[-\infty, \bar{x}+Z_{\frac{\sigma}{2}}(\frac{\sigma}{\sqrt{n}})\right]

t-Test

Algorithmen (t-Test bei einer Stichprobe)