アルゴリズム (相関係数)


異なる環境下で使用するのに適した係数が数多くあります。その中で、最も頻繁に使われるのは、ピアソンの積率相関係数です。

ピアソンの積率相関係数

ピアソンの積率相関係数は、2つの変数間の線形の関係を測定するものです。

 \sigma _x\,  および \sigma _y\,  をそれぞれ2つの変数 X および Y の標準偏差とします。そのとき、変数間のピアソンの積率相関係数は、次式で求められます。

\rho _{x,y}=\frac{cov(X,Y)}{\sigma _x\sigma _y}=\frac{E((X-E(X))(Y-E(Y)))}{\sigma _x\sigma _y}

ここで E(?) は変量の期待値、cov(?) は共分散を表しています。

この方法を使うには、区間データは観測データから求められ、変数は正規分布に従うものとします。結果に影響を及ぼすことが多いので、データには極値は含まれません。ピアソンの積率相関係数は、変数に非線形の関係がある場合、誤解を招くような小さい値になることがあります。

スピアマンの順位相関係数

スピアマンの順位相関係数はノンパラメトリックであるため、正規分布に従わないデータに適しています。2変数間に非線形の関係が認められる場合に良い結果となります。これは次式のように定義できます。

r^{\prime }=1-6\sum \frac{d^2}{N(N^2-1)}

ここで、 d は、対応する変数の統計上の順位の差です。

統計上の順位は、リスト内の値の序数であるため、スピアマンの順位相関係数は、変数の実際の値が不明な場合でも計算することができます。

ケンドールの相関係数

ケンドールの相関係数または ケンドール のタウは、その前提と統計的な検出力の点ではスピアマンの順位相関と同じです。しかし、ケンドールの相関係数には、直感的に説明できる点があります。そして、その代数構造はより単純です。さらに、計算を実行する前にデータの順序を必要としません。

ケンドール の相関係数は次式で計算されます。

t=\frac{C-D}{\sqrt{q}}

ここでCは、一致する対のデータ (同じ符号を持つ対の観測値)の数で、Dは、 一致しない対のデータ (異なる符号を持つ対の観測値)の数です。

rの有意レベル

  • ピアソンとスピアマンタイプ

ピアソンスピアマンの相関では、次のように定義します。

 t = |r\sqrt{\frac{N-2}{1-r^2}}|

ここで、rは2つの変数の相関で、Nは観測値の数です。

tはN-2の自由度を元にしたt分布に基づきます。両端の有意水準レベルは以下のように計算されます。

 p=2(1-\mbox{tcdf} (t,N-2))\;
  • ケンドールタイプ

ケンドールの相関では次のように定義します。

 z=\frac{r\sqrt{q}}{\sqrt{v}}

ここで

v_0 = N(N-1)(2N+5)\;
\tau = \sum_{k} t_k (t_k-1)\;
\tau_1 = \sum_{k} t_k (t_k-1)(t_k-2)\;
\tau_2 = \sum_{k} t_k (t_k-1)(2t_k+5)\;
t_k \mbox{ is the number of tied values in the kth group of ties for a variable.}\;
q=(N(N-1)/2-\tau(i)/2)(N(N-1)/2-\tau(j)/2)\;
v=(v_0-\tau_2(i)-\tau_2(j))/18 + \tau (i)\tau (j)/(2N(N-1)) + \tau_1 (i)\tau_1 (j)/(9N(N-1)(N-2)) \;
r \mbox{ is the correlation between variable } i \mbox{ and variable } j. \;

Zは標準正規分布から近似値を求められます。両端の有意水準レベルは次のようになります。

 p=2(1-\mbox{normcdf} (\mbox{abs} (z)))\;