アルゴリズム (クロス集計)

目次

  1. 1 クロス集計の手法
    1. 1.1 度数カウント
    2. 1.2 周辺とセル
    3. 1.3 カイ二乗統計
    4. 1.4 フィッシャーの正確確率検定
      1. 1.4.1 片側検定
      2. 1.4.2 両側
    5. 1.5 関連性の尺度
    6. 1.6 一致性の尺度
    7. 1.7 オッズ比と相対危険度
      1. 1.7.1 オッズ比
      2. 1.7.2 相対危険度
    8. 1.8 Cochran-Mantel-Haenszel
      1. 1.8.1 Mantel-Haenszel 統計
      2. 1.8.2 Breslow-Day 統計
      3. 1.8.3 タローンの統計
      4. 1.8.4 共通オッズ比


クロス集計は、分割表とも呼ばれます。この機能は、変数間の関連の存在や強さを確かめるために使用されます。

クロス集計の手法

  • 度数カウント
  • 周辺とセル
  • カイ二乗検定表
  • フィッシャーの正確確率検定 (2 x 2のみ)
  • 関連性の尺度
  • 一致性の尺度
  • オッズ比と相対危険度 (2 x 2のみ)
  • Cochran-Mantel-Haenszel

度数カウント

定義

X_i は昇順の行変数の明確な値で、たとえば、X_1 < X_2 < \cdots X_R
Y_i は昇順の列変数の明確な値で、たとえば、Y_1 < Y_2 < \cdots Y_C
f_{ij} はセル (i,j) についての度数
r_i = \sum_{j=1}^{C}f_{ij}i 番目の行の小計
c_j = \sum_{i=1}^{R}f_{ij}j 番目の列の小計
N = \sum_{j=1}^{C}c_j = \sum_{i=1}^{R}r_i は総計

周辺とセル

統計 式および説明
度数 f_{ij}
期待度数 E_{ij} = \frac{r_i c_j}{N}
行パーセント 100*\frac{f_{ij}}{r_i}
列パーセント 100*\frac{f_{ij}}{c_j}
合計パーセント 100*\frac{f_{ij}}{N}
残差 R_{ij} = f_{ij} - E_{ij}
標準化残差 StdR_{ij} = \frac{R_{ij}}{\sqrt{E_{ij}}}
調整済み残差 AdjR_{ij} = \frac{R_{ij}}{\sqrt{E_{ij}\left(1-\frac{r_i}{N}\right)\left(1-\frac{c_j}{N}\right)}}

カイ二乗統計

統計 式および説明 自由度
ピアソンのカイ二乗 \chi_p^2 = \sum_{ij} \frac{(f_{ij}-E_{ij})^2}{E_{ij}} (R-1)(C-1)
尤度比 \chi_{LR}^2 = -2\sum_{ij} f_{ij} \ln (E_{ij}/f_{ij}) (R-1)(C-1)
線形関連 \chi_{LA}^2 = (N-1)r^2, ここで r はピアソンの相関係数 1
連続補正 \chi_C^2 = \frac{N(|f_{11}f_{22}-f_{12}f_{21}|-0.5N)^2}{r_1r_2c_1c_2} I(|f_{11}f_{22}-f_{12}f_{21}|>0.5N), これは 2 x 2 表でのみ計算 1

フィッシャーの正確確率検定

この検定は、期待セル度数が低い(5よりも低い)とき便利です。2 x 2 表でのみ計算されます。次のような表を考えます。

  X_1 X_2 小計/合計
Y_1 n_1 n_3 n_1+n_3
Y_2 n_2 n_4 n_2+n_4
小計/合計 n_1+n_2 n_3+n_4 N

帰無仮説(独立)下で、最初のセルN_1の度数は、以下で与えられる確率の超幾何分布です。

Pr(N_1=n_1) = \frac{(n_1+n_2)!(n_3+n_4)!(n_1+n_3)!(n_2+n_4)!}{N!n_1!n_2!n_3!n_4!}, \max(0,n_1-n_4)\leq N_1 \leq \min(n_1+n_2,n_1+n_3).

片側検定

片側検定の有意水準は以下で計算されます。

p(左片側検定) = Pr(N_1\leq n_1)
p(右片側検定) = Pr(N_1\geq n_1)

両側

両側の有意性は

p_2 = p_1 + p_3

ここで

n_{1}\leq (n_{1}+n_{2})(n_{1}+n_{3})/N の場合 p_{1}= Pr(N_1\leq n_1)
n_{1}>(n_{1}+n_{2})(n_{1}+n_{3})/N の場合 p_{1}= Pr(N_1\geq n_1)


p_3 = \sum_{x:\text{ between }\min(n_1+n_2,n_1+n_3) \text{ and } (n_1+1); Pr(N_1=x) \leq Pr(N_1=n_1)} Pr(N_1=x)

関連性の尺度

定義

D_r = N^2 - \sum_{i=1}^{R}r_i^2
D_c = N^2 - \sum_{j=1}^{C}c_j^2
C_{ij} = \sum_{h<i}\sum_{k<j}f_{hk}+\sum_{h>i}\sum_{k>j}f_{hk}
D_{ij} = \sum_{h<i}\sum_{k>j}f_{hk}+\sum_{h>i}\sum_{k<j}f_{hk}
P = \sum_{ij}f_{ij}C_{ij}
Q = \sum_{ij}f_{ij}D_{ij}
r_i = \sum_{j=1}^{C}f_{ij}i 番目の行の小計
c_j = \sum_{i=1}^{R}f_{ij}j 番目の列の小計
N = \sum_{j=1}^{C}c_j = \sum_{i=1}^{R}r_i は総計
統計 式および説明 標準誤差
Phi 係数 \phi = \sqrt{\chi_p^2/N}, これは 2 x 2 表でないとき計算。2 x 2 表の場合 r に等しい。

[0,M] からの値の範囲, ここで M = min(\sqrt{R-1},\sqrt{C-1})

 
クラメールのV V = \sqrt{\frac{\chi_p^2}{N\min\{R,C\}}}  
C係数 CC = \sqrt{\frac{\chi_p^2}{\chi_p^2+N}}  
ガンマ \gamma = \frac{P-Q}{P+Q} \frac{2}{P+Q}\sqrt{\sum_{ij}f_{ij}(C_{ij}-D_{ij})^2-\frac{1}{N}(P-Q)^2}
ケンドール タウb \tau_b = \frac{P-Q}{\sqrt{D_rD_c}} 2\sqrt{\frac{1}{D_rD_c}\left[\sum_{ij}f_{ij}(C_{ij}-D_{ij})^2-\frac{1}{N}(P-Q)^2\right]}
タウc \tau_c = \frac{(P-Q)q}{N^2(q-1)}, ここで q = \min\{R,C\} \frac{2q}{N^2(q-1)}\sqrt{\sum_{ij}f_{ij}(C_{ij}-D_{ij})^2-\frac{1}{N}(P-Q)^2}
SomersのD C|R d_{C|R} = \frac{P-Q}{D_r} \frac{2}{D_r}\sqrt{\sum_{ij}f_{ij}(C_{ij}-D_{ij})^2-\frac{1}{N}(P-Q)^2}
R|C d_{R|C} = \frac{P-Q}{D_c} \frac{2}{D_c}\sqrt{\sum_{ij}f_{ij}(C_{ij}-D_{ij})^2-\frac{1}{N}(P-Q)^2}
対称 d = 2\frac{P-Q}{D_c+D_r} \frac{4}{D_c+D_r}\sqrt{\sum_{ij}f_{ij}(C_{ij}-D_{ij})^2-\frac{1}{N}(P-Q)^2}
ラムダ C|R \lambda_{C|R} = \frac{1}{N-c_m}\left(\sum_{i=1}^{R}f_{im}-c_m\right), ここで f_{im} はi番目の行で最も大きな度数、c_m は最も大きな列小計 \sqrt{ \frac{ N - \displaystyle\sum_{i=1}^{R} f_{im} }{ (N-c_m)^3 } \left(\sum_{i=1}^{R} f_{im} + c_m -2\sum_{i=1}^{R} (f_{im}|l_i=l) \right) },

ここで l_if_{im} の列インデックス、 lc_m の列小計のインデックス

R|C \lambda_{R|C} = \frac{1}{N-r_m}\left(\sum_{j=1}^{C}f_{mj}-r_m\right),

ここで f_{mj} はj番目の列で最も大きな度数、r_m は最も大きな行小計

\sqrt{ \frac{ N - \displaystyle\sum_{j=1}^{C} f_{mj} }{ (N-r_m)^3 } \left(\sum_{j=1}^{C} f_{mj} + r_m -2\sum_{j=1}^{C} (f_{mj}|k_j=k) \right) },

ここで k_jf_{mj} の行インデックス、kr_m の行小計のインデックス

対称 \lambda = \frac { \displaystyle \sum_{i=1}^{R}f_{im} + \sum_{j=1}^{C}f_{mj} - c_m - r_m }{2N-r_m-c_m} \frac{1}{w^2} \sqrt{ wvy - 2w^2\left( N-\sum_{i=1}^{R} (f_{im}|i=k_{l_i}) \right) - 2v^2(N-f_{kl}) }

ここで w=2N-r_m-c_m, v = 2N - \sum_{i=1}^{R}f_{im} - \sum_{j=1}^{C}f_{mj}, x = \sum_{i=1}^R (f_{im}|l_i=l) + \sum_{j=1}^C (f_{mj}|k_j=k) + f_{km} + f_{ml}, および y = 8N - w - v - 2x

不確実性 C|R U_{R|C} = \frac{U(X)+U(Y)-U(XY)}{U(Y)}, ここで U(X) = -\sum_{i=1}^{R}\frac{r_i}{N}\ln\frac{r_i}{N}, および U(Y) = -\sum_{j=1}^{C}\frac{c_j}{N}\ln\frac{c_j}{N}, および U(XY) = -\sum_{ij}\frac{f_{ij}}{N}\ln\frac{f_{ij}}{N} \frac{1}{NU(Y)}\sqrt{P-N\left(U(X)+U(Y)-U(XY)\right)^2}, ここで P = \sum_{ij}f_{ij}\ln\left(\frac{r_ic_j}{f_{ij}N}\right)^2
R|C U_{C|R} = \frac{U(X)+U(Y)-U(XY)}{U(X)} \frac{1}{NU(X)}\sqrt{P-N\left(U(X)+U(Y)-U(XY)\right)^2}
対称 U = 2\frac{U(X)+U(Y)-U(XY)}{U(X)+U(Y)} \frac{2}{N(U(X)+U(Y))}\sqrt{P-\frac{1}{N}\left(U(X)+U(Y)-U(XY)\right)^2}

一致性の尺度

この表は(1) R=C であるような正方形の表かつ、(2)行変数と列変数が同じ値を持つときに計算されます。

カッパ統計は次式で計算されます。

 \kappa = \frac{N\sum_{i=1}^{R}f_{ii} - \sum_{i=1}^{R}r_ic_i}{N^2 - \sum_{i=1}^{R}r_ic_i}

昇順誤差は以下で推定されます。

SE_1 = \frac{1}{1-p_e} \sqrt{ \frac{A+B-C}{N} }.

ここで p_e = \frac{ \sum_{i=1}^R r_i c_i }{ N^2 },  A = \sum_{i=1}^R \frac{f_{ii}}{N} \left( 1-\frac{(r_i+c_i)(1- \kappa)}{N} \right)^2,
B = (1-\kappa)^2 \sum_{i=1}^R \sum_{j=1, j \ne i}^{C} \frac{f_{ij} (r_i+c_j)^2}{N^3} および C = \Bigl( \kappa - p_e( 1-\kappa ) \Bigr)^2

帰無仮説\kappa = 0下の対応する漸近的標準誤差は以下で与えられます。

SE_0 = \sqrt{\frac{1}{N\left(N^2 - \sum_{i=1}^{R}r_ic_i\right)^2} \left[N^2\sum_{i=1}^{R}r_ic_i + \left(\sum_{i=1}^{R}r_ic_i\right)^2 - N \sum_{i=1}^{R}r_ic_i(r_i+c_i)\right]}

他の関連する統計はBowkerで、これは全ての対の検定H_0: p_{ij} = p_{ji}に使用されます。R>2 の場合以下のように計算されます。

Bo = \sum_{i=1}^R \sum_{j=1}^{j<i}\frac{(f_{ij}-f_{ji})^2}{f_{ij}+f_{ji}}

大きなサンプルでは、Bo は自由度 0.5R(R-1) の漸近的なカイ二乗分布です。

2 x 2 表ではBowker'の検定はMcNemarの検定に等しくなります。そのためBowkerの検定のみ提供します。

オッズ比と相対危険度

これらは、2 x 2 表でのみ計算されます。

オッズ比

オッズ比は以下のように計算されます。

OR = \frac{f_{11}f_{22}}{f_{12}f_{21}}

相対危険度

相対危険度は以下のように与えられます。

P(Y_1|X_1)/P(Y_1|X_2) = \frac{f_{11}(f_{21}+f_{22})}{f_{21}(f_{11}+f_{12})}
P(Y_1|X_2)/P(Y_1|X_1) = \frac{f_{21}(f_{11}+f_{12})}{f_{11}(f_{21}+f_{22})}
P(Y_2|X_1)/P(Y_2|X_2) = \frac{f_{12}(f_{21}+f_{22})}{f_{22}(f_{12}+f_{11})}
P(Y_2|X_2)/P(Y_2|X_1) = \frac{f_{22}(f_{12}+f_{11})}{f_{12}(f_{21}+f_{22})}

Cochran-Mantel-Haenszel

定義

K はレイヤの数
f_{ijk} はi番目の行、j番目の列、k番目のレイヤの行の頻度
c_{jk} = \sum_{i=1}^{R} f_{ijk} はj番目の列、k番目のレイヤ小計
r_{ik} = \sum_{j=1}^{C} f_{ijk} はi番目の行、k番目のレイヤの小計
n_{k} = \sum_{i=1}^{R}\sum_{j=1}^{C} f_{ijk} はk番目のレイヤ小計
E_{ijk} = \frac{r_{ik}c_{jk}}{n_k} はi番目の行、j番目の列、k番目のセルの行の推定された頻度
\hat{p}_{ik} = \frac{f_{i1k}}{r_{ik}}, d_k = \hat{p}_{1k} - \hat{p}_{2k}, \hat{p}_{k} = \frac{c_{1k}}{n_{k}}

Mantel-Haenszel 統計

Mantel-Haenszel統計は次式で計算されます。

MH = \left(\sum_{k=1}^{K}\frac{r_{1k}r_{2k}}{n_k-1} \hat{p}_{k}(1-\hat{p}_{k}) \right)^{-1/2}\left(\big|\sum_{k=1}^{K} (f_{11k}-E_{11k})\big|-0.5\right)sgn\left(\sum_{k=1}^{K} (f_{11k}-E_{11k})\right)

sgn は符号関数 sgn(x) = I(x>0)-I(x<0)+0*I(x=0) です。


Breslow-Day 統計

Breslow-Day 統計は、

BD = \sum_{k=1}^{K} V_k \left[f_{11k}-\hat{f}_{11k}\right]^2

ここで V_k = \frac{1}{\hat{f}_{11k}}+\frac{1}{\hat{f}_{12k}}+\frac{1}{\hat{f}_{21k}}+\frac{1}{\hat{f}_{22k}} です。

タローンの統計

タローンの統計は、

T = \sum_{k=1}^{K} V_k \left[f_{11k}-\hat{f}_{11k}\right]^2- \frac{\sum_{k=1}^{K}\left[f_{11k}-\hat{f}_{11k}\right]^2}{\sum_{k=1}^{K}\frac {1}{V_k} }

ここで V_k = \frac{1}{\hat{f}_{11k}}+\frac{1}{\hat{f}_{12k}}+\frac{1}{\hat{f}_{21k}}+\frac{1}{\hat{f}_{22k}} です。

共通オッズ比

2×2×K 表の場合、k番目のレイヤのオッズ比は OR_{k} です。共通オッズ比が存在すると仮定、つまり OR_{1}=OR_{2}=...OR_{K} とすると、共通オッズ比のMantel-Haenszelの推定子は、

\hat OR_{MH}=\frac{\sum_{k=1}^{K}\frac{f_{11k} f_{22k}}{n_{k}}}{\sum_{k=1}^{K}\frac{f_{12k} f_{21k}}{n_{k}}}

ln(\hat OR_{MH}) の漸近的分散は、

\hat Var[ln(\hat OR_{MH})]=\frac{\sum_{k=1}^{K}\frac{(f_{11k}+f_{22k})f_{11k} f_{22k}}{n_{k}^2}}{2\sum_{k=1}^{K}\frac{f_{11k} f_{22k}}{n_{k}}}+\frac{\sum_{k=1}^{K}\frac{(f_{11k}+f_{22k})f_{12k} f_{21k}+(f_{12k}+f_{21k})f_{11k} f_{22k}}{n_{k}^2}}{2\sum_{k=1}^{K}\frac{f_{11k} f_{22k}}{n_{k}}\sum_{k=1}^{K}\frac{f_{12k} f_{21k}}{n_{k}}}+\frac{\sum_{k=1}^{K}\frac{(f_{12k}+f_{21k})f_{12k} f_{21k}}{n_{k}^2}}{2\sum_{k=1}^{K}\frac{f_{12k} f_{21k}}{n_{k}}}

ln(\hat OR_{MH}) の下側信頼限界(LCL)と上側信頼限界(UCL)は、

ln(\hat OR_{MH})-z({alpha}/2)\sqrt{\hat Var[ln(\hat OR_{MH})]} および ln(\hat OR_{MH})+z(alpha/2)\sqrt{\hat Var[ln(\hat OR_{MH})]}