Algorithmen (Kreuztabelle)

Inhalt

1 Kreuztabellenmethode

Kreuztabellen werden auch als Kontingenztabellen bezeichnet. Dieses Hilfsmittel wird verwendet, um das Vorhandensein bzw. die Stärke der Assoziation zwischen Variablen zu untersuchen.

Kreuztabellenmethode

Häufigkeitszählung
Rand und Zelle
Tabelle der Chi-Quadrat-Tests
Tabelle von Fishers Exaktem Test (nur 2 x 2)
Assoziationsmaße
Übereinstimmungsmaße
Quotenverhältnis und Relatives Risiko (nur 2 x 2)
Cochran-Mantel-Haenszel

Häufigkeitszählung

Definieren

$X_i$ sind eindeutige Werte der Zeilenvariable in aufsteigender Reihenfolge, d.h. $X_1 < X_2 < \cdots X_R$

$Y_i$ sind eindeutige Werte der Spaltenvariable in aufsteigender Reihenfolge, d.h. $Y_1 < Y_2 < \cdots Y_C$

$f_{ij}$ ist die Häufigkeit in Bezug zur Zelle $(i,j)$

$r_i = \sum_{j=1}^{C}f_{ij}$ ist die Teilsumme der $i$ ten Zeile

$c_j = \sum_{i=1}^{R}f_{ij}$ ist die Teilsumme der $j$ ten Spalte

$N = \sum_{j=1}^{C}c_j = \sum_{i=1}^{R}r_i$ ist die Gesamtanzahl.

Rand und Zelle

Statistik	Formel und Erklärung
Anzahl	$f_{ij}$
Erwartete Anzahl	$E_{ij} = \frac{r_i c_j}{N}$
Prozent Zeile	$100*\frac{f_{ij}}{r_i}$
Prozent Spalte	$100*\frac{f_{ij}}{c_j}$
Prozent gesamt	$100*\frac{f_{ij}}{N}$
Residuum	$R_{ij} = f_{ij} - E_{ij}$
Std. Residuum	$StdR_{ij} = \frac{R_{ij}}{\sqrt{E_{ij}}}$
Kor. Residuum	$AdjR_{ij} = \frac{R_{ij}}{\sqrt{E_{ij}\left(1-\frac{r_i}{N}\right)\left(1-\frac{c_j}{N}\right)}}$

Chi-Quadrat-Statistik

Statistik	Formel und Erklärung	Freiheitsgrade
Pearsons Chi-Quadrat	$\chi_p^2 = \sum_{ij} \frac{(f_{ij}-E_{ij})^2}{E_{ij}}$	$(R-1)(C-1)$
Likelihood-Verhältnis	$\chi_{LR}^2 = -2\sum_{ij} f_{ij} \ln (E_{ij}/f_{ij})$	$(R-1)(C-1)$
Lineare Assoziation	$\chi_{LA}^2 = (N-1)r^2$ , wobei $r$ der Korrelationskoeffizient nach Pearson ist.	$1$
Kontinuitätskorrektur	$\chi_C^2 = \frac{N(\|f_{11}f_{22}-f_{12}f_{21}\|-0.5N)^2}{r_1r_2c_1c_2} I(\|f_{11}f_{22}-f_{12}f_{21}\|>0.5N)$ , das nur für 2 x 2-Tabellen berechnet wird.	$1$

Fishers Exakter Test

Dieser Test ist nützlich, wenn eine erwartete Zellenanzahl gering ist (weniger als 5). Er wird nur für 2 x 2-Tabellen berechnet. Angenommen, Sie haben folgende Tabelle:

	$X_1$	$X_2$	Teilsumme/Summe
$Y_1$	$n_1$	$n_3$	$n_1+n_3$
$Y_2$	$n_2$	$n_4$	$n_2+n_4$
Teilsumme/Summe	$n_1+n_2$	$n_3+n_4$	$N$

Unter der Nullhypothese (Unabhängigkeit) ist die Anzahl der ersten Zelle $N_1$ eine hypergeometrische Verteilung mit einer Wahrscheinlichkeit gegeben mit

$Pr(N_1=n_1) = \frac{(n_1+n_2)!(n_3+n_4)!(n_1+n_3)!(n_2+n_4)!}{N!n_1!n_2!n_3!n_4!}$ , $\max(0,n_1-n_4)\leq N_1 \leq \min(n_1+n_2,n_1+n_3)$ .

Einseitiger Test

Das Signifikanzniveau des einseitigen Tests wird berechnet mit

p(left-sided test) = $Pr(N_1\leq n_1)$

p(right-sided test) = $Pr(N_1\geq n_1)$

Zweiseitiger Test

Die zweiseitige Signifikanz ist

$p_2 = p_1 + p_3$

wobei

$p_{1}= Pr(N_1\leq n_1)$ , wenn $n_{1}\leq (n_{1}+n_{2})(n_{1}+n_{3})/N$

$p_{1}= Pr(N_1\geq n_1)$ , wenn $n_{1}>(n_{1}+n_{2})(n_{1}+n_{3})/N$

$p_3 = \sum_{x:\text{ between }\min(n_1+n_2,n_1+n_3) \text{ and } (n_1+1); Pr(N_1=x) \leq Pr(N_1=n_1)} Pr(N_1=x)$

Assoziationsmaße

Definieren

$D_r = N^2 - \sum_{i=1}^{R}r_i^2$

$D_c = N^2 - \sum_{j=1}^{C}c_j^2$

$C_{ij} = \sum_{h<i}\sum_{k<j}f_{hk}+\sum_{h>i}\sum_{k>j}f_{hk}$

$D_{ij} = \sum_{h<i}\sum_{k>j}f_{hk}+\sum_{h>i}\sum_{k<j}f_{hk}$

$P = \sum_{ij}f_{ij}C_{ij}$

$Q = \sum_{ij}f_{ij}D_{ij}$

$r_i = \sum_{j=1}^{C}f_{ij}$ ist die Teilsumme der $i$ ten Zeile

$c_j = \sum_{i=1}^{R}f_{ij}$ ist die Teilsumme der $j$ ten Spalte

$N = \sum_{j=1}^{C}c_j = \sum_{i=1}^{R}r_i$ ist die Gesamtanzahl.

Statistik		Formel und Erklärung	Standardfehler
Phi-Koeffizient		$\phi = \sqrt{\chi_p^2/N}$ , das nicht für 2 x 2-Tabellen berechnet wird. Für eine 2 x 2-Tabelle ist er gleich $r$ Der Wert reicht von $[0,M]$ , wobei $M = min(\sqrt{R-1},\sqrt{C-1})$ ,
Cramérs V		$V = \sqrt{\frac{\chi_p^2}{N\min\{R,C\}}}$
Kontingenzkoeffizient		$CC = \sqrt{\frac{\chi_p^2}{\chi_p^2+N}}$
Gamma		$\gamma = \frac{P-Q}{P+Q}$	$\frac{2}{P+Q}\sqrt{\sum_{ij}f_{ij}(C_{ij}-D_{ij})^2-\frac{1}{N}(P-Q)^2}$
Kendall	Tau-b	$\tau_b = \frac{P-Q}{\sqrt{D_rD_c}}$	$2\sqrt{\frac{1}{D_rD_c}\left[\sum_{ij}f_{ij}(C_{ij}-D_{ij})^2-\frac{1}{N}(P-Q)^2\right]}$
Kendall	Tau-c	$\tau_c = \frac{(P-Q)q}{N^2(q-1)}$ , wobei $q = \min\{R,C\}$	$\frac{2q}{N^2(q-1)}\sqrt{\sum_{ij}f_{ij}(C_{ij}-D_{ij})^2-\frac{1}{N}(P-Q)^2}$
Somers D	C $\|$ R	$d_{C\|R} = \frac{P-Q}{D_r}$	$\frac{2}{D_r}\sqrt{\sum_{ij}f_{ij}(C_{ij}-D_{ij})^2-\frac{1}{N}(P-Q)^2}$
	R $\|$ C	$d_{R\|C} = \frac{P-Q}{D_c}$	$\frac{2}{D_c}\sqrt{\sum_{ij}f_{ij}(C_{ij}-D_{ij})^2-\frac{1}{N}(P-Q)^2}$
	Symmetrisch	$d = 2\frac{P-Q}{D_c+D_r}$	$\frac{4}{D_c+D_r}\sqrt{\sum_{ij}f_{ij}(C_{ij}-D_{ij})^2-\frac{1}{N}(P-Q)^2}$
Lambda	C $\|$ R	$\lambda_{C\|R} = \frac{1}{N-c_m}\left(\sum_{i=1}^{R}f_{im}-c_m\right)$ , wobei $f_{im}$ die größte Anzahl in der i-ten Zeile ist und $c_m$ die größte Spaltenteilsumme.	$\sqrt{ \frac{ N - \displaystyle\sum_{i=1}^{R} f_{im} }{ (N-c_m)^3 } \left(\sum_{i=1}^{R} f_{im} + c_m -2\sum_{i=1}^{R} (f_{im}\|l_i=l) \right) }$ , wobei $l_i$ der Spaltenindex von $f_{im}$ ist und $l$ der Index der Spaltenteilsumme für $c_m$ .
	R $\|$ C	$\lambda_{R\|C} = \frac{1}{N-r_m}\left(\sum_{j=1}^{C}f_{mj}-r_m\right)$ , wobei $f_{mj}$ die größte Anzahl in der j-ten Spalte ist und $r_m$ die größte Zeilenteilsumme.	$\sqrt{ \frac{ N - \displaystyle\sum_{j=1}^{C} f_{mj} }{ (N-r_m)^3 } \left(\sum_{j=1}^{C} f_{mj} + r_m -2\sum_{j=1}^{C} (f_{mj}\|k_j=k) \right) }$ , wobei $k_j$ der Zeilenindex von $f_{mj}$ ist und $k$ der Index der Zeilenteilsumme für $r_m$ .
	Symmetrisch	$\lambda = \frac { \displaystyle \sum_{i=1}^{R}f_{im} + \sum_{j=1}^{C}f_{mj} - c_m - r_m }{2N-r_m-c_m}$	$\frac{1}{w^2} \sqrt{ wvy - 2w^2\left( N-\sum_{i=1}^{R} (f_{im}\|i=k_{l_i}) \right) - 2v^2(N-f_{kl}) }$ wobei $w=2N-r_m-c_m$ , $v = 2N - \sum_{i=1}^{R}f_{im} - \sum_{j=1}^{C}f_{mj}$ , $x = \sum_{i=1}^R (f_{im}\|l_i=l) + \sum_{j=1}^C (f_{mj}\|k_j=k) + f_{km} + f_{ml}$ und $y = 8N - w - v - 2x$ .
Unsicherheit	C $\|$ R	$U_{R\|C} = \frac{U(X)+U(Y)-U(XY)}{U(Y)}$ , wobei $U(X) = -\sum_{i=1}^{R}\frac{r_i}{N}\ln\frac{r_i}{N}$ und $U(Y) = -\sum_{j=1}^{C}\frac{c_j}{N}\ln\frac{c_j}{N}$ und $U(XY) = -\sum_{ij}\frac{f_{ij}}{N}\ln\frac{f_{ij}}{N}$	$\frac{1}{NU(Y)}\sqrt{P-N\left(U(X)+U(Y)-U(XY)\right)^2}$ , wobei $P = \sum_{ij}f_{ij}\ln\left(\frac{r_ic_j}{f_{ij}N}\right)^2$
	R $\|$ C	$U_{C\|R} = \frac{U(X)+U(Y)-U(XY)}{U(X)}$	$\frac{1}{NU(X)}\sqrt{P-N\left(U(X)+U(Y)-U(XY)\right)^2}$
	Symmetrisch	$U = 2\frac{U(X)+U(Y)-U(XY)}{U(X)+U(Y)}$	$\frac{2}{N(U(X)+U(Y))}\sqrt{P-\frac{1}{N}\left(U(X)+U(Y)-U(XY)\right)^2}$

Übereinstimmungsmaße

Diese Tabelle wird nur berechnet, wenn zwei Bedingungen erfüllt sind: (1) quadratische Tabelle, d.h. $R=C$ , und (2) die Zeilenvariable und die Spaltenvariable die gleichen Werte haben.

Die Kappa-Statistik wird berechnet mit:

$\kappa = \frac{N\sum_{i=1}^{R}f_{ii} - \sum_{i=1}^{R}r_ic_i}{N^2 - \sum_{i=1}^{R}r_ic_i}$

Der Standardfehler wird geschätzt mit:

$SE_1 = \frac{1}{1-p_e} \sqrt{ \frac{A+B-C}{N} }$ .

wobei $p_e = \frac{ \sum_{i=1}^R r_i c_i }{ N^2 }$ , $A = \sum_{i=1}^R \frac{f_{ii}}{N} \left( 1-\frac{(r_i+c_i)(1- \kappa)}{N} \right)^2$ ,
$B = (1-\kappa)^2 \sum_{i=1}^R \sum_{j=1, j \ne i}^{C} \frac{f_{ij} (r_i+c_j)^2}{N^3}$ und $C = \Bigl( \kappa - p_e( 1-\kappa ) \Bigr)^2$ .

Der entsprechende asymptotische Standardfehler unter der Nullhypothese $\kappa = 0$ ist gegeben mit

$SE_0 = \sqrt{\frac{1}{N\left(N^2 - \sum_{i=1}^{R}r_ic_i\right)^2} \left[N^2\sum_{i=1}^{R}r_ic_i + \left(\sum_{i=1}^{R}r_ic_i\right)^2 - N \sum_{i=1}^{R}r_ic_i(r_i+c_i)\right]}$

Eine weitere verwandte Statistik ist Bowker, die verwendet wird, um $H_0: p_{ij} = p_{ji}$ für alle Paare zu testen. Wenn $R>2$ , wird die Statistik berechnet als

$Bo = \sum_{i=1}^R \sum_{j=1}^{j<i}\frac{(f_{ij}-f_{ji})^2}{f_{ij}+f_{ji}}$

Für größere Samples ist $Bo$ die asymptotische Chi-Quadrat-Verteilung mit dem Freiheitsgrad $0.5R(R-1)$ .

Beachten Sie, dass Bowkers Test für 2 x 2-Tabellen gleich McNemars Test ist. Daher wird hier nur Bowkers Test gezeigt.

Quotenverhältnis und Relatives Risiko

Diese Statistik wird nur für 2 x 2-Tabellen berechnet.

Quotenverhältnis

Das Quotenverhältnis wird berechnet mit

$OR = \frac{f_{11}f_{22}}{f_{12}f_{21}}$

Relatives Risiko

Die relativen Risiken sind gegeben mit

$P(Y_1|X_1)/P(Y_1|X_2) = \frac{f_{11}(f_{21}+f_{22})}{f_{21}(f_{11}+f_{12})}$

$P(Y_1|X_2)/P(Y_1|X_1) = \frac{f_{21}(f_{11}+f_{12})}{f_{11}(f_{21}+f_{22})}$

$P(Y_2|X_1)/P(Y_2|X_2) = \frac{f_{12}(f_{21}+f_{22})}{f_{22}(f_{12}+f_{11})}$

$P(Y_2|X_2)/P(Y_2|X_1) = \frac{f_{22}(f_{12}+f_{11})}{f_{12}(f_{21}+f_{22})}$

Cochran-Mantel-Haenszel

Definieren

$K$ ist die Anzahl der Layer

$f_{ijk}$ ist die Häufigkeit in der i-ten Zeile, j-ten Spalte und im k-ten Layer

$c_{jk} = \sum_{i=1}^{R} f_{ijk}$ ist die j-te Spalte, Teilsumme des k-ten Layers

$r_{ik} = \sum_{j=1}^{C} f_{ijk}$ ist die i-te Zeile, Teilsumme des k-ten Layers

$n_{k} = \sum_{i=1}^{R}\sum_{j=1}^{C} f_{ijk}$ ist die Teilsumme des k-ten Layers

$E_{ijk} = \frac{r_{ik}c_{jk}}{n_k}$ ist die erwartete Häufigkeit in der i-ten Zeile, j-ten Spalte und im k-ten Layerzelle

$\hat{p}_{ik} = \frac{f_{i1k}}{r_{ik}}, d_k = \hat{p}_{1k} - \hat{p}_{2k}, \hat{p}_{k} = \frac{c_{1k}}{n_{k}}$

Mantel-Haenszel-Statistik

Die Mantel-Haenszel-Statistik ist gegeben mit

$MH = \left(\sum_{k=1}^{K}\frac{r_{1k}r_{2k}}{n_k-1} \hat{p}_{k}(1-\hat{p}_{k}) \right)^{-1/2}\left(\big|\sum_{k=1}^{K} (f_{11k}-E_{11k})\big|-0.5\right)sgn\left(\sum_{k=1}^{K} (f_{11k}-E_{11k})\right)$

wobei sgn die Vorzeichenfunktion $sgn(x) = I(x>0)-I(x<0)+0*I(x=0)$ ist.

Breslow-Day-Statistik

Die Breslow-Day-Statistik ist

$BD = \sum_{k=1}^{K} V_k \left[f_{11k}-\hat{f}_{11k}\right]^2$

wobei $V_k = \frac{1}{\hat{f}_{11k}}+\frac{1}{\hat{f}_{12k}}+\frac{1}{\hat{f}_{21k}}+\frac{1}{\hat{f}_{22k}}$ .

Tarones Statistik

Tarones Statistik ist

$T = \sum_{k=1}^{K} V_k \left[f_{11k}-\hat{f}_{11k}\right]^2- \frac{\sum_{k=1}^{K}\left[f_{11k}-\hat{f}_{11k}\right]^2}{\sum_{k=1}^{K}\frac {1}{V_k} }$

wobei $V_k = \frac{1}{\hat{f}_{11k}}+\frac{1}{\hat{f}_{12k}}+\frac{1}{\hat{f}_{21k}}+\frac{1}{\hat{f}_{22k}}$ .

Allgemeines Quotenverhältnis

Für eine 2×2×K-Tabelle ist das Quotenverhältnis beim k-ten Layer $OR_{k}$ . Angenommen, dass das wahre allgemeine Quotenverhältnis existiert, das $OR_{1}=OR_{2}=...OR_{K}$ lautet, dann ist Mantel-Haenszels Schätzer des allgemeinen Quotenverhältnisses

$\hat OR_{MH}=\frac{\sum_{k=1}^{K}\frac{f_{11k} f_{22k}}{n_{k}}}{\sum_{k=1}^{K}\frac{f_{12k} f_{21k}}{n_{k}}}$

Die asymptotische Varianz für $ln(\hat OR_{MH})$ ist:

$\hat Var[ln(\hat OR_{MH})]=\frac{\sum_{k=1}^{K}\frac{(f_{11k}+f_{22k})f_{11k} f_{22k}}{n_{k}^2}}{2\sum_{k=1}^{K}\frac{f_{11k} f_{22k}}{n_{k}}}+\frac{\sum_{k=1}^{K}\frac{(f_{11k}+f_{22k})f_{12k} f_{21k}+(f_{12k}+f_{21k})f_{11k} f_{22k}}{n_{k}^2}}{2\sum_{k=1}^{K}\frac{f_{11k} f_{22k}}{n_{k}}\sum_{k=1}^{K}\frac{f_{12k} f_{21k}}{n_{k}}}+\frac{\sum_{k=1}^{K}\frac{(f_{12k}+f_{21k})f_{12k} f_{21k}}{n_{k}^2}}{2\sum_{k=1}^{K}\frac{f_{12k} f_{21k}}{n_{k}}}$

Die untere Konfidenzgrenze (UEG) und obere Konfidenzgrenze (OEG) für $ln(\hat OR_{MH})$ sind:

$ln(\hat OR_{MH})-z({alpha}/2)\sqrt{\hat Var[ln(\hat OR_{MH})]}$ und $ln(\hat OR_{MH})+z(alpha/2)\sqrt{\hat Var[ln(\hat OR_{MH})]}$

Skip Navigation Links

All Books

Origin Help

Statistics

Descriptive Statistics

Cross Tabulation and Chi-square (Pro Only)

English | Deutsch | 日本語