マクネマー検定

マクネマー検定（マクネマーけんてい、McNemar's test）は、統計学において、対応のある名目データに用いられる仮説検定である。二値変数に関するマッチドペアの2x2分割表に適用され、行と列の限界度数が正しいかどうか（限界均一性があるかどうか）を判定する。1947年に導入したクイン・マクネマーにちなんで名付けられた^[1]。遺伝学における応用例として、連鎖不平衡を検出するための伝達不平衡検定がある^[2]。

医学分野では、主に感度（病気の人を正しく識別する能力）と特異度（病気のない人を正しく識別する能力）によって検査を評価する。同じグループの患者に対して2つのテストを行い、その感度と特異度が同じであれば両方の検査が同等であると考えがちだが、そうではないかもしれない。このため、私たちは病気のある患者と病気のない患者を調査したり、これら2つのテストが一致しない部分を見つけたりする必要がある。これがまさにマクネマーの検定の基礎であり、同じグループの患者に対する2つの診断テストの感度と特異度を比較する^[3]。

定義

この検定は、n 人の被験者の標本に対する 2 つの検査の結果の 2x2分割表に、次のように適用される。

	検査2 陽性	検査2 陰性	行合計
検査1 陽性	a	b	a + b
検査1 陰性	c	d	c + d
列合計	a + c	b + d	N

限界均一性の帰無仮説とは、各結果に対する2つの限界確率が同じであるというもので、pa + p_b = pa + p_c かつ p_c + p_d = p_b + p_d に対応する。

したがって、帰無仮説H₀と対立仮説H1は^[1]

{\begin{aligned}H_{0}&:~p_{b}=p_{c}\\H_{1}&:~p_{b}\neq p_{c}\end{aligned}}

ここで、pi (i = a, b, c, d) は、対応するラベルを持つセルでの発生する確率を示す。

マクネマー検定の検定統計量は次の通り。

\chi ^{2}={\frac {(b-c)^{2}}{b+c}}

帰無仮説のもと、検査間で十分な数の不一致（セルbおよびセルcに相当）がある場合、 $\chi ^{2}$ は自由度1のカイ二乗分布となる。もし、この $\chi ^{2}$ の結果が有意であれば、帰無仮説が棄却され、p_b ≠ p_c（限界比率が有意に異なる）という対立仮説が支持される。

バリエーション

bやcが小さい場合（b + c < 25）、 $\chi ^{2}$ はカイ二乗分布では十分に近似されず^[要出典]、正確二項検定を使用する。ここで、b は、サイズパラメータn = b + c および p = 0.5の二項分布と比較される。b '≥ c'の場合、

{\text{exact-P-value}}=2\sum _{i=b}^{n}{n \choose i}0.5^{i}(1-0.5)^{n-i},

これは、 p = 0.5、n = b + cの二項分布累積分布関数に2を乗じたものである。

エドワーズは、二項の正確なP値を近似するため、連続性を補正した次のバージョンを提案した^[4]。

\chi ^{2}={(|b-c|-1)^{2} \over b+c}.

mid-P マクネマー検定は、正確な片側P値から観察された bの確率の半分を引き、それを2倍して両側の mid-P 値を得ることによって計算される^[5] ^[6]

{\text{mid-p-value}}=2\left(\sum _{i=b}^{n}{n \choose i}0.5^{i}(1-0.5)^{n-i}-0.5{n \choose b}0.5^{b}(1-0.5)^{n-b}\right)

これは次と同等である。

{\text{mid-p-value}}={\text{exact-p-value}}-{n \choose b}0.5^{b}(1-0.5)^{n-b}

ここで、第2項は二項分布の確率質量関数であり、n = b + c である。一般的なソフトウェアパッケージでは、二項分布関数を容易に入手してマクネマーのmid-P検定を簡単に計算することができる^[6]。

従来は、b + c < 25 のときに正確な二項検定を使用べきと言われていた。しかし、シミュレーションによると、正確二項検定と連続性補正を用いたマクネマー検定の両方が過度に保守的であることが示されている^[6]。b + c < 6 のとき、正確P値は常に共通の有意水準0.05を超える。オリジナルのマクネマー検定は最も強力だったが、しばしば僅かに非保守的であった。mid-Pバージョンは、漸近的なマクネマー検定と同じくらい強力で、名目上の有意水準を超えることはなかった。

例

最初の例では、ある研究者が、ある薬が特定の病気に効果があるかどうかを調べようとしている。表には個人の数が示されており、行には治療前の診断（病気があるかないか）が、列には治療後の示されている。この検定では、前後の測定に同じ被験者を含める必要がある（マッチドペア）。

	治療後：疾病あり	治療後：疾病なし	行合計
治療前：疾病あり	101	121	222
治療後：疾病なし	59	33	92
列合計	160	154	314

この例では、「限界均一性」の帰無仮説は、治療の効果がなかったことを意味する。上記のデータから、マクネマー検定統計量は

\chi ^{2}={(121-59)^{2} \over {121+59}}

この値は21.35であり、帰無仮説が意味する分布に従う可能性は極めて低い（ P <0.001）。したがって、この検定は、治療効果がないという帰無仮説を棄却するための強力な証拠となる。

2番目の例は、漸近的マクネマー検定とそれ以外の検定との違いを示す^[6]。データテーブルは先ほどと同様だが、セル内の数字が異なる。

	治療後：疾病あり	治療後：疾病なし	行合計
治療前：疾病あり	59	6	65
治療前：疾病なし	16	80	96
列合計	75	86	161

これらのデータでは、サンプルサイズ（161人）は小さくないが、マクネマー検定と他のバージョンでは結果が異なる。正確二項検定ではP = 0.053が得られ、連続性補正を使用したマクネマー検定では $\chi ^{2}$ = 3.68、P = 0.055 となる。漸近的なマクネマーの検定では $\chi ^{2}$ = 4.55、P = 0.033となり、mid-P マクネマー検定ではP = 0.035が得られる。

議論

興味深いことに、対角成分は（治療前または治療後のどちらの状態がより好ましいかという）決定に寄与しない。全体の症例数が多くても、b + c が少なければ、統計的検出力が小さくなる。

マクネマー検定を拡張することで、ペア間での独立性が担保されない場合を扱うことができる。ペアデータのクラスタがあり、クラスタ内のペアは独立ではないかもしれないが、異なるクラスタ間では独立性が成り立つ者とする^[7]。例えば、歯科治療の効果を分析する場合、ペアは、複数の歯を治療した患者の個々の歯の治療に対応し、同じ患者の2本の歯の治療の効果は独立ではない可能性が高いが、異なる患者の2本の歯の治療は独立である可能性が高い^[8]。

ペアリングの情報

1970年代には、扁桃腺を温存することでホジキンリンパ腫の予防になるのではないかと考えられていた。ジョン・ライスによると ^[9]

85人のホジキンリンパ腫の患者[...]には、疾病に罹患しておらず、患者との年齢差が5歳以内の同性の兄弟がいた。研究者は次の表を発表した。
${\begin{array}{c|c|c}\hline &{\text{Tonsillectomy}}&{\text{No tonsillectomy}}\\\hline {\text{Hodgkins}}&41&44\\\hline {\text{Control}}&33&52\end{array}}$

彼らはカイ二乗統計を計算し[...] [彼らは]誤ってペアリングを無視して分析した。[...] [彼らの]兄弟がペアになっているため、サンプルは独立していなかった[...] 我々はペアリングを示す表を作成した。

${\begin{array}{cc}&{\text{Sibling}}\\{\text{Patient}}&{\begin{array}{c|c|c}\hline &{\text{No tonsillectomy}}&{\text{Tonsillectomy}}\\\hline {\text{No tonsillectomy}}&37&7\\\hline {\text{Tonsillectomy}}&15&26\end{array}}\end{array}}$

マクネマーの検定を適用できるのは2つ目の表である。 2番目の表の数の合計が85（兄弟のペアの数）であるのに対し、最初の表の数の合計は2倍の170（個人の数）であることに注意。 1つ目の表は2つ目の表の限界値を示しているに過ぎず、2つ目の表の方が情報量が多い。

脚注

^ ^a ^b McNemar, Quinn (June 18, 1947). “Note on the sampling error of the difference between correlated proportions or percentages”. Psychometrika 12 (2): 153–157. doi:10.1007/BF02295996. PMID 20254758.
^ Spielman RS; McGinnis RE; Ewens WJ (Mar 1993). “Transmission test for linkage disequilibrium: the insulin gene region and insulin-dependent diabetes mellitus (IDDM)”. Am J Hum Genet 52 (3): 506–16. PMC 1682161. PMID 8447318. https://www.ncbi.nlm.nih.gov/pmc/articles/PMC1682161/.
^ Hawass, N E (April 1997). “Comparing the sensitivities and specificities of two diagnostic procedures performed on the same group of patients.”. The British Journal of Radiology 70 (832): 360–366. doi:10.1259/bjr.70.832.9166071. ISSN 0007-1285. PMID 9166071.
^ Edwards, A (1948). “Note on the "correction for continuity" in testing the significance of the difference between correlated proportions”. Psychometrika 13 (3): 185–187. doi:10.1007/bf02289261. PMID 18885738.
^ Lancaster, H.O. (1961). “Significance tests in discrete distributions.”. J Am Stat Assoc 56 (294): 223–234. doi:10.1080/01621459.1961.10482105.
^ ^a ^b ^c ^d Fagerland, M.W.; Lydersen, S.; Laake, P. (2013). “The McNemar test for binary matched-pairs data: mid-p and asymptotic are better than exact conditional”. BMC Medical Research Methodology 13: 91. doi:10.1186/1471-2288-13-91. PMC 3716987. PMID 23848987. https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3716987/.
^ Yang, Z.; Sun, X.; Hardin, J.W. (2010). “A note on the tests for clustered matched-pair binary data”. Biometrical Journal 52 (5): 638–652. doi:10.1002/bimj.201000035. PMID 20976694.
^ Durkalski, V.L.; Palesch, Y.Y.; Lipsitz, S.R.; Rust, P.F. (2003). “Analysis of clustered matched-pair data”. Statistics in Medicine 22 (15): 2417–28. doi:10.1002/sim.1438. PMID 12872299. http://www3.interscience.wiley.com/journal/104545274/abstract 2009年4月1日閲覧。.
^ Rice, John (1995). Mathematical Statistics and Data Analysis (Second ed.). Belmont, California: Duxbury Press. pp. 492–494. ISBN 978-0-534-20934-6. https://archive.org/details/mathematicalstat00rice_559
^ Liddell, D. (1976). “Practical Tests of 2 × 2 Contingency Tables”. Journal of the Royal Statistical Society 25 (4): 295–304. JSTOR 2988087.
^ “Maxwell's test, McNemar's test, Kappa test”. Rimarcik.com. 2012年11月22日閲覧。
^ Sun (2008年). “Generalized McNemar's Test for Homogeneity of the Marginal Distributions”. SAS Global Forum. 2021年9月29日閲覧。
^ Stuart, Alan (1955). “A Test for Homogeneity of the Marginal Distributions in a Two-Way Classification”. Biometrika 42 (3/4): 412–416. doi:10.1093/biomet/42.3-4.412. JSTOR 2333387.
^ Maxwell, A.E. (1970). “Comparing the Classification of Subjects by Two Independent Judges”. The British Journal of Psychiatry 116 (535): 651–655. doi:10.1192/bjp.116.535.651. PMID 5452368.
^ “McNemar Tests of Marginal Homogeneity”. John-uebersax.com (2006年8月30日). 2012年11月22日閲覧。
^ Bhapkar, V.P. (1966). “A Note on the Equivalence of Two Test Criteria for Hypotheses in Categorical Data”. Journal of the American Statistical Association 61 (313): 228–235. doi:10.1080/01621459.1966.10502021. JSTOR 2283057.
^ Yang, Z.; Sun, X.; Hardin, J.W. (2012). “Testing Marginal Homogeneity in Matched-Pair Polytomous Data”. Therapeutic Innovation & Regulatory Science 46 (4): 434–438. doi:10.1177/0092861512442021.
^ Agresti, Alan (2002). Categorical Data Analysis. Hooken, New Jersey: John Wiley & Sons, Inc.. p. 413. ISBN 978-0-471-36093-3. https://mathdept.iut.ac.ir/sites/mathdept.iut.ac.ir/files/AGRESTI.PDF

外部リンク

ヴァサー大学のマクネマー2×2分割表
限界均一性のマクネマー検定

位置	平均算術幾何調和中央値分位数順序統計量最頻値階級値
分散	範囲偏差偏差値標準偏差標準誤差変動係数決定係数相関係数自己相関共分散自己共分散分散共分散行列百分率統計的ばらつき
モーメント	分散歪度尖度

カテゴリデータ

頻度
分割表

推計統計学

仮説検定

パラメトリック	t検定ウェルチのt検定 F検定 Z検定二項検定ジャック-ベラ検定シャピロ–ウィルク検定分散分析共分散分析
ノンパラメトリック	ウィルコクソンの符号順位検定マン・ホイットニーのU検定カイ二乗検定イェイツのカイ二乗検定累積カイ二乗検定フィッシャーの正確確率検定尤度比検定 G検定アンダーソン–ダーリング検定コルモゴロフ–スミルノフ検定カイパー検定マンテル検定コクラン・マンテル・ヘンツェルの統計量
その他	帰無仮説対立仮説有意棄却

区間推定

モデル選択基準

その他

ベイズ統計学

確率	主観確率ベイズ確率事前確率事後確率最大事後確率
その他	ベイズ推定ベイズ因子

相関

モデル

回帰

線形	リッジ回帰ラッソ回帰エラスティックネット
非線形	k近傍法決定木ランダムフォレストニューラルネットワークサポートベクターマシン射影追跡回帰
時系列	自己回帰モデル自己回帰移動平均モデル ARCHモデル対移動平均比率法トレンド定常傾向推定共和分構造変化

分類

線形	線形判別分析ロジスティック回帰 <! -- 名前に回帰とついていますが確率を回帰する分類手法です --> 単純ベイズ分類器単純パーセプトロン線形サポートベクターマシン
二次	二次判別分析
非線形	k近傍法決定木ランダムフォレストニューラルネットワークサポートベクターマシンベイジアンネットワーク隠れマルコフモデル
その他	二項分類多クラス分類第一種過誤と第二種過誤

教師なし学習

クラスタリング	k平均法（k-means++法） DBSCAN
密度推定（英語版）	カーネル密度推定（カーネル）
その他	主成分分析独立成分分析自己組織化写像