相関係数

相関係数（そうかんけいすう、英: correlation coefficient）とは、2つのデータまたは確率変数の間にある線形な関係の強弱を測る指標である^[1]^[2]。相関係数は無次元量で、−1以上1以下の実数に値をとる。相関係数が正のとき確率変数には正の相関が、負のとき確率変数には負の相関があるという。また相関係数が0のとき確率変数は無相関であるという^[3]^[4]。

たとえば、先進諸国の失業率と実質経済成長率は強い負の相関関係にあり、相関係数を求めれば−1に近い数字になる。

相関係数が ±1 に値をとることは、2つのデータ（確率変数）が線形の関係にあるときに限る^[5]。また2つの確率変数が互いに独立ならば相関係数は 0 となるが、逆は成り立たない。

普通、単に相関係数といえばピアソンの積率相関係数を指す^[6]。ピアソン積率相関係数の検定は偏差の正規分布を仮定する（パラメトリック）方法である^[7]が、他にこのような仮定を置かないノンパラメトリックな方法として、スピアマンの順位相関係数、ケンドールの順位相関係数なども一般に用いられる^[8]^[9]。

定義

相関

日本産業規格では、相関（そうかん：correlation）を、「二つの確率変数の分布法則の関係。多くの場合，線形関係の程度を指す。」と定義している^[10]。

相関係数

正の分散を持つ確率変数 X, Y が与えられたとき、共分散を $\operatorname {cov} [X,Y]$ 、標準偏差を σ_X, σ_Y とおく。このとき

\rho ={\frac {\operatorname {cov} [X,Y]}{\sigma _{X}\sigma _{Y}}}

を確率変数 X と Y の相関係数という。これは期待値を E[…] で表せば

\rho ={\frac {E\left[\left(X-E\left[X\right]\right)\left(Y-E\left[Y\right]\right)\right]}{\sqrt {E\left[\left(X-E\left[X\right]\right)^{2}\right]E\left[\left(Y-E\left[Y\right]\right)^{2}\right]}}}

と書き直すこともできる。

母集団相関係数

標本相関係数

大きさの同じ2個のデータ (x₁, x₂, …, x_n), (y₁, y₂, …, y_n) に対して、標本共分散を s_xy、標本標準偏差をそれぞれ s_x, s_y とおく。このとき

r:={\frac {s_{xy}}{s_{x}s_{y}}}={\frac {\sum \limits _{i=1}^{n}\left(x_{i}-{\overline {x}}\right)\left(y_{i}-{\overline {y}}\right)}{\sqrt {\sum \limits _{i=1}^{n}(x_{i}-{\overline {x}})^{2}\sum \limits _{i=1}^{n}(y_{i}-{\overline {y}})^{2}}}}

を標本相関係数 (sample correlation coefficient) あるいはピアソンの積率相関係数という。ただし、x, y はそれぞれデータ (x₁, x₂, …, x_n), (y₁, y₂, …, y_n) の平均値で、 ${\overline {x}}={\frac {1}{n}}\textstyle \sum \limits _{i=1}^{n}x_{i}$ , ${\overline {y}}={\frac {1}{n}}\textstyle \sum \limits _{i=1}^{n}y_{i}$ である。

相関係数は、幾何学的には次のような意味になる。

データ (x₁, x₂, …, x_n), (y₁, y₂, …, y_n) をそれぞれ n 次の列ベクトル x = [x₁ x₂ ... x_n]^⊤, y = [y₁ y₂ ... y_n]^⊤ と考えると、x, y の偏差ベクトルはそれぞれ以下のようになる。

{\boldsymbol {x}}-{\overline {x}}\,{\boldsymbol {1}}={\begin{bmatrix}x_{1}-{\overline {x}}\\x_{2}-{\overline {x}}\\\vdots \\x_{n}-{\overline {x}}\end{bmatrix}},\;{\boldsymbol {y}}-{\overline {y}}\,{\boldsymbol {1}}={\begin{bmatrix}y_{1}-{\overline {y}}\\y_{2}-{\overline {y}}\\\vdots \\y_{n}-{\overline {y}}\end{bmatrix}}

ただし、1 は全ての成分が1である n 次の列ベクトルで、1 = [1 1 ... 1]^⊤ である。このとき、x, y の偏差ベクトル x − x 1, y − y 1 のなす角を θ としたときの

\cos \theta ={\frac {\langle {\boldsymbol {x}}-{\overline {x}}\,{\boldsymbol {1}},\;{\boldsymbol {y}}-{\overline {y}}\,{\boldsymbol {1}}\rangle }{\|{\boldsymbol {x}}-{\overline {x}}\,{\boldsymbol {1}}\|\|{\boldsymbol {y}}-{\overline {y}}\,{\boldsymbol {1}}\|}}

が標本相関係数 r である。ここで、⟨●, ●⟩ は内積を表す。

データ (x₁, x₂, …, x_n), (y₁, y₂, ..., y_n) が2次元正規分布からの標本のとき、標本相関係数 r は母集団相関係数 ρ の最尤推定量ではあるが、不偏推定量ではなく（絶対値で見ると）小さめに見積もりがちである^[11]。また外れ値に大きく影響してしまう。

順位相関係数

「スピアマンの順位相関係数」および「ケンドールの順位相関係数」を参照

誤解や誤用

「相関関係と因果関係」も参照

相関と因果の混同

相関係数は、あくまでも確率変数の間にある線形な関係の尺度に過ぎない^[1]^[2]。また、確率変数間の因果関係を説明するものでもない。相関係数は順序尺度であり比尺度ではないので、例えば「相関係数が0.2と0.4であることから、後者は前者より2倍の相関がある」などと言うことはできない。

しばしば、相関があるという表現が、あたかも因果関係を示しているかのように誤解あるいは誤用される。

2つの変数（A，B）間に相関が見られる場合、偶然による相関を除けば、次の3つの可能性が想定される（相関と因果の違いに関する誤解・誤用において目立つのは、3番目の場合である）。

AがBを発生させる
BがAを発生させる
第3の変数CがAとBを発生させる（この場合、AとBの間に因果関係はなく擬似相関と呼ばれる）

因果的な効果の推定ににあたっては、単に相関を見るだけでは分からない。ジューディア・パール^[12]やドナルド・ルービン^[13]などによってまとめられてきた統計的因果推論などに則った調査研究を実施する必要がある。

相関係数と回帰係数の混同

相関分析とは2変数の間に線形関係があるかどうか、およびその強さについての分析であり、2つの変数の間に質的な区別を仮定しない。それに対し回帰分析とは、変数の間にどのような関係があるか（具体的な関数の形）についての分析であり、また説明変数によって目的変数を予測するのを目的としている。初学者によく見られる勘違いとして、相関係数と回帰係数が取り違えて理解されることが多い。また、回帰式を作ることは、あくまで予測モデルを立てることに過ぎず、回帰分析によって因果関係の推定が直接的にできるわけではない。

HARKing

詳細は「HARKing」を参照

また、多数のデータを比較したときに、たまたま相関係数が強く出た組み合わせの結果をもとに、事前の仮説を訂正して論文を書き上げる行為は、HARKingと呼ばれる。探索的研究としてではなく、仮説検証型の研究としてHARKingを行った論文を公表することは、偶然の結果を、あたかも強い意味がある結果であるかのように誤認させ、第一種や第二種の過誤をしてしまう可能性が高いため、研究の手続きとして大きな問題がある。

脚注

^ ^a ^b 栗林 2011, p. 18.
^ ^a ^b Drouet Mari & Kotz 2001, 2.2.1. Linear relationship.
^ 稲垣 1990, p. 66.
^ 伏見康治「確率論及統計論」第III章　記述的統計学 21節 2偶然量の相関 p.146 ISBN 9784874720127 http://ebsa.ism.ac.jp/ebooks/ebook/204
^ 稲垣 1990, 定理4.2.ii.
^ 中西他 2004.
^ 和田恒之. “統計学セミナー第5回資料相関 (Correlation)” (PDF). 北海道対がん協会. 2016年5月31日閲覧。
^ Debasis Bhattacharya (Ph. D.); Soma Roychowdhury (2012). Statistics in Social Science and Agricultural Research. Concept Publishing Company. p. 74. ISBN 978-81-8069-822-4. https://books.google.co.jp/books?id=UefvPxBuzVQC&pg=PA74&redir_esc=y&hl=ja
^ Chris Spatz (2007-05-16). Basic Statistics: Tales of Distributions. Cengage Learning. pp. 319-320. ISBN 0-495-38393-7. https://books.google.co.jp/books?id=lQILp3xrrLUC&pg=PA319&redir_esc=y&hl=ja
^ JIS Z 8101-1 : 1999 統計 − 用語と記号 − 第1部:確率及び一般統計用語 1.9 相関, 日本規格協会、http://kikakurui.com/z8/Z8101-1-1999-01.html
^ Hedges & Olkin 1985, p. 255.
^ Judea Pearl. 2000. Causality: Models, Reasoning, and Inference, Cambridge University Press.
^ Rubin, Donald (1974). “Estimating Causal Effects of Treatments in Randomized and Nonrandomized Studies”. J. Educ. Psychol. 66 (5): 688-701 [p. 689]. doi:10.1037/h0037350.

参考文献

稲垣宣生『数理統計学』裳華房、1990年。ISBN 4-7853-1406-0。
中西寛子、岩崎学、時岡規夫『実用統計用語事典』オーム社、2004年。ISBN 4-274-06554-5。https://books.google.com/books?id=iZbhSqKrABMC&pg=PA153。
栗原伸一『入門統計学―検定から多変量解析・実験計画法まで』オーム社、2011年。ISBN 978-4-274-06855-3。https://books.google.com/books?id=r5JIE8QbPbAC&pg=PA17。
Drouet Mari, Dominique; Kotz, Samuel (2001). Correlation and Dependence. Imperial College Press. ISBN 1-86094-264-4. MR1835042. https://books.google.com/books?id=xvG3CgAAQBAJ
Hedges, Larry V.; Olkin, Ingram (1985). Statistical Methods for Meta-Analysis. Academic Press. ISBN 0-12-336380-2. MR0798597. https://books.google.com/books?id=7GviBQAAQBAJ&pg=PA225
伏見康治『確率論及統計論』河出書房、1942年。ISBN 9784874720127。http://ebsa.ism.ac.jp/ebooks/ebook/204。
日本数学会『数学辞典』岩波書店、2007年。ISBN 9784000803090。
JIS Z 8101-1:1999 統計 − 用語と記号 − 第1部:確率及び一般統計用語、日本規格協会、http://kikakurui.com/z8/Z8101-1-1999-01.html

関連項目

統計学
- 回帰分析
- コピュラ (統計学)
- 相関関数
- 交絡
- 相関関係と因果関係、擬似相関、錯誤相関
自己相関
HARKing

位置	平均算術幾何調和中央値分位数順序統計量最頻値階級値
分散	範囲偏差偏差値標準偏差標準誤差変動係数決定係数相関係数自己相関共分散自己共分散分散共分散行列百分率統計的ばらつき
モーメント	分散歪度尖度

カテゴリデータ

頻度
分割表

推計統計学

仮説検定

パラメトリック	t検定ウェルチのt検定 F検定 Z検定二項検定ジャック-ベラ検定シャピロ–ウィルク検定分散分析共分散分析
ノンパラメトリック	ウィルコクソンの符号順位検定マン・ホイットニーのU検定カイ二乗検定イェイツのカイ二乗検定累積カイ二乗検定フィッシャーの正確確率検定尤度比検定 G検定アンダーソン–ダーリング検定コルモゴロフ–スミルノフ検定カイパー検定マンテル検定コクラン・マンテル・ヘンツェルの統計量
その他	帰無仮説対立仮説有意棄却

区間推定

モデル選択基準

その他

ベイズ統計学

確率	主観確率ベイズ確率事前確率事後確率最大事後確率
その他	ベイズ推定ベイズ因子

相関

モデル

回帰

線形	リッジ回帰ラッソ回帰エラスティックネット
非線形	k近傍法決定木ランダムフォレストニューラルネットワークサポートベクターマシン射影追跡回帰
時系列	自己回帰モデル自己回帰移動平均モデル ARCHモデル対移動平均比率法トレンド定常傾向推定共和分構造変化

分類

線形	線形判別分析ロジスティック回帰 <! -- 名前に回帰とついていますが確率を回帰する分類手法です --> 単純ベイズ分類器単純パーセプトロン線形サポートベクターマシン
二次	二次判別分析
非線形	k近傍法決定木ランダムフォレストニューラルネットワークサポートベクターマシンベイジアンネットワーク隠れマルコフモデル
その他	二項分類多クラス分類第一種過誤と第二種過誤

教師なし学習

クラスタリング	k平均法（k-means++法） DBSCAN
密度推定（英語版）	カーネル密度推定（カーネル）
その他	主成分分析独立成分分析自己組織化写像