相関係数

散布図とその相関係数の一覧。相関は非線形性および直線関係の向きを反映するが(上段)、その関係の傾きや(中段)、非直線関係の多くの面も反映しない(下段)。中央の図の傾きは0であるが、この場合はYの分散が0であるため相関係数は定義されない。

相関係数(そうかんけいすう、: correlation coefficient)とは、2つのデータまたは確率変数の間にある線形な関係の強弱を測る指標である[1][2]。相関係数は無次元量で、−1以上1以下の実数に値をとる。相関係数がのとき確率変数には正の相関が、負のとき確率変数には負の相関があるという。また相関係数が0のとき確率変数は無相関であるという[3][4]

たとえば、先進諸国失業率実質経済成長率は強い負の相関関係にあり、相関係数を求めれば−1に近い数字になる。

相関係数が ±1 に値をとることは、2つのデータ(確率変数)が線形の関係にあるときに限る[5]。また2つの確率変数が互いに独立ならば相関係数は 0 となるが、逆は成り立たない。

普通、単に相関係数といえばピアソンの積率相関係数を指す[6]。ピアソン積率相関係数の検定は偏差の正規分布を仮定する(パラメトリック)方法である[7]が、他にこのような仮定を置かないノンパラメトリックな方法として、スピアマンの順位相関係数ケンドールの順位相関係数なども一般に用いられる[8][9]

定義

相関

日本産業規格では、相関(そうかん:correlation)を、「二つの確率変数の分布法則の関係。多くの場合,線形関係の程度を指す。」と定義している[10]

相関係数

正の分散を持つ確率変数 X, Y が与えられたとき、共分散 cov [ X , Y ] {\displaystyle \operatorname {cov} [X,Y]} 標準偏差σX, σY とおく。このとき

ρ = cov [ X , Y ] σ X σ Y {\displaystyle \rho ={\frac {\operatorname {cov} [X,Y]}{\sigma _{X}\sigma _{Y}}}}

を確率変数 XY相関係数という。これは期待値E[…] で表せば

ρ = E [ ( X E [ X ] ) ( Y E [ Y ] ) ] E [ ( X E [ X ] ) 2 ] E [ ( Y E [ Y ] ) 2 ] {\displaystyle \rho ={\frac {E\left[\left(X-E\left[X\right]\right)\left(Y-E\left[Y\right]\right)\right]}{\sqrt {E\left[\left(X-E\left[X\right]\right)^{2}\right]E\left[\left(Y-E\left[Y\right]\right)^{2}\right]}}}}

と書き直すこともできる。

母集団相関係数

標本相関係数

大きさの同じ2個のデータ (x1, x2, …, xn), (y1, y2, …, yn) に対して、標本共分散sxy標本標準偏差をそれぞれ sx, sy とおく。このとき

r := s x y s x s y = i = 1 n ( x i x ¯ ) ( y i y ¯ ) i = 1 n ( x i x ¯ ) 2 i = 1 n ( y i y ¯ ) 2 {\displaystyle r:={\frac {s_{xy}}{s_{x}s_{y}}}={\frac {\sum \limits _{i=1}^{n}\left(x_{i}-{\overline {x}}\right)\left(y_{i}-{\overline {y}}\right)}{\sqrt {\sum \limits _{i=1}^{n}(x_{i}-{\overline {x}})^{2}\sum \limits _{i=1}^{n}(y_{i}-{\overline {y}})^{2}}}}}

標本相関係数 (sample correlation coefficient) あるいはピアソンの積率相関係数という。ただし、x, y はそれぞれデータ (x1, x2, …, xn), (y1, y2, …, yn)平均値で、 x ¯ = 1 n i = 1 n x i {\displaystyle {\overline {x}}={\frac {1}{n}}\textstyle \sum \limits _{i=1}^{n}x_{i}} , y ¯ = 1 n i = 1 n y i {\displaystyle {\overline {y}}={\frac {1}{n}}\textstyle \sum \limits _{i=1}^{n}y_{i}} である。

相関係数は、幾何学的には次のような意味になる。

データ (x1, x2, …, xn), (y1, y2, …, yn) をそれぞれ n 次の列ベクトル x = [x1x2 ... xn], y = [y1y2 ... yn] と考えると、x, y偏差ベクトルはそれぞれ以下のようになる。

x x ¯ 1 = [ x 1 x ¯ x 2 x ¯ x n x ¯ ] , y y ¯ 1 = [ y 1 y ¯ y 2 y ¯ y n y ¯ ] {\displaystyle {\boldsymbol {x}}-{\overline {x}}\,{\boldsymbol {1}}={\begin{bmatrix}x_{1}-{\overline {x}}\\x_{2}-{\overline {x}}\\\vdots \\x_{n}-{\overline {x}}\end{bmatrix}},\;{\boldsymbol {y}}-{\overline {y}}\,{\boldsymbol {1}}={\begin{bmatrix}y_{1}-{\overline {y}}\\y_{2}-{\overline {y}}\\\vdots \\y_{n}-{\overline {y}}\end{bmatrix}}}

ただし、1 は全ての成分が1である n 次の列ベクトルで、1 = [1 1 ... 1] である。このとき、x, y偏差ベクトル xx 1, yy 1なす角θ としたときの

cos θ = x x ¯ 1 , y y ¯ 1 x x ¯ 1 y y ¯ 1 {\displaystyle \cos \theta ={\frac {\langle {\boldsymbol {x}}-{\overline {x}}\,{\boldsymbol {1}},\;{\boldsymbol {y}}-{\overline {y}}\,{\boldsymbol {1}}\rangle }{\|{\boldsymbol {x}}-{\overline {x}}\,{\boldsymbol {1}}\|\|{\boldsymbol {y}}-{\overline {y}}\,{\boldsymbol {1}}\|}}}

が標本相関係数 r である。ここで、●, ●内積を表す。

データ (x1, x2, …, xn), (y1, y2, ..., yn) が2次元正規分布からの標本のとき、標本相関係数 r は母集団相関係数 ρ最尤推定量ではあるが、不偏推定量ではなく(絶対値で見ると)小さめに見積もりがちである[11]。また外れ値に大きく影響してしまう。

順位相関係数

誤解や誤用

相関と因果の混同

相関係数は、あくまでも確率変数の間にある線形な関係の尺度に過ぎない[1][2]。また、確率変数間の因果関係を説明するものでもない。相関係数は順序尺度であり比尺度ではないので、例えば「相関係数が0.2と0.4であることから、後者は前者より2倍の相関がある」などと言うことはできない。

しばしば、相関があるという表現が、あたかも因果関係を示しているかのように誤解あるいは誤用される。

2つの変数(A,B)間に相関が見られる場合、偶然による相関を除けば、次の3つの可能性が想定される(相関と因果の違いに関する誤解・誤用において目立つのは、3番目の場合である)。

  1. AがBを発生させる
  2. BがAを発生させる
  3. 第3の変数CがAとBを発生させる(この場合、AとBの間に因果関係はなく擬似相関と呼ばれる)

因果的な効果の推定ににあたっては、単に相関を見るだけでは分からない。ジューディア・パール[12]ドナルド・ルービン[13]などによってまとめられてきた統計的因果推論などに則った調査研究を実施する必要がある。

相関係数と回帰係数の混同

相関分析とは2変数の間に線形関係があるかどうか、およびその強さについての分析であり、2つの変数の間に質的な区別を仮定しない。それに対し回帰分析とは、変数の間にどのような関係があるか(具体的な関数の形)についての分析であり、また説明変数によって目的変数を予測するのを目的としている。 初学者によく見られる勘違いとして、相関係数と回帰係数が取り違えて理解されることが多い。 また、回帰式を作ることは、あくまで予測モデルを立てることに過ぎず、回帰分析によって因果関係の推定が直接的にできるわけではない。

HARKing

詳細は「HARKing」を参照

また、多数のデータを比較したときに、たまたま相関係数が強く出た組み合わせの結果をもとに、事前の仮説を訂正して論文を書き上げる行為は、HARKingと呼ばれる。探索的研究としてではなく、仮説検証型の研究としてHARKingを行った論文を公表することは、偶然の結果を、あたかも強い意味がある結果であるかのように誤認させ、第一種や第二種の過誤をしてしまう可能性が高いため、研究の手続きとして大きな問題がある。

脚注

  1. ^ a b 栗林 2011, p. 18.
  2. ^ a b Drouet Mari & Kotz 2001, 2.2.1. Linear relationship.
  3. ^ 稲垣 1990, p. 66.
  4. ^ 伏見康治「確率論及統計論」第III章 記述的統計学 21節 2偶然量の相関 p.146 ISBN 9784874720127 http://ebsa.ism.ac.jp/ebooks/ebook/204
  5. ^ 稲垣 1990, 定理4.2.ii.
  6. ^ 中西他 2004.
  7. ^ 和田恒之. “統計学セミナー 第5回資料 相関 (Correlation)” (PDF). 北海道対がん協会. 2016年5月31日閲覧。
  8. ^ Debasis Bhattacharya (Ph. D.); Soma Roychowdhury (2012). Statistics in Social Science and Agricultural Research. Concept Publishing Company. p. 74. ISBN 978-81-8069-822-4. https://books.google.co.jp/books?id=UefvPxBuzVQC&pg=PA74&redir_esc=y&hl=ja 
  9. ^ Chris Spatz (2007-05-16). Basic Statistics: Tales of Distributions. Cengage Learning. pp. 319-320. ISBN 0-495-38393-7. https://books.google.co.jp/books?id=lQILp3xrrLUC&pg=PA319&redir_esc=y&hl=ja 
  10. ^ JIS Z 8101-1 : 1999 統計 − 用語と記号 − 第1部:確率及び一般統計用語 1.9 相関, 日本規格協会、http://kikakurui.com/z8/Z8101-1-1999-01.html
  11. ^ Hedges & Olkin 1985, p. 255.
  12. ^ Judea Pearl. 2000. Causality: Models, Reasoning, and Inference, Cambridge University Press.
  13. ^ Rubin, Donald (1974). “Estimating Causal Effects of Treatments in Randomized and Nonrandomized Studies”. J. Educ. Psychol. 66 (5): 688-701 [p. 689]. doi:10.1037/h0037350. 

参考文献

  • 稲垣宣生『数理統計学』裳華房、1990年。ISBN 4-7853-1406-0。 
  • 中西寛子、岩崎学、時岡規夫『実用統計用語事典』オーム社、2004年。ISBN 4-274-06554-5。https://books.google.com/books?id=iZbhSqKrABMC&pg=PA153 
  • 栗原伸一『入門統計学―検定から多変量解析・実験計画法まで』オーム社、2011年。ISBN 978-4-274-06855-3。https://books.google.com/books?id=r5JIE8QbPbAC&pg=PA17 
  • Drouet Mari, Dominique; Kotz, Samuel (2001). Correlation and Dependence. Imperial College Press. ISBN 1-86094-264-4. MR1835042. https://books.google.com/books?id=xvG3CgAAQBAJ 
  • Hedges, Larry V.; Olkin, Ingram (1985). Statistical Methods for Meta-Analysis. Academic Press. ISBN 0-12-336380-2. MR0798597. https://books.google.com/books?id=7GviBQAAQBAJ&pg=PA225 
  • 伏見康治『確率論及統計論』河出書房、1942年。ISBN 9784874720127。http://ebsa.ism.ac.jp/ebooks/ebook/204 
  • 日本数学会『数学辞典』岩波書店、2007年。ISBN 9784000803090。 
  • JIS Z 8101-1:1999 統計用語記号 − 第1部:確率及び一般統計用語、日本規格協会、http://kikakurui.com/z8/Z8101-1-1999-01.html

関連項目


標本調査
要約統計量
連続確率分布
位置
分散
モーメント
カテゴリデータ
推計統計学
仮説検定
パラメトリック
ノンパラメトリック
その他
区間推定
モデル選択基準
その他
ベイズ統計学
確率
その他
相関
モデル
回帰
線形
非線形
時系列
分類
線形
二次
非線形
その他
教師なし学習
クラスタリング
密度推定(英語版)
その他
統計図表
生存分析
歴史
  • 統計学の創始者
  • 確率論と統計学の歩み
応用
出版物
  • 統計学に関する学術誌一覧
  • 重要な出版物
全般
その他
カテゴリ カテゴリ