分散 (確率論)

数学統計学における分散(ぶんさん、: variance)とは、データ母集団、標本)、確率変数確率分布)の標準偏差自乗のことである。分散も標準偏差と同様に散らばり具合を表し[1]、標準偏差より分散の方が計算が簡単なため、計算する上で分散を用いることも多い。

分散は具体的には、平均値からの偏差2乗の平均に等しい。データ x1, x2, …, xn の分散 s2

s 2 = 1 n i = 1 n ( x i x ¯ ) 2 {\displaystyle s^{2}={\frac {1}{n}}\textstyle \sum \limits _{i=1}^{n}(x_{i}-{\overline {x}})^{2}}
ここで x は平均値を表す。

分散が 0 であることは、データの値が全て等しいことと同値である。データの分散は二乗平均から平均の2乗を引いた値に等しくなる。

確率変数 X の分散 V[X][注 1]は、X期待値E[X] で表すと

V[X] = E[(XE[X])2]

となる[2]。 確率変数の分散は確率変数の2次の中心化モーメントである。

統計学では、記述統計学においては標本の散らばり具合を表す指標として標本分散(ひょうほんぶんさん、: sample variance)を、推計統計学においては不偏分散(ふへんぶんさん、: unbiased variance)・不偏標本分散(ふへんひょうほんぶんさん、: unbiased sample variance)を用いる。

言葉の由来

英語の variance(バリアンス)という語はロナルド・フィッシャーが1918年に導入した[3]

確率変数の分散

2乗可積分確率変数 X の分散は期待値E[X] で表すと

V [ X ] = E [ ( X E [ X ] ) 2 ] {\displaystyle V[X]=E{\big [}(X-E[X])^{2}{\big ]}}

定義される。これを展開して整理すると

V [ X ] = E [ ( X E [ X ] ) 2 ] = E [ X 2 2 X E [ X ] + ( E [ X ] ) 2 ] = E [ X 2 ] 2 E [ X E [ X ] ] + E [ ( E [ X ] ) 2 ] = E [ X 2 ] 2 E [ X ] E [ X ] + ( E [ X ] ) 2 ( E [ X ] = C o n s t ) = E [ X 2 ] ( E [ X ] ) 2 {\displaystyle {\begin{alignedat}{5}V[X]&=E{\big [}(X-E[X])^{2}{\big ]}\\&=E{\big [}X^{2}-2XE[X]+(E[X])^{2}{\big ]}\\&=E[X^{2}]-2E{\big [}XE[X]{\big ]}+E{\big [}(E[X])^{2}{\big ]}\\&=E[X^{2}]-2E[X]E[X]+(E[X])^{2}(\because E[X]=Const)\\&=E[X^{2}]-(E[X])^{2}\\\end{alignedat}}}

とも書ける。また確率変数 X特性関数φX(t) = E[eitX] とおくと(i虚数単位)、これは 2階連続的微分可能

V [ X ] = φ X ( 0 ) + ( φ X ( 0 ) ) 2 {\displaystyle V[X]=-\varphi _{X}''(0)+(\varphi _{X}'(0))^{2}}

と表示することもできる。

チェビシェフの不等式から、任意の正の数 ε に対して

P ( | X E [ X ] | > ε ) V ( X ) ε 2 {\displaystyle P(|X-E[X]|>\varepsilon )\leq {\frac {V(X)}{\varepsilon ^{2}}}}

が成り立つ。これは分散が小さくなるほど確率変数が期待値に近い値をとりやすくなることを示す大まかな評価である。

性質

X, X1, …, Xn確率変数a, b, a1, …, an定数とし、共分散Cov[ · , · ] で表すと

  • V [ X ] 0 {\displaystyle V[X]\geq 0} (非負性)
  • V [ X + b ] = V ( X ) {\displaystyle V[X+b]=V(X)} 位置母数(英語版)に対する不変性)
  • V [ a X ] = a 2 V ( X ) {\displaystyle V[aX]=a^{2}V(X)} 斉次性
  • V [ i a i X i ] = i , j a i a j Cov [ X i , X j ] {\displaystyle V{\bigl [}\textstyle \sum \limits _{i}a_{i}X_{i}{\bigr ]}=\sum \limits _{i,j}a_{i}a_{j}\operatorname {Cov} [X_{i},X_{j}]}

を満たす。したがって、特に X1, …, Xn が独立ならば、

Cov [ X i , X j ] = { V ( X i ) ( i = j ) 0 ( i j ) {\displaystyle \operatorname {Cov} [X_{i},X_{j}]={\begin{cases}V(X_{i})&(i=j)\\0&(i\neq j)\end{cases}}}

より

V [ X 1 + + X n ] = V [ X 1 ] + + V [ X n ] {\displaystyle V[X_{1}+\dotsb +X_{n}]=V[X_{1}]+\dotsb +V[X_{n}]}

が成り立つ。

データの分散

推計統計学では、母集団の分散と標本の分散を区別する必要がある。

母分散

大きさが n である母集団 x1, x2, …, xn に対して、平均値μ で表すとき、偏差自乗の平均値

σ 2 = 1 n i = 1 n ( x i μ ) 2 {\displaystyle \sigma ^{2}={\frac {1}{n}}\textstyle \sum \limits _{i=1}^{n}(x_{i}-\mu )^{2}}

母分散(ぼぶんさん、: population variance)と言う[4]

標本分散・不偏標本分散

大きさが n である標本 x1, x2, …, xn に対して、平均値x で表すとき、偏差自乗の平均値

s 2 = 1 n i = 1 n ( x i x ¯ ) 2 {\displaystyle s^{2}={\frac {1}{n}}\textstyle \sum \limits _{i=1}^{n}(x_{i}-{\bar {x}})^{2}}

で定義される s2標本分散(ひょうほんぶんさん、: sample variance)と言う。s標準偏差と呼ばれる[4]

定義より、

s 2 = 1 n i = 1 n x i 2 ( x ¯ ) 2 = x 2 ¯ ( x ¯ ) 2 {\displaystyle s^{2}={\frac {1}{n}}\textstyle \sum \limits _{i=1}^{n}{x_{i}}^{2}-({\bar {x}})^{2}={\overline {x^{2}}}-({\bar {x}})^{2}}

となるから、標本分散は2乗の平均値と平均値の2乗との差に等しい。ただし、この計算では概して二乗平均が巨大になるため、浮動小数点数による近似計算を行う場合には大きな丸め誤差が生じる可能性がある(桁落ち)。このため、浮動小数点数を扱う場合には定義に従って偏差の二乗和を計算することが一般的である(あるいは一般の総和計算と同じくカハンの加算アルゴリズムpairwise summation(英語版)のような手法により、誤差を小さくする工夫がなされることもある)。

一般に、標本分散の平均値は母分散より少し小さくなる。実際には、平均と分散を持つ同一分布からの無作為標本に対して、標本分散の期待値 E[s2] について、

E [ s 2 ] = ( 1 1 n ) σ 2 {\displaystyle E[s^{2}]=\left(1-{\frac {1}{n}}\right)\sigma ^{2}}

が成り立つ。そこで

σ ^ 2 = 1 n 1 i = 1 n ( x i x ¯ ) 2 = 1 n 1 i = 1 n x i 2 n n 1 x ¯ 2 {\displaystyle {\hat {\sigma }}^{2}={\frac {1}{n-1}}\textstyle \sum \limits _{i=1}^{n}(x_{i}-{\bar {x}})^{2}={\dfrac {1}{n-1}}\sum \limits _{i=1}^{n}{x_{i}}^{2}-{\dfrac {n}{n-1}}{\bar {x}}^{2}}

を用いると、平均値が母分散に等しくなる推定量が得られる。つまり母分散の不偏推定量となる。これを不偏標本分散(ふへんひょうほんぶんさん、: unbiased sample variance)や不偏分散(ふへんぶんさん、: unbiased variance)と呼ぶ[4]

上記の標本分散は不偏でないことを強調する場合偏りのある標本分散: biased sample variance)と言う。

偏り」も参照

なお、不偏標本分散を単に標本分散と呼ぶ文献もある。

定義から明らかに、標本の大きさが大きくなる程につれて偏りのある標本分散は不偏標本分散に近づく。

注釈

  1. ^ 分散を Var[X] と書く場合もある。

出典

  1. ^ 西岡 2013, 1.8 分散.
  2. ^ JIS Z 8101-1 : 1999, 1.13 分散.
  3. ^ “Earliest Known Uses of Some of the Words of Mathematics (V)”. 2016年1月24日閲覧。
  4. ^ a b c 栗原 2011, p. 47.

参考文献

  • 栗原伸一『入門統計学検定から多変量解析・実験計画法まで』オーム社、2011年。ISBN 978-4-274-06855-3。https://books.google.com/books?id=r5JIE8QbPbAC 
  • 西岡康夫『数学チュートリアル やさしく語る 確率統計』オーム社、2013年。https://books.google.com/books?id=AUY2AgAAQBAJ 
  • 日本数学会『数学辞典』岩波書店、2007年。ISBN 9784000803090。 
  • JIS Z 8101-1:1999 統計 − 用語と記号 − 第1部:確率及び一般統計用語, 日本規格協会, (1999), http://kikakurui.com/z8/Z8101-1-1999-01.html 
  • 伏見康治『確率論及統計論』河出書房、1942年。ISBN 9784874720127。http://ebsa.ism.ac.jp/ebooks/ebook/204 

関連項目

標本調査
要約統計量
連続確率分布
位置
分散
モーメント
カテゴリデータ
推計統計学
仮説検定
パラメトリック
ノンパラメトリック
その他
区間推定
モデル選択基準
その他
ベイズ統計学
確率
その他
相関
モデル
回帰
線形
非線形
時系列
分類
線形
二次
非線形
その他
教師なし学習
クラスタリング
密度推定(英語版)
その他
統計図表
生存分析
歴史
  • 統計学の創始者
  • 確率論と統計学の歩み
応用
出版物
  • 統計学に関する学術誌一覧
  • 重要な出版物
全般
その他
カテゴリ カテゴリ
典拠管理データベース: 国立図書館 ウィキデータを編集
  • ドイツ
  • 日本