フィッシャー情報量


フィッシャー情報量(フィッシャーじょうほうりょう、: Fisher information I X ( θ ) {\displaystyle {\mathcal {I}}_{X}(\theta )} は、統計学情報理論で登場する量で、確率変数 X {\displaystyle X} 母数 θ {\displaystyle \theta } に関して持つ「情報」の量を表す。統計学者ロナルド・フィッシャーに因んで名付けられた。

定義

θ {\displaystyle \theta } 母数とし、 X {\displaystyle X} 確率密度関数 f ( x | θ ) {\displaystyle f(x|\theta )} で表される確率変数とする。 このとき、 θ {\displaystyle \theta } 尤度関数 L ( θ | x ) {\displaystyle L(\theta |x)}

L ( θ | x ) = f ( x | θ ) {\displaystyle L(\theta |x)=f(x|\theta )\,}

で定義され、スコア関数は対数尤度関数の微分

V ( x ; θ ) = θ ln L ( θ | x ) {\displaystyle V(x;\theta )={\frac {\partial }{\partial \theta }}\ln L(\theta |x)}

により定義される。このとき、フィッシャー情報量 I X ( θ ) {\displaystyle {\mathcal {I}}_{X}(\theta )} はスコア関数の2次のモーメント

I X ( θ ) = E [ V ( x ; θ ) 2 | θ ] = E [ ( θ ln L ( θ | x ) ) 2 | θ ] {\displaystyle {\begin{aligned}{\mathcal {I}}_{X}(\theta )&=\mathrm {E} [V(x;\theta )^{2}|\theta ]\\&=\mathrm {E} \left[\left.{\biggl (}{\frac {\partial }{\partial \theta }}\ln L(\theta |x){\biggr )}^{2}\right|\,\theta \right]\end{aligned}}}

により定義される。紛れがなければ添え字の X {\displaystyle X} を省略し、 I ( θ ) {\displaystyle {\mathcal {I}}(\theta )} とも表記する。なお、 X {\displaystyle X} に関しては期待値が取られている為、フィッシャー情報量は X {\displaystyle X} の従う確率密度関数 f ( x | θ ) {\displaystyle f(x|\theta )} のみに依存して決まる。よって X {\displaystyle X} Y {\displaystyle Y} が同じ確率密度関数を持てば、それらのフィッシャー情報量は同一である。

スコア関数は

E [ V ( x ; θ ) | θ ] = 0 {\displaystyle \mathrm {E} [V(x;\theta )|\theta ]=0\,}

を満たす事が知られているので、

I X ( θ ) = v a r ( V ( x ; θ ) ) {\displaystyle {\mathcal {I}}_{X}(\theta )=\mathrm {var} (V(x;\theta ))}

が成立する。ここで v a r {\displaystyle \mathrm {var} } は分散を表す。

また ln f ( x | θ ) {\displaystyle \ln f(x|\theta )} が二回微分可能で以下の標準化条件

2 θ 2 f ( X ; θ ) d x = 0 , {\displaystyle \int {\frac {\partial ^{2}}{\partial \theta ^{2}}}f(X;\theta )\,dx=0,}

を満たすなら、フィッシャー情報量は以下のように書き換えることができる。

I ( θ ) = E [ 2 θ 2 ln f ( X ; θ ) ] . {\displaystyle {\mathcal {I}}(\theta )=-\mathrm {E} \left[{\frac {\partial ^{2}}{\partial \theta ^{2}}}\ln f(X;\theta )\right].}

このとき、フィッシャー情報量は、 f {\displaystyle f} 対数 θ {\displaystyle \theta } についての2次の導関数にマイナスを付けたものになる。フィッシャー情報量は、 θ {\displaystyle \theta } についての最尤推定量付近のサポート曲線の「鋭さ」としてもとらえることができる。例えば、「鈍い」(つまり、浅い最大値を持つ)サポート曲線は、2次の導関数として小さな値を持つため、フィッシャー情報量としても小さな値を持つことになるし、鋭いサポート曲線は、2次導関数として大きな値を持つため、フィッシャー情報量も大きな値になる。

フィッシャー情報行列

パラメータがN個の場合、つまり、 θ {\displaystyle \mathbf {\theta } } N次のベクトル θ = ( θ 1 , θ 2 , , θ N ) T {\displaystyle \theta =(\theta _{1},\theta _{2},\cdots ,\theta _{N})^{T}} であるとき、フィッシャー情報量は、以下で定義されるNxN 行列に拡張される。

I ( θ ) = E [ θ ln f ( X ; θ ) θ T ln f ( X ; θ ) ] . {\displaystyle {\mathcal {I}}(\mathbf {\theta } )=\mathrm {E} \left[{\frac {\partial }{\partial \mathbf {\theta } }}\ln f(X;\theta ){\frac {\partial }{\partial \mathbf {\theta } ^{T}}}\ln f(X;\theta )\right].}

これを、フィッシャー情報行列(FIM, Fisher information matrix)と呼ぶ。成分表示すれば、以下のようになる。

( I ( θ ) ) i , j = E [ θ i ln f ( X ; θ ) θ j ln f ( X ; θ ) ] . {\displaystyle {\left({\mathcal {I}}\left(\theta \right)\right)}_{i,j}=\mathrm {E} \left[{\frac {\partial }{\partial \theta _{i}}}\ln f(X;\theta ){\frac {\partial }{\partial \theta _{j}}}\ln f(X;\theta )\right].}

フィッシャー情報行列は、NxN正定値対称行列であり、その成分は、N次のパラメータ空間からなるフィッシャー情報距離を定義する。

p {\displaystyle p} 個のパラメータによる尤度があるとき、フィッシャー情報行列のi番目の行と、j番目の列の要素がゼロであるなら、2つのパラメータ、 θ i {\displaystyle \theta _{i}} θ j {\displaystyle \theta _{j}} 直交である。パラメータが直交であるとき、最尤推定量が独立になり、別々に計算することができるため、扱いやすくなる。このため、研究者が何らかの研究上の問題を扱うとき、その問題に関わる確率密度が直交になるようにパラメーター化する方法を探すのに一定の時間を費やすのが普通である。

基本的性質

フィッシャー情報量は

0 I ( θ ) < {\displaystyle 0\leq {\mathcal {I}}(\theta )<\infty \,}

を満たす。

また X {\displaystyle X} Y {\displaystyle Y} 独立な確率変数であれば、

I X , Y ( θ ) = I X ( θ ) + I Y ( θ ) {\displaystyle {\mathcal {I}}_{X,Y}(\theta )={\mathcal {I}}_{X}(\theta )+{\mathcal {I}}_{Y}(\theta )}  (フィッシャー情報量の加算性)

が成立する。すなわち、「 ( X , Y ) {\displaystyle (X,Y)} θ {\displaystyle \theta } に関して持つ情報の量」は 「 X {\displaystyle X} θ {\displaystyle \theta } に関して持つ情報の量」と 「 Y {\displaystyle Y} θ {\displaystyle \theta } に関して持つ情報の量」の和である。

よって特に、無作為に取られたn個の標本が持つフィッシャー情報量は、1つの標本が持つフィッシャー情報量のn倍である(観察が独立である場合)。

Cramér–Raoの不等式

θ {\displaystyle \theta } の任意の不偏推定量 θ ^ {\displaystyle {\hat {\theta }}} は以下のCramér–Rao(クラメール-ラオ)の不等式を満たす:

v a r ( θ ^ ) 1 I ( θ ) {\displaystyle \mathrm {var} ({\hat {\theta }})\geq {\frac {1}{{\mathcal {I}}(\theta )}}\,}

この不等式の直観的意味を説明する為、両辺の逆数を取った上で確率変数 X {\displaystyle X} への依存関係を明示すると、

I X ( θ ) 1 v a r ( θ ^ ( X ) ) {\displaystyle {\mathcal {I}}_{X}(\theta )\geq {\frac {1}{\mathrm {var} ({\hat {\theta }}(X))}}\,}

となる。一般に推定量はその分散が小さいほど(よって分散の逆数が大きいほど)母数 θ {\displaystyle \theta } に近い値を出しやすいので、「よい」推定量であると言える。 θ {\displaystyle \theta } を「推定する」という行為は、「よい」推定量 θ ^ ( X ) {\displaystyle {\hat {\theta }}(X)} を使って θ {\displaystyle \theta } を可能な限り復元する行為に他ならないが、上の不等式は X {\displaystyle X} から算出されたどんな不偏推定量であっても X {\displaystyle X} が元々持っている「情報」以上に「よい」推定量にはなりえない事を意味する。

十分統計量との関係

一般に T = t ( X ) {\displaystyle T=t(X)} 統計量であるならば、

I T ( θ ) I X ( θ ) {\displaystyle {\mathcal {I}}_{T}(\theta )\leq {\mathcal {I}}_{X}(\theta )}

が成立する。すなわち、「 X {\displaystyle X} から計算される値 T = t ( X ) {\displaystyle T=t(X)} が持っている θ {\displaystyle \theta } の情報」は「 X {\displaystyle X} 自身が持っている θ {\displaystyle \theta } の情報」よりも大きくない。

上式で等号成立する必要十分条件は T {\displaystyle T} 十分統計量であること。 これは T ( X ) {\displaystyle T(X)} θ {\displaystyle \theta } に対して十分統計量であるならば、ある関数 f {\displaystyle f} および g {\displaystyle g} が存在して

f ( X ; θ ) = g ( T ( X ) , θ ) h ( X ) {\displaystyle f(X;\theta )=g(T(X),\theta )h(X)}

が成り立つ(ネイマン分解基準)事を使って証明できる。

カルバック・ライブラー情報量との関係

X θ {\displaystyle X_{\theta }} を母数 θ = ( θ 1 , , θ n ) {\displaystyle {\vec {\theta }}=(\theta _{1},\ldots ,\theta _{n})} を持つ確率変数とすると、カルバック・ライブラー情報量 D K L {\displaystyle D_{\mathrm {KL} }} とフィッシャー情報行列は以下の関係が成り立つ。

D K L ( X θ + h X θ ) = t h I ( θ ) h 2 + o ( | h | 2 ) {\displaystyle D_{\mathrm {KL} }(X_{{\vec {\theta }}+{\vec {h}}}\|X_{\vec {\theta }})={\frac {{}^{t}{\vec {h}}\cdot {\mathcal {I}}({\vec {\theta }})\cdot {\vec {h}}}{2}}+o(|{\vec {h}}|^{2})}

すなわちフィッシャー情報行列はカルバック・ライブラー情報量をテイラー展開したときの2次の項として登場する。(0次、1次の項は0)。

具体例

ベルヌーイ分布

ベルヌーイ分布は、確率θ でもたらされる「成功」と、それ以外の場合に起きる「失敗」という2つの結果をもたらす確率変数が従う分布である(ベルヌーイ試行)。例えば、表が出る確率がθ、裏が出る確率が1 - θであるような、コインの投げ上げを考えれば良い。

n回の独立なベルヌーイ試行が含むフィッシャー情報量は、以下のようにして求められる。なお、以下の式中で、A は成功の回数、B は失敗の回数、n =A +B は試行の合計回数を示している。対数尤度関数の2階導関数は、

2 θ 2 ln f ( A ; θ ) = 2 θ 2 ln [ θ A ( 1 θ ) B ( A + B ) ! A ! B ! ] = 2 θ 2 [ A ln ( θ ) + B ln ( 1 θ ) ] = A θ 2 B ( 1 θ ) 2 {\displaystyle {\begin{aligned}{\frac {\partial ^{2}}{\partial \theta ^{2}}}\ln {f(A;\theta )}&={\frac {\partial ^{2}}{\partial \theta ^{2}}}\ln \left[\theta ^{A}(1-\theta )^{B}{\frac {(A+B)!}{A!B!}}\right]\\&={\frac {\partial ^{2}}{\partial \theta ^{2}}}\left[A\ln(\theta )+B\ln(1-\theta )\right]\\&=-{\frac {A}{\theta ^{2}}}-{\frac {B}{(1-\theta )^{2}}}\end{aligned}}}

であるから、

I ( θ ) = E [ 2 θ 2 ln ( f ( A ; θ ) ) ] = n θ θ 2 + n ( 1 θ ) ( 1 θ ) 2 {\displaystyle {\begin{aligned}{\mathcal {I}}(\theta )&=-\mathrm {E} \left[{\frac {\partial ^{2}}{\partial \theta ^{2}}}\ln(f(A;\theta ))\right]\\&={\frac {n\theta }{\theta ^{2}}}+{\frac {n(1-\theta )}{(1-\theta )^{2}}}\end{aligned}}}

となる。但し、Aの期待値はn θB の期待値はn (1-θ )であることを用いた 。

つまり、最終的な結果は、

I ( θ ) = n θ ( 1 θ ) , {\displaystyle {\mathcal {I}}(\theta )={\frac {n}{\theta (1-\theta )}},}

である。これは、n回のベルヌーイ試行の成功数の平均の分散の逆数に等しい。

ガンマ分布

形状パラメータα、尺度パラメータβのガンマ分布において、フィッシャー情報行列は

I ( α , β ) = ( ψ ( α ) 1 β 1 β α β 2 ) {\displaystyle {\mathcal {I}}(\alpha ,\beta )={\begin{pmatrix}\psi '(\alpha )&{\frac {1}{\beta }}\\{\frac {1}{\beta }}&{\frac {\alpha }{\beta ^{2}}}\end{pmatrix}}}

で与えられる。但し、ψ(α)はディガンマ関数を表す。

正規分布

平均μ、分散σ2正規分布N(μ, σ2)において、フィッシャー情報行列は

I ( μ , σ 2 ) = ( 1 σ 2 0 0 1 2 ( σ 2 ) 2 ) {\displaystyle {\mathcal {I}}(\mu ,\sigma ^{2})={\begin{pmatrix}{\frac {1}{\sigma ^{2}}}&0\\0&{\frac {1}{2(\sigma ^{2})^{2}}}\end{pmatrix}}}

で与えられる。

多変量正規分布

N個の変数の多変量正規分布についてのフィッシャー情報行列は、特別な形式を持つ。

μ ( θ ) = ( μ 1 ( θ ) , μ 2 ( θ ) , , μ N ( θ ) ) , {\displaystyle \mu (\theta )={\begin{pmatrix}\mu _{1}(\theta ),\mu _{2}(\theta ),\cdots ,\mu _{N}(\theta )\end{pmatrix}},}

であるとし、 Σ ( θ ) {\displaystyle \Sigma (\theta )} μ ( θ ) {\displaystyle \mu (\theta )} 共分散行列であるとするなら、

X {\displaystyle X} N ( μ ( θ ) , Σ ( θ ) ) {\displaystyle N(\mu (\theta ),\Sigma (\theta ))} のフィッシャー情報行列、 I m , n ( 0 ; m , n < N ) {\displaystyle {\mathcal {I}}_{m,n}\,(0\leq ;m,n<N)} の成分は以下の式で与えられる。

I m , n = μ θ m Σ 1 μ θ n + 1 2 t r ( Σ 1 Σ θ m Σ 1 Σ θ n ) , {\displaystyle {\mathcal {I}}_{m,n}={\frac {\partial \mu }{\partial \theta _{m}}}\Sigma ^{-1}{\frac {\partial \mu ^{\top }}{\partial \theta _{n}}}+{\frac {1}{2}}\mathrm {tr} \left(\Sigma ^{-1}{\frac {\partial \Sigma }{\partial \theta _{m}}}\Sigma ^{-1}{\frac {\partial \Sigma }{\partial \theta _{n}}}\right),}

ここで、 ( . . ) {\displaystyle (..)^{\top }} はベクトルの転置を示す記号であり、 t r ( . . ) {\displaystyle \mathrm {tr} (..)} は、平方行列のトレースを表す記号である。また、微分は以下のように定義される。

μ θ m = ( μ 1 θ m , μ 2 θ m , , μ N θ m ) {\displaystyle {\frac {\partial \mu }{\partial \theta _{m}}}={\begin{pmatrix}{\frac {\partial \mu _{1}}{\partial \theta _{m}}},&{\frac {\partial \mu _{2}}{\partial \theta _{m}}},&\cdots ,&{\frac {\partial \mu _{N}}{\partial \theta _{m}}}\end{pmatrix}}}
Σ θ m = ( Σ 1 , 1 θ m Σ 1 , 2 θ m Σ 1 , N θ m Σ 2 , 1 θ m Σ 2 , 2 θ m Σ 2 , N θ m Σ N , 1 θ m Σ N , 2 θ m Σ N , N θ m ) . {\displaystyle {\frac {\partial \Sigma }{\partial \theta _{m}}}={\begin{pmatrix}{\frac {\partial \Sigma _{1,1}}{\partial \theta _{m}}}&{\frac {\partial \Sigma _{1,2}}{\partial \theta _{m}}}&\cdots &{\frac {\partial \Sigma _{1,N}}{\partial \theta _{m}}}\\\\{\frac {\partial \Sigma _{2,1}}{\partial \theta _{m}}}&{\frac {\partial \Sigma _{2,2}}{\partial \theta _{m}}}&\cdots &{\frac {\partial \Sigma _{2,N}}{\partial \theta _{m}}}\\\\\vdots &\vdots &\ddots &\vdots \\\\{\frac {\partial \Sigma _{N,1}}{\partial \theta _{m}}}&{\frac {\partial \Sigma _{N,2}}{\partial \theta _{m}}}&\cdots &{\frac {\partial \Sigma _{N,N}}{\partial \theta _{m}}}\end{pmatrix}}.}

脚注


関連項目