クラメール・ラオの限界

推定理論(英語版)統計学におけるクラメール・ラオの限界(CRB)(クラメールラオのげんかい、: Cramér–Rao bound)(クラメール・ラオの下限(CRLB)クラメール・ラオの不等式Frechet–Darmois–Cramér–Rao 不等式情報不等式とも)とは、ある確率分布の未知母数を推定する不偏推定量には、その分散についてある下限値が存在することを示すものである。名称は、1940年代にそれぞれ独立に推定精度に関する限界を見出した、ハラルド・クラメールC. R.ラオ(英語版)モーリス・ルネ・フレシェジョルジュ・ダルモア(英語版、フランス語版)にちなむ[1][2][3][4][5][6][7]

最も単純に述べると、『任意の不偏推定量の分散は、 そのフィッシャー情報量の逆数以上になる』というものである。不偏な推定量がこの下限を達成するとき、その推定量は(完全な)有効推定量(英語版)であるという。この場合、その推定量はあらゆる不偏推定量の中で平均二乗誤差が最小のものとなるため、必然的に最小分散不偏推定量(英語版)(MVU推定量)にもなる。

しかしながら、どんな不偏推定量を考えても分散が決してクラメール・ラオの下限に到達できないようなケースもある(MVU推定量が存在するときでもこれは起こりえる)。

クラメール・ラオの限界には、不偏でない推定量に対するバージョンもある。不偏性の条件を取り除くことで、推定量の分散・平均二乗誤差が、不偏の場合のクラメール・ラオの下限を「下回る」ようなケースも存在する。推定量の偏り(英語版)も参照。

主張

ここでは、母数が1つ・推定量が不偏である場合から始めて、いくつかのかなり一般的な場合へと拡張していく。どのバージョンでもある種の正規性の仮定をおくが、それはほとんどの「普通のふるまいをする」確率分布については成り立つものである。この条件については後述する。

母数が1つで推定量が不偏の場合

何らかの確率密度関数 f ( x ; θ ) {\displaystyle f(x;\theta )} に従って分布する量 x {\displaystyle x} の観測値から、未知母数 θ {\displaystyle \theta } を推定することを考える。このとき、 θ {\displaystyle \theta } に対する任意の不偏な推定量 θ ^ {\displaystyle {\hat {\theta }}} の分散は、フィッシャー情報量 I ( θ ) {\displaystyle I(\theta )} の逆数以上になる:

Var ( θ ^ ) 1 I ( θ ) {\displaystyle \operatorname {Var} ({\hat {\theta }})\geq {\frac {1}{I(\theta )}}}

フィッシャー情報量 I ( θ ) {\displaystyle I(\theta )}

I ( θ ) = E [ ( ( X ; θ ) θ ) 2 ] {\displaystyle I(\theta )=\operatorname {E} \left[\left({\frac {\partial \ell (X;\theta )}{\partial \theta }}\right)^{2}\right]}

と定義される。ここで、 ( x ; θ ) = ln ( f ( x ; θ ) ) {\displaystyle \ell (x;\theta )=\ln(f(x;\theta ))} 尤度自然対数をとったもの(なお ( x ; θ ) θ {\displaystyle {\frac {\partial \ell (x;\theta )}{\partial \theta }}} スコア関数(英語版)という)で、 E {\displaystyle \operatorname {E} } は平均を表す。

不偏推定量 θ ^ {\displaystyle {\hat {\theta }}} の有効度は、推定量の分散がこの下限にどの程度接近しているかを測る指標で、次のように定義される。

e ( θ ^ ) = I ( θ ) 1 Var ( θ ^ ) {\displaystyle e({\hat {\theta }})={\frac {I(\theta )^{-1}}{\operatorname {Var} ({\hat {\theta }})}}}

不偏推定量の分散の下限値を、実際の分散で割った値、ともいえる。クラメール・ラオの下限より e ( θ ^ ) 1 {\displaystyle e({\hat {\theta }})\leq 1} となる。

母数が1つで、母数の関数の値を推定する場合

より一般に、確率変数 X {\displaystyle X} の関数 T ( X ) {\displaystyle T(X)} を用いて、母数の関数 ψ ( θ ) {\displaystyle \psi (\theta )} を推定することを考える。 E [ T ( X ) ] = ψ ( θ ) {\displaystyle \operatorname {E} \left[T(X)\right]=\psi (\theta )} であるとする。このときの分散の下限は、

Var ( T ) [ ψ ( θ ) ] 2 I ( θ ) {\displaystyle \operatorname {Var} (T)\geq {\frac {[\psi '(\theta )]^{2}}{I(\theta )}}}

ここで ψ ( θ ) {\displaystyle \psi '(\theta )} ψ ( θ ) {\displaystyle \psi (\theta )} θ {\displaystyle \theta } による微分、 I ( θ ) {\displaystyle I(\theta )} はフィッシャー情報量である。

母数が1つで推定量が不偏とは限らない場合

母数 θ {\displaystyle \theta } の推定量 θ ^ {\displaystyle {\hat {\theta }}} b ( θ ) = E [ θ ^ ] θ {\displaystyle b(\theta )=\operatorname {E} [{\hat {\theta }}]-\theta } だけの偏りがあるとする。

ψ ( θ ) = b ( θ ) + θ {\displaystyle \psi (\theta )=b(\theta )+\theta } と置いて前項の結果を使うと、

Var ( θ ^ ) [ 1 + b ( θ ) ] 2 I ( θ ) {\displaystyle \operatorname {Var} ({\hat {\theta }})\geq {\frac {[1+b'(\theta )]^{2}}{I(\theta )}}}

不偏のときの不等式は、 b ( θ ) = 0 {\displaystyle b(\theta )=0} とした特別な場合である。

分散を小さくすることだけを考えるなら、定数関数となる「推定量」をとれば、分散はゼロである。しかし上記の式から、推定量の平均二乗誤差には

E [ ( θ ^ θ ) 2 ] [ 1 + b ( θ ) ] 2 I ( θ ) + b ( θ ) 2 {\displaystyle \operatorname {E} \left[({\hat {\theta }}-\theta )^{2}\right]\geq {\frac {[1+b'(\theta )]^{2}}{I(\theta )}}+b(\theta )^{2}}

という下限が存在することになる。ここで、平均二乗誤差の標準的な分解式

MSE ( θ ^ ) := E [ ( θ ^ θ ) 2 ] = E [ ( θ ^ E [ θ ^ ] ) 2 ] + ( E [ θ ^ ] θ ) 2 {\displaystyle \operatorname {MSE} ({\hat {\theta }}):=\operatorname {E} \left[({\hat {\theta }}-\theta )^{2}\right]=\operatorname {E} \left[\left({\hat {\theta }}-\operatorname {E} [{\hat {\theta }}]\right)^{2}\right]+\left(\operatorname {E} [{\hat {\theta }}]-\theta \right)^{2}}

を用いた。

注意:もし 1 + b ( θ ) < 1 {\displaystyle 1+b'(\theta )<1} であれば、不偏のときのクラメール・ラオの下限 1 / I ( θ ) {\displaystyle 1/I(\theta )} を下回ることもある。例えば、後述する例では、 1 + b ( θ ) = n n + 2 < 1 {\displaystyle 1+b'(\theta )={\frac {n}{n+2}}<1} となる。

母数が複数(ベクトル値)の場合

クラメール・ラオの限界を、母数が複数の場合にも拡張しよう。母数ベクトル

θ = ( θ 1 , θ 2 , , θ d ) T R d {\displaystyle {\boldsymbol {\theta }}=\left(\theta _{1},\theta _{2},\dots ,\theta _{d}\right)^{T}\in \mathbb {R} ^{d}}

とし(右肩の T は転置を表す(以下同じ))、それによって決まる確率密度関数 f ( x ; θ ) {\displaystyle f(x;{\boldsymbol {\theta }})} を考える。 f {\displaystyle f} は後述の正規性の条件をみたすものとする。 フィッシャー情報行列は、 d × d {\displaystyle d\times d} 行列で、その成分 I m , k {\displaystyle I_{m,k}}

I m , k = E [ θ m ln f ( x ; θ ) θ k ln f ( x ; θ ) ] = E [ 2 θ m θ k ln f ( x ; θ ) ] {\displaystyle {\begin{aligned}I_{m,k}&=\operatorname {E} \left[{\frac {\partial }{\partial \theta _{m}}}\ln f\left(x;{\boldsymbol {\theta }}\right){\frac {\partial }{\partial \theta _{k}}}\ln f\left(x;{\boldsymbol {\theta }}\right)\right]\\&=-\operatorname {E} \left[{\frac {\partial ^{2}}{\partial \theta _{m}\partial \theta _{k}}}\ln f\left(x;{\boldsymbol {\theta }}\right)\right]\end{aligned}}}

で定まる行列のことである。 T ( X ) {\displaystyle {\boldsymbol {T}}(X)} を、母数ベクトルの任意の推定量としよう: T ( X ) = ( T 1 ( X ) , , T d ( X ) ) T {\displaystyle {\boldsymbol {T}}(X)=(T_{1}(X),\ldots ,T_{d}(X))^{T}} 。ここで、各成分の平均を並べた平均ベクトル E [ T ( X ) ] {\displaystyle \operatorname {E} [{\boldsymbol {T}}(X)]} ψ ( θ ) {\displaystyle {\boldsymbol {\psi }}({\boldsymbol {\theta }})} と記す。

このとき、 T ( X ) {\displaystyle {\boldsymbol {T}}(X)} 分散共分散行列に対するクラメール・ラオの限界は、

Cov ( T ( X ) ) ψ ( θ ) θ ( [ I ( θ ) ] 1 ψ ( θ ) θ ) T {\displaystyle \operatorname {Cov} \left({\boldsymbol {T}}(X)\right)\geq {\frac {\partial {\boldsymbol {\psi }}\left({\boldsymbol {\theta }}\right)}{\partial {\boldsymbol {\theta }}}}\left([I\left({\boldsymbol {\theta }}\right)]^{-1}{\frac {\partial {\boldsymbol {\psi }}\left({\boldsymbol {\theta }}\right)}{\partial {\boldsymbol {\theta }}}}\right)^{T}}

となる。ここで、

  • 行列に対する不等式 A B {\displaystyle A\geq B} は、行列の差 A B {\displaystyle A-B} 非負定値であるということである。
  • ψ ( θ ) / θ {\displaystyle \partial {\boldsymbol {\psi }}({\boldsymbol {\theta }})/\partial {\boldsymbol {\theta }}} ヤコビ行列 i j {\displaystyle ij} 成分が ψ i ( θ ) / θ j {\displaystyle \partial \psi _{i}({\boldsymbol {\theta }})/\partial \theta _{j}} )である。


もし T ( X ) {\displaystyle {\boldsymbol {T}}(X)} θ {\displaystyle {\boldsymbol {\theta }}} の不偏推定量であれば(つまり ψ ( θ ) = θ {\displaystyle {\boldsymbol {\psi }}\left({\boldsymbol {\theta }}\right)={\boldsymbol {\theta }}} であれば)クラメール・ラオの限界は

Cov ( T ( X ) ) I ( θ ) 1 {\displaystyle \operatorname {Cov} \left({\boldsymbol {T}}(X)\right)\geq I\left({\boldsymbol {\theta }}\right)^{-1}}

のようになる。フィッシャー情報行列の逆行列を計算するのが面倒な場合は、単に対応する対角成分の逆数をとることで、(より緩いかもしれないが)1つの下限が得られる[8]

Var ( T m ( X ) ) = [ Cov ( T ( X ) ) ] m m [ I ( θ ) 1 ] m m ( [ I ( θ ) ] m m ) 1 {\displaystyle \operatorname {Var} (T_{m}(X))=\left[\operatorname {Cov} \left({\boldsymbol {T}}(X)\right)\right]_{mm}\geq \left[I\left({\boldsymbol {\theta }}\right)^{-1}\right]_{mm}\geq \left(\left[I\left({\boldsymbol {\theta }}\right)\right]_{mm}\right)^{-1}}

正規性の条件

クラメール・ラオの不等式が成り立つための確率密度関数 f ( x ; θ ) {\displaystyle f(x;\theta )} と推定量 T ( X ) {\displaystyle T(X)} に関する2つの弱い十分条件は、次のとおりである:

  • フィッシャー情報量が常に定義されていること。言い換えると、次式を x {\displaystyle x} で積分した値が有限値として存在すること。
θ ln f ( x ; θ ) {\displaystyle {\frac {\partial }{\partial \theta }}\ln f(x;\theta )}
  • T {\displaystyle T} の期待値について、 x {\displaystyle x} についての積分と、 θ {\displaystyle \theta } についての偏微分が交換可能である、つまり
θ [ R T ( x ) f ( x ; θ ) d x ] = R T ( x ) [ θ f ( x ; θ ) ] d x {\displaystyle {\frac {\partial }{\partial \theta }}\left[\int _{\mathbb {R} }T(x)f(x;\theta )\,dx\right]=\int _{\mathbb {R} }T(x)\left[{\frac {\partial }{\partial \theta }}f(x;\theta )\right]\,dx}
が、右辺が存在する限り成り立つこと。
この条件は、以下のいずれかの場合が成り立つことをもって確認されることが多い:
  1. 関数 f ( x ; θ ) {\displaystyle f(x;\theta )} は、 θ {\displaystyle \theta } に依らない有界な関数の台(非ゼロとなる定義域)を持つ。
  2. θ {\displaystyle \theta } に依らない可積分関数 g ( x ) {\displaystyle g(x)} が存在して | T ( x ) θ f ( x ; θ ) | {\displaystyle \left|T(x){\frac {\partial }{\partial \theta }}f(x;\theta )\right\vert } を上から抑える。つまり、
| T ( x ) θ f ( x ; θ ) | g ( x ) ( x , θ ) , R g ( x ) d x < {\displaystyle \left|T(x){\frac {\partial }{\partial \theta }}f(x;\theta )\right\vert \leq g(x)\quad (\forall x,\forall \theta ),\quad \int _{\mathbb {R} }g(x)\,dx<\infty }

フィッシャー情報量の変形

f ( x ; θ ) {\displaystyle f(x;\theta )} θ {\displaystyle \theta } で2階偏微分可能であるとすると、フィッシャー情報量は

I ( θ ) = E [ ( θ ln f ( X ; θ ) ) 2 ] = R f ( x ; θ ) 1 ( f ( x ; θ ) ) 2 ( f ( x ; θ ) θ ) 2 d x = R f ( x ; θ ) f ( x ; θ ) f ( x ; θ ) θ ( f ( x ; θ ) θ ) 2 ( f ( x ; θ ) ) 2 d x = R f ( x ; θ ) ( 2 θ 2 ln f ( x ; θ ) ) d x = E [ 2 θ 2 ln f ( X ; θ ) ] {\displaystyle {\begin{aligned}I(\theta )&=\operatorname {E} \left[\left({\frac {\partial }{\partial \theta }}\ln f(X;\theta )\right)^{2}\right]\\&=\int _{\mathbb {R} }f(x;\theta ){\frac {1}{\left(f(x;\theta )\right)^{2}}}\left({\frac {\partial f(x;\theta )}{\partial \theta }}\right)^{2}\,dx\\&=-\int _{\mathbb {R} }f(x;\theta ){\frac {f(x;\theta ){\frac {\partial f(x;\theta )}{\partial \theta }}-\left({\frac {\partial f(x;\theta )}{\partial \theta }}\right)^{2}}{\left(f(x;\theta )\right)^{2}}}\,dx\\&=-\int _{\mathbb {R} }f(x;\theta )\left({\frac {\partial ^{2}}{\partial \theta ^{2}}}\ln f(x;\theta )\right)\,dx\\&=-\operatorname {E} \left[{\frac {\partial ^{2}}{\partial \theta ^{2}}}\ln f(X;\theta )\right]\end{aligned}}}

(3番目の等号の箇所で

R f ( x ; θ ) θ d x = θ R f ( x ; θ ) d x = θ ( 1 ) = 0 {\displaystyle \int _{\mathbb {R} }{\frac {\partial f(x;\theta )}{\partial \theta }}\,dx={\frac {\partial }{\partial \theta }}\int _{\mathbb {R} }f(x;\theta )\,dx={\frac {\partial }{\partial \theta }}(1)=0}

であることを用いた)

と変形でき、クラメール・ラオの不等式は次のようにも書ける。

Var ( θ ^ ) 1 I ( θ ) = 1 E [ 2 θ 2 ln f ( X ; θ ) ] {\displaystyle \operatorname {Var} ({\hat {\theta }})\geq {\frac {1}{I(\theta )}}={\frac {1}{-\operatorname {E} \left[{\frac {\partial ^{2}}{\partial \theta ^{2}}}\ln f(X;\theta )\right]}}}

こちらの公式の方が下限を評価するのにより有用な場合がある。

母数が1つの場合の証明

母数が1つの場合のクラメール・ラオの不等式を一般的に証明する。

X {\displaystyle X} を、確率密度関数が f ( x ; θ ) {\displaystyle f(x;\theta )} となる確率分布に従う確率変数とし、 T = t ( X ) {\displaystyle T=t(X)} X {\displaystyle X} の関数で、母数 θ {\displaystyle \theta } の関数である ψ ( θ ) {\displaystyle \psi (\theta )} の不偏推定量であるとする。つまり、 E [ T ] = ψ ( θ ) {\displaystyle \operatorname {E} \left[T\right]=\psi (\theta )}

目標は、任意の θ {\displaystyle \theta } に対して

Var ( t ( X ) ) [ ψ ( θ ) ] 2 I ( θ ) {\displaystyle \operatorname {Var} (t(X))\geq {\frac {[\psi ^{\prime }(\theta )]^{2}}{I(\theta )}}}

を示すことである。

V {\displaystyle V} を次のように定義する(これはスコア関数である):

V = θ ln f ( X ; θ ) = 1 f ( X ; θ ) θ f ( X ; θ ) {\displaystyle V={\frac {\partial }{\partial \theta }}\ln f(X;\theta )={\frac {1}{f(X;\theta )}}{\frac {\partial }{\partial \theta }}f(X;\theta )}

ここで連鎖律を使った。 V {\displaystyle V} の期待値はゼロである。なぜなら:

E [ V ] = R f ( x ; θ ) [ 1 f ( x ; θ ) θ f ( x ; θ ) ] d x = θ R f ( x ; θ ) d x = θ ( 1 ) = 0 {\displaystyle {\begin{aligned}\operatorname {E} \left[V\right]&=\int _{\mathbb {R} }f(x;\theta )\left[{\frac {1}{f(x;\theta )}}{\frac {\partial }{\partial \theta }}f(x;\theta )\right]\,dx\\&={\frac {\partial }{\partial \theta }}\int _{\mathbb {R} }f(x;\theta )\,dx={\frac {\partial }{\partial \theta }}(1)=0\end{aligned}}}

ここで積分と偏微分の順序が交換可能であること(正規性の条件の2番目)を使った。

V {\displaystyle V} T {\displaystyle T} 共分散 Cov ( V , T ) {\displaystyle \operatorname {Cov} (V,T)} は、 E [ V ] = 0 {\displaystyle \operatorname {E} \left[V\right]=0} だから Cov ( V , T ) = E [ V T ] {\displaystyle \operatorname {Cov} (V,T)=\operatorname {E} \left[VT\right]} 、よって次式を得る。

Cov ( V , T ) = E [ T { 1 f ( X ; θ ) θ f ( X ; θ ) } ] = R t ( x ) [ 1 f ( x ; θ ) θ f ( x ; θ ) ] f ( x ; θ ) d x = θ [ R t ( x ) f ( x ; θ ) d x ] = θ E [ T ] = ψ ( θ ) {\displaystyle {\begin{aligned}\operatorname {Cov} (V,T)&=\operatorname {E} \left[T\cdot \left\{{\frac {1}{f(X;\theta )}}{\frac {\partial }{\partial \theta }}f(X;\theta )\right\}\right]\\[6pt]&=\int _{\mathbb {R} }t(x)\left[{\frac {1}{f(x;\theta )}}{\frac {\partial }{\partial \theta }}f(x;\theta )\right]f(x;\theta )\,dx\\[6pt]&={\frac {\partial }{\partial \theta }}\left[\int _{\mathbb {R} }t(x)f(x;\theta )\,dx\right]={\frac {\partial }{\partial \theta }}\operatorname {E} \left[T\right]=\psi ^{\prime }(\theta )\end{aligned}}}

ここで再び、積分と微分が交換可能であるという条件(正規性の条件の2番目)を使った。

コーシー・シュワルツの不等式から、

Var ( T ) Var ( V ) | Cov ( V , T ) | = | ψ ( θ ) | {\displaystyle {\sqrt {\operatorname {Var} (T)\operatorname {Var} (V)}}\geq \left|\operatorname {Cov} (V,T)\right|=\left|\psi ^{\prime }(\theta )\right|}

よって

Var ( T ) [ ψ ( θ ) ] 2 Var ( V ) = [ ψ ( θ ) ] 2 I ( θ ) {\displaystyle \operatorname {Var} (T)\geq {\frac {[\psi ^{\prime }(\theta )]^{2}}{\operatorname {Var} (V)}}={\frac {[\psi ^{\prime }(\theta )]^{2}}{I(\theta )}}}

これが示したかったことである。

観測を繰り返し行うときの注意

確率変数列 X 1 , X 2 , , X n {\displaystyle X_{1},X_{2},\cdots ,X_{n}} を使って推定を行う場合について、未知母数が1つ( θ {\displaystyle \theta } )のときに絞って概要を述べる。 X := ( X 1 , X 2 , , X n ) {\displaystyle {\boldsymbol {X}}:=(X_{1},X_{2},\cdots ,X_{n})} と書くことにする。

  • 尤度関数は、結合確率密度関数 f n ( x 1 , x 2 , , x n ; θ ) = f n ( x ; θ ) {\displaystyle f_{n}(x_{1},x_{2},\cdots ,x_{n};\theta )=f_{n}({\boldsymbol {x}};\theta )} で与えられる(標本の値 x {\displaystyle {\boldsymbol {x}}} が代入されたとして θ {\displaystyle \theta } の関数とみなしている)。
  • スコア関数は、尤度関数の自然対数をとってから θ {\displaystyle \theta } で偏微分したものである。
θ ln f n ( x ; θ ) {\displaystyle {\frac {\partial }{\partial \theta }}\ln f_{n}({\boldsymbol {x}};\theta )}
これらはいずれも実数値関数であるので、
  • フィッシャー情報量も実数値であり、
I ( θ ) = E [ ( θ ln f n ( X ; θ ) ) 2 ] {\displaystyle I(\theta )=\operatorname {E} \left[\left({\frac {\partial }{\partial \theta }}\ln f_{n}({\boldsymbol {X}};\theta )\right)^{2}\right]}
となる。

本記事でここまでに述べた事柄は、次の置き換えをすれば基本的に全て同じ形式で成り立つ。

X X , x x , R ( ) d x R n ( ) d x {\displaystyle X\to {\boldsymbol {X}},\quad x\to {\boldsymbol {x}},\quad \int _{\mathbb {R} }(\cdots )\,dx\to \int _{\mathbb {R} ^{n}}(\cdots )\,d{\boldsymbol {x}}}

特に、確率変数列 X = ( X 1 , X 2 , , X n ) {\displaystyle {\boldsymbol {X}}=(X_{1},X_{2},\cdots ,X_{n})} 独立同分布で、その確率密度関数が f ( x ; θ ) {\displaystyle f(x;\theta )} であるとすると、

  • 尤度関数は f n ( x ; θ ) = i = 1 n f ( x i ; θ ) {\displaystyle f_{n}({\boldsymbol {x}};\theta )=\prod _{i=1}^{n}f(x_{i};\theta )}
  • スコア関数は θ ln f n ( x ; θ ) = i = 1 n ( θ ln f ( x i ; θ ) ) {\displaystyle {\frac {\partial }{\partial \theta }}\ln f_{n}({\boldsymbol {x}};\theta )=\sum _{i=1}^{n}\left({\frac {\partial }{\partial \theta }}\ln f(x_{i};\theta )\right)}
  • フィッシャー情報量は
I ( θ ) = E [ 2 θ 2 ln f n ( X ; θ ) ] = E [ 2 θ 2 i = 1 n { ln f ( X i ; θ ) } ] = i = 1 n ( E [ 2 θ 2 { ln f ( X ; θ ) } ] ) = n E [ 2 θ 2 ln f ( X ; θ ) ] {\displaystyle {\begin{aligned}I(\theta )&=-\operatorname {E} \left[{\frac {\partial ^{2}}{\partial \theta ^{2}}}\ln f_{n}({\boldsymbol {X}};\theta )\right]\\&=-\operatorname {E} \left[{\frac {\partial ^{2}}{\partial \theta ^{2}}}\sum _{i=1}^{n}\{\ln f(X_{i};\theta )\}\right]\\&=-\sum _{i=1}^{n}\left(\operatorname {E} \left[{\frac {\partial ^{2}}{\partial \theta ^{2}}}\{\ln f(X;\theta )\}\right]\right)\\&=-n\operatorname {E} \left[{\frac {\partial ^{2}}{\partial \theta ^{2}}}\ln f(X;\theta )\right]\end{aligned}}}

となる。

多変量正規分布

平均値ベクトル μ ( θ ) {\displaystyle {\boldsymbol {\mu }}({\boldsymbol {\theta }})} 、分散共分散行列 C ( θ ) {\displaystyle {\boldsymbol {C}}({\boldsymbol {\theta }})} が未知母数ベクトル θ {\displaystyle {\boldsymbol {\theta }}} で定まるような、一般的な d 次元正規分布 N d ( μ ( θ ) , C ( θ ) ) {\displaystyle N_{d}\left({\boldsymbol {\mu }}({\boldsymbol {\theta }}),{\boldsymbol {C}}({\boldsymbol {\theta }})\right)} の場合、

フィッシャー情報行列の成分は[9]

I m , k = μ T θ m C 1 μ θ k + 1 2 tr ( C 1 C θ m C 1 C θ k ) {\displaystyle I_{m,k}={\frac {\partial {\boldsymbol {\mu }}^{T}}{\partial \theta _{m}}}{\boldsymbol {C}}^{-1}{\frac {\partial {\boldsymbol {\mu }}}{\partial \theta _{k}}}+{\frac {1}{2}}\operatorname {tr} \left({\boldsymbol {C}}^{-1}{\frac {\partial {\boldsymbol {C}}}{\partial \theta _{m}}}{\boldsymbol {C}}^{-1}{\frac {\partial {\boldsymbol {C}}}{\partial \theta _{k}}}\right)}

ここで "tr" は行列のトレースを表す。

より簡単な例として、平均 θ {\displaystyle \theta } が未知で分散 σ 2 {\displaystyle \sigma ^{2}} が既知の正規分布から、独立に d {\displaystyle d} 回抽出してえられる標本量ベクトルを W d {\displaystyle \mathbf {W} _{d}} とする。

W d N d ( θ 1 , σ 2 I ) {\displaystyle \mathbf {W} _{d}\sim N_{d}\left(\theta {\boldsymbol {1}},\sigma ^{2}{\boldsymbol {I}}\right)}

ここで 1 {\displaystyle {\boldsymbol {1}}} は 1 を d 個並べたベクトル、 I {\displaystyle {\boldsymbol {I}}} d 次単位行列である。未知母数が1つなのでフィッシャー情報量は

I ( θ ) = ( μ ( θ ) θ ) T C 1 ( μ ( θ ) θ ) = i = 1 d 1 σ 2 = d σ 2 {\displaystyle I(\theta )=\left({\frac {\partial {\boldsymbol {\mu }}(\theta )}{\partial \theta }}\right)^{T}{\boldsymbol {C}}^{-1}\left({\frac {\partial {\boldsymbol {\mu }}(\theta )}{\partial \theta }}\right)=\sum _{i=1}^{d}{\frac {1}{\sigma ^{2}}}={\frac {d}{\sigma ^{2}}}}

とスカラーで与えられ、クラメール・ラオの下限は

Var ( θ ^ ) σ 2 d {\displaystyle \operatorname {Var} ({\hat {\theta }})\geq {\frac {\sigma ^{2}}{d}}}

平均が既知の正規分布の場合

X , { X i } i {\displaystyle X,\{X_{i}\}_{i}} を、平均 μ {\displaystyle \mu } が既知、分散 σ 2 {\displaystyle \sigma ^{2}} が未知の正規分布に従う独立な確率変数(列)だとする。次のような統計量を考えよう:

T = i = 1 n ( X i μ ) 2 n {\displaystyle T={\frac {\sum _{i=1}^{n}(X_{i}-\mu )^{2}}{n}}}

このとき E [ T ] = σ 2 {\displaystyle \operatorname {E} \left[T\right]=\sigma ^{2}} より、 T {\displaystyle T} σ 2 {\displaystyle \sigma ^{2}} の不偏推定量になる。

  • T {\displaystyle T} 分散は、
Var ( T ) = Var ( X μ ) 2 n = 1 n [ E [ ( X μ ) 4 ] ( E [ ( X μ ) 2 ] ) 2 ] {\displaystyle \operatorname {Var} (T)={\frac {\operatorname {Var} (X-\mu )^{2}}{n}}={\frac {1}{n}}\left[\operatorname {E} \left[(X-\mu )^{4}\right]-\left(\operatorname {E} \left[(X-\mu )^{2}\right]\right)^{2}\right]}
(2番目の等号は分散の定義)。第1項は正規分布の4次の中心モーメントであり、 3 ( σ 2 ) 2 {\displaystyle 3(\sigma ^{2})^{2}} に等しい。第2項は分散の2乗、つまり ( σ 2 ) 2 {\displaystyle (\sigma ^{2})^{2}} である。よって
Var ( T ) = 2 ( σ 2 ) 2 n {\displaystyle \operatorname {Var} (T)={\frac {2(\sigma ^{2})^{2}}{n}}}
  • 一方フィッシャー情報量については、まず、観測1回あたりのスコア関数 V {\displaystyle V} が尤度関数 L {\displaystyle L} から次のように計算できる。
V = ( σ 2 ) ln L ( σ 2 , X ) = ( σ 2 ) ln [ 1 2 π σ 2 e ( X μ ) 2 / 2 σ 2 ] = ( X μ ) 2 2 ( σ 2 ) 2 1 2 σ 2 {\displaystyle {\begin{aligned}V&={\frac {\partial }{\partial (\sigma ^{2})}}\ln L(\sigma ^{2},X)\\&={\frac {\partial }{\partial (\sigma ^{2})}}\ln \left[{\frac {1}{\sqrt {2\pi \sigma ^{2}}}}e^{-(X-\mu )^{2}/{2\sigma ^{2}}}\right]={\frac {(X-\mu )^{2}}{2(\sigma ^{2})^{2}}}-{\frac {1}{2\sigma ^{2}}}\end{aligned}}}
最後の等号は簡単な計算でわかる。この情報量は、 V {\displaystyle V} をもう一度偏微分してから平均をとり、マイナス1倍したものに等しい。
I = E [ V ( σ 2 ) ] = E [ ( X μ ) 2 ( σ 2 ) 3 + 1 2 ( σ 2 ) 2 ] = σ 2 ( σ 2 ) 3 1 2 ( σ 2 ) 2 = 1 2 ( σ 2 ) 2 {\displaystyle {\begin{aligned}I&=-\operatorname {E} \left[{\frac {\partial V}{\partial (\sigma ^{2})}}\right]=-\operatorname {E} \left[-{\frac {(X-\mu )^{2}}{(\sigma ^{2})^{3}}}+{\frac {1}{2(\sigma ^{2})^{2}}}\right]\\&={\frac {\sigma ^{2}}{(\sigma ^{2})^{3}}}-{\frac {1}{2(\sigma ^{2})^{2}}}={\frac {1}{2(\sigma ^{2})^{2}}}\end{aligned}}}
n {\displaystyle n} 回の独立な観測の情報量は、これを単純に n {\displaystyle n} 倍したものになり、
I n = n 2 ( σ 2 ) 2 {\displaystyle I_{n}={\frac {n}{2(\sigma ^{2})^{2}}}}

クラメール・ラオの不等式は Var ( T ) 1 I n {\displaystyle \operatorname {Var} (T)\geq {\frac {1}{I_{n}}}} だが、この場合は等号が成り立っているため、推定量が有効(英語版)であることがわかる。

不偏でない推定量を用いれば、分散及び平均二乗誤差をより小さくすることもできる。例えば T b = i = 1 n ( X i μ ) 2 n + 2 {\displaystyle T_{b}={\frac {\sum _{i=1}^{n}(X_{i}-\mu )^{2}}{n+2}}} とすれば、分散は明らかにより小さくなる。実際

Var ( T b ) = 2 n ( σ 2 ) 2 ( n + 2 ) 2 < Var ( T ) {\displaystyle \operatorname {Var} (T_{b})={\frac {2n(\sigma ^{2})^{2}}{(n+2)^{2}}}<\operatorname {Var} (T)}

ここで偏りは b ( σ 2 ) = σ 2 E [ T b ] = ( 1 n n + 2 ) σ 2 = 2 σ 2 n + 2 {\displaystyle -b(\sigma ^{2})=\sigma ^{2}-\operatorname {E} [T_{b}]=\left(1-{\frac {n}{n+2}}\right)\sigma ^{2}={\frac {2\sigma ^{2}}{n+2}}} であり、平均二乗誤差は、『(平均二乗誤差(MSE))=(分散)+(偏りの2乗)』の分解式から

MSE ( T b ) = ( 2 n ( n + 2 ) 2 + 4 ( n + 2 ) 2 ) ( σ 2 ) 2 = 2 ( σ 4 ) n + 2 {\displaystyle \operatorname {MSE} (T_{b})=\left({\frac {2n}{(n+2)^{2}}}+{\frac {4}{(n+2)^{2}}}\right)(\sigma ^{2})^{2}={\frac {2(\sigma ^{4})}{n+2}}}

となる。こちらも不偏推定量のときの

MSE ( T ) = ( 2 ( σ 2 ) 2 n + 0 ) ( σ 2 ) 2 = 2 ( σ 4 ) n {\displaystyle \operatorname {MSE} (T)=\left({\frac {2(\sigma ^{2})^{2}}{n}}+0\right)(\sigma ^{2})^{2}={\frac {2(\sigma ^{4})}{n}}}

を下回っている。

正規母集団の平均も分散も未知の場合、分散の推定量の平均二乗誤差が最小になるのは、 X ¯ = 1 n i = 1 n ( X i ) {\displaystyle {\overline {X}}={\frac {1}{n}}\sum _{i=1}^{n}(X_{i})} を平均の推定量として

T n + 1 = 1 n + 1 i = 1 n ( X i X ¯ ) 2 {\displaystyle T_{n+1}={\frac {1}{n+1}}\sum _{i=1}^{n}\left(X_{i}-{\overline {X}}\,\right)^{2}}

のときである(分母が n − 1 や n + 2 のときではない)。

関連項目

  • チャップマン・ロビンズの限界(英語版)
  • カルバックの不等式(英語版)
  • Brascamp–Liebの不等式(英語版)

脚注

  1. ^ Cramér, Harald (1946). Mathematical Methods of Statistics. Princeton, NJ: Princeton Univ. Press. ISBN 0-691-08004-6. OCLC 185436716 
  2. ^ Rao, Calyampudi Radakrishna (1945). “Information and the accuracy attainable in the estimation of statistical parameters”. Bulletin of the Calcutta Mathematical Society 37: 81–89. MR0015748. 
  3. ^ Rao, Calyampudi Radakrishna (1994). S. Das Gupta. ed. Selected Papers of C. R. Rao. New York: Wiley. ISBN 978-0-470-22091-7. OCLC 174244259 
  4. ^ Darmois, Georges (1945). “Sur les limites de la dispersion de certaines estimations”. Rev. Int. Inst. Statist. 13: 9–15. 
  5. ^ Fréchet, Maurice (1943). “Sur l'extension de certaines évaluations statistiques au cas de petit échantillons”. Rev. Inst. Int. Statist. 11: 182–205. 
  6. ^ Gart, John J. (1958). “An extension of the Cramér–Rao inequality”. Ann. Math. Stat. 29: 367–380. 
  7. ^ Malécot, Gustave (1999). “Statistical methods and the subjective basis of scientific knowledge [translated from Année X 1947 by Daniel Gianola]”. Genet. Sel. Evol. 31: 269–298. 
  8. ^ For the Bayesian case, see eqn. (11) of Bobrovsky; Mayer-Wolf; Zakai (1987). “Some classes of global Cramer–Rao bounds”. Ann. Stat. 15 (4): 1421–38. 
  9. ^ Kay, S. M. (1993). Fundamentals of Statistical Signal Processing: Estimation Theory. Prentice Hall. p. 47. ISBN 0-13-042268-1 

参考文献

  • Bos, Adriaan van den (2007). Parameter Estimation for Scientists and Engineers. Hoboken: John Wiley & Sons. pp. 45–98. ISBN 0-470-14781-4 
  • Kay, Steven M. (1993). Fundamentals of Statistical Signal Processing, Volume I: Estimation Theory. Prentice Hall. ISBN 0-13-345711-7 . Chapter 3.
  • Shao, Jun (1998). Mathematical Statistics. New York: Springer. ISBN 0-387-98674-X . Section 3.1.3.