Bühlmann信頼度をLMMSE推定量の観点から理解する

この記事では、Bühlmann信頼度をLMMSEの観点から理解します。
LMMSEはLeast Minimum Mean Square Errorです。

次のような状況を考えます。ナイーブな書き方をしているので、読みながら適宜厳密化してください。
今手元にデータ\(Y\)が1つありますが、
これは真の確率変数\(X\)に対して、ノイズである確率変数\(N\)が乗って、
\begin{align*} Y = X + N \end{align*}
という関係にあると考えることにします。
ここで、
\begin{align*} E(X) = \mu, \quad V(X) = \sigma_x^2, \quad E(N) = 0, \quad V(N) = \sigma_n^2 \end{align*}
であるとします。さらに、\(X, N\)は独立であるということにします。
そして、この\(Y\)から、逆に\(X\)を予測しに行きましょう。
このとき、線形モデルによって予測しにいくことにします。つまり、
\begin{align*} f(Y) = aY + b \end{align*}
というモデルによって\(X\)を予測しにいくことを考えます。
そこで、良い予測の基準として、平均二乗誤差を最小化することを考えます。ですので、
\begin{align*} E\left( (X- (aY + b))^2 \right) \end{align*}
を最小化することを考えます。ここで、\(Y = X + N\)を思っているので、
\begin{align*} E\left( (X- (aY + b))^2 \right) = E\left( (X- (a(X + N) + b))^2 \right) = E\left( (1-a)X – aN – b)^2 \right) \end{align*}
です。先に\(b\)から決めることにします。\(b\)について微分します。
\begin{align*} -2 E\left( (1-a) X – a N – b \right) = 0 \end{align*}
を解くと、最小値を与える\(b\)は
\begin{align*} b = (1-a) \mu \end{align*}
です。ですので、あとは\(a\)を決めに行きましょう。
\begin{align*} E\left( (1-a)X – aN – b)^2 \right) = E\left( (1-a)(X – \mu) – aN )^2 \right) \end{align*}
です。\(X, N\)が独立なので、\(X-\mu, N\)も独立ということを念頭におくと、
\begin{align*} E\left( (1-a)(X – \mu) – aN )^2 \right) = (1-a)^2 E\left( (X – \mu)^2 \right) + a^2 E(N^2) = (1-a)^2 \sigma_x^2 + a^2 \sigma_n^2\end{align*}
となります。なので、\(a\)で微分すると、
\begin{align*} -2(1-a)\sigma_x^2+ 2a \sigma_n^2 = 0 \end{align*}
ということで、解くと、
\begin{align*} a = \frac{\sigma_x^2}{\sigma_x^2 + \sigma_n^2}\end{align*}
となります。ですので、
\begin{align*} \tilde X = \frac{\sigma_x^2}{\sigma_x^2 + \sigma_n^2} Y + \frac{\sigma_n^2}{\sigma_x^2 + \sigma_n^2} \mu \end{align*}
を推定量とすればよいことがわかりました。

そこで、上記は1個のデータ$Y$のみを観測していましたが、続いて\(n\)個のデータを観測したことにします。
\begin{align*} Y_1, \ldots, Y_n\end{align*}
何のデータも
\begin{align*} Y_i = X + N_i\end{align*}
と、共通の\(X\)にノイズ\(N_i\)が加わって観測されると考えることにします。異なる観測データ同士は独立ということにし、また、今回も
\begin{align*} E(X) = \mu, \quad V(X) = \sigma_x^2, \quad E(N_i) = 0, \quad V(N_i) = \sigma_n^2 \end{align*}
であるとします。さらに、\(X, N_i\)は独立であるということにします。
で、今回は\(Y_1, \ldots , Y_n\)の標本平均\(\bar Y\)を用いて
\begin{align*} f(Y_1, \ldots, Y_n) = a \bar Y + b\end{align*}
というモデルによって\(X\)を推定しにいくことにします。さきほどと同様に、平均二乗誤差を最小にする推定量を採用することにします。
すると、
\begin{align*} \bar Y = X + \bar N \end{align*}
であり、
\begin{align*} E(\bar N ) = 0, \quad V(\bar N ) = \frac{\sigma_n^2}{n}\end{align*}
であるので、最初の議論とまってく同様の手続きから、
\begin{align*} \tilde X = \frac{\sigma_x^2}{\sigma_x^2 + \frac{\sigma_n^2}{n}} Y + \frac{\frac{\sigma_n^2}{n}}{\sigma_x^2 + \frac{\sigma_n^2}{n}} \end{align*}
が求めている推定量ということになります。

\begin{align*} \frac{\sigma_x^2}{\sigma_x^2 + \frac{\sigma_n^2}{n}} \end{align*}
は、Bühlmann信頼度そのものであることがわかります。

記事をシェアして話のネタにする

コメント

コメントする

目次