超指数分布のベイズ更新のやり方をわかりやすく解説!!

超指数分布のベイズ更新のやり方を解説します。
超指数分布Hyperexponential distributionは、名前はまあサイヤ人みたいに強そうですが、定義はというと、単に指数分布の有限個の凸結合です。

パラメータを$\theta_1, \ldots, \theta_k >0$と$p_1, \ldots , w_k ;0<w_i<1,\quad \sum_{i=1}^k w_i = 1$とする超指数分布
\begin{align*} X \sim H_k(w_1, w_2, \ldots, w_k; \theta_1, \theta_2, \ldots, \theta_k) \end{align*}
は、確率密度関数を
\begin{align*} f(X = x) = \sum_{i = 1}^k w_i \frac{1}{\theta_i} e^{-\frac{1}{\theta_i} x} \end{align*}
とする確率分布です。

超指数分布は、定義から、確率\(w_i\)で
\begin{align*} X \sim \text{Exp}(\theta_i)\end{align*}
となる分布だと思うことができます。

ナイーブな書き方で進めていきます(必要に応じて頭のなかで厳密な理論に置き換えるか、生成AIで厳密な議論に直してもらってください)。話をわかりやすくするために、超指数分布として、単に2つの指数分布の凸結合の場合を考えることにします。
つまり、\(X\)の従う分布は
\begin{align*} f(X = x) = w_1 \frac{1}{\theta_1} e^{-\frac{1}{\theta_1} x} + w_2 \frac{1}{\theta_2} e^{-\frac{1}{\theta_2} x} \end{align*}
という確率密度関数です。
状況を整理すると、\(X\)は、
確率\(w_1\)で指数分布\(\text{Exp}(\theta_1)\)、確率\(w_2\)で指数分布\(\text{Exp}(\theta_2)\)に従うと考えられます。
どちらの指数分布に従うかを表す補助的な確率変数\(\Theta\)を導入します。
\(\Theta = \theta_1\)の時は、\(X\)は\(\text{Exp}(\theta_1)\)に従い、\(\Theta = \theta_2\)の時は、\(X\)は\(\text{Exp}(\theta_2)\)に従うと考えることができます。ここまでの話から、
\begin{align*} P(\Theta = \theta_1) = w_1, \quad P(\Theta = \theta_2) = w_2 \end{align*}
と考えることができます。

ここで、パラメータの(ベイズ)更新というのはつまり、\(X = x\)というデータを観測した後に、2回目の観測(\(\tilde X\)で書くことにします)が、その時どういう分布に従うかを考えることを意味しています。\(X = x\)という観測を\(G\)と書くことにします(事実の\(G\)です!)。結局、
\begin{align*} P(\Theta = \theta_1 \mid G),\quad P(\Theta = \theta_2 \mid G)\end{align*}
を考えれば良いことがわかります。ベイズの定理から、
\begin{align*} P(\Theta = \theta_i \mid G) = \frac{P(G \mid \Theta = \theta_i) P(\Theta = \theta_i)}{P(G)}\end{align*}
なわけですが、
\begin{align*}P(G \mid \Theta = \theta_i) =P(X = x \mid \Theta = \theta_i) =\frac{1}{\theta_i} e^{-\frac{1}{\theta_i} x} \end{align*}

\begin{align*} P(G) &= P(X = x \mid \Theta = \theta_1)P(\Theta = \theta_1) +P(X = x \mid \Theta = \theta_2)P(\Theta = \theta_2) \\&= w_1 \frac{1}{\theta_1} e^{-\frac{1}{\theta_1} x} + w_2 \frac{1}{\theta_2} e^{-\frac{1}{\theta_2} x} \end{align*}
なので、
\begin{align*}P(\Theta = \theta_i \mid G) = \frac{w_i \frac{1}{\theta_i} e^{-\frac{1}{\theta_i} x} }{w_1 \frac{1}{\theta_1} e^{-\frac{1}{\theta_1} x} + w_2 \frac{1}{\theta_2} e^{-\frac{1}{\theta_2} x} } \end{align*}
と重みを更新することができます。

つまり、
\(X \sim H_2(w_1, w_2; \theta_1, \theta_2)\)として、
\begin{align*} \tidle w_i = \frac{w_i \frac{1}{\theta_i} e^{-\frac{1}{\theta_i} x} }{w_1 \frac{1}{\theta_1} e^{-\frac{1}{\theta_1} x} + w_2 \frac{1}{\theta_2} e^{-\frac{1}{\theta_2} x} }\end{align*}
という記号を用いることにして、
\(X = x\)という観測をした後だと、次の観測\(\tilde X\)は、新たな超指数分布
\begin{align*} \tilde X \sim H_2(\tilde w_1, \tilde w_2; \theta_1, \theta_2)\end{align*}
に従うことがわかります。

記事をシェアして話のネタにする

コメント

コメントする

目次