無記憶性を有する連続型確率分布に関する重要な事実として、無記憶性を持つ連続型確率分布が指数分布のみであることを解説する。
無記憶性をもつ連続型確率分布が指数分布のみであることを解説
確率分布の無記憶性
まず、確率分布が無記憶性をもつとはどういうことであったかを復習しておきましょう。
連続型の確率分布に従う確率変数\(X\)は、任意の非負実数\(s, t \geq 0\) に対して、
\begin{align*} P(X > s + t \mid X > t) = P(X > s) \end{align*}
を満たす時に、無記憶性をもつという。
ここで、直ちにわかることとしては、
\begin{align*} P(X > s + t \mid X > t ) = \frac{P(X > s + t, X > t )}{P(X > t)}\end{align*}
なんですが、\(X > s + t\)が成り立つならば自動的に\(X > t\)も成り立つので、
\begin{align*} P(X > s + t, X > t) = P(X > s + t)\end{align*}
が成り立ちます。したがって、
\begin{align*} P(X > s + t \mid X > t) = P(X > s) \end{align*}
という条件は
\begin{align*} \frac{P(X > s + t) }{P(x > t)} = P(X > s) \end{align*}
と書き換えることができます。両辺に\(P(X > t)\)をかけることで、
\begin{align*} P(X > s + t) = P(X > t) P(X > s) \end{align*}
と書き換えることができます。
復習:指数分布とは
指数分布がどのような確率密度関数をもつ分布であったかを思い出しておきましょう。
\(lambda \geq 0\)を非負実数とする。確率密度関数が
\begin{align*} f (x) = \begin{cases} \lambda e^{-\lambda x } & (0 \leq x) \\ 0 & (x < 0) \end{cases} \end{align*}
である分布をパラメータが\(\lambda\)である指数分布という。
指数分布が無記憶性をもつことの証明
無記憶性をもつならば指数分布であることを証明する前に、
その逆である「指数分布ならば無記憶性をもつ」を確認しておきましょう。
これは非常に簡単にわかることで、指数分布の確率密度関数が
\begin{align*} f (x) = \begin{cases} \lambda e^{-\lambda x } & (0 \leq x) \\ 0 & (x < 0) \end{cases} \end{align*}
であるので、\(0 \leq x\)に対しては
\begin{align*} P(X > x) = e^{- \lambda x}\end{align*}
であることがわかります。このことから、
\begin{align*} P(X > s + t) = e^{- \lambda (s + t)} = e^{- \lambda x} e^{- \lambda t} = P(X > s) P(X > t)\end{align*}
が得られるので、確かに無記憶性をもつということがわかります。
無記憶性をもつ連続型確率分布が指数分布のみであることの証明
連続型確率分布が指数分布のみであることを示すための重要な事実として、以下のことを思い出しておきましょう。
\(f: \mathbb R \rightarrow \mathbb R\) が任意の\(x, y \in \mathbb R\)に対して
\begin{align*} f(x + y) = f(x) + f(y) \end{align*}
を満たすならば、任意の\(x \in \mathbb R\)に対して
\begin{align*} f(x) = f(1) x \end{align*}
が成り立つ。
このことは大学1年生の微積分の授業で演習問題などでよく扱われる問題ですが、証明を忘れてしまった人は下記の記事にて証明を解説していますので読んでみてください。
ほとんど全く同じ証明によって、加法性が\(\mathbb R_{\geq 0}\)でしか成り立っていない場合は、
\(x \in \mathbb R_{\geq 0 }\)に対して
\begin{align*} f(x) = f(1) x \end{align*}
が成り立つことがわかります。
連続型の確率分布が無記憶性をもつならば、指数分布である。
証明:
無記憶性をもつならば、任意の\(s, t \geq 0\)に対して
\begin{align*}P(X > s + t) = P(X > s)P(x > t) \end{align*}
が成り立つことを確認しました。両辺に対して対数をとることで
\begin{align*} \log P(X > s + t) = \log P(X > s) + \log P(x > t)\end{align*}
が成り立ちます。
\begin{align*} g(x) = \log P(X > x) \end{align*}
と表記することにすると、無記憶性は\(g\)が連続な加法的関数であることを意味します。
したがって、\( x \geq 0\)に対して
\begin{align*} g(x) = \log P(X > 1)x \end{align*}
が成り立ちます。
これはつまり、\(\log P(X > x) = \log P(X > 1) x\) ということなので、
\begin{align*} \lambda = – \log P(X > 1) \end{align*}
とおくと、
\begin{align*} \log P(X > x) = – \lambda x \end{align*}
であることがわかります。
つまり、
\begin{align*} P(X > x) = e^{ – \lambda x}\end{align*}
という式が得られます。したがって
\begin{align*} P(X \leq x) = 1 – e^{ – \lambda x}\end{align*}
であるので、両辺を\(x\)に関して微分することで密度関数をもとめると、(確率密度関数を\(f\)でかくと)
\begin{align*} f(x) = \lambda e^{- \lambda x} \end{align*}
が得られます。つまり、指数分布であることがわかりました。
コメント