本記事は,初学者に向けてベイズ推定の基本概念である共役事前分布の意味をお伝えするという内容になっています。一見とっつきにくい数式が出てきますが,利用しているのは単純な考えのみですので,身構えずに見ていきましょう。
なぜ必要なの?
共役事前分布とは
結論から言ってしまうと,共役事前分布とは「事前分布と事後分布が同じ種類の確率分布を持つように定められた事前分布」のことを指します。
焦らず,1つずつ見ていきましょう。まずは,ベイズ推論の学習と予測に関して復習です。学習というのは「観測データから発生元の分布を定めるパラメータを推定すること」です。一般に,観測データが多ければ多いほど発生元のパラメータを〝良く〟推定することができます。予測というのは,学習して得られた発生元の分布を利用して未来に現れるデータを予測することです。
実際に,数式を利用して確認していきましょう。訓練データを$\mathcal{D}$,データ発生元の分布を定めるパラメータを$\theta$とすると,学習で求めるべき値は$p(\theta|\mathcal{D})$であり,ベイズの公式を利用して以下の式で表されます。ベイズの公式に関してはコチラの記事をご覧ください。
\begin{eqnarray}
p(\theta|\mathcal{D})=\frac{p(\mathcal{D}|\theta)p(\theta)}{p(\mathcal{D})}
\end{eqnarray}
ここで,用語の確認をしておきましょう。
●$p(\theta|\mathcal{D})$:学習で求めたい分布で「事後分布」
●$p(\mathcal{D}|\theta)$:データの発生にある数学的な分布を仮定する「尤度関数」
●$p(\theta)$:尤度関数を定めるパラメータの分布である「事前分布」
つまり,学習とは事後分布を求めるために「事前分布」と「尤度関数」を仮定して計算を行っていく操作を指します。共役事前分布は,式(1)で表される事後分布$p(\theta|\mathcal{D})$と事前分布$p(\theta)$が同じ種類の分布となるように定められた分布でした。
事後分布$p(\theta|\mathcal{D})$と事前分布$p(\theta)$が同じ種類の分布になれば,計算が圧倒的に楽になります。これは,観測データを複数のデータセットに分割するときに威力を発揮します。なぜなら,データセットごとにばらばらの分布で考えてしまうと,計算が大変なだけでなく学習や予測に支障をきたしてしまいます。
予測
ここで,予測分布に関して確認しておきましょう。予測分布はデータセット$\mathcal{D}$から未知の出力$x_\ast$を求めるための分布である$p(x_\ast|\mathcal{D})$として定められます。この分布は,「$\mathcal{D}$から$\theta$が発生し,その$\theta$から$x_\ast$が発生した後に,積分を行うことで$\theta$を消去する」という定性的な方針で以下のように定義することができます。
\begin{eqnarray}
p(x_\ast|\mathcal{D})=\int p(x_\ast|\theta)p(\theta|\mathcal{D})\rm{d}\theta
\end{eqnarray}
具体的な共役事前分布
式(1)を見ても分かる通り,共役事前分布の形は尤度関数$p(\mathcal{D}|\theta)$に依存します。以下に主な対応表を載せておきます。
尤度関数[分布] | パラメータ | 共役事前分布 | 予測分布 |
ベルヌーイ | $\mu$ | ベータ | ベルヌーイ |
二項 | $\mu$ | ベータ | ベータ・二項 |
カテゴリ | $\pi$ | ディリクレ | カテゴリ |
多項 | $\pi$ | ディリクレ | ディリクレ・多項 |
ポアソン | $\lambda$ | ガンマ | 負の二項 |
ガウス | $\mu$ | ガウス | ガウス |
ガウス | $\lambda$ | ガンマ | $t$ |
多次元ガウス | $\boldsymbol{\mu}$ | 多次元ガウス | ガウス |
多次元ガウス | $\boldsymbol{\Lambda}$ | ウィシャート | 多次元$t$ |
以上の流れがまだどうしても理解できないという方は,以下の入門書を参考にしてみてください。行間がしっかり詰められており,良書です。
(2024/11/21 14:35:16時点 楽天市場調べ-詳細)