本記事は,新たなベイズ学習の入門書として最近注目を集めている「ベイズ推論による機械学習入門」のレビューと内容まとめになります。各章・各節ごとに内容をまとめていきます。
1.1 機械学習とは
本書では,機械学習を以下のように定義しています。
機械学習とは,データに潜む規則や構造を抽出することにより,未知の現象に対する予測やそれに基づく判断を行うための計算技術の総称である。
p.2より引用
また,似た概念としてデータマイニングやパターン認識が挙げられますが,これらはいずれも機械学習と区別しないことにしています。
1.2 機械学習の代表的なタスク
機会学習が対象とするタスクは以下の5つに分けられます。
1.回帰
2.分類
3.クラスタリング
4.次元削減
5.その他
回帰はある入力値から未来の出力を関数により予測するタスクです。線形回帰や多項式回帰,ニューラルネットワークが利用されます。分類は,出力値を有限個のシンボルに限定するモデルです。関数としてはシグモイド関数やソフトマックス関数が利用されます。また,ロジスティック回帰も分類タスクの一種です。クラスタリングは,入力データをいくつかの集合に分けるタスクです。ガウス混合モデルといったような具体的なモデルが利用されます。次元削減は,特徴的な情報を保持するようにパラメータを設定してデータを節約するというタスクです。行列分解やテンソル分解が用いられます。その他は,商品のレコメンデーションや自然言語処理におけるトピックモデル解析が挙げられます。
1.3 機械学習の2つのアプローチ
機械学習には「ツールボックス」と「モデリング」という2つのアプローチがあります。ツールボックスは,既存の予測アルゴリズムを利用して予測結果を得るという方法です。たとえば,訓練データでサポートベクターマシンを学習させて,それを用いて入力データの予測結果を得るという方法です。本アプローチでは,既存のライブラリを利用することができる利点がある一方で,使いこなすためにはアルゴリズムや構築思想を理解している必要があります。
モデリングは,対象となっているタスクの数理的なパラメータを学習することで予測や判断を行うという方法です。ツールボックスと比較して一貫性をもってタスクに取り組むことができる点が特徴的です。
1.4 確率の基本計算
本章では,確率計算の定義と基本的な性質を復習しています。特に,周辺化/周辺分布/条件付き分布/ベイズの定理/事後分布/事前分布/に関して詳しく説明しています。また,パラメータの事前知識としてベータ分布やディリクレ分布が利用されることを確認しています。
1.5 グラフィカルモデル
確率モデルを可視的に記述する方法としてグラフィカルモデルを説明しています。head-to-tail型モデル,tail-to-tail型モデル,head-to-head型モデルの3種類に分類することで,独立性について明確になることを確認しています。
1.6 ベイズ学習のアプローチ
本書では,ベイズ学習のアプローチを以下のようにまとめています。
1.モデルの構築
観測データと未知の変数に対して同時分布を構築する。
2.推論の導出
事後分布を事前分布とパラメータの事前知識から求める。
2.では解析的に解けないことがほとんどであるため,サンプリングや近似推論と呼ばれる手法を用いて解を求めていきます。サンプリングではMCMCやギブスサンプリング,ハミルトニアンモンテカルロがよく用いられ,近似推論ではラプラス近似や変分推論,期待値伝播がよく用いられます。これらのアプローチを,上述の「回帰」「分類」「クラスタリング」「次元削減」に当てはめて有効性を確認します。また,確率推論による出力はあくまでも推論にすぎず,意思決定の際には損失関数を考慮する必要があることを指摘しています。
ベイズ推論の利点としては,種々の問題に対して一貫性をもってアプローチできる点,不確実性を定量的に扱うことができる点,パラメータの事前知識を数理的に取り込むことができる点,過剰適合しにくい点が挙げられます。一方,欠点としては数理的な知識を要する点,計算コストがかかる点が挙げられます。
レビュー
非常に平易な語り口で機械学習を俯瞰できる章になっています。具体例を利用しながら頻度主義とベイズ主義を対比しているので頭に入りやすいです。この時点でグラフィカルモデルに言及することで,以降の内容を効率よく吸収することができるでしょう。
(2024/10/09 23:10:26時点 楽天市場調べ-詳細)