アカデミック

【超初心者向け】MIR論文要約「Madmom: A new python audio and music signal processing library」

この記事では,研究のサーベイをまとめていきたいと思います。ただし,全ての論文が網羅されている訳ではありません。また,分かりやすいように多少意訳した部分もあります。ですので,参考程度におさめていただければ幸いです。

間違えている箇所がございましたらご指摘ください。随時更新予定です。他のサーベイまとめ記事はコチラのページをご覧ください。

【まとめページ】研究サーベイ記事一覧機械学習 基本的なモデル ●線形回帰 ●自己回帰 ●ガウス過程 ●ガウス過程と深層学習 ●ランク学習 言語処理 ●LDAとは? ●Dep...

参考文献は最後に記載してあります。

本論文を一枚の画像で

落合先生の雛形(先端技術とメディア表現[外部リンク])を活用させていただきました。

要旨

PythonのMIR用ライブラリ。ビート推定・ダウンビート推定・拍子推定等をSOTAの手法で実装したもの。

背景

MIRは大きく分けて「低レベルの特徴量抽出フェーズ」「高レベルの特徴量分析フェーズ」に分類される。これまで2つのフェーズに関する多くのライブラリが開発されてきた。前者は例えばスペクトログラムやその他音響特徴量を抽出できる。後者は,オンセットやビートなどを推定できる。

【低レベルの特徴量抽出フェーズの代表的なライブラリ】
●Marsyas
●YAAFE
●openSMILE

【高レベルの特徴量分析フェーズ】
●MIRtoolbox
●Essentia
●librosa

librosaは低レベルの特徴量抽出フェーズにも利用できると思います。

しかし,2つのフェーズを機械学習を利用して実装したライブラリはまだ少ない。そこで,本研究では2つのフェーズを機械学習を用いて実現するmadmomを作成した。主な特徴は以下の10個。

  • オブジェクト指向
  • 高速なプロトタイプ
  • Runnableプログラムを使った簡単な処理
  • 機械学習手法の統合
  • SOTA手法の採用
  • モデルの保存と読み込み(再利用可能)
  • 他ライブラリの制限が少ない
  • マルチコアへの対応
  • 充実したドキュメント
  • オープンディベロプメント

madmomは2つのクラスからなる。1つはデータ自体を表す「Data classes」で,もう一方はデータの処理方法に関する情報を表す「Processor class」。機械学習の手法は以下のモデルを利用している。

各タスクのSOTA手法。beatの後ろはデータセットの種類。

提案法

Onset推定

[Schluter+, 2013, MML]の手法。CNNを使ったシンプルなOnset推定。
[Eyben, 2010, ISMIR]の手法。LSTMを使ったOnset推定。

[Schluter+, 2013, MML] [Eyben, 2010, ISMIR]を利用。

Tempo推定

[B̈ock, 2015, ISMIR]のテンポ推定手法。

[B̈ock, 2015, ISMIR]を利用。

Beat推定

[B̈ock, 2014, ISMIR]のBeat推定手法。複数のRNNベースのモデルの出力から最も近いと考えられるモデルを選択する推定方法。
[B̈ock, 2011, ISMIR]のビート推定手法。信号からBeat activationをLSTMで直接推定するモデル。
[Korzeniowsk, 2014, ISMIR]のビート推定手法。双方向LSTMを使ったモデルを確率的に拡張したモデル。

[B̈ock, 2014, ISMIR] [B̈ock, 2011, ISMIR] [Korzeniowsk, 2014, ISMIR]を利用。


Down beat 推定

[Krebs, 2013, ISMIR]のダウンビート推定手法。dynamic Bayesian networkを使ってモデリング。遷移はHMM。
[B̈ock, 2016, ISMIR]の手法。DBNでテンポや拍子,ビート,ダウンビートを一挙に推定する。遷移はRNN。

[Krebs, 2013, ISMIR] [B̈ock, 2016, ISMIR]を利用。

まとめ

MIRでよく利用されるライブラリの原著論文でした。

参考文献

Böck, Sebastian, et al. “Madmom: A new python audio and music signal processing library.” Proceedings of the 24th ACM international conference on Multimedia. ACM, 2016.

COMMENT

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です