この記事では,研究のサーベイをまとめていきたいと思います。ただし,全ての論文が網羅されている訳ではありません。また,分かりやすいように多少意訳した部分もあります。ですので,参考程度におさめていただければ幸いです。
間違えている箇所がございましたらご指摘ください。随時更新予定です。他のサーベイまとめ記事はコチラのページをご覧ください。

本論文を一枚の画像で

要旨
PythonのMIR用ライブラリ。ビート推定・ダウンビート推定・拍子推定等をSOTAの手法で実装したもの。
背景
MIRは大きく分けて「低レベルの特徴量抽出フェーズ」「高レベルの特徴量分析フェーズ」に分類される。これまで2つのフェーズに関する多くのライブラリが開発されてきた。前者は例えばスペクトログラムやその他音響特徴量を抽出できる。後者は,オンセットやビートなどを推定できる。
【低レベルの特徴量抽出フェーズの代表的なライブラリ】
●Marsyas
●YAAFE
●openSMILE
【高レベルの特徴量分析フェーズ】
●MIRtoolbox
●Essentia
●librosa
しかし,2つのフェーズを機械学習を利用して実装したライブラリはまだ少ない。そこで,本研究では2つのフェーズを機械学習を用いて実現するmadmomを作成した。主な特徴は以下の10個。
- オブジェクト指向
- 高速なプロトタイプ
- Runnableプログラムを使った簡単な処理
- 機械学習手法の統合
- SOTA手法の採用
- モデルの保存と読み込み(再利用可能)
- 他ライブラリの制限が少ない
- マルチコアへの対応
- 充実したドキュメント
- オープンディベロプメント
madmomは2つのクラスからなる。1つはデータ自体を表す「Data classes」で,もう一方はデータの処理方法に関する情報を表す「Processor class」。機械学習の手法は以下のモデルを利用している。

提案法
Onset推定


[Schluter+, 2013, MML] [Eyben, 2010, ISMIR]を利用。
Tempo推定

[B̈ock, 2015, ISMIR]を利用。
Beat推定



[B̈ock, 2014, ISMIR] [B̈ock, 2011, ISMIR] [Korzeniowsk, 2014, ISMIR]を利用。
Down beat 推定


[Krebs, 2013, ISMIR] [B̈ock, 2016, ISMIR]を利用。
まとめ
MIRでよく利用されるライブラリの原著論文でした。
Böck, Sebastian, et al. “Madmom: A new python audio and music signal processing library.” Proceedings of the 24th ACM international conference on Multimedia. ACM, 2016.