この記事では,研究のサーベイをまとめていきたいと思います。ただし,全ての論文が網羅されている訳ではありません。また,分かりやすいように多少意訳した部分もあります。ですので,参考程度におさめていただければ幸いです。
間違えている箇所がございましたらご指摘ください。随時更新予定です。他のサーベイまとめ記事はコチラのページをご覧ください。
![](https://tips-memo.com/wp-content/uploads/2019/05/7049d2ae3db3be21529cf9d1a31c2c3e-320x180.jpg)
本論文を一枚の画像で
![](https://tips-memo.com/wp-content/uploads/2019/11/madmom-1.png)
要旨
PythonのMIR用ライブラリ。ビート推定・ダウンビート推定・拍子推定等をSOTAの手法で実装したもの。
背景
MIRは大きく分けて「低レベルの特徴量抽出フェーズ」「高レベルの特徴量分析フェーズ」に分類される。これまで2つのフェーズに関する多くのライブラリが開発されてきた。前者は例えばスペクトログラムやその他音響特徴量を抽出できる。後者は,オンセットやビートなどを推定できる。
【低レベルの特徴量抽出フェーズの代表的なライブラリ】
●Marsyas
●YAAFE
●openSMILE
【高レベルの特徴量分析フェーズ】
●MIRtoolbox
●Essentia
●librosa
しかし,2つのフェーズを機械学習を利用して実装したライブラリはまだ少ない。そこで,本研究では2つのフェーズを機械学習を用いて実現するmadmomを作成した。主な特徴は以下の10個。
- オブジェクト指向
- 高速なプロトタイプ
- Runnableプログラムを使った簡単な処理
- 機械学習手法の統合
- SOTA手法の採用
- モデルの保存と読み込み(再利用可能)
- 他ライブラリの制限が少ない
- マルチコアへの対応
- 充実したドキュメント
- オープンディベロプメント
madmomは2つのクラスからなる。1つはデータ自体を表す「Data classes」で,もう一方はデータの処理方法に関する情報を表す「Processor class」。機械学習の手法は以下のモデルを利用している。
![](https://tips-memo.com/wp-content/uploads/2019/11/d7a5fe299e9e92b2671540843dc7c336.png)
提案法
Onset推定
![](https://tips-memo.com/wp-content/uploads/2019/11/04df394ccb44a3667de5cbae6512bae9.png)
![](https://tips-memo.com/wp-content/uploads/2019/11/5acfe6f471811b922a7f21d108130f7b.png)
[Schluter+, 2013, MML] [Eyben, 2010, ISMIR]を利用。
Tempo推定
![](https://tips-memo.com/wp-content/uploads/2019/11/1ddf1af859e3faf5ffcd3a811f2099f4.png)
[B̈ock, 2015, ISMIR]を利用。
Beat推定
![](https://tips-memo.com/wp-content/uploads/2019/11/1bdc269135fd9dfac8d706de3df2e3f5.png)
![](https://tips-memo.com/wp-content/uploads/2019/11/e225ee06d2efc714c926be5009a42256.png)
![](https://tips-memo.com/wp-content/uploads/2019/11/356504f875367647520330447c51b70b.png)
[B̈ock, 2014, ISMIR] [B̈ock, 2011, ISMIR] [Korzeniowsk, 2014, ISMIR]を利用。
Down beat 推定
![](https://tips-memo.com/wp-content/uploads/2019/11/5cb8c69da70dc3887f937f5a5175d3ca.png)
![](https://tips-memo.com/wp-content/uploads/2019/11/5d09ff5a090f390f4543c8a2c9a3848a.png)
[Krebs, 2013, ISMIR] [B̈ock, 2016, ISMIR]を利用。
まとめ
MIRでよく利用されるライブラリの原著論文でした。
Böck, Sebastian, et al. “Madmom: A new python audio and music signal processing library.” Proceedings of the 24th ACM international conference on Multimedia. ACM, 2016.