この記事では,研究のサーベイをまとめていきたいと思います。ただし,全ての論文が網羅されている訳ではありません。また,分かりやすいように多少意訳した部分もあります。ですので,参考程度におさめていただければ幸いです。
間違えている箇所がございましたらご指摘ください。随時更新予定です。他のサーベイまとめ記事はコチラのページをご覧ください。
本論文を一枚の画像で
要旨
ドラム採譜タスクにおいて,(一般的な機械学習全般に言えることですが)データ不足がボトルネックとなる場合が多いです。そこで,画像分野でもよく用いられるData Augmentationをドラム信号に応用することでモデルの表現力を上げることが求められます。この論文では,CNNベースのドラム採譜手法がData Augmentationによってどのような影響を受けるのかを考察するものです。
導入
学習データの作成には非常に手間がかかる上に,機械学習の手法の良さは学習データの量に依存します。画像分野で広く応用されているように,Data Augmentationの必要性はますます高まってきています。
MIREX2018 drum transcriptionというコンテストでは,CNNベースの手法が良い成績を残しています。今回も,ベースとなる手法はCNNを利用していきます。
提案手法
4つの手法を提案します。
- Remix noise
- ノイズ再合成
- Remix attacks
- ピーク調整
- Transposition with and without time compensation
- 再サンプリング
- Spectral envelope transposition
- スペクトル包絡調整
実験
MIREX 2018のDrum transcription training databaseを利用しています。モデルはCNNです。
評価
BD・SD・HHのF値で評価しています。HHに対してのData Augmentationが最も効果的でした。
今後の課題
データをかさ増ししてもF値が向上しない例もありました。全部のaugmentationを適用しても,一番F値の高いモデルになるとは限りませんでした。慎重なパラメータ設定が必要ということが言えます。
まとめ
ドラムのハイハット・スネア・バスドラに対するData Augmentationを考察する研究でした。
Jacques, Celine, and Axel Roebel. “Data Augmentation for Drum Transcription with Convolutional Neural Networks.” arXiv preprint arXiv:1903.01416 (2019).