アカデミック

【超初心者向け】ドラム採譜論文要約「Data Augmentation for Drum Transcription with Convolutional Neural Networks」

この記事では,研究のサーベイをまとめていきたいと思います。ただし,全ての論文が網羅されている訳ではありません。また,分かりやすいように多少意訳した部分もあります。ですので,参考程度におさめていただければ幸いです。

間違えている箇所がございましたらご指摘ください。随時更新予定です。他のサーベイまとめ記事はコチラのページをご覧ください。

【まとめページ】研究サーベイ記事一覧機械学習 基本的なモデル ●線形回帰 ●自己回帰 ●ガウス過程 ●ガウス過程と深層学習 ●ランク学習 言語処理 ●LDAとは? ●Dep...

参考文献は最後に記載してあります。

本論文を一枚の画像で

簡単なまとめ

落合先生の雛形(先端技術とメディア表現[外部リンク])を活用させていただきました。

要旨

ドラム採譜タスクにおいて,(一般的な機械学習全般に言えることですが)データ不足がボトルネックとなる場合が多いです。そこで,画像分野でもよく用いられるData Augmentationをドラム信号に応用することでモデルの表現力を上げることが求められます。この論文では,CNNベースのドラム採譜手法がData Augmentationによってどのような影響を受けるのかを考察するものです。

導入

学習データの作成には非常に手間がかかる上に,機械学習の手法の良さは学習データの量に依存します。画像分野で広く応用されているように,Data Augmentationの必要性はますます高まってきています。

MIREX2018 drum transcriptionというコンテストでは,CNNベースの手法が良い成績を残しています。今回も,ベースとなる手法はCNNを利用していきます。

提案手法

4つの手法を提案します。

  • Remix noise
    • ノイズ再合成
  • Remix attacks
    • ピーク調整
  • Transposition with and without time compensation
    • 再サンプリング
  • Spectral envelope transposition
    • スペクトル包絡調整

実験

MIREX 2018のDrum transcription training databaseを利用しています。モデルはCNNです。

評価

BD・SD・HHのF値で評価しています。HHに対してのData Augmentationが最も効果的でした。

今後の課題

データをかさ増ししてもF値が向上しない例もありました。全部のaugmentationを適用しても,一番F値の高いモデルになるとは限りませんでした。慎重なパラメータ設定が必要ということが言えます。

まとめ

ドラムのハイハット・スネア・バスドラに対するData Augmentationを考察する研究でした。

参考文献

Jacques, Celine, and Axel Roebel. “Data Augmentation for Drum Transcription with Convolutional Neural Networks.” arXiv preprint arXiv:1903.01416 (2019).

COMMENT

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です