アカデミック

【超初心者向け】ドラム採譜論文要約「Automatic drum transcription with convolutional neural networks」

この記事では,研究のサーベイをまとめていきたいと思います。ただし,全ての論文が網羅されている訳ではありません。また,分かりやすいように多少意訳した部分もあります。ですので,参考程度におさめていただければ幸いです。

間違えている箇所がございましたらご指摘ください。随時更新予定です。他のサーベイまとめ記事はコチラのページをご覧ください。

【まとめページ】研究サーベイ記事一覧機械学習 基本的なモデル ●線形回帰 ●自己回帰 ●ガウス過程 ●ガウス過程と深層学習 ●ランク学習 言語処理 ●LDAとは? ●Dep...

参考文献は最後に記載してあります。

本論文を一枚の画像で

落合先生の雛形(先端技術とメディア表現[外部リンク])を活用させていただきました。

要旨

ドラム採譜でNMF+CNNとCNN onlyを比較した研究。CNNはMIREX2017でonset detectionタスクにおいてSOTAを達成している手法。結果としてはCNN onlyの方が性能が良かった。内訳としてはスネアドラムの性能が良く,バスドラとハイハットに関してはSOTAやNNを使った手法に劣っていた。

提案手法

[Southall, 2017, ISMIR]で提案されたCNNの手法とは異なり,各パートそれぞれに対して異なる入力特徴量を考える。そして,別々のネットワークを構築する。

実験・評価

広く利用されているENST Drumデータベースを利用。最終的にはENSTデータセットで評価したいため,RWCデータベースの小セットでの実験も行なった。3-fold cross-validationで実施。loss関数は出力とターゲットのクロスエントロピーとMSEを試した。

Loss関数がMSEの場合とクロスエントロピーの場合を比較した実験。クロスエントロピーを利用した方がよい性能を発揮することが分かる。

STFTの窓の幅を変えて実験。RWCのときとは異なり,MCMSを利用した場合によい性能を示した。そこで,他のRWCの小セットで試してみたところMCMSを利用した場合に性能が上がる場合があることを確認した。そこで,以下では特徴量にMCMSを利用することにする。

ENSTデータセットを利用して評価を行なった実験。提案手法はスネアドラムで良い性能を発揮することを確認。

ENSTデータセットのドラマーの演奏に偏りがあることを確認。CNNはオーバーフィッティングしていたことが伺える。HMMはその影響を受けていなかったことから,CNNは複雑なタスクに対して有効な手法だといえる。

時間方向の正規化を行うことでバスドラムのF値を引き上げた実験。SDとHHは少しF値が落ちているが,全体として性能が上がっていることが分かる。

結論

CNNを利用して異なるloss関数と入力特徴量を試した。入力特徴量は3種類のログスペクトログラムが高性能を示した。NMFとの合わせ技は上手くいかなかった。各パートごとに別々のCNNを学習したところ,NMFDよりも遥かに上回る性能を示した。今後の課題としては,labelをマルチラベルにすることでオーバーフィッティングを防いで性能をさらにあげること。

まとめ

CNNのドラム採譜への適用を多方面から模索した研究でした。

参考文献

2, Céline, and Axel Roebel. “Automatic drum transcription with convolutional neural networks.” 2018.

COMMENT

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です