この記事では,研究のサーベイをまとめていきたいと思います。ただし,全ての論文が網羅されている訳ではありません。また,分かりやすいように多少意訳した部分もあります。ですので,参考程度におさめていただければ幸いです。
間違えている箇所がございましたらご指摘ください。随時更新予定です。他のサーベイまとめ記事はコチラのページをご覧ください。

本論文を一枚の画像で

要旨
ドラム採譜でNMF+CNNとCNN onlyを比較した研究。CNNはMIREX2017でonset detectionタスクにおいてSOTAを達成している手法。結果としてはCNN onlyの方が性能が良かった。内訳としてはスネアドラムの性能が良く,バスドラとハイハットに関してはSOTAやNNを使った手法に劣っていた。
提案手法
[Southall, 2017, ISMIR]で提案されたCNNの手法とは異なり,各パートそれぞれに対して異なる入力特徴量を考える。そして,別々のネットワークを構築する。
実験・評価
広く利用されているENST Drumデータベースを利用。最終的にはENSTデータセットで評価したいため,RWCデータベースの小セットでの実験も行なった。3-fold cross-validationで実施。loss関数は出力とターゲットのクロスエントロピーとMSEを試した。





結論
CNNを利用して異なるloss関数と入力特徴量を試した。入力特徴量は3種類のログスペクトログラムが高性能を示した。NMFとの合わせ技は上手くいかなかった。各パートごとに別々のCNNを学習したところ,NMFDよりも遥かに上回る性能を示した。今後の課題としては,labelをマルチラベルにすることでオーバーフィッティングを防いで性能をさらにあげること。
まとめ
CNNのドラム採譜への適用を多方面から模索した研究でした。
2, Céline, and Axel Roebel. “Automatic drum transcription with convolutional neural networks.” 2018.