アカデミック

【超初心者向け】ドラム採譜論文要約「Recurrent Neural Networks for Drum Transcription」

この記事では,研究のサーベイをまとめていきたいと思います。ただし,全ての論文が網羅されている訳ではありません。また,分かりやすいように多少意訳した部分もあります。ですので,参考程度におさめていただければ幸いです。

間違えている箇所がございましたらご指摘ください。随時更新予定です。他のサーベイまとめ記事はコチラのページをご覧ください。

【まとめページ】研究サーベイ記事一覧 和訳記事 ●Attentionを用いたseq2seqのメカニズム●イラストでみるTransfomer 機械学習 基本...

参考文献は最後に記載してあります。

本論文を一枚の画像で

落合先生の雛形(先端技術とメディア表現[外部リンク])を活用させていただきました。

要旨

初めて「ドラム」採譜にRNNを利用した研究。SOTAよりも高いF値を達成しながらも,汎化性能を期待させる結果が得られた。

提案手法

4つのRNNアーキテクチャを試す。「前向きRNN」「後ろ向きRNN」「双方向RNN」「タイムシフトRNN」

実験・評価

今回の実験ではオンセット時刻の許容誤差は20msとしている。SOTAの手法はもっとゆるい基準(30msや50ms)。

tsRNNでSOTA達成。NMFは対象のデータに含まれるような基底を用意する必要があるがRNNはない。そのような観点からも汎化性能が期待される。bwの方が通常のRNNよりも性能が良かったのは残響の情報を利用できたからであろう。

RNNは現在のSOTAを上回りはしなかったが,それは当然。HMMではENST-Drumsデータセットを分割して学習・テストを行なっているが今回はIDMT-SMT-Drumsで学習したモデルを利用して汎化性能を調べているから。それなりに妥当なF値を出力していることが伺える。

今後の課題

ポリフォニック音源に対応させること。多くのパートに対応させること。そのためには多くのパートが十分な回数出現するようなデータセットを作ることが先決。

まとめ

ドラム採譜に初めてRNNを適用した研究でした。

参考文献

Vogl, Richard, Matthias Dorfer, and Peter Knees. “Recurrent Neural Networks for Drum Transcription.” ISMIR. 2016.

ABOUT ME
zuka
京都大学で機械学習を学んでいます。

COMMENT

メールアドレスが公開されることはありません。 が付いている欄は必須項目です

※ Please enter your comments in Japanese to prevent spam.