アカデミック

【超初心者向け】ドラム採譜論文要約「Automatic Drum Transcription Using Bi-Directional Recurrent Neural Networks」

この記事では,研究のサーベイをまとめていきたいと思います。ただし,全ての論文が網羅されている訳ではありません。また,分かりやすいように多少意訳した部分もあります。ですので,参考程度におさめていただければ幸いです。

間違えている箇所がございましたらご指摘ください。随時更新予定です。他のサーベイまとめ記事はコチラのページをご覧ください。

【まとめページ】研究サーベイ記事一覧 和訳記事 ●Attentionを用いたseq2seqのメカニズム●イラストでみるTransfomer 機械学習 基本...

参考文献は最後に記載してあります。

本論文を一枚の画像で

落合先生の雛形(先端技術とメディア表現[外部リンク])を活用させていただきました。

要旨

ニューラルネットという強力な手法をドラム採譜に生かす試み。双方向RNNとonlineで利用できるネットワークの2つを提示する。

提案手法

実線はRNN,点線はBDRNNを表す。左右が丸い四角はsigmoid層,楕円はsoftmax層を表す。

オフライン用に双方向RNN,オンライン用にRNNを提案する。パラメータは事前に実験を行なった結果最適と思われる値を設定している。閾値はアクティベーションの平均値の何倍かで決める。オンセットの間隔は最低50msとしている。

実験・評価

ドラムソロ音源を対象にした実験。提案手法(BDRNN)が1番高いF値を示した。PFNMFに関してはAM1(パーカッションの基底を更新していく)は特に影響を与えず,AM2(基底とアクティベーションを交互に更新していく)は少しだけ改善に寄与した。
各楽器音を個別に学習するより混合音で学習した方が高い性能を示した。CDはNMFに基づく手法。

混合音での実験。F値の平均では提案手法は劣ってしまうものの,最も難しいスネアでは良い性能を示した。

PrecisionとRecallをグラフ化したもの。Recallでは提案手法が良い性能を示している。一方で,Precisionはかなり低い値となっている。これは,何らかのノイズにより他の手法と比べて学習がうまくいっていないことを示している。

提案手法の方がピークが鋭くなっている。これにより高いRecallを達成しているものと思われる。

結論

ソロ音源では最高性能を達成。混合音源では何らかの要因によりうまく性能を発揮できなかった。その根拠としては,Recallは高く,Precisionが不当に低いことが挙げられる。また,提案手法にはアクティベーションを鋭くする効能もある。

まとめ

RNNを利用したオフライン・オンラインのドラム採譜手法でした。

参考文献

Southall, Carl, Ryan Stables, and Jason Hockman. “Automatic Drum Transcription Using Bi-Directional Recurrent Neural Networks.” ISMIR. 2016.

ABOUT ME
zuka
京都大学で機械学習を学んでいます。

COMMENT

メールアドレスが公開されることはありません。 が付いている欄は必須項目です

※ Please enter your comments in Japanese to prevent spam.