【超初心者向け】ドラム採譜論文要約「Deep Unsupervised Drum Transcription」Beginaid

この記事では，研究のサーベイをまとめていきたいと思います。ただし，全ての論文が網羅されている訳ではありません。また，分かりやすいように多少意訳した部分もあります。ですので，参考程度におさめていただければ幸いです。

間違えている箇所がございましたらご指摘ください。随時更新予定です。他のサーベイまとめ記事はコチラのページをご覧ください。

【まとめページ】研究サーベイ記事一覧和訳記事 ●Attentionを用いたseq2seqのメカニズム●イラストでみるTransfomer 機械学習基本...

参考文献は最後に記載してあります。

読みたい場所へジャンプ！

本論文を一枚の画像で
要旨
導入
提案手法
実験
評価
今後の課題
まとめ

本論文を一枚の画像で

落合先生の雛形（先端技術とメディア表現[外部リンク]）を活用させていただきました。

要旨

教師なしドラム採譜手法としてDrummerNetというネットワークを考案。音響信号をエンコードする「transcriber」と各パートの音響信号を合成する「synthesizer」を利用したオートエンコーダ型のネットワークを採用することで，教師なし学習を実現。

導入

採譜には分類手法やNMF，HMMなどが従来から使われてきた。最近では，CNNやRNNを利用したモデルが考案されているというお決まりのパターン。しかし，教師あり機械学習の手法はペアデータの量に依存してしまうよねという話。

提案手法

基本的には上記画像の通り。CNNで「transcriber」のエンコーダ部・デコーダ部を構築。そこで得られた特徴量をGRUsの入力としてSparsemaxにかける。「synthesizer」もCNNを利用している。

実験

学習はWebサイトからクローリングして得られたデータを用いてデータセットを作成。内訳は3940トラック・249時間にも及ぶ。テストデータセットにはSMT（IDMT-SMT-Drums）・MDB（Medley-DB Drums）・ENST（ENST-drums）を利用。ピークピッキングはヒューリスティックに操作。

評価

単に採譜のF値だけでなく，各パートごとのF値やDrummerNetの構造の一部を変化させた場合のF値なども調べている。

今後の課題

NMFDに精度は及ばず。しかし，実行時間や一般化可能性などで秀でているといえる。ピークピッキングもヒューリスティックではなく，学習可能なようにモデリングする必要がある。学習方法を再構成誤差ではなく，cyclic lossにすることも考えられる。また，現状のsynthesizerでは音符の長さを扱えていないという問題点もある。