アカデミック

【超初心者向け】ドラム採譜論文要約「Deep Unsupervised Drum Transcription」

この記事では,研究のサーベイをまとめていきたいと思います。ただし,全ての論文が網羅されている訳ではありません。また,分かりやすいように多少意訳した部分もあります。ですので,参考程度におさめていただければ幸いです。

間違えている箇所がございましたらご指摘ください。随時更新予定です。他のサーベイまとめ記事はコチラのページをご覧ください。

【まとめページ】研究サーベイ記事一覧機械学習 基本的なモデル ●線形回帰 ●自己回帰 ●ガウス過程 ●ガウス過程と深層学習 ●ランク学習 言語処理 ●LDAとは? ●Dep...

参考文献は最後に記載してあります。

本論文を一枚の画像で

簡単なまとめ

落合先生の雛形(先端技術とメディア表現[外部リンク])を活用させていただきました。

要旨

教師なしドラム採譜手法としてDrummerNetというネットワークを考案。音響信号をエンコードする「transcriber」と各パートの音響信号を合成する「synthesizer」を利用したオートエンコーダ型のネットワークを採用することで,教師なし学習を実現。

導入

採譜には分類手法やNMF,HMMなどが従来から使われてきた。最近では,CNNやRNNを利用したモデルが考案されているというお決まりのパターン。しかし,教師あり機械学習の手法はペアデータの量に依存してしまうよねという話。

提案手法

DrummerNetの構造

基本的には上記画像の通り。CNNで「transcriber」のエンコーダ部・デコーダ部を構築。そこで得られた特徴量をGRUsの入力としてSparsemaxにかける。「synthesizer」もCNNを利用している。

実験

学習はWebサイトからクローリングして得られたデータを用いてデータセットを作成。 内訳は3940トラック・249時間にも及ぶ。テストデータセットにはSMT(IDMT-SMT-Drums)・MDB(Medley-DB Drums)・ENST(ENST-drums)を利用。ピークピッキングはヒューリスティックに操作。

評価

単に採譜のF値だけでなく,各パートごとのF値やDrummerNetの構造の一部を変化させた場合のF値なども調べている。

今後の課題

NMFDに精度は及ばず。しかし,実行時間や一般化可能性などで秀でているといえる。ピークピッキングもヒューリスティックではなく,学習可能なようにモデリングする必要がある。学習方法を再構成誤差ではなく,cyclic lossにすることも考えられる。また,現状のsynthesizerでは音符の長さを扱えていないという問題点もある。

まとめ

ドラム採譜を教師なしで実現しようとする試みでした。

参考文献

Choi, Keunwoo, and Kyunghyun Cho. “Deep Unsupervised Drum Transcription.” arXiv preprint arXiv:1906.03697 (2019).

COMMENT

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です