この記事では,研究のサーベイをまとめていきたいと思います。ただし,全ての論文が網羅されている訳ではありません。また,分かりやすいように多少意訳した部分もあります。ですので,参考程度におさめていただければ幸いです。
間違えている箇所がございましたらご指摘ください。随時更新予定です。他のサーベイまとめ記事はコチラのページをご覧ください。
本論文を一枚の画像で
要旨
教師なしドラム採譜手法としてDrummerNetというネットワークを考案。音響信号をエンコードする「transcriber」と各パートの音響信号を合成する「synthesizer」を利用したオートエンコーダ型のネットワークを採用することで,教師なし学習を実現。
導入
採譜には分類手法やNMF,HMMなどが従来から使われてきた。最近では,CNNやRNNを利用したモデルが考案されているというお決まりのパターン。しかし,教師あり機械学習の手法はペアデータの量に依存してしまうよねという話。
提案手法
基本的には上記画像の通り。CNNで「transcriber」のエンコーダ部・デコーダ部を構築。そこで得られた特徴量をGRUsの入力としてSparsemaxにかける。「synthesizer」もCNNを利用している。
実験
学習はWebサイトからクローリングして得られたデータを用いてデータセットを作成。 内訳は3940トラック・249時間にも及ぶ。テストデータセットにはSMT(IDMT-SMT-Drums)・MDB(Medley-DB Drums)・ENST(ENST-drums)を利用。ピークピッキングはヒューリスティックに操作。
評価
単に採譜のF値だけでなく,各パートごとのF値やDrummerNetの構造の一部を変化させた場合のF値なども調べている。
今後の課題
NMFDに精度は及ばず。しかし,実行時間や一般化可能性などで秀でているといえる。ピークピッキングもヒューリスティックではなく,学習可能なようにモデリングする必要がある。学習方法を再構成誤差ではなく,cyclic lossにすることも考えられる。また,現状のsynthesizerでは音符の長さを扱えていないという問題点もある。
まとめ
ドラム採譜を教師なしで実現しようとする試みでした。
Choi, Keunwoo, and Kyunghyun Cho. “Deep Unsupervised Drum Transcription.” arXiv preprint arXiv:1906.03697 (2019).