この記事では,研究のサーベイをまとめていきたいと思います。ただし,全ての論文が網羅されている訳ではありません。また,分かりやすいように多少意訳した部分もあります。ですので,参考程度におさめていただければ幸いです。
間違えている箇所がございましたらご指摘ください。随時更新予定です。他のサーベイまとめ記事はコチラのページをご覧ください。
本論文を一枚の画像で
要旨
現在のドラム採譜手法はオンセット時刻を求めるだけにとどまっている。そこで,本論文ではビート・ダウンビート情報その他のメタ的な情報を考慮するネットワークを提案する。結果として,現在のSOTAを上回る精度を示した。
ADTとビート情報
ADTでは現在End-to-End(音響特徴量からアクティベーションを一つの処理で得るようなモデル)が主流。その中でもNMFとRNNに基づく手法が活躍している。しかし,RNNを含めてもパターンの構造までを学習するモデルは少ない。また,ビートトラッキングやダウンビート推定などの手法は独立して存在している。ニューラルネットの場合,マルチタスク学習を行えば精度が高くなる傾向にあるため,本研究ではADTにビート情報を組み込むようなマルチタスクのモデルを考案する。
提案手法
上記画像のように,双方向GRU(BGRU)・CNN・CBGRUの3手法を提案。aは短めの系列長,bは長めの系列長を扱うモデル。
実験・評価
結論
提案手法(CRNN)はSOTA手法よりも高い精度を示した。また,ビート・ダウンビート情報はドラム検出に有効。今回の研究は「ビート・ダウンビート情報を組み込むことで精度は上がるか」というような目的であったため,ビート・ダウンビート情報自体の精度は気にしていなかった。ビート・ダウンビート情報の精度は今後の課題。
まとめ
ビート推定をネットワークに組み込んだマルチタスク学習の研究でした。
Vogl, Richard, et al. “Drum Transcription via Joint Beat and Drum Modeling Using Convolutional Recurrent Neural Networks.” ISMIR. 2017.