アカデミック

【超初心者向け】ドラム採譜論文要約「Drum Transcription via Joint Beat and Drum Modeling Using Convolutional Recurrent Neural Networks」

この記事では,研究のサーベイをまとめていきたいと思います。ただし,全ての論文が網羅されている訳ではありません。また,分かりやすいように多少意訳した部分もあります。ですので,参考程度におさめていただければ幸いです。

間違えている箇所がございましたらご指摘ください。随時更新予定です。他のサーベイまとめ記事はコチラのページをご覧ください。

【まとめページ】研究サーベイ記事一覧 和訳記事 ●Attentionを用いたseq2seqのメカニズム●イラストでみるTransfomer 機械学習 基本...

参考文献は最後に記載してあります。

本論文を一枚の画像で

落合先生の雛形(先端技術とメディア表現[外部リンク])を活用させていただきました。

要旨

現在のドラム採譜手法はオンセット時刻を求めるだけにとどまっている。そこで,本論文ではビート・ダウンビート情報その他のメタ的な情報を考慮するネットワークを提案する。結果として,現在のSOTAを上回る精度を示した。

ADTとビート情報

ADTでは現在End-to-End(音響特徴量からアクティベーションを一つの処理で得るようなモデル)が主流。その中でもNMFとRNNに基づく手法が活躍している。しかし,RNNを含めてもパターンの構造までを学習するモデルは少ない。また,ビートトラッキングやダウンビート推定などの手法は独立して存在している。ニューラルネットの場合,マルチタスク学習を行えば精度が高くなる傾向にあるため,本研究ではADTにビート情報を組み込むようなマルチタスクのモデルを考案する。

提案手法

3手法の概要

上記画像のように,双方向GRU(BGRU)・CNN・CBGRUの3手法を提案。aは短めの系列長,bは長めの系列長を扱うモデル。

実験・評価

F値で評価。基本的にCNN+BGRUが最高性能を示した。CNNは時間フレームを長く見た方がパターンとして時系列情報を考慮できるため性能が高くなったと考えられる。マルチタスク学習をすることで,-aは性能改善する傾向にあり,-bはほとんど変わらない傾向にある。これは,-bは十分な性能をすでに有していてビート推定自体の精度が足を引っ張っているからだと考えられる。
recurrentモデルはマルチタスク学習の恩恵を受けるが,CNNは受けない傾向にある。
ビート推定の精度はSOTAに遠く及ばない。これはデータ数の違いやInputの系列長の長さの違い,DBNが使われているという点に起因する。

結論

提案手法(CRNN)はSOTA手法よりも高い精度を示した。また,ビート・ダウンビート情報はドラム検出に有効。今回の研究は「ビート・ダウンビート情報を組み込むことで精度は上がるか」というような目的であったため,ビート・ダウンビート情報自体の精度は気にしていなかった。ビート・ダウンビート情報の精度は今後の課題。

まとめ

ビート推定をネットワークに組み込んだマルチタスク学習の研究でした。

参考文献

Vogl, Richard, et al. “Drum Transcription via Joint Beat and Drum Modeling Using Convolutional Recurrent Neural Networks.” ISMIR. 2017.

COMMENT

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です