【超初心者向け】ドラム採譜論文要約「Automatic Drum Transcription for Polyphonic Recordings Using Soft Attention Mechanisms and Convolutional Neural Networks」Beginaid

この記事では，研究のサーベイをまとめていきたいと思います。ただし，全ての論文が網羅されている訳ではありません。また，分かりやすいように多少意訳した部分もあります。ですので，参考程度におさめていただければ幸いです。

間違えている箇所がございましたらご指摘ください。随時更新予定です。他のサーベイまとめ記事はコチラのページをご覧ください。

【まとめページ】研究サーベイ記事一覧和訳記事 ●Attentionを用いたseq2seqのメカニズム●イラストでみるTransfomer 機械学習基本...

参考文献は最後に記載してあります。

読みたい場所へジャンプ！

本論文を一枚の画像で
要旨
提案手法
実験・評価
結論
まとめ

本論文を一枚の画像で

落合先生の雛形（先端技術とメディア表現[外部リンク]）を活用させていただきました。

要旨

従来のRNNに基づくドラム採譜のモデルは主要3パートで評価されており，ポリフォニック信号に対してはあまり精度は出ていない。そこで，本研究では新たに2つのモデルを提案する。結果として，5つの評価シナリオにおいてSOTAを達成した。実は，ドラム採譜に初めてCNNを適用した研究でもある。

提案手法

Soft-attentionとは，隠れ状態の重要度を確率値で表す変数を導入したネットワーク構造。ちなみに，Hard-attentionは「重要度に基づく重みつき平均」を利用するのではなく「重要度に基づく確率的な決定」を利用する。つまり，soft-attentionでは隠れ状態は与えられた重要度だけモデルに寄与する。一方，hard-attentionは隠れ状態が与えられた重要度の確率値で選ばれる。隠れ層にはpeephole付きのLSTMを使用。

隠れ状態間に結合を持たせたネットワーク。隠れ層でLSTMを使いながらうまく伝達させていこうというアイディア。

Onset ditectionやDownbeat detectionでよい性能を示しているCNNを導入してみようというモチベーション。

実験・評価

「Drum Solo」はIDMT-SMTデータセットを利用。「Drum Mixture」「Multi-instrument Mixture」はENSTデータセットを利用。これらは「Singe-context」といえる。一方，「Cross-context」は異なるタスク間で評価し，「Multi-context」は異なるタスクをごちゃ混ぜにして学習・テスト。SAの後の数字はattentionする範囲，PCの後の数字は周辺結合する範囲，CNNの後の数字は畳み込みの時間方向の幅。

Single-contextの結果。楽器が増えるにつれて提案手法が有効になっていくことが読み取れる。Peak-pickingに関しても一部で有効性が確認できた。時間方向に関してあまりにも長く調べすぎてしまうとonsetを超える範囲を考慮してしまうため性能が下がったと考えられる。また，CNNはtime-step間の情報を受け渡せなかったために性能が出ず，BRNNによるpeak-pickingも性能を悪化させる要因となったと考えられる。

Cross-contextの結果。CNNが良い汎化性能を示している。グラフには示されていないが，BRNNによるpeak-pickingはどれも性能を悪化させる結果となった。

Multi-contextの結果。PCはPrecisionは出ているもののRecallは低い。

結論

SAとPCは隠れ状態のtime-step間の情報をうまく保持できる。CNNは大きなInputに対応できる。複雑なタスクほど提案手法は有効。つまり，多くの情報を活用できるモデルということ。タスクが決まっている場合はSAが性能が良く，決まっていない場合はCNNが性能が良い。

まとめ

Soft-attentionを利用したドラム採譜の研究でした。

参考文献

Southall, Carl, Ryan Stables, and Jason Hockman. “Automatic Drum Transcription for Polyphonic Recordings Using Soft Attention Mechanisms and Convolutional Neural Networks.” ISMIR. 2017.

研究