アカデミック

【超初心者向け】MIR論文要約「Improved musical onset detection with convolutional neural networks」

この記事では,研究のサーベイをまとめていきたいと思います。ただし,全ての論文が網羅されている訳ではありません。また,分かりやすいように多少意訳した部分もあります。ですので,参考程度におさめていただければ幸いです。

間違えている箇所がございましたらご指摘ください。随時更新予定です。他のサーベイまとめ記事はコチラのページをご覧ください。

【まとめページ】研究サーベイ記事一覧 和訳記事 ●Attentionを用いたseq2seqのメカニズム●イラストでみるTransfomer 機械学習 基本...

参考文献は最後に記載してあります。

本論文を一枚の画像で

落合先生の雛形(先端技術とメディア表現[外部リンク])を活用させていただきました。

要旨

画像の局所的特徴量を捉えるCNNは,スペクトログラムを画像とみなした時のオンセット推定と非常に相性が良い。本研究では,オンセット推定にCNNを利用する方法を提案する。

提案手法

画像ではRGBの3チャネルを入力とするが,音楽ではスペクトログラムの1チャネルしか存在しない。そこで,時間ー周波数分解能を変化させた3枚のスペクトログラムを用意して3チャネルと設定する。オンセット推定はアクティベーションの5フレーム分をハミング窓でスムージングした値が閾値を上回ったかどうかで判断する。

実験・評価

単純なCNNにドロップアウトや訓練データの調整,活性化関数の変更などを施して圧倒的なSOTAを達成した。

まとめ

CNNに突っ込む特徴量を工夫してオンセット推定の制度を高める研究でした。

参考文献

Schlüter, Jan, and Sebastian Böck. “Improved musical onset detection with convolutional neural networks.” 2014 ieee international conference on acoustics, speech and signal processing (icassp). IEEE, 2014.

COMMENT

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です