【超初心者向け】ドラム採譜論文要約「From Labeled to Unlabeled Data-On the Data Challenge in Automatic Drum Transcription」Beginaid

この記事では，研究のサーベイをまとめていきたいと思います。ただし，全ての論文が網羅されている訳ではありません。また，分かりやすいように多少意訳した部分もあります。ですので，参考程度におさめていただければ幸いです。

間違えている箇所がございましたらご指摘ください。随時更新予定です。他のサーベイまとめ記事はコチラのページをご覧ください。

【まとめページ】研究サーベイ記事一覧和訳記事 ●Attentionを用いたseq2seqのメカニズム●イラストでみるTransfomer 機械学習基本...

参考文献は最後に記載してあります。

読みたい場所へジャンプ！

本論文を一枚の画像で
要旨
導入
ラベルなしデータの学習
提案手法
実験
結論
まとめ

本論文を一枚の画像で

落合先生の雛形（先端技術とメディア表現[外部リンク]）を活用させていただきました。

要旨

ADT（Automatic Drum Transcription）は急速な発展を遂げているが，データ数の不足は喫緊の問題。そこで，本論文ではラベルなしデータが学習によい影響を与えることができるかを調査した。

導入

多くの研究はENST-Drums datasetを利用していた。しかし，ラベル付きデータの少なさが問題となっていた。根拠は二つで「過学習」「評価が楽観的すぎる」。この問題意識からMDB-DrumsやRBMAのようなデータセットが作成された。本論文では「既存のデータセットの効果を調査」「他のリソースを調べたうえで既存のデータセットを助けるような技術の調査」をする。

ラベルなしデータの学習

ラベルなしデータの学習には転位学習などが用いられる。Data Augmentationは音楽に由来する手法に基づいてデータを増強する技術。しかし，両者とも走り出しには正確なラベル付きが必要。そこで，少し着眼点を変えるとラベルなしデータの有効活用が考えられる。主な教師なし学習の手法は以下の通り。

・スパースコーディング
・Deep Belief Networks
・オートエンコーダ

他に強力な手法として「知識の蒸留」と呼ばれる手法がある。この手法では学習データのラベル（Hard target）を利用しなくとも教師モデルの出力（Soft target）を利用して学習を進めることができる。知識を蒸留することで，教師モデルよりも精度が高く出る場合やモデルを軽量化することができる。

提案手法

特徴量抽出はCAE。教師モデルはPFNMF，生徒モデルはDNNで作成。STFTはpythonのライブラリ「librosa」で行い，オンセット検出はpythonのライブラリMadmomから「CNNOnsetProcessor」を使用。SVMは同じくpythonのライブラリ「scikit-learn」を使用。PFNMFはNmf-DrumToolboxを使用。