アカデミック

【超初心者向け】コード認識論文要約「On the Futility of Learning Complex Frame-Level Language Models for Chord Recognition」

この記事では,研究のサーベイをまとめていきたいと思います。ただし,全ての論文が網羅されている訳ではありません。また,分かりやすいように多少意訳した部分もあります。ですので,参考程度におさめていただければ幸いです。

間違えている箇所がございましたらご指摘ください。随時更新予定です。他のサーベイまとめ記事はコチラのページをご覧ください。

【まとめページ】研究サーベイ記事一覧 和訳記事 ●Attentionを用いたseq2seqのメカニズム●イラストでみるTransfomer 機械学習 基本...

参考文献は最後に記載してあります。

本論文を一枚の画像で

落合先生の雛形(先端技術とメディア表現[外部リンク])を活用させていただきました。

要旨

従来はコード認識ではHMM(First-order)ベースの言語(時間)モデルが利用されていた。最近ではRNNに基づく言語(時間)モデルが利用されるようになっている。しかし,本研究ではTime-frame単位で学習を行う言語モデルがコード認識率に寄与するのはわずかであることを示す。また,言語モデルに求められるのはより高次の遷移系列(コードの記号単位など)であることを示す。

実験1:時間モデルそのものの性能に関して

First-orderモデルよりもRNNの方がわずかに性能が上回った。しかし,RNNのモデルとしての表現力にしてはわずかな差であると言える。値はlog-probabilityなので,コードが続く場合にしっかりと同じコードを吐き出すか,コードが変わる場合にしっかりと遷移先のコードを吐き出すかという性能が測られている。

実験2:Time-frame単位の時間モデルをコードに認識に適用したときの性能に関して

各時間モデルを従来の3種類の音響モデルに適用した場合に改善がみられるかを測った実験。Noneが時間モデルなしの結果。RNNの改善度はFirst-orderのHMMを上回ることはなかった。

実験3:コード記号単位でモデリングした言語モデルを適用した場合の性能に関して

文章中に「Avg.Log-P. of -1.62 vs. -2.28」という記述がある。つまり,今までよりも劇的に認識性能を向上させたと言う結果になった。

コードの繰り返し構造もしっかりと学習できていることを確認。

まとめ

今後はコード認識(や他のMIRのタスク)で言語モデルを扱う場合には,Time-frame単位ではなくより高次元の情報(コード記号単位など)でモデリングするべきだと主張する論文でした。

参考文献

Korzeniowski, Filip, and Gerhard Widmer. “On the futility of learning complex frame-level language models for chord recognition.” arXiv preprint arXiv:1702.00178 (2017).

ABOUT ME
zuka
京都大学で機械学習を学んでいます。

COMMENT

メールアドレスが公開されることはありません。 が付いている欄は必須項目です

※ Please enter your comments in Japanese to prevent spam.