アカデミック

【超初心者向け】コード認識論文要約「Improved chord recognition by combining duration and harmonic language models」

この記事では,研究のサーベイをまとめていきたいと思います。ただし,全ての論文が網羅されている訳ではありません。また,分かりやすいように多少意訳した部分もあります。ですので,参考程度におさめていただければ幸いです。

間違えている箇所がございましたらご指摘ください。随時更新予定です。他のサーベイまとめ記事はコチラのページをご覧ください。

【まとめページ】研究サーベイ記事一覧 和訳記事 ●Attentionを用いたseq2seqのメカニズム●イラストでみるTransfomer 機械学習 基本...

参考文献は最後に記載してあります。

本論文を一枚の画像で

落合先生の雛形(先端技術とメディア表現[外部リンク])を活用させていただきました。

要旨

従来はコード認識のタスクは「音響モデル+時間モデル」で構成されていた。音響モデルはフレーム単位ごとの特徴量をコードに変換するタスク。時間モデルはフレーム単位で出力されるコードをそれらしく遷移させていくモデル。しかし,フレーム単位で遷移を考えている従来のシステムではコードの全体的な構成などは考慮できていなかった。そこで,本研究では「音響モデル+継続時間モデル+言語モデル」というように,時間モデルを2つのモデルに紐解くことでコード認識の精度を向上させようというアイディアを考察していく。

関連研究

従来の時間モデルは,HMMを用いて (1つ)手前のコードに基づいて次のコードを出力していた。このようなモデルは「First-orderモデル」と呼ばれている。フレーム単位のRNNでもHMMのようなFirst-orderモデルの性能を上回らないということも示されている。

時間モデルがフレーム単位でコードを認識していては,音楽の長期的な構造を考慮することは難しい。一方,時間モデルをコード列に適用できれば,コード進行を学習させることが可能になる。そこで,本研究ではフレーム単位の音響モデルとコード列単位の言語モデルを統合するための「継続時間モデル」を考案する。

提案手法

音響モデルにはVGG-CNNを利用。これはオックスフォード大学のVGGチームがか威圧したネットワークの名称で,層の深いCNNのこと。言語モデルにはRNNを利用。

実験・評価

言語モデル・継続時間モデルはグリッドサーチで最適なパラメータやモデルを調査した。

言語モデルにGRUとRNN(4-gram, 2-gram)を利用した実験。GRUの方が性能が良いことを確認。
GRUで学習されたEmbeddingベクトル。ある程度の規則性や傾向がみられるが,今回は考察を割愛。
継続時間モデルもGRUの性能が高いことを確認。
Negative Binomial(n states per chordのHMMに相当)よりもGRUの方が正確にコードが変わるタイミングを推測できていることが読み取れる。
実際にモデルを統合した場合にコード継続時間の平均log-probabilityで評価。GRUを利用した場合にNegative Binomialよりも改善されることを確認。

まとめ

今まで扱われなかったフレーム⇆コード系列のモデル化に注目した研究でした。

参考文献

Korzeniowski, Filip, and Gerhard Widmer. “Improved chord recognition by combining duration and harmonic language models.” arXiv preprint arXiv:1808.05335 (2018).

ABOUT ME
zuka
京都大学で機械学習を学んでいます。

COMMENT

メールアドレスが公開されることはありません。 が付いている欄は必須項目です

※ Please enter your comments in Japanese to prevent spam.