読者の皆様へ。Beginaidは生まれ変わります

アカデミック

【超初心者向け】コード認識論文要約「Improved chord recognition by combining duration and harmonic language models」

zuka 2019年11月5日 / 2019年11月6日

この記事では，研究のサーベイをまとめていきたいと思います。ただし，全ての論文が網羅されている訳ではありません。また，分かりやすいように多少意訳した部分もあります。ですので，参考程度におさめていただければ幸いです。

間違えている箇所がございましたらご指摘ください。随時更新予定です。他のサーベイまとめ記事はコチラのページをご覧ください。

【まとめページ】研究サーベイ記事一覧和訳記事 ●Attentionを用いたseq2seqのメカニズム●イラストでみるTransfomer 機械学習基本...

参考文献は最後に記載してあります。

読みたい場所へジャンプ！

本論文を一枚の画像で
要旨
関連研究
提案手法
実験・評価
まとめ

本論文を一枚の画像で

落合先生の雛形（先端技術とメディア表現[外部リンク]）を活用させていただきました。

要旨

従来はコード認識のタスクは「音響モデル＋時間モデル」で構成されていた。音響モデルはフレーム単位ごとの特徴量をコードに変換するタスク。時間モデルはフレーム単位で出力されるコードをそれらしく遷移させていくモデル。しかし，フレーム単位で遷移を考えている従来のシステムではコードの全体的な構成などは考慮できていなかった。そこで，本研究では「音響モデル＋継続時間モデル＋言語モデル」というように，時間モデルを2つのモデルに紐解くことでコード認識の精度を向上させようというアイディアを考察していく。

関連研究

従来の時間モデルは，HMMを用いて（1つ）手前のコードに基づいて次のコードを出力していた。このようなモデルは「First-orderモデル」と呼ばれている。フレーム単位のRNNでもHMMのようなFirst-orderモデルの性能を上回らないということも示されている。

時間モデルがフレーム単位でコードを認識していては，音楽の長期的な構造を考慮することは難しい。一方，時間モデルをコード列に適用できれば，コード進行を学習させることが可能になる。そこで，本研究ではフレーム単位の音響モデルとコード列単位の言語モデルを統合するための「継続時間モデル」を考案する。

提案手法

音響モデルにはVGG-CNNを利用。これはオックスフォード大学のVGGチームがか威圧したネットワークの名称で，層の深いCNNのこと。言語モデルにはRNNを利用。

実験・評価

言語モデル・継続時間モデルはグリッドサーチで最適なパラメータやモデルを調査した。

言語モデルにGRUとRNN（4-gram, 2-gram）を利用した実験。GRUの方が性能が良いことを確認。

GRUで学習されたEmbeddingベクトル。ある程度の規則性や傾向がみられるが，今回は考察を割愛。

継続時間モデルもGRUの性能が高いことを確認。

Negative Binomial（n states per chordのHMMに相当）よりもGRUの方が正確にコードが変わるタイミングを推測できていることが読み取れる。

実際にモデルを統合した場合にコード継続時間の平均log-probabilityで評価。GRUを利用した場合にNegative Binomialよりも改善されることを確認。

まとめ

今まで扱われなかったフレーム⇆コード系列のモデル化に注目した研究でした。

参考文献

Korzeniowski, Filip, and Gerhard Widmer. “Improved chord recognition by combining duration and harmonic language models.” arXiv preprint arXiv:1808.05335 (2018).

アカデミック

【現役院生による】京大情報学研究科・知能情報学専攻の過去問解答解説2017-2019

2019年8月31日 zuka

https://tips-memo.com/wp-content/uploads/2019/09/252c30818e897f67b32380fd9d6acc11.png Beginaid

アカデミック

【第５章ニューラルネットワーク】PRML演習問題解答を全力で分かりやすく解説＜5.16＞

2019年5月30日 zuka

https://tips-memo.com/wp-content/uploads/2019/09/252c30818e897f67b32380fd9d6acc11.png Beginaid

アカデミック

【初学者向け】情報セキュリティ＜PKI編＞

2019年8月1日 zuka

https://tips-memo.com/wp-content/uploads/2019/09/252c30818e897f67b32380fd9d6acc11.png Beginaid

アカデミック

【第５章ニューラルネットワーク】PRML演習問題解答を全力で分かりやすく解説＜5.20＞

2019年5月30日 zuka

https://tips-memo.com/wp-content/uploads/2019/09/252c30818e897f67b32380fd9d6acc11.png Beginaid

アカデミック

【第９章】PRML演習問題解答を全力で分かりやすく解説＜9.16＞

2019年7月12日 zuka

https://tips-memo.com/wp-content/uploads/2019/09/252c30818e897f67b32380fd9d6acc11.png Beginaid

アカデミック

【超初心者向け】pythonで音声認識⑥「F0推定を実装してみよう」

2019年12月20日 zuka

https://tips-memo.com/wp-content/uploads/2019/09/252c30818e897f67b32380fd9d6acc11.png Beginaid

COMMENT コメントをキャンセル