ICCS 2018に論文がショートペーパーとして受理されました – Diversity Mining Laboratory @ Rikkyo University

正田が書いた論文LDA-Based Scoring of Sequences Generated by RNN for Automatic Tanka Compositionが、国際会議ICCS 2018にショートペーパーで受理されました。ショートペーパーなので、ポスター発表です。

昨年のオープンキャンパスでRNNを使って短歌を生成するデモを展示しましたが、それを論文化したものです。コードはPyTorchで書いています。

RNNで生成した短歌は、そのままでは単語の季節感が揃っていない等、あまり出来が良くないので、LDA（潜在的ディリクレ配分法）を使って単語のトピックが揃っているものだけを選り分けるという研究です。

単語としてはひらがなのbigramを使っています。ひらがなbigramの列としての短歌約14万件をRNNに学習させた後、そのRNNで短歌を生成します。これと並行してLDAで同じ14万件の短歌から潜在トピックを学習させます。同じトピック内で確率の高い単語（ひらがなbigram）は、だいたい季節感の合う単語になっています。そこで、RNNが生成したひらがなbigramの列としての短歌のうち、トピック確率を使って求めたエントロピーが小さいものだけを良い短歌の候補として選り分けます。

提案手法で選り分けられた短歌の例を示します。
しくれゆく／かつらきやまの／いろふかき／もみちのいろに／しくれふりけり
ちはやふる／ゆふひのやまの／かみなひの／みむろのやまの／もみちをそみる
かへるやま／ふもとのみちは／きりこめて／ふかくもむすふ／をちのやまかせ

一方、単にRNNでの出力確率が高かったものを拾ってみると、季節感がバラバラになっていたりします。
たかさこの／をのへのさくら／さきにけり／みねのまつやま／ゆきふりにけり
たかさこの／をのへのさくら／なかむれは／ありあけのつきに／あきかせそふく

Notificationのメールによると、今回は400件近く投稿があったそうです。というわけで、6月は無錫に行ってきます。