PRICAI 2018に論文がショートペーパーとして受理されました

国際会議PRICAI 2018に論文がショートペーパーとして受理されました。
http://cse.seu.edu.cn/pricai18/

今回の研究は、LDAの変分ベイズ推定を初めて機械学習フレームワーク(PyTorch)で書いたことをきっかけに始めたものです。推定計算をミニバッチ学習として書いています。トピックモデルの最初のころのミニバッチ学習の論文にあったような、全文書数をパラメータとして含むコードにはもちろんなっていません。なおoptimizerにはAdamを使っています。

工夫としては、文書のタイムスタンプごとに異なる単語確率を使えるようにした点です。同じことをする方法はすでにいろいろ提案されていますが、この研究では下のようなことをしています。

Wは(トピック数)×(語彙サイズ)のパラメータ行列で、Uは(タイムスタンプ数)×(語彙サイズ)のパラメータ行列です。これを上のように組み合わせることで、各トピックについてタイムスタンプ毎に異なる単語確率が得られるようにしています。また、DropConnectを使っている(上のコードのdropoutがそれ)こともポイントで、場合によってはかなりtest perplexityが良くなります。(使わないほうがいい場合もあります。)