Publicationsの解説

以下は、Publicationsのページにある論文のうち主要なものの解説です。
学生の論文を除き、すべて、自分で実装(C言語で実装。2018年に出た論文からはPythonで実装)し、実験し、論文執筆も自分でしています。

論文47:LDAの変分ベイズ推定で、近似事後分布としてimplicitな分布を使うとどうなるかを試した論文。implicitな分布を使うと、ELBOの中に現れる近似事後分布と事前分布とのKL情報量が計算できなくなるので、GANと同じくdiscriminatorを用いて密度比の推定をおこなった。論文44では、トピックモデルではなくNVDMのような文書モデルに同じテクニックを使っていたが、この論文ではLDAでもそれがうまくいく(=perplexityを改善できる)ことを確認した。

論文46:タイムスタンプの付いた文書の集合から、タイムスタンプの付いたトピックを抽出するトピックモデルの提案。同じことをする提案はたくさんあるが、本研究の特徴は、(トピック数)×(語彙サイズ)のパラメータ行列と、(タイムスタンプ数)×(語彙サイズ)のパラメータ行列をbroadcastして組み合わせて、(トピック数)×(タイムスタンプ数)×(語彙サイズ)のテンソルを構成して、それをつかって変分ベイズ推定をしている点にある。

論文45:RNNで自動生成した短歌を、後からLDAでトピック分析してスコア付けし、良いものだけを選ぶ手法。GRU-RNNの学習には12万程度の実際の短歌を使用。短歌はひらがなで表記し、文字bigramを単語とみなして学習させた。学習済みRNNが生成する文字bigramのシーケンスに、同じ訓練データで訓練させたLDAを使ってトピックを割り付ける。そして、多くの文字bigramが同じトピックに割り付けられているほど良いという指標(エントロピー)でスコア付けし、良いものだけを選ぶ。こうすると、定性的には季節感のある短歌だけが残るなどする。逆にRNNが生成したシーケンスを単に尤度でより分けると、桜と雪のような単語が同居している短歌が選ばれたりする。

論文42:指導していたミャンマー人の博士後期過程の学生の論文。ミャンマー語のニュース記事からLDAを使って固有名詞と思われるものを抽出。ミャンマー語には良い形態素解析器がないため、論文40で提案したmaximal substring抽出による特徴的な部分文字列抽出を前処理として使い、そこにLDAを適用し、各トピックの高確率語から固有名詞と思われるものをより分ける手法を提案。

論文41:論文39の続き。今度はVAEをCTM (correlated topic model)に適用。論文39と同じく、自動微分を使うのではなく、closedな更新式を導いて論文に掲載している。自動微分を使っていないので、特殊なライブラリを使わず実装できる。

論文39:LDAのための新しいパラメータ推定式を提案している研究。深層学習方面では、変分オートエンコーダ(VAE)のパラメータ推定に変分推定が用いられる。その際、連続値をとるパラメータの確率分布からの生成を、単純なノイズ分布からサンプルを生成し次にそのサンプルを関数によって変換するというかたちへ書き直すことができる場合がある。これをreparameterizationという。このテクニックをLDAに適用することで、新たなパラメータ更新式を得た。test perplexityによる評価でも、従来のパラメータ推定法と比べて遜色ない結果が得られた。

論文36:ミャンマーから来ていた博士課程の学生の研究。論文のタイトル集合からその集合の特徴を良く現わすフレーズ・フレームを抽出する手法の提案。この手法によって抽出されるのはトライグラムのみ。ただし、そのトライグラムの右側または左側に名詞を置くことではじめてひとつのまとまったフレーズをなすようなものが優先的に抽出される。左右への名詞の補完によって初めてフレーズが完成するという意味で、抽出されたトライグラムの多くがフレーズ・フレームとなっている。応用先としては、論文検索システムにおける検索語のquery expansionを想定している。

論文34:LDAにおける単語確率を複数のファクタの積によって表現したモデルを用いた、時系列テキストデータの分析。単語確率は、トピックのみに依存するファクタ、タイムスタンプのみに依存するファクタ、トピックとタイムスタンプの両方に依存するファクタ、以上3つのファクタの積としてあらわされる。推定は変分ベイズ法。実験では、タイムスタンプのみに依存するファクタを利用することで自明にタイムスタンプに依存する単語の影響を排除しつつ、各トピック内部での話題のトレンドを抽出できた。

論文33:LDAにおける単語生成の部分を、ガンマ関数による非負実数に置き換えたモデルを、NYCの道路を流れる車列の速度データの分析に応用した。推定は変分ベイズ法。実験により、同じ車速でも、その日全体の車速の分布パターンに応じて異なるトピックへと割り当てられるケースがあることが分かった。この違いが、平日と休日の違いに対応している場合も見られた。

論文31:Subset Infinite Relational Models (SIRM)の画像クラスタリングへの応用。実験ではMNISTの画像を利用。タイトルのThree-wayとは、 画像のクラスタリングだけでなく、各画像のピクセル行とピクセル列のクラスタリングも行う、という意味。画像を積み上げて直方体とみなし、三つの軸の方向にノンパラメトリック・ベイズの考え方でクラスタ数を前もって決めずにクラスタリングを行なう。MNISTの画像の多くで左右上下端に空白があるが、その空白部も自動的に検出できる(SIRMのS)。

論文29:LDAでの各文書のトピック分布がその文書によって引用されている文書のトピック分布に依存するようなモデルの提案。推定が煩雑なため、CUDAを利用しGPU向けに実装。実験結果は、トピックをノードとする有向グラフによって図示した。これにより、トピック間の推移関係が視覚化される。

論文27:一般化Mallow modelを用いて、単語列を意味的なまとまりへとセグメント化するトピックモデルの提案。具体的な課題としては、論文の参考文献一覧に現れる各文献の情報を、著者、タイトル、雑誌名、発表年などのまとまりへとセグメント化することを想定。この論文では特に、正解ラベルが部分的に分かっているとした場合に精度が向上することを確認できた。なお、正解ラベルは誤りを含んでいても良い。

論文23:マイクロアレイ・データを解析するためのトピックモデルとしてlatent process decomposition (LPD)と呼ばれるものがあるが、この論文ではLPDのノンパラメトリック・ベイズ版を提案している。LDAに対するHDP-LDAのようなもの。推定は2次の項まで残したcollapsed変分ベイズ。

論文21:LDAのハイパーパラメータを時間依存の関数として表現して、トピック分布の時間的推移をモデル化しようとした研究。ハイパーパラメータの推定にはL-BFGSを利用。これがトピック分布の時間的推移を可視化したものの例vanilla LDAだとこうなる。だんだん増えるトピック、だんだん減るトピック等が、vanilla LDAでは見当たらない。

論文18:LDAのcollapsed変分ベイズ推定をGPU向けに実装。この時点でGPUをLDAの推定に使った研究は初出だった。