Publicationsの解説

以下は、Publicationsのページにある論文のうち主要なものの解説です。
学生の論文を除き、すべて、自分で実装(C言語を使用)し、実験し、論文執筆しています。

論文39:LDAのための新しいパラメータ推定式を提案している研究。深層学習方面では、変分オートエンコーダ(VAE)のパラメータ推定に変分推定が用いられる。その際、連続値をとるパラメータの確率分布からの生成を、単純なノイズ分布からサンプルを生成し次にそのサンプルを関数によって変換するというかたちへ書き直すことができる場合がある。これをreparameterizationという。このテクニックをLDAに適用することで、新たなパラメータ更新式を得た。test perplexityによる評価でも、従来のパラメータ推定法と比べて遜色ない結果が得られた。

論文36:ミャンマーから来ていた博士課程の学生の研究。論文のタイトル集合からその集合の特徴を良く現わすフレーズ・フレームを抽出する手法の提案。この手法によって抽出されるのはトライグラムのみ。ただし、そのトライグラムの右側または左側に名詞を置くことではじめてひとつのまとまったフレーズをなすようなものが優先的に抽出される。左右への名詞の補完によって初めてフレーズが完成するという意味で、抽出されたトライグラムの多くがフレーズ・フレームとなっている。応用先としては、論文検索システムにおける検索語のquery expansionを想定している。

論文34:LDAにおける単語確率を複数のファクタの積によって表現したモデルを用いた、時系列テキストデータの分析。単語確率は、トピックのみに依存するファクタ、タイムスタンプのみに依存するファクタ、トピックとタイムスタンプの両方に依存するファクタ、以上3つのファクタの積としてあらわされる。推定は変分ベイズ法。実験では、タイムスタンプのみに依存するファクタを利用することで自明にタイムスタンプに依存する単語の影響を排除しつつ、各トピック内部での話題のトレンドを抽出できた。

論文33:LDAにおける単語生成の部分を、ガンマ関数による非負実数に置き換えたモデルを、NYCの道路を流れる車列の速度データの分析に応用した。推定は変分ベイズ法。実験により、同じ車速でも、その日全体の車速の分布パターンに応じて異なるトピックへと割り当てられるケースがあることが分かった。この違いが、平日と休日の違いに対応している場合も見られた。

論文31:Subset Infinite Relational Models (SIRM)の画像クラスタリングへの応用。実験ではMNISTの画像を利用。タイトルのThree-wayとは、 画像のクラスタリングだけでなく、各画像のピクセル行とピクセル列のクラスタリングも行う、という意味。画像を積み上げて直方体とみなし、三つの軸の方向にノンパラメトリック・ベイズの考え方でクラスタ数を前もって決めずにクラスタリングを行なう。MNISTの画像の多くで左右上下端に空白があるが、その空白部も自動的に検出できる(SIRMのS)。

論文29:LDAでの各文書のトピック分布がその文書によって引用されている文書のトピック分布に依存するようなモデルの提案。推定が煩雑なため、CUDAを利用しGPU向けに実装。実験結果は、トピックをノードとする有向グラフによって図示した。これにより、トピック間の推移関係が視覚化される。

論文27:一般化Mallow modelを用いて、単語列を意味的なまとまりへとセグメント化するトピックモデルの提案。具体的な課題としては、論文の参考文献一覧に現れる各文献の情報を、著者、タイトル、雑誌名、発表年などのまとまりへとセグメント化することを想定。この論文では特に、正解ラベルが部分的に分かっているとした場合に精度が向上することを確認できた。なお、正解ラベルは誤りを含んでいても良い。

論文23:マイクロアレイ・データを解析するためのトピックモデルとしてlatent process decomposition (LPD)と呼ばれるものがあるが、この論文ではLPDのノンパラメトリック・ベイズ版を提案している。LDAに対するHDP-LDAのようなもの。推定は2次の項まで残したcollapsed変分ベイズ。

論文21:LDAのハイパーパラメータを時間依存の関数として表現して、トピック分布の時間的推移をモデル化しようとした研究。ハイパーパラメータの推定にはL-BFGSを利用。これがトピック分布の時間的推移を可視化したものの例vanilla LDAだとこうなる。だんだん増えるトピック、だんだん減るトピック等が、vanilla LDAでは見当たらない。

論文18:LDAのcollapsed変分ベイズ推定をGPU向けに実装。この時点でGPUをLDAの推定に使った研究は初出だった。