SAGEによるMEDLINEデータセットの一部分の分析
http://dmlab2.sakura.ne.jp/example/bubble_medline12n06xx.html
SAGEのための変分ベイズ推定を実装したので、MEDLINEデータセットのうちmedline12n06xx.xmlという名前が付いたXMLファイル100件のデータをトピック分析しました。データのスペックは、
文書数: 2,495,210
単語数: 134,615
文書-単語のユニークなペアの数: 179,570,354
訓練用(テスト用)単語トークン数: 225,853,714 (25,087,566)
です。詳細はリンク先のWebページの下のほうに書いてあります。