注目の手法:トピックモデル

注目の手法:トピックモデル

近年、Topic modelと呼ばれる確率的潜在変数モデルが、
機械学習とデータマイニングの境界分野で盛んに研究されています。

ある文書集合が与えられたとして、その集合に潜在する
「構造=トピック(潜在的な意味)」を学習する手法であり、
RのパッケージではTopicmodels、ldaなどがあり、
Pythonのライブラリではgensim、他にはPyMCや、PyStan
でも実装が可能です。

概念的に手法を解説しているサイトとして
http://qiita.com/GushiSnow/items/8156d440540b0a11dfe6
分かりやすく図解してもらっています。

具体的事例で面白いところでは、
太宰治の文学の変化をトピックモデルで分析している事例もあります。
http://mrorii.github.io/blog/2013/12/27/analyzing-dazai-osamu-literature-using-topic-models/

テキストデータを元に、文章データの分類や
トピックに関心のあるユーザーへの情報レコメンドなど
様々な活用が期待されています。

トピックモデルに関する書籍も出ていますので、
興味がある方は、是非購読されては如何でしょうか。

 

[amazonjs asin=”4339027588″ locale=”JP” tmpl=”Small” title=”トピックモデルによる統計的潜在意味解析 (自然言語処理シリーズ)”] [amazonjs asin=”4061529048″ locale=”JP” tmpl=”Small” title=”トピックモデル (機械学習プロフェッショナルシリーズ)”]