テキストマイニングを始める方へ

テキストマイニングという技術をご存知でしょうか?
コールセンターの発言記録や、アンケートの自由記述情報、
Webサイトのクチコミ情報など、世の中には定性的な文章情報が
数多く存在しています。

それらのデータの形態素解析を行い、定量的に把握することで
文章情報から様々な特徴/パターン/知見を得るための技術が
テキストマイニングです。

現在、様々なテキストマイニングツール/ソフトが存在しますが、
まず無償で手軽に使えるソフトがあります。

■KHCoder
http://khc.sourceforge.net/

■TTM
http://mtmr.jp/ttm/

■Kuromoji
http://www.atilika.org/

KHCoderは、裏側でChasen、MySQLとRを用いており
様々な分析機能を持った非常に高性能なソフトです。
デメリットとしては、テキストマイニングで重要となる
辞書登録機能が弱いので、日本語特有の表記の揺らぎを
うまく制御できないところでしょうか。

一方、TTMは非常にシンプルなインターフェースで
様々な解析に用いるためのデータ出力が可能なソフトです。
同義語や不要語、キーワードを登録できるため
分析者が意図するようなデータ出力が可能です。

KuromojiはJAVAベースのツールで、
未知語の処理やsearchモードなど面白い機能があるようです。

http://www.mwsoft.jp/programming/lucene/kuromoji.html

テキストマイニングの醍醐味と言えば
単語マッピングによるキーワード同士の関連性のビジュアル化ですが

例えば、KHCoderと他のツールを組み合わせて
非常に見栄えのよいビジュアル化も可能なので、
分析レポートのクオリティを高めたい方は是非トライしてみてください。

http://koichi.nihon.to/cgi-bin/bbs_khn/khcf.cgi?&no=741&reno=577&oya=577&mode=msgview