テキストマイニング フリーツールの定番!KHCoderについて

テキストマイニング フリーツールの定番!KHCoderについて

これまでも、何度かテキストマイニングやソーシャルデータクローリングについて投稿していますが、

今回は、より具体的なツールのご紹介をしたいと思います。

 

特に研究者の間ではスタンダードなフリーソフトとなっているKHCoderですが、

http://khc.sourceforge.net/

フリーの形態素解析エンジンの茶筅と、フリーの統計解析ツールであるR、同じくフリーのDBであるMySQLをベースに開発が進んでいます。

本家のサイトにもあるように、最近では中国語・韓国語・ロシア語にも対応している!ようで、かなりグローバルな分析も可能になっています。

 

また、同ツールの詳細なチュートリアルや解説が書かれた書籍についても、高評価のレビューが多いようです。

http://www.nakanishiya.co.jp/book/b165589.html

http://www.amazon.co.jp/gp/product/4779508037/ref=as_li_ss_tl?ie=UTF8&camp=247&creative=7399&creativeASIN=4779508037&linkCode=as2&tag=khcoder-22

 

KHCoderの機能については、上記サイトや書籍にて詳細がご確認いただけるかと思いますが、

特に本格的にカスタマイズしたい場合(例えば共起マップなど)、Rのソースコードをエクスポートすることができます。

 

例えば、あるホテル口コミデータの対応分析の結果ですが、

対応分析

 

フォームの右下に”保存”ボタンがあります。

そちらをクリックして、ファイルの種類を”R Source”に設定して保存すると、上記の描画のためのRのソースコードが取得できます。

実際の中身はみなさんで見て頂ければと思いますが、ソースコードの前半は、この描画に用いるマトリクスデータがソース中に記載されています。

その後、パラメータ設定のコードが続き、plotによる描画処理やラベル表示処理が続いています。

 

例えば、ラベルの文言の細かい調整を直接行いたい、単語のカテゴリにより色合いを変えたい、何か別の描画処理を入れたい・・など、Rを使われる方であれば

自由なカスタマイズは可能になります。

 

独自性のあるアウトプット作成のために、ご参考になれば!