大規模データを高速に加工/処理するためのノウハウ紹介!

大規模データを高速に加工/処理するためのノウハウ紹介!

データ解析業務を行う皆さんですと、ギガバイトレベルのデータを扱うような局面が発生すると色々苦労されることも多いと思います。

Hadoopなど分散処理を行ったり、SASなどのツールを用いて加工する方法がありますが、環境構築やコスト面でなかなかハードルも高いと思います。

そこで、昨今話題になっている、データを高速に加工/処理するフリーソフトをご紹介します。

 

nysol(にそる)というパッケージでOSではMacやLinuxで動作しますが、WindowsでもVirtual Box、VMWareなどを用いれば扱うことは可能です。

■インストール方法
http://www.nysol.jp/install

どれくらい処理が早いか・・についてはRのパッケージ、data.table + dplyr を用いた場合を
ベンチマークとした検証結果の記事があります。

http://qiita.com/gg_hatano/items/7a11e3a203a7646f05bf

 

Rに慣れている方ですと、data.table + dplyr でもある程度の規模のデータでは
十分なパフォーマンスが出ますが、より規模の大きなデータでnysolは効果を発揮しています。
Mコマンドと呼ばれる言語は比較的簡潔な構文なのでキャッチアップもしやすいと思います。

 

http://www.slideshare.net/SatoshiKitajima2/nysol-tokyor39

詳しい使い方は、こちらのスライドでも紹介されています。
大規模データを簡単に処理したい・・というニーズをお持ちの方は、是非一度お試し下さい!