Rでデータの高速集計 {dplyr}の使い方まとめのまとめ

Rでデータの高速集計 {dplyr}の使い方まとめのまとめ

{dplyr}というのはRで高速にデータを集計するためのパッケージです。

 

手軽に使える一方で速さがネックのRによる集計を高速化してくれるということで、その使い方をまとめた記事をまとめてみました。

 

①どのくらい速くなるのか
この記事によると、パッケージなしのRだと絶望的に遅いグルーピング(aggregate)や結合(merge)といった処理が、{dplyr}(と{data.table})を使うことで数倍〜数十倍に速くなっています。

 

一方、レコード抽出や列追加(transform)などの処理はそれほど変わらないようです。

 

グルーピングに関しては次のようなベンチマークがありました。

・aggregate関数で8.534秒、{dplyr}で0.360秒。約24倍。

(「dplyr最強伝説」)

・aggregate関数で23.4秒、{dplyr}で0.91秒。約26倍。

(「For Reasons Why You should check out the R package dplyr」)

・aggregete関数で217秒、{dplyr}で0.76秒。約286倍!?

(「dplyr – efficient data manipulation in R」)

 

②使い方
Rを使ったことがある人ならほぼ同じような文法で書けてしまうので、覚えるのはそれほど大変ではありません。
次のように分かりやすい記事のどれかにざっと目を通せばすぐ使えるようになると思います。

「大規模データの高速処理 ーdata.table、dplyrー」

「dplyr入門」

「dplyrを使いこなす!基礎編」

「dplyrを使いこなす!JOIN編」

「dplyrを使いこなす!Window関数編」

 

③パッケージ名の読み方
最後に、ぱっと見どう発音すべきか分からないパッケージ名の正しい読み方は「でぃーぷらいあー」とのこと。
「dplyr と tidyr の読み方(呼び方・発音)はコレが正解」

 

私のように「でぃーぴーえるわいあーる」などと間の抜けた名前で数ヶ月間呼び続けることがないようご注意ください。