年末はデータサイエンスの基礎から見直そう

年末はデータサイエンスの基礎から見直そう

データサイエンスフォーラムでは、これまで様々な技術/ツール/業界動向記事を投稿してきましたが、

ここで今一度、データサイエンス(データマイニング)の基礎的な部分について振り返ってみたいと思います。

 

今回、ご紹介させていただくのは、データマイニングマップのサイトです。

http://www.saedsayad.com/data_mining_map.htm

 

英語のサイトですが、データマイニングの全体像が非常に分かりやすく整理されているので

読み込んで、改めてデータマイニングに関する知識の抜け・漏れがないか再確認できます。

 

まず、データマイニングは大きく

(A)過去の状況を把握する

(B)将来を予測する

という二つの機能に分岐しています。

 

(A)について着目すると、その先にはデータ調査(Data Exploration)となり、(A1)単変量解析、(A2)二変量解析と分岐します。

つまり、過去データについて1変量毎に数値情報/カテゴリ情報別に各種基礎統計量の確認を行うか、

2変量の組み合わせで相関関係やクロス集計、層別基礎統計量の確認を行う・・という内容になっています。

 

マップ全体の半分(Aの部分)が、こういった所謂、データの基礎俯瞰処理について語られていることは、こういった作業/処理が

いかに重要か(データマイニングと呼ばれるプロセスの大きな部分を占めるか)再確認できると思います。

 

次に(B)について着目すると、

(B1)分類(Classificatio)

(B2)回帰(regressoin)

(B3)クラスタリング(clustering)

(B4)相関ルール(association rules)

という4つの機能(モデリング)に分岐しています。

 

それぞれのモデリングについては有名な手法が紹介されており、もはや詳細は説明は不要でしょう。

1点、あまり他のサイトや書籍では見られない初回として、

(B1)分類の中で、Frequency Table→    ZeroR/ OneR といった手法が紹介されています。

 

よく読むと、非常にシンプルな考え方で、

・ZeroRはすべての予測因子を無視する最も簡単な分類法であり、要はカテゴリ型である目的変数の頻度から単純過半数のカテゴリ(クラス)をピックアップするものです。

・OneRは1つの目的変数(カテゴリ)に対して、1つの説明変数(カテゴリ)のクロス集計から、最も目的変数をよく分類できている説明変数を探索するものです。

これらは、その後の高度なモデリングのためのベンチマーキングの考え方や基本的なロジックとなっているものです。

 

また、こういったマップを元に実際のデータ解析プロジェクトの作業洗い出しやタスク整理を行っていくことも有効な方法ではないでしょうか。