特徴選択(1)

特徴選択(1)

特徴選択は、予測力の高いモデルを構築するのに重要な役割を果たし、
よい特徴はよいアルゴリズムよりも優れていると言われています。

特徴選択について理解を深めるには、
「An Introduction to Variable and Feature Selection」という論文がバイブルになっています。
2015年11月現在、論文の引用数が7000を超えており、
とても有名な論文です。

http://www.jmlr.org/papers/volume3/guyon03a/guyon03a.pdf

特徴選択にはフィルタ(filter)、ラッパー(warapper)、組み込み(embedded)の3つのタイプの手法があります。

フィルタは、前処理の段階で変数を選択する方法であり、目的変数との関連性を測る相関係数やカイ二乗値などの指標を個々の説明変数について計算し、
指標の値から説明変数のランキングを付け、そのランキングに基づいて特徴を決める方法です。(ランキングの上位の変数セットを選ぶなど)
ファイルではそれぞれの説明変数を独立に扱うので、変数間の関係性や交互作用などは考慮されません。

それに対してラッパーは、候補となる説明変数のセットに対してスコアを付けます。
全ての可能は変数セットを総当たりで評価するのは計算量的に無理なので、
逐次回帰などの探索方法により効率的に最適な説明変数のセットを見つけます。
逐次回帰は増加法、減少法、その両方を使う3つの手法があります。
説明変数の候補が増えると、変数セットの組み合わせの数は指数関数的に増加するので、
オーバーフィッティングが起きやすくなります。

最後に組み込みは、モデルの構築のプロセスにおいて変数を選択する手法です。
組み込みの具体的な手法として決定木があります。

最近はランダムフォレストを使った組み込みの特徴選択手法が色々出ているようです。
次回はその手法についていくつか紹介を行います。