数百の説明変数に対して、PLS, RF, Stepwise といった複数の変数選択法を適用しましたが、RFのR2だけ常に値が高くなるのはなぜでしょうか。また、RF以外の変数選択法のR2が0.2台と低い場合は、次にどのようなアプローチをして変数を選択していけばよいでしょうか。それとも、この結果を解して、現時点でランキングの高い変数から単純に選択していってもよいのでしょうか。よろしくお願いいたします。

ご質問ありがとうございます。
PLS, RF, Stepwiseにおいて、RFだけR2が高い理由について、RFだけ非線形の回帰分析手法であるため、と考えられます。RFでは、PLS, Stepwiseと比べて、より柔軟にフィッティングすることができます。しかし、R2が高いことと、新しいデータに対する予測性能が高いこととは全く別の話です。R2が高くても、モデルがモデル構築用データにオーバーフィッティングしていると、新しいデータに対する予測性能は低くなってしまいます。
http://univprof.com/archives/16-05-13-3200949.html
このURLの記事ではディープラーニングでのオーバーフィッティングの話をしていますが、RFでも同じ状況が起こりえます。
そのため、まずはクロスバリデーションなどでPLS, RF, Stepwizeの性能を比較してはどうでしょうか?

View more

  • 30
    Posts
  • 46
    Likes

About 大学教授:

データ解析周辺、日頃のできごとからデータ解析につながる種のようなもの、広く研究・教育などについて書いています。

#データ分析 #データ解析 #ビッグデータ #機械学習 #データマイニング #教育 #大学 #子育て