グリッドサーチでパラメーターを振り、複数の標準化された5つの目的変数(仮にA,Bとおきますが、本当は5つあります)を得ました。 最適なパラメーターとして目的変数が最高になるものを選びたいのですが、 A:100点、B:0点、合計100点というパラメーターよりも A:45点、B45点、合計90点というものを選ぶ方法を考えています。 平均が大きく分散が小さいものを選べばいいということになると思うのですが、良い指標がありますか?単に割り算してもいいのでしょうか。よろしくお願いします。

Y.Yamazaki
ご質問いただきありがとうございます。
2つの方向性があると思います。
一つは、(標準化した後に)すべての目的変数を縦につなげて、一つの決定係数(r2)やRoot Mean Squared Error(RMSE)を計算することです。グリッドサーチでパラメータの値を振りながら、複数の(目的変数の数の)モデルについて例えばクロスバリデーションで評価すると思いますが、そのクロスバリデーション後の推定値をすべて縦につなげて、r2やRMSEを計算し、r2が最も高かったりRMSEが最も低かったりするパラメータの値を使います。目的変数がすべての標準化されているため、目的変数ごとに満遍なく良好な結果が得られる可能性があります。
もう一つは、Y.Yamazakiさんがおっしゃるように、分散を考慮する方法です。ただ、”一つの”指標に落とし込むことは難しいです。分散を小さくしたり、割り算した値が1に近くなったりするようなパラメータの値を選ぶことが考えられますが、すべての得点が低くなってしまう可能性があります。たとえば、A:10点、B:10点のような状況です。ばらつきは小さい(分散0)ですが全体の結果はよくありません。なので、合計と分散との2つで攻めるのがよいと思います。パラメータの値ごとに例えばクロスバリデーションを行い、合計の値と分散の値をそれぞれ保存しておきます。最後に、合計と分散とでプロットを描き、その中で合計点が大きく分散の小さなパラメータの値を選びます。
以上です。目的変数が5つもあるとすべてで良好な結果を得ることは難しくなるかと思いますが、良いパラメータの値を選択できることを祈っております。
またご不明点等ございましたら遠慮なくおっしゃってください。

View more

  • 30
    Posts
  • 46
    Likes

About 大学教授:

データ解析周辺、日頃のできごとからデータ解析につながる種のようなもの、広く研究・教育などについて書いています。

#データ分析 #データ解析 #ビッグデータ #機械学習 #データマイニング #教育 #大学 #子育て