こんにちは。高精度・解釈可能モデルを利用させてもらっている統計初心者です。重回帰分析を実行する際、説明変数の一つを晴れなら1、くもりなら2、雨なら3というように設定したら解釈できない回帰式ができたため、説明変数を三個に分け、晴れなら説明変数A=1、B=0、C=0。くもりならA=0、B=1、C=0。といった風に説明変数を分けて二値化していました。高精度・解釈可能モデルでは、二値化することで何か不都合が生じますでしょうか。また、説明変数の一つを晴れなら1、くもりなら2、雨なら3というように設定してもよろしいのでしょうか。ご教授ください。

ご質問いただき感謝致します。
>説明変数を三個に分け、晴れなら説明変数A=1、B=0、C=0。くもりならA=0、B=1、C=0。といった風に説明変数を分けて二値化していました。高精度・解釈可能モデルでは、二値化することで何か不都合が生じますでしょうか。
こちらの方法が正しいです。特に不都合もありません。
> 説明変数の一つを晴れなら1、くもりなら2、雨なら3というように設定してもよろしいのでしょうか。
こちらの方法は望ましくありません。たとえば回帰式でこの変数に重みが割り当てられることになりますが、1, 2, 3という値自体に意味がないため重みも意味のないものになってしまいます。詳しくは
http://univprof.com/archives/16-05-16-3260315.html
をご覧ください。

View more

  • 30
    Posts
  • 46
    Likes

About 大学教授:

データ解析周辺、日頃のできごとからデータ解析につながる種のようなもの、広く研究・教育などについて書いています。

#データ分析 #データ解析 #ビッグデータ #機械学習 #データマイニング #教育 #大学 #子育て