不均衡データの分類についてブログを拝見しました。 不躾な質問で恐縮ですが、正例の少ない不均衡データをRandomforestで2値分類を行う際に、ウェイトを使うのであれば、単純にProbで出力される「正例である確率」の閾値を下げる、というアイディアでも良いのではないかと思うのですが、何かよい情報ご存知ではないでしょうか? 諸々の精度指標を元にカットオフを決められるので、問題なければ便利かなぁと思うのですが

即答は出来ないんですが、そこを弄ることによってどのような数理的な変化があるか次第では。そもそもクラス分類事後確率の閾値を0.5から変えたら何がどう変わるのか?という。

View more