クロスバリデーション(CV)について質問です。一般的に、時系列データの予測モデルを作るときにCVを行うことは受け入れられているのでしょうか?CVでは、データ全体をいくつかの塊(K個)に分割して、K個の中から1つをテストデータにして、それ以外をモデル構築データにして精度を図るという行為をK個すべてに対して行うものだと思いますが、そうすると(時系列の場合)テストデータに対してまだ存在していないはずのデータを使ってモデル構築するパターンがでてきてしまうため、そもそもこの手法自体が使えないんじゃないかなと思うのですが、そのあたりってどう考えたらいいのでしょうか??

anger
ご質問ありがとうございます。
基本的には、時系列データでも普通のデータと同じようにクロスバリデーションをします。おっしゃる通り、クロスバリデーションの中では時間の概念はありません。ただ、問題なくハイパーパラメータの設定はできます。
クロスバリデーションはハイパーパラメータの最適化と割り切って用いて、ハイパーパラメータを決めた後に、トレーニングデータより後の時間のテストデータで予測性能を検証する、といった考え方がよいと思います。

View more