前処理に関する質問で恐縮ですが… 1、データセットが工学的な実験の結果です。日によって少しずつ結果が変動するので毎回同じ標準の条件(説明変数)で実験して結果(目的変数)を見て、その後異なる条件で実験しています。例えば10日間x10回(異なる条件)+1回(標準の条件)実験した場合、この100回の結果はどのように規格化する方法がありますか?今は最初の標準結果に揃うように割り算しています。分散には正規性がありそうです。 2、データセットに説明変数が同じですが、やや異なる結果のデータがあります。どのように処理するのが良いでしょうか、平均でしょうか。 単純ですが資料が見つかりません…何卒お願いします

ご質問ありがとうございます。
詳細について理解していない中で恐縮ですが回答させていただきます。
1.
基本的には、すべてのサンプルを合わせて変数ごとにオートスケーリング
http://univprof.com/archives/16-07-18-4803187.html
が良いと思います。
ただ、日によって少しずつ結果が変わるとのことですが、条件が全く同じ(説明変数の値が全く同じ)でも、目的変数の値が日によって変わってしまうということでしょうか?
もしその場合は、オートスケーリングに少し工夫をしたほうが良いです。一つは、全体の平均ではなく標準の条件の値で引き、全体の標準偏差ではなく日ごとの標準偏差で割る、ということです。もしくは、すでにやられているように最初の標準結果に揃うように割ってから、全体のオートスケーリングをすることもありえます。

2.
この状況は、説明変数の値が同じにもかかわらず目的変数の値が異なるということでしょうか?
その場合、根本的な解決をするには、(既存の説明変数の値が同じで)目的変数の異なる値を説明できるような新たな説明変数を追加しなければなりません(たとえば室内温度とか湿度とか?)。新たな説明変数を追加できない場合は、同じ説明変数の値ごとに目的変数の値の平均値を代表値とすることになります。

View more

Ask @univprofblog1:

About 大学教授:

データ解析周辺、日頃のできごとからデータ解析につながる種のようなもの、広く研究・教育などについて書いています。

http://univprof.com/

#データ分析 #データ解析 #ビッグデータ #機械学習 #データマイニング #教育 #大学 #子育て