前処理 機械学習

学習データとテストデータの分割

投稿日:

学習データとテストデータの分割法の備忘録として載せておきます。

非時系列データ

非時系列データの場合は、ランダムに分割すれば良い。sklearnモジュールのtrain_test_splitを利用すれば簡単に分割できます。

目的変数が「y」の場合

時系列データ

時系列データの場合、連続的である必要があるため時系列を無視してサンプリングしてしまうと解析できなくなってしまう。そこで、データの前半と後半でデータを分割する。

学習データとテストデータの分割イメージを貼り付けておきます。

-前処理, 機械学習

執筆者:


comment

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です

関連記事

no image

データフレームの操作一覧

データフレームでよく使う機能をチートシートとしてまとめました。 Contents1 インデックス操作2 型変換3 欠損値4 ソート5 一括処理6 可視化7 結合8 集約9 重複10 条件抽出11 出力 …

no image

Pandas/DataFrame/ダミー変数(get_gummies)

ダミー変数とは、カテゴリカルデータのように数値でないデータに対して、0と1の 2値型に変換し数量化すること。 具体的には、血液型、職業など pythonのpandasではget_dummiesを主に利 …

no image

python lambda/list/list内包表記の使い方まとめ

pythonのlmadaとlist、list内包表記の使い方を一覧にまとめておきます。 Contents1 lambda2 listとlambdaの組み合わせ3 list内包表記 lambda 基本形 …

no image

python/pandas/DataFrame/欠損値確認

データフレーム内の値がNoneまたはNAかどうかを確認する。 ※isnullとisnaの機能は同じ。isnullはisnaの別名なのでisnaが推奨 Contents1 メソッド2 データの準備3 p …

no image

機械学習スタッキング例

汎化性能を上げるためkaggleでよく利用されている、スタッキングの実行例をメモしておきます。 スタッキングとは、単一の学習器をそのまま使うのではなく、複数の学習きを組み合わせることで、過学習を防ぎ予 …