前処理 機械学習

学習データとテストデータの分割

投稿日:

学習データとテストデータの分割法の備忘録として載せておきます。

非時系列データ

非時系列データの場合は、ランダムに分割すれば良い。sklearnモジュールのtrain_test_splitを利用すれば簡単に分割できます。

目的変数が「y」の場合

時系列データ

時系列データの場合、連続的である必要があるため時系列を無視してサンプリングしてしまうと解析できなくなってしまう。そこで、データの前半と後半でデータを分割する。

学習データとテストデータの分割イメージを貼り付けておきます。

-前処理, 機械学習

執筆者:


comment

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です

関連記事

no image

python/pandas/dataframe/重複関連

pandasのDataFrameの取り扱いで、特に重複関連についてのまとめ データは有名なタイタニックデータを使います。 データはこちらkaggleコンペページのリンクです。 左上の「data」からデ …

no image

毒キノコの判定 〜SVM〜

Contents1 SVMとは2 標準化3 カーネルとは4 コストペナルティCとは5 ハイパーパラメータの調整6 学習およびテスト SVMとは クラス間のマージンを最大化するように境界線を引く手法。ク …

no image

kaggle:メルカリ チュートリアル(EDA探索的データ解析)

Contents1 概要説明1.1 データ探索の流れ2 ライブラリインポート3 データ読み込み4 目的変数5 送料6 アイテムカテゴリ¶7 ブランド8 アイテム説明8.1 前処理 tokenizati …

no image

クラスタリングの実践(好きなアイスクリームアンケート)

Contents1 概要2 データの読み込み3 データの確認4 主成分分析5 クラスタリング 概要 ・目的:このデータを使ってアイスクリームの好みの違いをクラスタリングで分類し、好みのパターンを理解す …

no image

機械学習スタッキング例

汎化性能を上げるためkaggleでよく利用されている、スタッキングの実行例をメモしておきます。 スタッキングとは、単一の学習器をそのまま使うのではなく、複数の学習きを組み合わせることで、過学習を防ぎ予 …