データハンドリング 前処理

Pandas/DataFrame/ビニング

投稿日:

ビニングとは数値データを任意の幅で区切ったカテゴリ変数に変換すること。

具体的には、年齢データを年代データ( 10代、20代…)に変換するイメージ。

データの読み込み

PassengerIdSurvivedPclassSexAgeEmbarked
0103male22.0S
1211female38.0C
2313female26.0S
3411female35.0S
4503male35.0S

メソッド

  • 値をもとにビン分割: cut()
  • 量をもとにビン分割: qcut()

幅を指定して分割

10歳間隔に変更。(20, 30]は20 < Age <= 30を表す。right=Falseとすると逆に[20, 30)と変更することも可能

labelを付ける

分割数を指定して分割

Ageを2分割する。この場合、Ageの最大値と最小値の間で均等に分割される

ビンに含まれる要素数をカウントする

ビンに含まれる要素数を均等に分割

年齢を4つに均等に分割する。重複があるため完全に均等にならない場合もある。

-データハンドリング, 前処理

執筆者:


comment

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です

関連記事

no image

探索的データ分析 | PortoSeguro コンペ

Contents1 概要説明2 コンペの説明3 パッケージの読み込み4 データについて5 メタデータ6 記述統計6.1 間隔変数6.1.1 reg変数6.1.2 car変数6.2 calc変数6.3 …

no image

クラスタリングの実践(中学生スポーツテストデータ)

Contents1 クラスタリングの実践1.1 概要1.2 データの読み込み1.3 データの確認1.4 主成分分析1.5 クラスタリング クラスタリングの実践 概要 ・目的:中学生のスポーツテストデー …

no image

毒キノコの判定 〜SVM〜

Contents1 SVMとは2 標準化3 カーネルとは4 コストペナルティCとは5 ハイパーパラメータの調整6 学習およびテスト SVMとは クラス間のマージンを最大化するように境界線を引く手法。ク …

no image

pythonのpandasを使ったデータ処理2

pythonのpandasを使ったデータ処理1からの続き。 データは有名なタイタニックデータを使います。 データはこちらkaggleコンペページのリンクです。 左上の「data」からデータをダウンロー …

no image

kaggle:House Price チュートリアル(EDA探索的データ解析)

Contents1 概要説明1.1 データ探索の流れ2 ライブラリインポート3 データの読み込み4 データ項目からの考察5 SalePriceの分析5.1 ヒストグラムで分布の可視化5.2 数値変数と …