データハンドリング 前処理

Pandas/DataFrame/ダミー変数(get_gummies)

投稿日:

ダミー変数とは、カテゴリカルデータのように数値でないデータに対して、0と1の 2値型に変換し数量化すること。

具体的には、血液型、職業など

pythonのpandasではget_dummiesを主に利用する。

データの読み込み

PassengerIdSurvivedPclassSexAgeEmbarked
0103male22.0S
1211female38.0C
2313female26.0S
3411female35.0S
4503male35.0S

メソッド

  • カテゴリカルデータをダミーデータに変換する

デフォルト

pandas.get_dummies(data, prefix=None, prefix_sep=’_’, dummy_na=False, columns=None, sparse=False, drop_first=False, dtype=None)

使い方

全てのカテゴリカルデータをダミー変数化

データフレーム内の全てのカテゴリカルデータ(非数値データ)をダミー変数化する。(カラムを指定しない)

PassengerIdSurvivedPclassAgeSex_femaleSex_maleEmbarked_CEmbarked_QEmbarked_S
010322.001001
121138.010100
231326.010001
341135.010001
450335.001001

指定変数をダミー変数化

PassengerIdSurvivedPclassAgeEmbarkedSex_femaleSex_male
010322.0S01
121138.0C10
231326.0S10
341135.0S10
450335.0S01

カテゴリを一つ削除する

多重共線性などを気にする場合、カラムを一つ削除する。drop_firstをTrueにすることで、最初のデータを削除する。

PassengerIdSurvivedPclassAgeEmbarkedSex_male
010322.0S1
121138.0C0
231326.0S0
341135.0S0
450335.0S1

Sexのfemaleのカラムが削除されている

-データハンドリング, 前処理

執筆者:


  1. […] 参考:https://data-bunseki.com/2019/06/22/pandas-dataframe-%E3%83%80%E3%83%9F%E3%83%BC%E5%A4%89%E6%95%B0get_gummies/ […]

comment

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です

関連記事

no image

教師なし学習〜主成分分析〜

Contents1 教師なし学習1.1 不要な特徴量を消す1.2 Feature Scalingの実行1.3 疑問1.4 【課題】なぜFeature Scalingが必要なのか記述せよ1.5 PCAの …

no image

Pandas/DataFrame/データ抽出

分析をするにあたって、最初に必要になるpandas/DataFrameのデータ抽出について記載しています。 メソッド pandas.DataFrame.locpandas.DataFrame.iloc …

no image

python/pandas/dataframe/重複関連

pandasのDataFrameの取り扱いで、特に重複関連についてのまとめ データは有名なタイタニックデータを使います。 データはこちらkaggleコンペページのリンクです。 左上の「data」からデ …

no image

不均衡データの取り扱い | PortoSeguro コンペ

Contents1 概要説明2 コンペの説明3 インデックス4 不均衡データセット5 メトリックの罠6 Resampling7 Random under-sampling8 Random over-s …

no image

教師なし学習 クラスタリング

  辛さ 重厚 スパイシー 果実味 コク 酸味 落ち着き 香り 華や …