データハンドリング 前処理

python/pandas/DataFrame/データ型指定列抽出

投稿日:

データフレームカラムのdtypeを判定し任意のdtype列に絞り込む

メソッド

パラメータ

  • include:指定するdtypeの文字列のリスト
  • exclude:除外するdtypeの文字列のリスト

注意

  • 全数値タイプの指定:np.numberまたは’number’
  • 日時の指定:np.datetime64、’datetime’または’datetime64′
  • timedeltaの指定:np.timedelta64、’timedelta’、’timedelta64′

データの準備

PassengerIdSurvivedPclassSexAgeEmbarked
0NaN03.0male22.0S
12.011.0female38.0NaN
23.01NaNNaNNaNNaN
34.011.0female35.0S
45.003.0male35.0S

pandas.DataFrame.select_dtype

infoを使ってカラムのdtypeを確認する

PassengerId 4 non-null float64
Survived 5 non-null int64
Pclass 4 non-null float64
Sex 4 non-null object
Age 4 non-null float64
Embarked 3 non-null object
dtypes: float64(3), int64(1), object(2)


dype = objectのカラムを指定して抽出する

SexEmbarked
0maleS
1femaleNaN
2NaNNaN
3femaleS
4maleS

dype = float64のカラムを除外して抽出する

SurvivedSexEmbarked
00maleS
11femaleNaN
21NaNNaN
31femaleS
40maleS

-データハンドリング, 前処理

執筆者:


comment

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です

関連記事

no image

不均衡データの取り扱い | PortoSeguro コンペ

Contents1 概要説明2 コンペの説明3 インデックス4 不均衡データセット5 メトリックの罠6 Resampling7 Random under-sampling8 Random over-s …

no image

python/相関行列(correlation_matrix)

多変量に対して各変数の関係性を可視化するのに役立ちます。 Contents1 データ取得2 メソッド3 相関行列の算出4 可視化 データ取得 必要なモジュールのインポート [crayon-616d16 …

no image

kaggle:House Price チュートリアル(EDA探索的データ解析)

Contents1 概要説明1.1 データ探索の流れ2 ライブラリインポート3 データの読み込み4 データ項目からの考察5 SalePriceの分析5.1 ヒストグラムで分布の可視化5.2 数値変数と …

no image

学習データとテストデータの分割

学習データとテストデータの分割法の備忘録として載せておきます。 Contents1 非時系列データ2 時系列データ 非時系列データ 非時系列データの場合は、ランダムに分割すれば良い。sklearnモジ …

no image

タイタニック生存者予測~ランダムフォレスト~

有名なタイタニックのデータを使って、RandamForestを使って生存者を予測します。 Contents0.1 前処理について0.2 モデル選定について 0.2.1 ロジスティック回帰0.2.2 S …