データハンドリング 前処理

python/pandas/DataFrame/データ型指定列抽出

投稿日:

データフレームカラムのdtypeを判定し任意のdtype列に絞り込む

メソッド

パラメータ

  • include:指定するdtypeの文字列のリスト
  • exclude:除外するdtypeの文字列のリスト

注意

  • 全数値タイプの指定:np.numberまたは’number’
  • 日時の指定:np.datetime64、’datetime’または’datetime64′
  • timedeltaの指定:np.timedelta64、’timedelta’、’timedelta64′

データの準備

PassengerIdSurvivedPclassSexAgeEmbarked
0NaN03.0male22.0S
12.011.0female38.0NaN
23.01NaNNaNNaNNaN
34.011.0female35.0S
45.003.0male35.0S

pandas.DataFrame.select_dtype

infoを使ってカラムのdtypeを確認する

PassengerId 4 non-null float64
Survived 5 non-null int64
Pclass 4 non-null float64
Sex 4 non-null object
Age 4 non-null float64
Embarked 3 non-null object
dtypes: float64(3), int64(1), object(2)


dype = objectのカラムを指定して抽出する

SexEmbarked
0maleS
1femaleNaN
2NaNNaN
3femaleS
4maleS

dype = float64のカラムを除外して抽出する

SurvivedSexEmbarked
00maleS
11femaleNaN
21NaNNaN
31femaleS
40maleS

-データハンドリング, 前処理

執筆者:


comment

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です

関連記事

no image

python/相関行列(correlation_matrix)

多変量に対して各変数の関係性を可視化するのに役立ちます。 Contents1 データ取得2 メソッド3 相関行列の算出4 可視化 データ取得 必要なモジュールのインポート [crayon-603f69 …

no image

毒キノコの判定 〜SVM〜

Contents1 SVMとは2 標準化3 カーネルとは4 コストペナルティCとは5 ハイパーパラメータの調整6 学習およびテスト SVMとは クラス間のマージンを最大化するように境界線を引く手法。ク …

no image

特徴量エンジニアリングまとめ

ツリーモデルと非ツリーモデルを中心に特徴量エンジニアリングのパターンを特徴量のデータ型と手法選択の考え方をまとめます。地味だけど脱初心者には重要なスキルです。 Contents1 数値データ1.1 正 …

no image

KFold + XGBoost + EDAチュートリアル | PortoSeguro コンペ

Contents1 概要説明2 コンペの説明3 目次4 コンペの説明5 イントロ6 データ準備6.1 データロード6.2 欠損値の確認6.3 中央値で欠損値補完7 特徴量とターゲットの分割8 データの …

no image

ボストン住宅価格 〜決定木〜

Contents1 線形回帰とは1.1 基本的なデータ探索について1.2 学習曲線について1.3 グリッドサーチについて1.4 グリッドサーチの使いこなし 線形回帰とは 線形回帰複数の変数における相関 …