データハンドリング 前処理

python/pandas/dataframe/重複関連

投稿日:6月 18, 2019 更新日:

pandasのDataFrameの取り扱いで、特に重複関連についてのまとめ

データは有名なタイタニックデータを使います。 データはこちらkaggleコンペページのリンクです。 左上の「data」からデータをダウンロードします。

データの読み込み

PassengerIdSurvivedPclassSexAgeEmbarked
0103male22.0S
1211female38.0C
2313female26.0S
3411female35.0S
4503male35.0S

重複データを作成

PassengerIdSurvivedPclassSexAgeEmbarked
0103male22.0S
1211female38.0C
0103male22.0S
1211female38.0C

メソッド

重複確認

重複削除

重複をなくし、 最後の行を残す。

PassengerIdSurvivedPclassSexAgeEmbarked
0103male22.0S
1211female38.0C

重複行数のカウント

カラムごとの重複カウント

-データハンドリング, 前処理

執筆者:


comment

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です

関連記事

no image

kaggle:House Price チュートリアル(LASSO回帰とRIDGE回帰)

Contents1 概要説明1.1 作業の流れ2 ライブラリインポート3 データの読み込み4 前処理4.1 対数変換4.2 ダミー変数化4.3 欠損値処理4.4 データの分割5 モデリング5.1 RI …

no image

Pandas/DataFrame/ビニング

ビニングとは数値データを任意の幅で区切ったカテゴリ変数に変換すること。 具体的には、年齢データを年代データ( 10代、20代…)に変換するイメージ。 Contents1 データの読み込み2 …

no image

python lambda/list/list内包表記の使い方まとめ

pythonのlmadaとlist、list内包表記の使い方を一覧にまとめておきます。 Contents1 lambda2 listとlambdaの組み合わせ3 list内包表記 lambda 基本形 …

no image

kaggle:メルカリ チュートリアル(EDA探索的データ解析)

Contents1 概要説明1.1 データ探索の流れ2 ライブラリインポート3 データ読み込み4 目的変数5 送料6 アイテムカテゴリ¶7 ブランド8 アイテム説明8.1 前処理 tokenizati …

no image

python/pandas/DataFrame/欠損値確認

データフレーム内の値がNoneまたはNAかどうかを確認する。 ※isnullとisnaの機能は同じ。isnullはisnaの別名なのでisnaが推奨 Contents1 メソッド2 データの準備3 p …