「 データハンドリング 」 一覧
-
-
python/pandas/DataFrame/データ型指定列抽出
データフレームカラムのdtypeを判定し任意のdtype列に絞り込む メソッド pandas.DataFrame.select_dtypesデータフレームの列のdtypeを指定して列を絞り込む パラメ …
-
-
データフレーム内の値がNoneまたはNAかどうかを確認する。 ※isnullとisnaの機能は同じ。isnullはisnaの別名なのでisnaが推奨 メソッド pandas.DataFrame.isn …
-
-
Pandas/DataFrame/ダミー変数(get_gummies)
ダミー変数とは、カテゴリカルデータのように数値でないデータに対して、0と1の 2値型に変換し数量化すること。 具体的には、血液型、職業など pythonのpandasではget_dummiesを主に利 …
-
-
python/相関行列(correlation_matrix)
多変量に対して各変数の関係性を可視化するのに役立ちます。 データ取得 必要なモジュールのインポート
12345678910import matplotlib.pyplot as pltfrom sklearn.datasets import load_bostonimport pandas as pdfrom sklearn.model_selection import train_test_splitfrom sklearn.linear_model import LinearRegression%matplotlib inlineデータのロード [crayon-6 …
-
-
pandasのDataFrameの取り扱いで、特に重複関連についてのまとめ データは有名なタイタニックデータを使います。 データはこちらkaggleコンペページのリンクです。 左上の「data」からデ …
-
-
pythonのpandasを使ったデータ処理1からの続き。 データは有名なタイタニックデータを使います。 データはこちらkaggleコンペページのリンクです。 左上の「data」からデータをダウンロー …
-
-
SVMとは クラス間のマージンを最大化するように境界線を引く手法。クラス分類や場合によっては回帰にも使うことができる。 利点:高次元でも識別性能が良い 利点:最適化すべきパラメータが少ない 欠点:特徴 …
-
-
2019/05/26 -コンペチュートリアル, データハンドリング, 前処理, 可視化, 機械学習
線形回帰とは 線形回帰複数の変数における相関関係を直線モデルによって説明する分析手法。 具体的に言うと?ボストンの住宅価格を、住宅の立地や間取り、築年数などから予測するモデルを作ること 分類と何か違う …