可視化 機械学習 統計解析

python/sklearn/単回帰(LinearRegression)

投稿日:

2次元のデータに対して単回帰分析を行う。

データ取得

必要なモジュールのインポート

データのロード

カラムの説明

CRIMZNINDUSCHASNOXRMAGEDISRADTAXPTRATIOBLSTAT
00.0063218.02.310.00.5386.57565.24.09001.0296.015.3396.904.98
10.027310.07.070.00.4696.42178.94.96712.0242.017.8396.909.14
20.027290.07.070.00.4697.18561.14.96712.0242.017.8392.834.03
30.032370.02.180.00.4586.99845.86.06223.0222.018.7394.632.94
40.069050.02.180.00.4587.14754.26.06223.0222.018.7396.905.33

メソッド

  • LinearRegression:回帰分析用モジュール
  • train_test_split:学習データとテストデータに分割するモジュール

可視化

  • x, y : x軸、y軸のデータ
  • s : サイズ
  • c : 色
  • mark : マーカーの形()
  • cmap : カラーマップ(cがfloatのときのみ有効)
  • alpha : 透明度(0-1)
  • linewidth : 枠線の太さ
  • edgecolors : 枠線の太さ

学習データとテストデータに分割

単回帰分析

scikit learnでは、引数を行列で受けとることを想定しているのでx_train[:,None]とする

結果のプロット

回帰直線を作る。

np.newaxis は,添え字指定の表記の中に用いる。

元の配列の大きさを維持する次元には : を指定し,新たに大きさが 1 の次元を追加するところには np.newaxis を指定する

決定係数の算出

学習データとテストデータに対して決定係数を算出し、回帰分析の結果を評価する。

-可視化, 機械学習, 統計解析

執筆者:


comment

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です

関連記事

no image

kaggle:メルカリ チュートリアル(EDA探索的データ解析)

Contents1 概要説明1.1 データ探索の流れ2 ライブラリインポート3 データ読み込み4 目的変数5 送料6 アイテムカテゴリ¶7 ブランド8 アイテム説明8.1 前処理 tokenizati …

no image

ハイパーパラメータの調整(回帰)

回帰問題用に重回帰、ラッソ回帰、リッジ回帰、SVM、ランダムフォレストの5つの手法及び各手法のハイパーパラメータを最適化するランダムサーチ、グリッドサーチのサンプルスクリプトです。 Contents1 …

no image

教師なし学習〜主成分分析〜

Contents1 教師なし学習1.1 不要な特徴量を消す1.2 Feature Scalingの実行1.3 疑問1.4 【課題】なぜFeature Scalingが必要なのか記述せよ1.5 PCAの …

no image

kaggle:House Price チュートリアル(LASSO回帰とRIDGE回帰)

Contents1 概要説明1.1 作業の流れ2 ライブラリインポート3 データの読み込み4 前処理4.1 対数変換4.2 ダミー変数化4.3 欠損値処理4.4 データの分割5 モデリング5.1 RI …

no image

不均衡データの取り扱い | PortoSeguro コンペ

Contents1 概要説明2 コンペの説明3 インデックス4 不均衡データセット5 メトリックの罠6 Resampling7 Random under-sampling8 Random over-s …