可視化 機械学習 統計解析

python/sklearn/単回帰(LinearRegression)

投稿日:

2次元のデータに対して単回帰分析を行う。

データ取得

必要なモジュールのインポート

データのロード

カラムの説明

CRIMZNINDUSCHASNOXRMAGEDISRADTAXPTRATIOBLSTAT
00.0063218.02.310.00.5386.57565.24.09001.0296.015.3396.904.98
10.027310.07.070.00.4696.42178.94.96712.0242.017.8396.909.14
20.027290.07.070.00.4697.18561.14.96712.0242.017.8392.834.03
30.032370.02.180.00.4586.99845.86.06223.0222.018.7394.632.94
40.069050.02.180.00.4587.14754.26.06223.0222.018.7396.905.33

メソッド

  • LinearRegression:回帰分析用モジュール
  • train_test_split:学習データとテストデータに分割するモジュール

可視化

  • x, y : x軸、y軸のデータ
  • s : サイズ
  • c : 色
  • mark : マーカーの形()
  • cmap : カラーマップ(cがfloatのときのみ有効)
  • alpha : 透明度(0-1)
  • linewidth : 枠線の太さ
  • edgecolors : 枠線の太さ

学習データとテストデータに分割

単回帰分析

scikit learnでは、引数を行列で受けとることを想定しているのでx_train[:,None]とする

結果のプロット

回帰直線を作る。

np.newaxis は,添え字指定の表記の中に用いる。

元の配列の大きさを維持する次元には : を指定し,新たに大きさが 1 の次元を追加するところには np.newaxis を指定する

決定係数の算出

学習データとテストデータに対して決定係数を算出し、回帰分析の結果を評価する。

-可視化, 機械学習, 統計解析

執筆者:


comment

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です

関連記事

no image

ボストン住宅価格 〜決定木〜

Contents1 線形回帰とは1.1 基本的なデータ探索について1.2 学習曲線について1.3 グリッドサーチについて1.4 グリッドサーチの使いこなし 線形回帰とは 線形回帰複数の変数における相関 …

no image

学習データとテストデータの分割

学習データとテストデータの分割法の備忘録として載せておきます。 Contents1 非時系列データ2 時系列データ 非時系列データ 非時系列データの場合は、ランダムに分割すれば良い。sklearnモジ …

no image

kaggle:House Price チュートリアル(EDA探索的データ解析)

Contents1 概要説明1.1 データ探索の流れ2 ライブラリインポート3 データの読み込み4 データ項目からの考察5 SalePriceの分析5.1 ヒストグラムで分布の可視化5.2 数値変数と …

no image

探索的データ分析 | PortoSeguro コンペ

Contents1 概要説明2 コンペの説明3 パッケージの読み込み4 データについて5 メタデータ6 記述統計6.1 間隔変数6.1.1 reg変数6.1.2 car変数6.2 calc変数6.3 …

no image

python/matplotlib/散布図(scatterplot)

2つの数値データの関係を可視化する Contents1 データ取得2 メソッド3 可視化 データ取得 必要なモジュールのインポート

デ …