no image

機械学習スタッキング例

2019/09/06   -機械学習

汎化性能を上げるためkaggleでよく利用されている、スタッキングの実行例をメモしておきます。 スタッキングとは、単一の学習器をそのまま使うのではなく、複数の学習きを組み合わせることで、過学習を防ぎ予 …

no image

特徴量エンジニアリングまとめ

ツリーモデルと非ツリーモデルを中心に特徴量エンジニアリングのパターンを特徴量のデータ型と手法選択の考え方をまとめます。地味だけど脱初心者には重要なスキルです。 数値データ ツリーモデルでは不要、非ツリ …

no image

kaggle:メルカリ チュートリアル(EDA探索的データ解析)

概要説明 本記事は、機械学習を始めて基本的な操作を覚え、次に精度を上げるために何をすればよいのか?という悩みを持つ方たちのために、機械学習のコンペサイトkaggleの練習問題をベースに事例を紹介してい …

no image

kaggle:House Price チュートリアル(EDA探索的データ解析)

概要説明 本記事は、機械学習を始めて基本的な操作を覚え、次に精度を上げるために何をすればよいのか?という悩みを持つ方たちのために、機械学習のコンペサイトkaggleの練習問題をベースに事例を紹介してい …

no image

kaggle:House Price チュートリアル(LASSO回帰とRIDGE回帰)

概要説明 本記事は、機械学習を始めて基本的な操作を覚え、次に精度を上げるために何をすればよいのか?という悩みを持つ方たちのために、機械学習のコンペサイトkaggleの練習問題をベースに事例を紹介してい …

no image

kaggle:House Price チュートリアル(住宅価格の予測)

概要説明 本記事は、機械学習を始めて基本的な操作を覚え、次に精度を上げるために何をすればよいのか?という悩みを持つ方たちのために、機械学習のコンペサイトkaggleの練習問題をベースに事例を紹介してい …

no image

python lambda/list/list内包表記の使い方まとめ

2019/08/09   -前処理

pythonのlmadaとlist、list内包表記の使い方を一覧にまとめておきます。 lambda 基本形func = lambda x : x**2 +2*a + 1func(10)引数2つfun …

no image

学習データとテストデータの分割

2019/08/04   -前処理, 機械学習

学習データとテストデータの分割法の備忘録として載せておきます。 非時系列データ 非時系列データの場合は、ランダムに分割すれば良い。sklearnモジュールのtrain_test_splitを利用すれば …

no image

ハイパーパラメータの調整(分類器)

2019/08/03   -機械学習

分類問題用にk-NN、SVM、ランダムフォレストの3つの手法及び各手法のハイパーパラメータを最適化するランダムサーチ、グリッドサーチのサンプルスクリプトです。 データセット作成 [crayon-5da …

no image

Numpyモジュールを使った乱数生成

Pythonで乱数を扱うnumpyモジュールでよく利用する乱数生成方法を整理しました。 乱数の生成 用途サンプル概要seedの設定np.random.seed(0)乱数を固定標準正規分布np.rand …