「 前処理 」 一覧

no image

特徴量エンジニアリングまとめ

ツリーモデルと非ツリーモデルを中心に特徴量エンジニアリングのパターンを特徴量のデータ型と手法選択の考え方をまとめます。地味だけど脱初心者には重要なスキルです。 数値データ ツリーモデルでは不要、非ツリ …

no image

kaggle:メルカリ チュートリアル(EDA探索的データ解析)

概要説明 本記事は、機械学習を始めて基本的な操作を覚え、次に精度を上げるために何をすればよいのか?という悩みを持つ方たちのために、機械学習のコンペサイトkaggleの練習問題をベースに事例を紹介してい …

no image

kaggle:House Price チュートリアル(EDA探索的データ解析)

概要説明 本記事は、機械学習を始めて基本的な操作を覚え、次に精度を上げるために何をすればよいのか?という悩みを持つ方たちのために、機械学習のコンペサイトkaggleの練習問題をベースに事例を紹介してい …

no image

kaggle:House Price チュートリアル(LASSO回帰とRIDGE回帰)

概要説明 本記事は、機械学習を始めて基本的な操作を覚え、次に精度を上げるために何をすればよいのか?という悩みを持つ方たちのために、機械学習のコンペサイトkaggleの練習問題をベースに事例を紹介してい …

no image

kaggle:House Price チュートリアル(住宅価格の予測)

概要説明 本記事は、機械学習を始めて基本的な操作を覚え、次に精度を上げるために何をすればよいのか?という悩みを持つ方たちのために、機械学習のコンペサイトkaggleの練習問題をベースに事例を紹介してい …

no image

python lambda/list/list内包表記の使い方まとめ

2019/08/09   -前処理

pythonのlmadaとlist、list内包表記の使い方を一覧にまとめておきます。 lambda 基本形func = lambda x : x**2 +2*a + 1func(10)引数2つfun …

no image

学習データとテストデータの分割

2019/08/04   -前処理, 機械学習

学習データとテストデータの分割法の備忘録として載せておきます。 非時系列データ 非時系列データの場合は、ランダムに分割すれば良い。sklearnモジュールのtrain_test_splitを利用すれば …

no image

データフレームの操作一覧

データフレームでよく使う機能をチートシートとしてまとめました。 インデックス操作 用途概要サンプルリセットインデックスまたはそのレベルのリセットdf.reset_index(drop=True, in …

no image

クラスタリングの実践(好きなアイスクリームアンケート)

概要 ・目的:このデータを使ってアイスクリームの好みの違いをクラスタリングで分類し、好みのパターンを理解する データの読み込み 中学生104人の運動能力テスト6種と体力測定5種の計測のデータ。このデー …

no image

クラスタリングの実践(中学生スポーツテストデータ)

クラスタリングの実践 概要 ・目的:中学生のスポーツテストデータをクラスタリングにより身体能力の組み合わせのパターンを理解する データの読み込み 中学生104人の運動能力テスト6種と体力測定5種の計測 …