データハンドリング 前処理 可視化 機械学習

教師なし学習 クラスタリング

投稿日:5月 26, 2019 更新日:

  辛さ 重厚 スパイシー 果実味 コク 酸味 落ち着き 香り 華やか ジューシー 熟成 透明感 シャープ 力強い フレッシュ 渋み 苦味 エキゾチック 粘性
count 100.000000 100.000000 100.000000 100.000000 100.000000 100.000000 100.000000 100.000000 100.000000 100.000000 100.000000 100.000000 100.000000 100.000000 100.000000 100.000000 100.000000 100.000000 100.000000 100.000000
mean 0.543841 -0.011124 0.540212 0.852497 -0.574157 1.000479 -1.362024 -1.010469 1.605142 0.916961 0.523540 -0.100719 -0.116344 -0.271427 -1.640929 -2.161169 -0.234550 0.426216 2.103621 -0.823097
std 5.593704 5.021579 5.639676 7.185475 6.411257 4.959201 5.817630 6.290665 5.377922 6.007130 5.616616 5.982827 6.532491 7.027005 6.888048 5.807407 5.749898 5.839218 5.858236 6.830147
min -8.686186 -11.014254 -13.063670 -14.887777 -12.715902 -9.252527 -12.893751 -12.215837 -8.547990 -12.568675 -12.565752 -12.874371 -11.604475 -12.914838 -13.020416 -11.742381 -10.979732 -10.780215 -11.935925 -13.294555
25% -4.144940 -4.161809 -1.940475 -6.504940 -6.199207 -2.837972 -6.156073 -6.055951 -2.176886 -3.142244 -3.544418 -4.848950 -6.425292 -5.452595 -7.773425 -7.016971 -4.479033 -4.272937 -2.294885 -7.107632
50% -0.842533 0.273704 0.802255 2.806971 -1.140522 1.905987 -0.691345 -1.003881 2.587896 -0.381474 -0.524481 -0.774824 -0.021912 0.117478 -1.851731 -2.394550 0.200719 1.460861 3.188114 -0.918579
75% 4.671538 4.282958 4.023140 7.269132 5.470677 4.484186 2.497944 3.670860 6.081132 6.409004 3.762367 5.362814 5.215765 4.962987 5.003856 2.230358 4.393867 4.472158 6.930322 4.694783
max 12.599023 9.682862 11.656496 12.186415 11.283413 12.401938 13.428952 11.863202 11.753299 12.581836 12.352950 10.523927 12.381189 12.640918 10.855463 10.313500 10.779629 12.455823 11.473295 11.717833

 

 
 

主成分分析により、第2主成分までで38%、第3主成分までで50%の情報を持っていることがわかる。

 
 

エルボー法を用いて、k-meansよるクラスタリングの個数を評価すると、15で付近で収束しているため、14個に分類することが適切といえる

 
 

【参考】 k-meansの結果を第一主成分、第二主成分でプロットし、クラスター別に色分けした。 プロットした結果からクラスタリングに大きな間違いは確認できない。

 
 

各クラスタに属するワインの個数

 

k-meansの結果の確からしさを評価するため、デンドログラムでもクラスタリングし結果を比較する

  辛さ 重厚 スパイシー 果実味 コク 酸味 落ち着き 香り 華やか ジューシー 透明感 シャープ 力強い フレッシュ 渋み 苦味 エキゾチック 粘性 group
0 -6.867455 -5.634108 -0.881840 -6.482588 -7.159777 -6.394668 2.528458 -9.883541 7.197917 -7.291906 1.407066 12.381189 2.889084 3.602466 -6.967406 -2.833069 -5.861254 -5.390123 -13.294555 12
1 8.591997 -2.939312 -2.795689 8.441495 8.202073 5.035962 -9.551829 11.863202 1.391670 6.811569 7.814202 -7.849138 0.114050 -2.882001 7.194346 7.214782 2.017785 -0.986718 -7.536471 0
2 0.246883 4.617195 3.212311 1.596973 -3.055192 0.042299 1.480808 6.456562 7.968668 -3.373548 -0.378050 0.401580 9.752649 -7.182365 -8.249872 -7.731935 7.332327 5.531771 7.722099 2
3 5.007082 2.136003 11.041768 2.046806 -2.076545 4.375675 -9.963064 -4.988563 5.988508 -2.123277 -2.612181 -11.314279 -2.854946 -0.393441 -2.108009 4.656146 4.359952 0.764049 -3.800434 13
4 -4.010045 4.244966 6.905713 -5.643761 6.686582 0.799046 -0.418340 2.750262 0.286303 -1.123998 -6.296712 -8.434826 8.658997 4.817495 -0.434714 -4.773589 -6.092134 -10.631048 -0.215011 4

 

 

デンドログラムを作成してみると、縦軸の20から30付近で分割すれば、きれいに15クラスに分類できることがわかる。

  辛さ 重厚 スパイシー 果実味 コク 酸味 落ち着き 香り 華やか ジューシー 透明感 シャープ 力強い フレッシュ 渋み 苦味 エキゾチック 粘性 group
0 -6.867455 -5.634108 -0.881840 -6.482588 -7.159777 -6.394668 2.528458 -9.883541 7.197917 -7.291906 1.407066 12.381189 2.889084 3.602466 -6.967406 -2.833069 -5.861254 -5.390123 -13.294555 3
1 8.591997 -2.939312 -2.795689 8.441495 8.202073 5.035962 -9.551829 11.863202 1.391670 6.811569 7.814202 -7.849138 0.114050 -2.882001 7.194346 7.214782 2.017785 -0.986718 -7.536471 15
2 0.246883 4.617195 3.212311 1.596973 -3.055192 0.042299 1.480808 6.456562 7.968668 -3.373548 -0.378050 0.401580 9.752649 -7.182365 -8.249872 -7.731935 7.332327 5.531771 7.722099 8
3 5.007082 2.136003 11.041768 2.046806 -2.076545 4.375675 -9.963064 -4.988563 5.988508 -2.123277 -2.612181 -11.314279 -2.854946 -0.393441 -2.108009 4.656146 4.359952 0.764049 -3.800434 4
4 -4.010045 4.244966 6.905713 -5.643761 6.686582 0.799046 -0.418340 2.750262 0.286303 -1.123998 -6.296712 -8.434826 8.658997 4.817495 -0.434714 -4.773589 -6.092134 -10.631048 -0.215011 1

 

 

コンフュージョンマトリクスでk-meansとデンドログラムのクラスタリングの結果を比較すると、完全に一致していることがわかる。 エルボー法の結果と、k-meansとデンドログラムで同一の結果を示していることから、ワインの特徴をもとに分類すると15種類が適切と考えられる。よって店舗に常備するワインは15種類がよい。

 

各クラスタの特徴の評価

 
 

1 ‘辛さ’ 2 ‘重厚’ 3 ‘スパイシー’ 4 ‘果実味’ 5 ‘コク’ 6 ‘酸味’ 7 ‘落ち着き’ 8 ‘香り’ 9 ‘華やか’ 10 ‘ジューシー’ 11 ‘熟成’ 12 ‘透明感’ 13 ‘シャープ’ 14 ‘力強い’ 15 ‘フレッシュ’ 16 ‘渋み’ 17 ‘苦味’ 18 ‘樽’ 19 ‘エキゾチック’ 20 ‘粘性’

  importance feature
0 0.050101 辛さ
1 0.011277 重厚
2 0.057574 スパイシー
3 0.050632 果実味
4 0.052057 コク
 
 

1 ‘辛さ’ 2 ‘重厚’ 3 ‘スパイシー’ 4 ‘果実味’ 5 ‘コク’ 6 ‘酸味’ 7 ‘落ち着き’ 8 ‘香り’ 9 ‘華やか’ 10 ‘ジューシー’ 11 ‘熟成’ 12 ‘透明感’ 13 ‘シャープ’ 14 ‘力強い’ 15 ‘フレッシュ’ 16 ‘渋み’ 17 ‘苦味’ 18 ‘樽’ 19 ‘エキゾチック’ 20 ‘粘性’

 

クラスタの分類に大きく寄与しているのは、「落着き」「香り」「ジューシー」「力強い」「粘性」であることがわかる。

 

主成分分析より、ポジショニングマップを作成。 第1主成分は正方向(辛さ、果実味、落着き、シャープ)、負方向(酸味、力強い、フレッシュ) 第2主成分は正方向(フレッシュ、樽)、負方向(スパイシー、苦み)
※ランダムにクラスを作っているので、軸の名称を付けるのは難しい

 
 

1 ‘辛さ’ 2 ‘重厚’ 3 ‘スパイシー’ 4 ‘果実味’ 5 ‘コク’ 6 ‘酸味’ 7 ‘落ち着き’ 8 ‘香り’ 9 ‘華やか’ 10 ‘ジューシー’ 11 ‘熟成’ 12 ‘透明感’ 13 ‘シャープ’ 14 ‘力強い’ 15 ‘フレッシュ’ 16 ‘渋み’ 17 ‘苦味’ 18 ‘樽’ 19 ‘エキゾチック’ 20 ‘粘性’

-データハンドリング, 前処理, 可視化, 機械学習

執筆者:


comment

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です

関連記事

no image

python/基礎/メソッド,関数,インスタンス

pythonでは値に対する処理方法として、メソッド、関数、インスタンスの3つがある。 メソッドと関数はと関数は機能としては同じだが、記述法が異なる。 関数:関数(処理対象)例)max([1,2,3]) …

no image

毒キノコの判定 〜SVM〜

Contents1 SVMとは2 標準化3 カーネルとは4 コストペナルティCとは5 ハイパーパラメータの調整6 学習およびテスト SVMとは クラス間のマージンを最大化するように境界線を引く手法。ク …

no image

ハイパーパラメータの調整(回帰)

回帰問題用に重回帰、ラッソ回帰、リッジ回帰、SVM、ランダムフォレストの5つの手法及び各手法のハイパーパラメータを最適化するランダムサーチ、グリッドサーチのサンプルスクリプトです。 Contents1 …

no image

python/matplotlib/subplot(グラフの複数表示)

サブプロットを使うことで複数のグラフを並べて表示する事ができる。 Contents1 データ取得2 メソッド3 手順 データ取得 必要なモジュールのインポート [crayon-5f08aec156f5 …

no image

データフレームの操作一覧

データフレームでよく使う機能をチートシートとしてまとめました。 Contents1 インデックス操作2 型変換3 欠損値4 ソート5 一括処理6 可視化7 結合8 集約9 重複10 条件抽出11 出力 …