データハンドリング 前処理 可視化 機械学習

教師なし学習〜主成分分析〜

投稿日:5月 26, 2019 更新日:

教師なし学習

  • 教師あり学習との比較
    正解ががあらかじめ決まっていないという点で、教師あり学習と異なる。 教師なし学習は、データの背後に存在する本質的な構造を抽出するために用いられる。
  • どんなときに使うのか
    データはあるが正解データがない時に、データから規則性を発見するために利用する。
  • 具体的にどんなものがあるのか
    • クラスター分析
    • 主成分分析
    • ベクトル量子化
    • 自己組織化マップ
    • LDA (前処理として使う教師あり学習)
    • kernel PCA
    • whitening 白色化
    • t-SNE (最近とてもホットな手法です。 2017.8.18現在)
    • ICA 独立成分分析
    • CCA 正準相関分析
 
 
 
 
 
 
  Channel Region Fresh Milk Grocery Frozen Detergents_Paper Delicassen
count 440.000000 440.000000 440.000000 440.000000 440.000000 440.000000 440.000000 440.000000
mean 1.322727 2.543182 12000.297727 5796.265909 7951.277273 3071.931818 2881.493182 1524.870455
std 0.468052 0.774272 12647.328865 7380.377175 9503.162829 4854.673333 4767.854448 2820.105937
min 1.000000 1.000000 3.000000 55.000000 3.000000 25.000000 3.000000 3.000000
25% 1.000000 2.000000 3127.750000 1533.000000 2153.000000 742.250000 256.750000 408.250000
50% 1.000000 3.000000 8504.000000 3627.000000 4755.500000 1526.000000 816.500000 965.500000
75% 2.000000 3.000000 16933.750000 7190.250000 10655.750000 3554.250000 3922.000000 1820.250000
max 2.000000 3.000000 112151.000000 73498.000000 92780.000000 60869.000000 40827.000000 47943.000000
 
  Channel Region Fresh Milk Grocery Frozen Detergents_Paper Delicassen
0 2 3 12669 9656 7561 214 2674 1338
1 2 3 7057 9810 9568 1762 3293 1776
2 2 3 6353 8808 7684 2405 3516 7844
3 1 3 13265 1196 4221 6404 507 1788
4 2 3 22615 5410 7198 3915 1777 5185
 

不要な特徴量を消す

 
 
  Fresh Milk Grocery Frozen Detergents_Paper Delicassen
0 12669 9656 7561 214 2674 1338
1 7057 9810 9568 1762 3293 1776
2 6353 8808 7684 2405 3516 7844
3 13265 1196 4221 6404 507 1788
4 22615 5410 7198 3915 1777 5185
 
 
 

Feature Scalingの実行

疑問

標準化の前に外れ値の除去検討は必要ないのか
logと平均0、分散1の標準化の使い分け

 
 
 
 
 
 
 
 
 
 

logスケールに変更することで、ばらつきが顕著に可視化されている

 

【課題】なぜFeature Scalingが必要なのか記述せよ

scatter matrixを見ると、多くの顧客は同等水準の支出である一方で、10倍以上支出をしている顧客も存在することがわかる。 この状態では、支出の大きな顧客の影響を大きく受けてしまい、正しくPCAが機能しないため。