はじめに
- 筑波大学オープンコースウェアの機械学習を視聴させていただいたときのメモです。
視聴メモ
(前回の復習)
- 最小二乗法は、データが正規分布に生成されたことを想定したときの尤度最大化に相当する
- 決定的識別モデルは基本、二値分類だが、one-of-themとかで、多クラスに拡張もできる。
- が、クラス数が多いと計算コストがかかる
- ヒンジ損失: 1より離れていれば、ペナルティ0。0-1は、識別超平面に近いので、ペナルティ。0以下はもちろんペナルティ。
- 教師あり学習
- 連続値Rなら回帰
- 条件付き確率[0, 1]なら確率的識別モデル(ロジスティック回帰など)
- 離散値なら決定的識別モデルによる分類(k-NNとかSVNとか)
クラスタリング
- 見通し
- [教師あり][予測対象が連続値]->回帰、推薦
- [教師あり][予測対象が離散値]->分類
- [教師なし][予測対象が連続値]->次元削減(主成分分析)
- [教師なし][予測対象が離散値]->クラスタリング
- データを、教師ラベルなしで似たもの同士で仲間分け(クラスタリング)する方法
- 似ている、とは?
- 距離、あるいは類似度
- ユークリッド距離、コサイン類似度
k-means
- ユークリッド距離のクラスタリング
- 用語
- 目的関数
- プロトタイプμkに割り当てられているデータがどのくらい散らばっているか
- 同じクラスタの点だけ距離を考えてsumをとる -> それを最小にするμkとrnkを算出する
- アルゴリズム
主成分分析
- [教師なし][予測対象が連続値]->次元削減(主成分分析)
- モチベーション
- モデリングの観点からは、特徴数が多い方が分析には有利
- 一方、特徴数が多いと、人間には一覧できず、データの性質の把握が難しくなる(人間には解釈が難しい)
- アルゴリズム
- 多数の特徴量を持つデータについて、特徴間の相関を排除し、出来るだけ少ない情報の損失で少数個の無相関な合成変数に縮約し分析する
- これまでのような選択ではなく、作る
- 分散が最大になる方向に射影すればよい
- 分散の最大化問題へ帰着。方向を求める。
- まず全てのデータから平均値を引いておく。(方向を求めたいから。中央化。白色化)
- -> 射影。新しく作った、とある方向に。
- 多数の特徴量を持つデータについて、特徴間の相関を排除し、出来るだけ少ない情報の損失で少数個の無相関な合成変数に縮約し分析する