はじめに

視聴メモ

最小二乗法は、データが正規分布に生成されたことを想定したときの尤度最大化に相当する
決定的識別モデルは基本、二値分類だが、one-of-themとかで、多クラスに拡張もできる。
- が、クラス数が多いと計算コストがかかる
ヒンジ損失: 1より離れていれば、ペナルティ0。0-1は、識別超平面に近いので、ペナルティ。0以下はもちろんペナルティ。
教師あり学習
- 連続値Rなら回帰
- 条件付き確率[0, 1]なら確率的識別モデル（ロジスティック回帰など）
- 離散値なら決定的識別モデルによる分類（k-NNとかSVNとか）

見通し
- [教師あり][予測対象が連続値]->回帰、推薦
- [教師あり][予測対象が離散値]->分類
- [教師なし][予測対象が連続値]->次元削減（主成分分析）
- [教師なし][予測対象が離散値]->クラスタリング
データを、教師ラベルなしで似たもの同士で仲間分け（クラスタリング）する方法
- 同一クラスタ内のデータはより似ている
- 異なるクラスタ間のデータはより似ていない
似ている、とは？
- 距離、あるいは類似度
- ユークリッド距離、コサイン類似度

ユークリッド距離のクラスタリング
用語
- プロトタイプ
  - クラスタの代表点
  - 実在するデータとは限らない。平均だったり。
  - k個のクラスタに分けたければ、プロトタイプもk個。
- 割当変数
  - rnk ※nkは添字
  - N * k の行列。Nの行のどこかに、1が立つ。（他は0。）
  - これは離散変数。勾配を利用した最適化は使えない（凸関数でもないし） -> アルゴリズムで最適化。
目的関数
- プロトタイプμkに割り当てられているデータがどのくらい散らばっているか
- 同じクラスタの点だけ距離を考えてsumをとる -> それを最小にするμkとrnkを算出する
アルゴリズム
- まとめ
  - 複数のベクトルデータをk個に仲間分け
  - クラスタ中心とクラスタ割当を交互に更新
- 詳細
  - 1 プロトタイプ（クラスタ中心）μをランダムに配置（μ1~μk）
  - 2 クラスタ割当rnkを以下の式で決定
    - 距離が近いμに所属するように、rnkに1を立てる
  - 3 プロトタイプμを以下の式で決定
    - 所属しているデータの平均
  - 4 未収束なら2へ

[教師なし][予測対象が連続値]->次元削減（主成分分析）
モチベーション
- モデリングの観点からは、特徴数が多い方が分析には有利
- 一方、特徴数が多いと、人間には一覧できず、データの性質の把握が難しくなる（人間には解釈が難しい）
アルゴリズム
- 多数の特徴量を持つデータについて、特徴間の相関を排除し、出来るだけ少ない情報の損失で少数個の無相関な合成変数に縮約し分析する
  - これまでのような選択ではなく、作る
- 分散が最大になる方向に射影すればよい
  - 分散の最大化問題へ帰着。方向を求める。
- まず全てのデータから平均値を引いておく。（方向を求めたいから。中央化。白色化）
- -> 射影。新しく作った、とある方向に。