はじめに
- 筑波大学オープンコースウェアの機械学習を視聴させていただいたときのメモです。
視聴メモ
(前回の復習)汎化誤差
- p(x): wineデータのアルコール濃度だと、12%に偏った正規分布だったり(xごとの、取りうる確率)
- p(t|x): xが決まったときのt(quality)の分布
- 期待値
特徴選択
- 手掛かりが多くても、全部有効とは限らないし、計算が大変になるし、解釈性が低くなる
- 負の影響も正の影響もいいが、間が一番よくない
- そのためには、L1
- ⇔ (前回の復習)複雑さを抑えるのはL2。複雑さの正体は非常に大きいwだった。
- 例えば、Bag-of-wordsは、辞書1.2万語とかに0/1をつけていく(出現したかどうか)。必ず1.2万次元になる。
- -> 実現方法としては、フィルター法、ラッパー法、スパース性を導入する正則化の利用など(3つ目が多い)
フィルター法
- ピアソン相関係数とかで、各特徴係数と目標変数の相関をみる
- 斜めなら良い。丸なら無相関。
- ただし、二つ以上の変数がセットで目標値に影響を与える場合、フィルター法では選択できない -> ラッパー法
ラッパー法
- 全列挙 + 交差検証
- 全部のパターン(組み合わせ)を評価
- ただし、計算量が大き過ぎる
- これを、ナイーブなラッパー法という
- 貪欲探索とかで、計算量を抑える(最適解が求まるときもあれば、だめなときもある)
ノルム
勾配降下法
- 最急降下法
- 全事例の訓練誤差総和のwについての勾配を計算
- サンプル数が非常に大きい場合には不向き
- 確率的勾配降下法
- ランダムに選んだ一つの事例の訓練誤差について勾配を計算
- 計算コストは軽い
- 必ず1スキップずつ減るわけではない。フラフラと最適解に近づいていく。
- ミニバッチ
勾配降下法の収束
- μ強凸かどうか(傾きが急か)
- L平滑かどうか(不連続でないか)
- 上記二つで、収束のスピードが算出できる