nokoのブログ

こちらは暫定のメモ置き場ですので悪しからず

TSUKUBA-OCW_機械学習_4_特徴選択とL1正則化を視聴したときのメモ

はじめに

視聴メモ

(前回の復習)汎化誤差

  • p(x): wineデータのアルコール濃度だと、12%に偏った正規分布だったり(xごとの、取りうる確率)
  • p(t|x): xが決まったときのt(quality)の分布
  • 期待値

特徴選択

  • 手掛かりが多くても、全部有効とは限らないし、計算が大変になるし、解釈性が低くなる
  • 負の影響も正の影響もいいが、間が一番よくない
  • そのためには、L1
  • ⇔ (前回の復習)複雑さを抑えるのはL2。複雑さの正体は非常に大きいwだった。
  • 例えば、Bag-of-wordsは、辞書1.2万語とかに0/1をつけていく(出現したかどうか)。必ず1.2万次元になる。
  • -> 実現方法としては、フィルター法、ラッパー法、スパース性を導入する正則化の利用など(3つ目が多い)

フィルター法

  • ピアソン相関係数とかで、各特徴係数と目標変数の相関をみる
  • 斜めなら良い。丸なら無相関。
  • ただし、二つ以上の変数がセットで目標値に影響を与える場合、フィルター法では選択できない -> ラッパー法

ラッパー法

  • 全列挙 + 交差検証
    • 全部のパターン(組み合わせ)を評価
    • ただし、計算量が大き過ぎる
    • これを、ナイーブなラッパー法という
    • 貪欲探索とかで、計算量を抑える(最適解が求まるときもあれば、だめなときもある)

ノルム

  • 1ノルム: マンハッタン距離。原点から等距離=ひし形。
  • 2ノルム: ユークリッド距離。原点から等距離=円。
  • 正則化の意味
    • L2だと、原点に近づいた。
    • L1だと、軸に近づく(=特徴選択に使える)
      • ただし、絶対値が入っているので、微分で求められない。繰り返しで求める。->最急降下法とか。

勾配降下法

  • 最急降下法
    • 全事例の訓練誤差総和のwについての勾配を計算
    • サンプル数が非常に大きい場合には不向き
  • 確率的勾配降下法
    • ランダムに選んだ一つの事例の訓練誤差について勾配を計算
    • 計算コストは軽い
    • 必ず1スキップずつ減るわけではない。フラフラと最適解に近づいていく。
  • ミニバッチ
    • 最急降下法確率的勾配降下法との間。
    • 全データから比較的少数のデータをランダムに選んだ集合であるミニバッチの予測誤差について勾配計算

勾配降下法の収束

  • μ強凸かどうか(傾きが急か)
  • L平滑かどうか(不連続でないか)
  • 上記二つで、収束のスピードが算出できる

劣勾配

  • 微分不可能な項を含む目的関数をどうやって最適化する?
  • できるところは微分する。できない点は、その間!として定義する。
  • -> とはいえ、これではふんわりし過ぎて最適解が求められない。個別のやり方で最適化していく。(ラッソはこれで!とか)