nokoのブログ

こちらは暫定のメモ置き場ですので悪しからず

TSUKUBA-OCW_機械学習_7_確率的識別モデル、経験損失最小化を視聴したときのメモ

はじめに

視聴メモ

(前回の復習)ロジスティック回帰

  • シグモイド関数により、全実数を[0, 1]に押し込む
  • モデリング: px = σ(wx)
  • -> 損失どうするか。pxは[0, 1]の確率だが、ラベルは離散値
  • -> 『ロジスティック回帰の予測(σ(wx))をベルヌーイ分布とみなした時の実現値(訓練データ、t)の尤度』
    • 負の対数尤度 = 交差エントロピー損失
    • 尤度関数最大化の代わりに負の対数尤度を最小化
  • ベルヌーイ分布
    • B(x;μ) = μx * (1-μ)1-x
      • x: 1か0(表か裏)
      • μ: パラメータ。神のみぞ知る値。
      • -> μを知るには? -> 尤度。
  • 尤度
    • なんらかの前提条件に従って観測値が出現する場合に、逆に観測値から前提条件が「何々であった」と観測するもっともらしさを表す数値
      • コインを7回投げたら(表、裏、表、裏、裏、裏、裏、裏)
      • L(μ) = μ2 * (1-μ)5
      • -> これが最大になるμを求める。対数とって。
      • 例えば、μ=0.25の方が、0.1より大きくなる
      • ロジスティック回帰なら、wがμ。
  • 何がロジスティック回帰?
    • 確率だが、回帰で。そのために、logitをとっている。
    • logitは、[0, 1] -> [-∞, ∞]
    • logit(px) = wx ⇔ px = σ(wx)

ニュートン法

  • 最急降下法と似ているが、ヘシアンを取る
    • ヘシアン: 二階微分。行列。等高線の歪みを捉える。
  • より小さい回数で最適化できる
  • 逆行列計算が入っているので計算は重いが、二階微分まで考慮しているので効率が良い
  • ロジスティック回帰とかでできる。深層学習では、パラメータが大き過ぎて使えない。最急降下法とかを使う。

softmax関数

  • sigmoid関数の多ラベル拡張
  • スムーズなmax関数と考えて良い?
  • シンプレクスに写像。足して1になる、各軸で1を超えない、平面。
  • softmax回帰
    • 予測は、wxをsoftmaxにかけて[0, 1]確率に
    • 目標値tは1 hot vector
    • 誤差関数は、交差エントロピー(負の対数尤度)

経験損失最小化

  • 結局、これまでやってきたのは、経験損失最小化(EMR)の枠組み
  • 目的関数: L(w) = Σl(y, f(x)) + λΩ(w)
    • 前半の項: どんな予測をしたいのかで選ぶ。どのくらい目標値と違うのか、の測り方。
    • 後半の項: 出来上がったモデルがどういう性質を持っていて欲しいか。L2で複雑さを抑えるか、L1でスパース性を導入するか。

まとめ