TSUKUBA-OCW_機械学習_7_確率的識別モデル、経験損失最小化を視聴したときのメモ
はじめに
- 筑波大学オープンコースウェアの機械学習を視聴させていただいたときのメモです。
視聴メモ
(前回の復習)ロジスティック回帰
- シグモイド関数により、全実数を[0, 1]に押し込む
- モデリング: px = σ(wx)
- -> 損失どうするか。pxは[0, 1]の確率だが、ラベルは離散値
- -> 『ロジスティック回帰の予測(σ(wx))をベルヌーイ分布とみなした時の実現値(訓練データ、t)の尤度』
- 負の対数尤度 = 交差エントロピー損失
- 尤度関数最大化の代わりに負の対数尤度を最小化
- ベルヌーイ分布
- B(x;μ) = μx * (1-μ)1-x
- x: 1か0(表か裏)
- μ: パラメータ。神のみぞ知る値。
- -> μを知るには? -> 尤度。
- B(x;μ) = μx * (1-μ)1-x
- 尤度
- なんらかの前提条件に従って観測値が出現する場合に、逆に観測値から前提条件が「何々であった」と観測するもっともらしさを表す数値
- 例
- コインを7回投げたら(表、裏、表、裏、裏、裏、裏、裏)
- L(μ) = μ2 * (1-μ)5
- -> これが最大になるμを求める。対数とって。
- 例えば、μ=0.25の方が、0.1より大きくなる
- ロジスティック回帰なら、wがμ。
- 何がロジスティック回帰?
- 確率だが、回帰で。そのために、logitをとっている。
- logitは、[0, 1] -> [-∞, ∞]
- logit(px) = wx ⇔ px = σ(wx)
ニュートン法
- 最急降下法と似ているが、ヘシアンを取る
- ヘシアン: 二階微分。行列。等高線の歪みを捉える。
- より小さい回数で最適化できる
- 逆行列計算が入っているので計算は重いが、二階微分まで考慮しているので効率が良い
- ロジスティック回帰とかでできる。深層学習では、パラメータが大き過ぎて使えない。最急降下法とかを使う。
softmax関数
- sigmoid関数の多ラベル拡張
- スムーズなmax関数と考えて良い?
- シンプレクスに写像。足して1になる、各軸で1を超えない、平面。
- softmax回帰
経験損失最小化
- 結局、これまでやってきたのは、経験損失最小化(EMR)の枠組み
- 目的関数: L(w) = Σl(y, f(x)) + λΩ(w)
- 前半の項: どんな予測をしたいのかで選ぶ。どのくらい目標値と違うのか、の測り方。
- 後半の項: 出来上がったモデルがどういう性質を持っていて欲しいか。L2で複雑さを抑えるか、L1でスパース性を導入するか。