nokoのブログ

こちらは暫定のメモ置き場ですので悪しからず

TSUKUBA-OCW_機械学習_6_カーネル、確率的識別モデル1を視聴したときのメモ

オンライン講座

はじめに

筑波大学オープンコースウェアの機械学習を視聴させていただいたときのメモです。

視聴メモ

（前回の復習）精度と再現率のコントロール

指標が二つあるとどうすればよい？
精度も再現率もほどほどに = 正解率が高い
ROC曲線の下の面積 = AUC(area under the curve)を性能指標として用いる
- ROC: 閾値を変えながらFP vs TPをプロット
  - 縦軸がTP/(TP+FN)、横軸がFP/(TN+FP)

（前回の復習）マルチクラス分類

structured output
惜しさ、を考慮する
猫とチーターは惜しいが、犬は遠い

カーネル

線形モデル（超平面）で分離しようとしても、限界がある
特徴量生成関数をかますことで、あえて次元を高くする
-> 単純なモデルで学習する
回帰のときは、線形だけでなく、多項式回帰を使って非線形も使用したが、分類は超平面だけ？
-> カーネル
交互作用項を持つ多項式特徴量を導入すると、組み合わせの数だけ数が増えてしまう
（つまり）特徴量の考え方
- データの空間
  - x1, x2,,,
  - 次元は低いが、非線形性があって扱いにくい
- 特徴量空間
  - φ(x1), φ(x2),,,
  - 次元は高いが、線型性があって（と期待され）扱いやすい
- 再生核ヒルベルト空間
  - k(x,x') = φ(x)φ(x')
  - 内積の空間。特徴量そのものには触らない。
  - 2つの(?)特徴量ベクトルの内積をカーネルと呼ぶ。
  - -> 特徴量の次元は大きいが、そこに、内積だけでアクセスする
SVMカーネル版
- 特徴量ベクトルによるSVMとカーネルで表現したSVMは、等価

確率的識別モデル

決定的識別モデルは、最小マージンを最大にする識別平面（超平面）
確率的識別モデルは、ラベル{0,1}を直接予測する代わりに、分類結果=1である確率を予測
-> 懸念として、連続値の予測なので回帰が使えるが、確率は[0-1]
-> ロジスティックシグモイド関数を利用
- 全実数を[0,1]に押し込む
- 原点付近は線形関数に近い
- ロジスティック回帰と同じ！
  - 確率の代わりにロジットを線形回帰でモデリング
  - logit(px) = wx ⇔ px = σ(wx)