はじめに
- 筑波大学オープンコースウェアの機械学習を視聴させていただいたときのメモです。
視聴メモ
(前回の復習)最急降下法
- 局所解は求まるが、最適解は求まらないのでは
- 初期化で何回もチャレンジするとか
- 凸関数なら求まる
(前回の復習)演習問題
- バイアスは、特徴量が0のときにもっともよくなる値(なので、平均にしたりする)
- (この場合)最も良い予測を与えるモデル=MSEが1番小さいもの
- 予測に最も正の影響が強い特徴=傾きが一番大きいもの
- スケーリングを事前にしておくこと。影響力の比較ができない。
Bag-of-words
- 文書を特徴ベクトルに
- 頻度は考えずに、出現したかどうかを特徴とする
- 辞書1.2万とかを用意して、その単語が出現したかどうか
- -> 1.2万次元の特徴量になる
- 日本語の場合は形態素解析をして、「は」「です」などのStop wordを除去する
TF-IDF
- 0/1ではなく出現頻度や語の珍しさを反映
- ホームラン、が一回か繰り返しか
- カーリング
画像を特徴量に
- 輝度特徴量
- 人の顔の識別のように、どの明るさでも識別できるように
- 高次局所自己相関特徴(HLAC)
- りんごの識別のように、どの位置でも識別できるように
- 例えば、25種のパターンを用意しておいて、それが何回出現するか
- -> 25次元の特徴ベクトル
DeepLearningによる特徴発見
線形回帰(重回帰)
- 目標値(従属関数)は1次元のままだが、特徴(独立変数)はD次元。
- t = w * x のそれぞれが行列になった(バイアスを含む)
- 一つのサンプルを、行列の行で表す
二乗最小誤差
- 平均二乗誤差と違うが、定数項なのであってもなくても同じ
- argminはfを最小にするx。min f だと最小のf。
凸集合と凸関数
- 2点を取ってときに、線分上の任意の点が集合に含まれるか
- 少なくとも、凸関数なら最適解が求まる
- 凸関数でないからといって最適解がないわけではない
勾配
- 山に立っているとして、360度見渡して一番急な方向へ
微分可能な凸関数の最適化
- 2種類ある
- 解析的な解法
- 近似的な解法
- 最急降下法など
最急降下法
- 谷底に歩いていく
- 歩幅を調整。谷底に近ずくと細かく。