はじめに
- 筑波大学オープンコースウェアの機械学習を視聴させていただいたときのメモです。
視聴メモ
機械学習とは何?
- 人間がもつ学習能力を計算機に
- データから知識・予測を得る技術
- 人口知能
- 統計学
- 最適化, etc
- 近年の発展は、大量データが取得になったことと、計算機の発達が要因
- 本来、統計学->最適化->機械学習、の順に学ぶのが良い
認識/判断
機械学習一覧
- 4種類ある
- [教師あり][予測対象が連続値]->回帰、推薦
- [教師あり][予測対象が離散値]->分類
- [教師なし][予測対象が連続値]->次元削減(主成分分析)
- [教師なし][予測対象が離散値]->クラスタリング
機械学習の流れ
- データ(画像、テキスト、etc)
- ->特徴量(データのベクトル表現、実数値ベクトル)
- ->特徴量から概念の写像
- ->概念の獲得
機械学習の重要性
- 大量のデータからその背後にあるモデルをとらえ、その性質を利用して予測を行う
- 大規模コンテンツが飛び交う現代において、機械学習は知識・情報システムにおける重要な要素技術になりつつある
線形モデル
- 目標値と特徴量の線形関係
- t = w * x + b
- w: 関係の強さ
- b: バイアス。表現力が高くなる。比例関係以外も表現できるようになる。
よい予測を与えるパラメータは?
- 言葉にすることは難しい。数学的に定義し、それに向けて最適化していく
- ->例えば、平均二乗誤差。
- error = 目標値と予測値の差。 E(w) = それを全訓練事例において二乗して和を取る。
- E(w)を最小にするようなw, bを求めたい。どうするか?
- ->例えば、最急降下法。
- ランダムに初期化したところから、微分と逆にステップサイズだけ動かす。
目標値と特徴量
- 目標値: 予測したい値
- でも、取得コストがかかる
- 特徴量: 目標値の予測と関係する値
- 取得にコストがかからない値を選びたい
データの種類
- 3種類
- 数値属性
- 順序属性
- 順序を保存したスカラ値に変換
- カテゴリカル属性
- one-hot encoding
Adult dataset
- まずは、データを眺める。分布を見るなど。
- 実務で機械学習に割く時間は5%とも言われる。