nokoのブログ

こちらは暫定のメモ置き場ですので悪しからず

TSUKUBA-OCW_機械学習_1_機械学習概論と単回帰を視聴したときのメモ

はじめに

視聴メモ

機械学習とは何?

  • 人間がもつ学習能力を計算機に
  • データから知識・予測を得る技術
  • 近年の発展は、大量データが取得になったことと、計算機の発達が要因
  • 本来、統計学->最適化->機械学習、の順に学ぶのが良い

認識/判断

機械学習一覧

  • 4種類ある
  • [教師あり][予測対象が連続値]->回帰、推薦
  • [教師あり][予測対象が離散値]->分類
  • [教師なし][予測対象が連続値]->次元削減(主成分分析)
  • [教師なし][予測対象が離散値]->クラスタリング

機械学習の流れ

  • データ(画像、テキスト、etc)
  • ->特徴量(データのベクトル表現、実数値ベクトル)
  • ->特徴量から概念の写像
  • ->概念の獲得

機械学習の重要性

  • 大量のデータからその背後にあるモデルをとらえ、その性質を利用して予測を行う
  • 大規模コンテンツが飛び交う現代において、機械学習は知識・情報システムにおける重要な要素技術になりつつある

線形モデル

  • 目標値と特徴量の線形関係
  • t = w * x + b
  • w: 関係の強さ
  • b: バイアス。表現力が高くなる。比例関係以外も表現できるようになる。

よい予測を与えるパラメータは?

  • 言葉にすることは難しい。数学的に定義し、それに向けて最適化していく
  • ->例えば、平均二乗誤差。
    • error = 目標値と予測値の差。 E(w) = それを全訓練事例において二乗して和を取る。
    • E(w)を最小にするようなw, bを求めたい。どうするか?
  • ->例えば、最急降下法
    • ランダムに初期化したところから、微分と逆にステップサイズだけ動かす。

目標値と特徴量

  • 目標値: 予測したい値
    • でも、取得コストがかかる
  • 特徴量: 目標値の予測と関係する値
    • 取得にコストがかからない値を選びたい

データの種類

  • 3種類
  • 数値属性
  • 順序属性
    • 順序を保存したスカラ値に変換
  • カテゴリカル属性
    • one-hot encoding

Adult dataset

  • まずは、データを眺める。分布を見るなど。
  • 実務で機械学習に割く時間は5%とも言われる。