MIRUとは

MIRUとは、「画像の認識・理解シンポジウム」のことです。
国内最大の画像の認識・理解に関する国内会議です。
22回目の今回は大阪にて4日間に渡って開催され、参加者は1000名を超えたそうです。

参加の目的

業務にて画像認識系のプロジェクトをやっているので、画像認識系技術のキャッチアップ + 最新の技術動向調査のために参加させていただきました。
（企業ブース出展）

個人的に面白かった発表

※詳細、正確な内容は論文をご確認下さい。

07.29

Generative Adversarial Networksの基礎・発展・応用
- 金子卓弘(NTTコミュニケーション科学基礎研究所)
- GANの4つの発展
  - データ設定の工夫
    - Noisyなラベル、少数ラベルなど、不完全データに対応
  - 目的関数の工夫
    - Min-Max関数最適化のため、学習が不安定なところを距離基準を改善したりして対応
  - ネットワークの工夫
    - StyleGANは、入力を多段階化した
  - 潜在変数構造の工夫
    - 単純なランダムノイズのみでない入力にすることで、操作性を向上させる
近似最近傍探索の最前線
- 松井勇佑(東京大学生産技術研究所)
- https://speakerdeck.com/matsui_528/jin-si-zui-jin-bang-tan-suo-falsezui-qian-xian
- PythonおすすめANN手法選択フローチャート（2019年度版、condaかpipで入るもの）
  - N<10⁶なら線形探索でやってしまえばよい
  - nmslib(hnsw)がシンプル
  - NGTもGraph探索系で最近アツい？ベンチマークで1位を競えている。
- 基本的に、次元数は100程度までPCA等で落としておくべき
『視覚は孤立に存在しない！』からグラント獲得スキルまで教えます
- 浅田稔(大阪大学先導的学際研究機構共生知能システム研究センター)
- 際に本質がある。ロボティクスは最高の学際的研究分野。
- 感覚情報入力（コンピュータビジョン） -> 認識判断（強化学習）、運用情報出力（ロボティクス）につなげていく。現実世界からフィードバックを受けてサイクルを回していく。
- 痛みを伴っても、学際交流を。（専門を深めた上で交流）

07.30

オンラインエキスパート選択問題としての適応的学習率調整
- 満尾成亮, 末廣大貴, 内田誠一(九大)
- オンライン予測理論を応用し，ニューラルネットワークの適応的な学習率調整を行うことを目的とする
- オンラインエキスパート選択問題とは，毎時刻 t で与えられる N 個のエキスパートからの推薦 {zt,i |i ∈ [1, N ]} の中から，適切な pt を選択する問題である [1, 6–10].オンライン予測の分野では，この選択を行う主体はプレイヤーと呼ばれる.本稿が扱う問題でいえば，zt,i や pt はいずれも学習状況の異なる CNN である.
Attention Branch Network: Learning of Attention Mechanism for Visual Explanation
- Hiroshi Fukui, Tsubasa Hirakawa, Takayoshi Yamashita, Hironobu Fujiyoshi(Chubu Univ.)
- Activation Mapを、Attention Branch としてネットワークに組み込んだ
  - 元のネットワークを特徴抽出器と識別ブランチに分け、間に上記 Attention Branchを組み込んだ
  - 誤差逆伝播でAttention Branchも学習させる
- CNNの識別精度を低下させず、既存の一般的なモデルや様々なタスクに簡単に応用できる
  - CAMやGrad-CAMとほぼ同等のVisual Explanationが行える

07.31

「人工知能における画像認識の重要性」
- 松尾豊(東京大学大学院工学系研究科)
- ディープラーニングとは一言でいうと「深い関数を使った最小二乗法」 = 表現力の高い関数
  - 計算機のパワーが上がった
  - データが増えた（ウェブの発展）
- 宝くじ仮説
  - パラメータが多いのに汎化するのはなぜか
  - 「構造と初期値の組み合わせ」が当たりくじを引いているということ。宝くじをたくさん買うためにoverparameterizationが有効ということではないか。
- 動物OSの人間ディストリビューションで、言語アプリがデフォルトで入っている
  - シンボルとパターン
Attention mapを介したDeep Neural Networkへの人の知見の組み込み
- 三津原将弘, 福井宏(中部大), 坂下祐輔(中部大/ニデック), 緒方貴紀(ABEJA), 平川翼, 山下隆義, 藤吉弘亘(中部大)
- Deep Neural Networkにおいて近年広く求められている説明性の実現に留まらず、視覚的インターフェイスを介して人が直感的に修正することで、ネットワークを最適化するフレームワークを定式化し、人機械協調の新たな可能性を示した。
Closing the Gap Between Query and Database through Query Feature Transformation in C2C e-Commerce Visual Search
- Takuma Yamaguchi, Kosuke Arase, Riku Togashi, Shunya Ueta(Mercari)
- 画像検索のための特徴量抽出
  - MobileNet -> L2-Normarizataion で特徴量抽出 -> IVFADCで近似最近傍探索
  - MobileNetV2 を，商品ブランド，柄，商品カテゴリの組み合わせをクラスラベルにしたデータセットで学習した
- 服の商品画像で、着用画像と商品のみの画像が混在していた。着用画像をクエリすると、着用画像を類似画像として返してしまう。
  - 着用画像ベクトルのMedianから、商品のみの画像ベクトルのMedianを引いた（商品 + 人 - 商品）
  - 上記をベースに諸々の処理を加えたものを、すべてのクエリ画像ベクトルから引いた（着用画像のみでなく。カテゴリも服のみでもなく。）
    - 結果、着用画像のクエリ結果以外でも、精度が下がるどころか上がった。（ノイズもなくなったため？）
位置認識を用いた交通信号機灯火色判定システム
- 後藤良介, Kourkouss Sahim, 本村秀人(パナソニック)
- 信号機の色を識別。画像のRGBだけでは難しいので、下記で実現した。
  - GPS情報を使った信号機の位置情報活用。
  - 信号の形状タイプ（縦長横長等）を特定して、セグメンテーションして差分比較

08.01

Classifier Discrepancy Maximization for Unsupervised Out-of-Distribution Detection
- Qing Yu, Kiyoharu Aizawa(Univ. of Tokyo)
- in-distribution同士のカテゴリの分類だけでなく、out-of-distributionであることも識別できるようにfine-tuning させる
- 従来の教師有り学習と、想定外データを含む教師なし学習の組み合わせにより、二つの独立した識別器の不一致に基づき想定外のデータを検出するクラス識別協会を学習するように工夫した結果、高い識別性能を達成した
MLSNet: Multi-Level Segmentation Networksによるリソース制約を考慮した適応的推定
- 横尾修平, 飯塚里志, 福井和広(筑波大)
- ネットワークに階層的に識別を行う仕組みを持たせることで、問題の複雑さ応じて適応的にネットワーク構成を変化させる新たな学習形態を示した。さらにこれを用いて上位階層から下位階層に対して自己蒸留を行うことで、浅い識別器の精度向上が可能であることを示した。

感想

かなり濃厚なインプットができた4日間でした。
「今、画像認識はどのくらいのことができるのか」を概観できるため、研究者だけでなく、私のようなエンジニアやビジネス寄りのマネージャまで、是非とも参加すべき学会だと思いました。
次回（来年）は仙台開催で、オリンピック期間と被るので、ホテル予約はお早めにとのことです。

nokoのブログ

こちらは暫定のメモ置き場ですので悪しからず

MIRU2019参加レポート