はじめに

メモ

Reproさん
Cloud Composer → Kubeflow
プロセスに「実験デザイン」の手法を導入
- 試行錯誤の手続きを標準化
- 「生命科学の実験デザイン」
TFXを導入
- 機械学習を利用するシステムの設計思想
- 各コンポーネントはストレージからデータを読み込み、処理結果をストレージに格納する
実験基盤、検証基盤、サービス基盤
机上実験 → パイプライン実装（FS）
Kubeflow Pipelines(AI Platform Pipelines)を選定
- マネージド、スケーラビリティ、BQ、利用ライブラリを柔軟に選べる（コンテナ）
可視化
- Feature Importance
- AUC
- 損失
通知
- OOMとか
Terraform, CI/CDパイプライン
残課題
- データ取得のために似たようなコードを書いている
- 「データサイエンスから秘密のベールを引き剥がし、退屈な仕事にする」
- サービス基盤は「Human in the loop」
- Feature Storeの導入
  - ただ、ハードル高い？（費用対効果）
再現性
- ノートブックの実装とパイプラインの実装は別
Apache Airflowはデバックが辛かった？
- PodのOOMとか。Kubeflowなら検知できる？
- AI Platformなら、DockerのログがCloud Monitoringに出力される？

研究開発チームは、マイクロサービスなAPIを提供するところまで
機械学習のフローだいたいインフラ関わる説
課題
- マイクロサービス化されたAPI
- 学習を回す場所がない
- 実験管理・再現性の問題
  - 再度モデルを作ることができない
  - 問題が起きたときに前の状態に戻れない
  - API開発と機械学習の分離
- →学習、評価・実験管理→デプロイに絞って改善
実験管理、モデル/データ管理はMLflow
学習はAI Platform Training Job
モデルサービングはSeldon Core
学習基盤の拡張性
- 学習リソース管理
- 導入・維持コスト
- ドキュメント
- 拡張性
MLflow Model Registry
- Stageを設定し、モデルのバージョンを切り替えることが可能
Seldon Core
- GKEにHelmで入る
- 推論のPipeline化が特徴
  - エンドポイントを組み合わせ（前処理できる）
- Dockerfile内でエンドポイント起動ができる
MLOpsの効果
- アジリティ
- 再現性
- 自動化・非属人化
レポジトリ・コードの雛形化
MLを含んだインテグレーションテスト
アノテーションはツール使って人手
MLflowは小規模でも使いやすい

KARTEの解析データはPB級
予測結果は前のeventで予測済みの結果をDBから取ってくる
非同期に渡しておく
連続性のある事象を取り扱う場合は、過去のデータを利用することでサービス提供におけるレイテンシを守る、という事例
推論APIに直接データを渡す訳ではなく、APIにDBのキャッシュを渡す
Cloud Spannerを利用
- （もちろん）BQと全く同じSQLとはならない
- Bigtableなども検討中
- TTLがなく、キャッシュが貯まり続ける
- 実行計画は見える
Prediction APIにはCloudRunを利用
- イメージを指定すればコマンド一つでデプロイ可能
- 切り戻しもしやすい

実験デザインの手法
- 「生命科学の実験デザイン」
TFXの思想
Kubeflow Pipelines(AI Platform Pipelines)でできること・利用コスト
- 実験管理に特化したパイプライン
- リッチなWebインターフェイス
- k8sの恩恵
  - スケーラビリティ
Human in the loopを上手く導入するには
- Googleのブログ
OOMの通知
サービングのSanity Check
training-servinng skew対応として、DataflowとTFTを用いた変換（Google）
delegation
Feature Storeに求める役割