nokoのブログ

こちらは暫定のメモ置き場ですので悪しからず

VertexAIの疑問点

※WIP

全体

  • 対応リージョンの制限はあるか(tkyで利用できるか)
  • リリースバージョンはGAか
    • Vertex AI Workbenchなど含めて

データ基盤(収集, 蓄積, 加工)

  • データセットの利用シーン、利用方法は何か。BQ直接利用との違い(使い分け)は何か。
  • データの実態はどこにある?同じデータセットを利用しても、元のデータ(BQなど)が変わっていると、結果が変わる?

ラベリング

データ分析環境

  • ノートブックを作成するとエンドポイントが起動して、ブラウザでhttpアクセスできるのか
  • メンバー間のノートブックの環境を合わせるにはどうすれば良いか。pip?コンテナ?パイプライン化までのフローを踏まえてどうするべきか。
  • 従来のノートブックとWorkbenchの違いは何か
  • マネージドとユーザ管理の違いは何か
  • カスタムDockerイメージを使う場合の制約はあるか。特定ポートでJupyterを起動するなど。
  • 実験管理はどうやるか。Experimentsは何ができるか。Metadataとの違いは何か。
    • Metadataを実験管理ツールとして利用することはできるか
  • ノートブックへのアクセス権はどう制御すれば良いか。
  • ノートブックからのアクセス権はどう制御すれば良いか。

実験管理

  • 実験管理できるか。実験管理できる項目は何か。

学習基盤

  • データ分析の一環としてDSがジョブを投げ込むことができるか(ノートブックとの連動)

モデルレジストリ

  • モデル管理として何の項目が管理できるか。メタデータ管理との使い分けは何か。

サービング

MLパイプライン

  • 登場人物の全量
  • ノートブックと実行環境をどう揃えるか
  • AutoMLとの連携はどうやるか。スクラッチ実装と比較して(併用する場合)、手順のどこがどう変わってくるか。
    • サービスのくくりが同じだから(AutoMLもVertexAI)、連携できるはず?
  • バッチ実行もエンドポイントを起動する必要があるか。推論処理を実行したいときのパターンは何か。(オンライン含めて)
  • ノートブックからパイプラインへの変換の過程、登場人物の全量。CIで完結するか、自前でファイルを書く必要があるか。
    • ファクトリ関数を使うもの?CIで実行する?
  • パイプラインの起動方法。SDKのみ?
  • パイプライン起動のトリガー、スケジューラ
    • Kubeflow Pipelines SDKのスケジューリング機能 やCloud Composer、Cloud Scheduler?それぞれの使い方
  • コンポーネント間の中間生成物はどこに保存される?
  • kfpはv2?
  • コンポーネントそれぞれにスペックを割り当てることができるか。GPUの指定など。スケールアウトすることができるか(台数指定も)。
  • エラー検知、切り分け、リランはどうやるか
    • 途中からの実行はどうすれば良いか。エラーのジョブ実行結果は消えるのか。
  • 実行結果のキャッシュとは何か。リランした時に処理がスキップされる?キャッシュを使う条件は?
  • Kubeflow Pipelines SDKとTensorFlow Extended(TFX)の二通りがある?使い分けは?
    • テラバイト単位の構造化データまたはテキストデータを処理するTensorflowならTFX?
  • 引数はどこで渡してどう流れていく?
  • Metricsはどう指定すれば何ができる?コンテナでは無理?
  • デプロイするときは(エンドポイントを作成したい時は)、デプロイのコンテナ使ってさらにイメージを指定する?
  • 実行はコンテナのみ?
  • コンポーネントごとにGPU有無などのスペックの指定ができる?
  • 後から確認できる項目は何か。コンポーネントを選択すると、パラメータや処理時間や実行ログ?
  • AutoMLと併用した場合に、metaデータへの連携はどうなる?(前処理は自前実装、学習はAutoMLなど)
  • リソース制限はあるか。無限にスケールするのか。
  • 分析環境・学習パイプライン・推論パイプラインはPJを分けるべきか
    • 特に、BQへ書き戻す場合の権限制御
  • パイプラインの動作確認はどの環境で実施するべきか
  • DataflowやDataprocとの併用はどうすれば良いか
  • OpFunc関数とは何か
  • 認証情報はどう取得するべきか(GCP
  • モデルのサイズ制限10GB(N1)?
  • パイプラインの実行状況確認、停止、削除はできるか
  • Trainingと自前実装の違いは何か。
  • Predictionと自前実装の違いは何か。
  • Metadataへ、任意のパラメータやmarkdownを連携・可視化することはできるか
  • 依存関係の制御は、データのIn/Outか。マニュアルでの制御も可能か。
  • GCSを使わずにBQに書き戻す場合もメタデータ管理は可能か

メタデータ管理

  • In/Outデータ、コードバージョン、ハイパーパラメータ、精度、学習曲線、混同行列は管理できるか
  • ノートブックからも利用できるか

CD(MLパイプライン, サービング)

  • ノートブックの作成から、パイプライン実行までを自動化した場合の流れは何か。(手動の部分は手動)
    • コミット、テスト、パイプラインのデプロイ=実行?、通知、承認

特徴量ストア

  • 特徴量ストアは何が嬉しいのか。どういうときに利用するべきか。
  • Analytics hub経由でデータセットをコントロール下に置きながらベンダーに依頼することはできるか。

CI

  • CIはどのサービスと連動させるのが良いか。

モニタリング(精度含む)

  • モニタリングは具体的に何が監視できるか。
    • 分布の比較をしてくれる?どことどこの比較?
    • VertexAIのEndpointを利用する場合のみ?