※WIP
全体
- 対応リージョンの制限はあるか(tkyで利用できるか)
- AutoML、データセットなど含めて
- リリースバージョンはGAか
- Vertex AI Workbenchなど含めて
データ基盤(収集, 蓄積, 加工)
- データセットの利用シーン、利用方法は何か。BQ直接利用との違い(使い分け)は何か。
- 非構造化データ、アノテーションのため?
- AutoMLでは必須?
- データの実態はどこにある?同じデータセットを利用しても、元のデータ(BQなど)が変わっていると、結果が変わる?
ラベリング
データ分析環境
- ノートブックを作成するとエンドポイントが起動して、ブラウザでhttpアクセスできるのか
- メンバー間のノートブックの環境を合わせるにはどうすれば良いか。pip?コンテナ?パイプライン化までのフローを踏まえてどうするべきか。
- 従来のノートブックとWorkbenchの違いは何か
- マネージドとユーザ管理の違いは何か
- カスタムDockerイメージを使う場合の制約はあるか。特定ポートでJupyterを起動するなど。
- 実験管理はどうやるか。Experimentsは何ができるか。Metadataとの違いは何か。
- Metadataを実験管理ツールとして利用することはできるか
- ノートブックへのアクセス権はどう制御すれば良いか。
- ノートブックからのアクセス権はどう制御すれば良いか。
実験管理
- 実験管理できるか。実験管理できる項目は何か。
学習基盤
- データ分析の一環としてDSがジョブを投げ込むことができるか(ノートブックとの連動)
モデルレジストリ
- モデル管理として何の項目が管理できるか。メタデータ管理との使い分けは何か。
サービング
MLパイプライン
- 登場人物の全量
- ノートブックと実行環境をどう揃えるか
- AutoMLとの連携はどうやるか。スクラッチ実装と比較して(併用する場合)、手順のどこがどう変わってくるか。
- サービスのくくりが同じだから(AutoMLもVertexAI)、連携できるはず?
- バッチ実行もエンドポイントを起動する必要があるか。推論処理を実行したいときのパターンは何か。(オンライン含めて)
- ノートブックからパイプラインへの変換の過程、登場人物の全量。CIで完結するか、自前でファイルを書く必要があるか。
- ファクトリ関数を使うもの?CIで実行する?
- パイプラインの起動方法。SDKのみ?
- パイプライン起動のトリガー、スケジューラ
- Kubeflow Pipelines SDKのスケジューリング機能 やCloud Composer、Cloud Scheduler?それぞれの使い方
- コンポーネント間の中間生成物はどこに保存される?
- kfpはv2?
- コンポーネントそれぞれにスペックを割り当てることができるか。GPUの指定など。スケールアウトすることができるか(台数指定も)。
- エラー検知、切り分け、リランはどうやるか
- 途中からの実行はどうすれば良いか。エラーのジョブ実行結果は消えるのか。
- 実行結果のキャッシュとは何か。リランした時に処理がスキップされる?キャッシュを使う条件は?
- Kubeflow Pipelines SDKとTensorFlow Extended(TFX)の二通りがある?使い分けは?
- テラバイト単位の構造化データまたはテキストデータを処理するTensorflowならTFX?
- 引数はどこで渡してどう流れていく?
- Metricsはどう指定すれば何ができる?コンテナでは無理?
- デプロイするときは(エンドポイントを作成したい時は)、デプロイのコンテナ使ってさらにイメージを指定する?
- 実行はコンテナのみ?
- コンポーネントごとにGPU有無などのスペックの指定ができる?
- 後から確認できる項目は何か。コンポーネントを選択すると、パラメータや処理時間や実行ログ?
- AutoMLと併用した場合に、metaデータへの連携はどうなる?(前処理は自前実装、学習はAutoMLなど)
- リソース制限はあるか。無限にスケールするのか。
- 分析環境・学習パイプライン・推論パイプラインはPJを分けるべきか
- 特に、BQへ書き戻す場合の権限制御
- パイプラインの動作確認はどの環境で実施するべきか
- DataflowやDataprocとの併用はどうすれば良いか
- OpFunc関数とは何か
- 認証情報はどう取得するべきか(GCP)
- モデルのサイズ制限10GB(N1)?
- パイプラインの実行状況確認、停止、削除はできるか
- Trainingと自前実装の違いは何か。
- Predictionと自前実装の違いは何か。
- Metadataへ、任意のパラメータやmarkdownを連携・可視化することはできるか
- 依存関係の制御は、データのIn/Outか。マニュアルでの制御も可能か。
- GCSを使わずにBQに書き戻す場合もメタデータ管理は可能か
メタデータ管理
- In/Outデータ、コードバージョン、ハイパーパラメータ、精度、学習曲線、混同行列は管理できるか
- ノートブックからも利用できるか
CD(MLパイプライン, サービング)
- ノートブックの作成から、パイプライン実行までを自動化した場合の流れは何か。(手動の部分は手動)
- コミット、テスト、パイプラインのデプロイ=実行?、通知、承認
特徴量ストア
CI
- CIはどのサービスと連動させるのが良いか。
モニタリング(精度含む)
- モニタリングは具体的に何が監視できるか。
- 分布の比較をしてくれる?どことどこの比較?
- VertexAIのEndpointを利用する場合のみ?