VertexAIの疑問点 - nokoのブログ

※WIP

全体

対応リージョンの制限はあるか（tkyで利用できるか）
- AutoML、データセットなど含めて
リリースバージョンはGAか
- Vertex AI Workbenchなど含めて

データ基盤（収集, 蓄積, 加工）

データセットの利用シーン、利用方法は何か。BQ直接利用との違い（使い分け）は何か。
- 非構造化データ、アノテーションのため？
- AutoMLでは必須？
データの実態はどこにある？同じデータセットを利用しても、元のデータ（BQなど）が変わっていると、結果が変わる？

ラベリング

データ分析環境

ノートブックを作成するとエンドポイントが起動して、ブラウザでhttpアクセスできるのか
メンバー間のノートブックの環境を合わせるにはどうすれば良いか。pip？コンテナ？パイプライン化までのフローを踏まえてどうするべきか。
従来のノートブックとWorkbenchの違いは何か
マネージドとユーザ管理の違いは何か
カスタムDockerイメージを使う場合の制約はあるか。特定ポートでJupyterを起動するなど。
実験管理はどうやるか。Experimentsは何ができるか。Metadataとの違いは何か。
- Metadataを実験管理ツールとして利用することはできるか
ノートブックへのアクセス権はどう制御すれば良いか。
ノートブックからのアクセス権はどう制御すれば良いか。

実験管理

実験管理できるか。実験管理できる項目は何か。

学習基盤

データ分析の一環としてDSがジョブを投げ込むことができるか（ノートブックとの連動）

モデルレジストリ

モデル管理として何の項目が管理できるか。メタデータ管理との使い分けは何か。

サービング

MLパイプライン

登場人物の全量
- components.yamlとpipeline.yaml
- components.yaml: コンポーネントの入出力、コンテナイメージ、実行時コマンドと引数
- pipeline.yaml: components.yamlを指定してまとめる。（コンポーネントの読み込み→実行）GCPのプロジェクトやリージョンを指定→最後にパイプライン関数をコンパイルして、JSONファイルが作成される。
ノートブックと実行環境をどう揃えるか
AutoMLとの連携はどうやるか。スクラッチ実装と比較して（併用する場合）、手順のどこがどう変わってくるか。
- サービスのくくりが同じだから（AutoMLもVertexAI）、連携できるはず？
バッチ実行もエンドポイントを起動する必要があるか。推論処理を実行したいときのパターンは何か。（オンライン含めて）
ノートブックからパイプラインへの変換の過程、登場人物の全量。CIで完結するか、自前でファイルを書く必要があるか。
- ファクトリ関数を使うもの？CIで実行する？
パイプラインの起動方法。SDKのみ？
パイプライン起動のトリガー、スケジューラ
- Kubeflow Pipelines SDKのスケジューリング機能やCloud Composer、Cloud Scheduler？それぞれの使い方
コンポーネント間の中間生成物はどこに保存される？
- GCS Fuseを使うことで、各ジョブのインスタンスにマウントされ、ローカルファイルシステムとしてファイルの読み書きが可能
kfpはv2？
コンポーネントそれぞれにスペックを割り当てることができるか。GPUの指定など。スケールアウトすることができるか（台数指定も）。
エラー検知、切り分け、リランはどうやるか
- 途中からの実行はどうすれば良いか。エラーのジョブ実行結果は消えるのか。
実行結果のキャッシュとは何か。リランした時に処理がスキップされる？キャッシュを使う条件は？
Kubeflow Pipelines SDKとTensorFlow Extended（TFX）の二通りがある？使い分けは？
- テラバイト単位の構造化データまたはテキストデータを処理するTensorflowならTFX？
引数はどこで渡してどう流れていく？
- components.yamlの、Docker内の実行スクリプトの引数（args）←components.yamlのinput/output←pipeline.yaml（前のコンポーネントの出力を渡すため）←実行時に画面やAPIで指定？学習率など
Metricsはどう指定すれば何ができる？コンテナでは無理？
デプロイするときは（エンドポイントを作成したい時は）、デプロイのコンテナ使ってさらにイメージを指定する？
実行はコンテナのみ？
- コンテナ or Python スクリプト
コンポーネントごとにGPU有無などのスペックの指定ができる？
後から確認できる項目は何か。コンポーネントを選択すると、パラメータや処理時間や実行ログ？
AutoMLと併用した場合に、metaデータへの連携はどうなる？（前処理は自前実装、学習はAutoMLなど）
リソース制限はあるか。無限にスケールするのか。
分析環境・学習パイプライン・推論パイプラインはPJを分けるべきか
- 特に、BQへ書き戻す場合の権限制御
パイプラインの動作確認はどの環境で実施するべきか
DataflowやDataprocとの併用はどうすれば良いか
OpFunc関数とは何か
認証情報はどう取得するべきか（GCP）
モデルのサイズ制限10GB（N1）？
パイプラインの実行状況確認、停止、削除はできるか
Trainingと自前実装の違いは何か。
Predictionと自前実装の違いは何か。
Metadataへ、任意のパラメータやmarkdownを連携・可視化することはできるか
依存関係の制御は、データのIn/Outか。マニュアルでの制御も可能か。
GCSを使わずにBQに書き戻す場合もメタデータ管理は可能か