nokoのブログ

こちらは暫定のメモ置き場ですので悪しからず

2021-01-01から1年間の記事一覧

VertexAIの疑問点

※WIP 全体 対応リージョンの制限はあるか(tkyで利用できるか) AutoML、データセットなど含めて リリースバージョンはGAか Vertex AI Workbenchなど含めて データ基盤(収集, 蓄積, 加工) データセットの利用シーン、利用方法は何か。BQ直接利用との違い(…

ECSを復習してみた

構築手順・CICD設定 0. 全体構成 AmazonECS / Fargate 本番運用のための構築とデプロイ方法まとめから引用 1-1. Clusterの構築 Cluster: TaskとServiceをグルーピングする概念。アプリケーションごと、環境ごとに用意する。 Fargateだとネットワーキングのみ…

MLOps導入に向けたヒアリングチェックリスト

はじめに MLOpsの導入・改善を頼まれたときに、初手でヒアリングすることの簡単なチェックリストです ヒアリング事項 前提条件 (現時点/これから) ☑︎プロジェクト(モデル)の種類 需要予測 / 類似画像検索, etc ☑︎データの種類 テーブルデータ / 画像 / …

統計学チートシート

ロードマップ 統計学基礎 チートシート

機械学習シートシート

ロードマップ Roadmap: How to Learn Machine Learning in 6 Months チートシート 全般 回帰、推薦(教師あり-予測対象が連続) 分類(識別)(教師あり-予測対象が離散) PCA(教師なし-予測対象が連続) クラスタリング(教師なし-予測対象が離散)

エンジニアリングチートシート

ロードマップ DevOps Roadmap チートシート ネットワーク ハードウェア OS データベース セキュリティ

AWSのセキュリティ設定チェックリスト

メモ アイデンティティとアクセス管理 IAMユーザにMFA設定をする IAMユーザにIPアドレス利用制限をする IAMユーザのキーペアをハードコーディングせずIAMロールやCognitoで代替する IAMユーザのキーペアを利用するなら環境変数に設定する IAMのポリシーに職…

nginx設定項目メモ

nginx設定項目メモ(一部) プロセス起動ユーザ user デーモン化 daemon foregroundかbackfroundか。デフォルトはon。(backfround) ワーカープロセス数 worker process マスタープロセスは1つのみですが、ワーカプロセスは ワーカプロセス数をCPUのコア数…

tcpdumpコマンド

オプション(一部) -i : インターフェイス指定。tcpdump -Dで一覧確認する -n : IPアドレスをホスト名に変換させないで表示させる -nn : プロトコル名をポート番号で表示させる -A: 通信内容をASCIIで表示させる -w tcpdump.pcap: パケットキャプチャをファ…

Kaggleスニペット

テーブル pandas csv読み込み import pandas as pd df = pd.read_csv(INPUT_DATA_PATH_DIR + 'train.csv') df.columns pandas EDA import pandas_profiling as pdp pdp.ProfileReport(df) df_gb_label_group = pd.DataFrame({"count": df.groupby("label_gro…

データエンジニアリング実践

はじめに データエンジニアリングまわりを復習したときのメモです。 Webアプリから発生するデータを使ってモデルを継続的に学習させるためのデータ基盤を想定しています。 データエンジニアリング導入以前ver 概要 CSVファイル PoC時点などのシンプルな実装…

Kaggleコンペ開始直後にやっていること

はじめに はじめてKaggleのコンペに参加してみたので、初動でやったことの大まかな流れを備忘までに残しておきます。 やったこと 0. 前提 Kaggleアカウントは作成しておくこと 1. コンペ参加登録 Kaggleページ→compete→sample_compete(対象コンペ)→Join Co…

バックアップリストア改廃を復習してみた

はじめに バックアップリストア改廃を復習してみたときのメモです 5W1Hを意識して漏れなく設計します 一覧 取得元 サービス 項目 インスタンス バックアップ 方式 トリガ タイミング リストア 方式 改廃(取得元) 方式 トリガ ローカル保存世代数 改廃(バ…

データエンジニアリングを復習してみた

概要 -> データエンジニアリング実践も参照 選定ポイント MPPデータベースは、最初にETLプロセスなどでデータを取り込むための手順が必要 元のデータがCSVやJSONで、複雑な加工処理が不要なら、オブジェクトストレージからデータウェアハウスに直接転送してS…

MLモデル評価で考えること

はじめに MLモデル評価のまとめ方メモです メモ 全体を通して、「つまり、現在実践で使えるレベルか?」「課題はどこで、クリアできそうか?それがクリアできたらどれくらい良くなりそうか?」が伝わるようにする 網羅感大事 1. 検証計画再掲 スコープ 検証…

Macの初期セットアップ手順メモ(vivaldi, vscode, xonsh, etc)(2021)

はじめに Macを初期セットアップしたときのメモ。 キーバインド設定 システム環境設定 > キーボード > caps lock -> command(キーボードごとに) ctrlとcmdの入れ替え 入力ソースにローマ字とABC システム環境設定 > キーボード > ショートカット > 入力ソー…

fluentdとKinesisDataFirehostとlogrotateでログの収集とローテをする

はじめに fluentd(EC2→CloudWatchLogs) + Kinesis Data Firehose(EC2→CloudWatchLogs → S3) でログの収集 logrotateでログのローテ・改廃(EC2) fluentdでログの収集 fluentdの仕組み 1つのメッセージは、[tag, time, record]で構成される 流れ Inputプラグ…

MLSE機械学習基盤本番適用と運用の事例・知見共有会参加レポート

はじめに MLSE 機械学習基盤 本番適用と運用の事例・知見共有会を視聴させていただいたときのメモです。(Twitterコメントなども合わせてメモ) メモ ゼロから始めるKubeflowでの機械学習パイプライン構築 Reproさん Cloud Composer → Kubeflow プロセスに「…

監視を復習してみた

はじめに 監視を復習してみたときのメモです 参考 入門監視 検討項目とポイント 1. データ収集 一般的にプルよりプッシュ(スケールしやすい) とりあえずOSのメトリクスとかを監視しがちだが、監視の目的から逆算すると、「動いているか」の監視が重要 HTTP…