nokoのブログ

こちらは暫定のメモ置き場ですので悪しからず

開発時に見るコマンド・ショートカット集

Docker Git 仕組み コマンド クローン〜プッシュ 取り込み 取り消し その他 Jupyter Notebook poetry Terminal tmux Vim VSCode Docker $ docker build -t sample_docker . $ docker run -itd -v $(pwd):/opt/mnt -p 18080:8080 sample_docker $ docker ps $…

よく使うgitコマンド

仕組み ワーキングツリー - インデックスエリア - ローカルリポジトリ - リモートリポジトリ origin = リモートリポジトリのインデックス git remote -v で確認可能 git remote add aaa https://github.com/xxx/xxx.git で追加可能。( aaa というインデック…

VertexAIの疑問点

※WIP 全体 対応リージョンの制限はあるか(tkyで利用できるか) AutoML、データセットなど含めて リリースバージョンはGAか Vertex AI Workbenchなど含めて データ基盤(収集, 蓄積, 加工) データセットの利用シーン、利用方法は何か。BQ直接利用との違い(…

ECSを復習してみた

構築手順・CICD設定 0. 全体構成 AmazonECS / Fargate 本番運用のための構築とデプロイ方法まとめから引用 1-1. Clusterの構築 Cluster: TaskとServiceをグルーピングする概念。アプリケーションごと、環境ごとに用意する。 Fargateだとネットワーキングのみ…

MLOps導入に向けたヒアリングチェックリスト

はじめに MLOpsの導入・改善を頼まれたときに、初手でヒアリングすることの簡単なチェックリストです ヒアリング事項 前提条件 (現時点/これから) ☑︎プロジェクト(モデル)の種類 需要予測 / 類似画像検索, etc ☑︎データの種類 テーブルデータ / 画像 / …

統計学チートシート

ロードマップ 統計学基礎 チートシート

機械学習シートシート

ロードマップ Roadmap: How to Learn Machine Learning in 6 Months チートシート 全般 回帰、推薦(教師あり-予測対象が連続) 分類(識別)(教師あり-予測対象が離散) PCA(教師なし-予測対象が連続) クラスタリング(教師なし-予測対象が離散)

エンジニアリングチートシート

ロードマップ DevOps Roadmap チートシート ネットワーク ハードウェア OS データベース セキュリティ

AWSのセキュリティ設定チェックリスト

メモ アイデンティティとアクセス管理 IAMユーザにMFA設定をする IAMユーザにIPアドレス利用制限をする IAMユーザのキーペアをハードコーディングせずIAMロールやCognitoで代替する IAMユーザのキーペアを利用するなら環境変数に設定する IAMのポリシーに職…

nginx設定項目メモ

nginx設定項目メモ(一部) プロセス起動ユーザ user デーモン化 daemon foregroundかbackfroundか。デフォルトはon。(backfround) ワーカープロセス数 worker process マスタープロセスは1つのみですが、ワーカプロセスは ワーカプロセス数をCPUのコア数…

tcpdumpコマンド

オプション(一部) -i : インターフェイス指定。tcpdump -Dで一覧確認する -n : IPアドレスをホスト名に変換させないで表示させる -nn : プロトコル名をポート番号で表示させる -A: 通信内容をASCIIで表示させる -w tcpdump.pcap: パケットキャプチャをファ…

Kaggleスニペット

テーブル pandas csv読み込み import pandas as pd df = pd.read_csv(INPUT_DATA_PATH_DIR + 'train.csv') df.columns pandas EDA import pandas_profiling as pdp pdp.ProfileReport(df) df_gb_label_group = pd.DataFrame({"count": df.groupby("label_gro…

データエンジニアリング実践

はじめに データエンジニアリングまわりを復習したときのメモです。 Webアプリから発生するデータを使ってモデルを継続的に学習させるためのデータ基盤を想定しています。 データエンジニアリング導入以前ver 概要 CSVファイル PoC時点などのシンプルな実装…

Kaggleコンペ開始直後にやっていること

はじめに はじめてKaggleのコンペに参加してみたので、初動でやったことの大まかな流れを備忘までに残しておきます。 やったこと 0. 前提 Kaggleアカウントは作成しておくこと 1. コンペ参加登録 Kaggleページ→compete→sample_compete(対象コンペ)→Join Co…

バックアップリストア改廃を復習してみた

はじめに バックアップリストア改廃を復習してみたときのメモです 5W1Hを意識して漏れなく設計します 一覧 取得元 サービス 項目 インスタンス バックアップ 方式 トリガ タイミング リストア 方式 改廃(取得元) 方式 トリガ ローカル保存世代数 改廃(バ…

データエンジニアリングを復習してみた

概要 -> データエンジニアリング実践も参照 選定ポイント MPPデータベースは、最初にETLプロセスなどでデータを取り込むための手順が必要 元のデータがCSVやJSONで、複雑な加工処理が不要なら、オブジェクトストレージからデータウェアハウスに直接転送してS…

MLモデル評価で考えること

はじめに MLモデル評価のまとめ方メモです メモ 全体を通して、「つまり、現在実践で使えるレベルか?」「課題はどこで、クリアできそうか?それがクリアできたらどれくらい良くなりそうか?」が伝わるようにする 網羅感大事 1. 検証計画再掲 スコープ 検証…

Macの初期セットアップ手順メモ(vivaldi, vscode, xonsh, etc)(2021)

はじめに Macを初期セットアップしたときのメモ。 キーバインド設定 システム環境設定 > キーボード > caps lock -> command(キーボードごとに) ctrlとcmdの入れ替え 入力ソースにローマ字とABC システム環境設定 > キーボード > ショートカット > 入力ソー…

fluentdとKinesisDataFirehostとlogrotateでログの収集とローテをする

はじめに fluentd(EC2→CloudWatchLogs) + Kinesis Data Firehose(EC2→CloudWatchLogs → S3) でログの収集 logrotateでログのローテ・改廃(EC2) fluentdでログの収集 fluentdの仕組み 1つのメッセージは、[tag, time, record]で構成される 流れ Inputプラグ…

MLSE機械学習基盤本番適用と運用の事例・知見共有会参加レポート

はじめに MLSE 機械学習基盤 本番適用と運用の事例・知見共有会を視聴させていただいたときのメモです。(Twitterコメントなども合わせてメモ) メモ ゼロから始めるKubeflowでの機械学習パイプライン構築 Reproさん Cloud Composer → Kubeflow プロセスに「…

監視を復習してみた

はじめに 監視を復習してみたときのメモです 参考 入門監視 検討項目とポイント 1. データ収集 一般的にプルよりプッシュ(スケールしやすい) とりあえずOSのメトリクスとかを監視しがちだが、監視の目的から逆算すると、「動いているか」の監視が重要 HTTP…

実験管理の現実的な導入ステップを考えてみた

WIP 3. 【MLパイプラインの導入】 解決できる課題 ノートブックのみだと、処理が複雑に分岐するときなどに記述し辛い(バッチ処理として自動化し辛い) (前処理/後処理は共通だが、モデル学習部分は並行して色々な処理を試す、など)

MLOps勉強会Tokyo(Online)#3参加レポート

はじめに 第3回 MLOps 勉強会 Tokyo (Online)を視聴させていただいたときのメモです メモ 異音検知プラットフォーム開発におけるMLOpsの実際と考察 リサーチャ、ソフトウェアエンジニア、ユーザのそれぞれの目的 → 結局、ユーザが課題を解決するためにみんな…

Webアプリケーションのアーキテクチャについて考えたこと

はじめに 自分でちょっとしたWebアプリケーションを開発するときに、構成をどうするか悩んだときのメモです。 考えたこと Webアプリケーションフレームワーク 比較 Gitスター数比較 Python 製 Web フレームワークを Flask から FastAPI に変えた話 Flaskと比…

ネットワークを復習してみた

はじめに ネットワークを復習してみたときのメモです 参考 ネットワークはなぜ繋がるのか インフラエンジニアの教科書2 Amazon Web Service 基礎からのネットワーク&サーバー構築 ネットワーク 1. Webブラウザがリクエストを作る リクエストメッセージ リク…

Terraformのディレクトリ構成について考えたこと

前提 小規模というほどではないが決して大規模ではない環境を組むときにちょうどいいTerraformのディレクトリ構成について悩んだときのメモです。 環境ごとにVPCとかのネットワークを切って、それぞれにEC2(ECS)+RDS+S3とかとかを数台ずつ乗せていくくらい。…

Terraformについて調べたことメモ

はじめに Terraformまわりについて復習したときのメモ メモ ディレクトリ構成案(最小構成) . ├── README.md └── stg01 ├── ec2.tf ├── provider.tf └── versions.tf ファイル例 ec2.tf resource "aws_instance" "<pj>-stg01-app-01" { ami = "ami-XXXXX" insta</pj>…

MLOps勉強会Tokyo(Online)#1参加レポート

はじめに 第1回 MLOps 勉強会 Tokyo (Online)を視聴させていただいたときのメモです メモ MLOpsコミュニティの発足にあたり DataRobot シバタさん アンケート 作ったことあるモデル数: 1-10, 11-100がボリュームゾーン 作ったモデルが本番に: 0が55% 可愛そ…

DiscoveryDataScienceMeetup(DsDS)#0参加レポート

はじめに Discovery DataScience Meet up (DsDS) #0に参加させていただいたときのメモです メモ 広告文自動生成プロダクトでDataflowを導入した話 ダイレクトコピーの自動生成 Cloud Runでマイクロサービスを組んでいる 分析はCompute Engineでやっている pa…

スクラム開発でやっていること

はじめに SCRAM BOOT CAMP THE BOOKを読んで、実際に業務にスクラム(ぽいもの)を導入してみました。 スクラム開発とは アジャイル開発のやり方の一つ 「事前に全てを正確に予測し、計画することはできない」ということが前提となるプロジェクトにおいて、 …