【Go/Scala/Python/AWS/GCP】Embedded SRE・Platform SRE支援(基本リモート)
作業内容
サービスの信頼性と開発速度を両立させるため、以下いずれか(または双方)を担っていただく想定です。 Embedded SRE:開発チームに入り、サービス特性・開発フェーズに即した SLO(サービスレベル目標)/SLI(指標)の定義、インフラ・CI/CD・監視整備、障害対応・再発防止、運用改善など。 Platform SRE:全社共有インフラ・共通システム基盤の構築・運用改善、クラウド環境(AWS/GCP含む)・コンテナ環境(ECS/EKSなど)・IaC/CI/CD整備・コスト・セキュリティ統制など。 <具体例> ・サービス毎/開発チーム毎の SLO 定義と実装監視設計 ・障害発生時の対応フロー設計・改善提案実行 ・共通インフラの IaC 化、CI/CD パイプライン改善 ・クラウドコスト最適化/セキュリティ強化施策の実行 ・チーム内・組織横断で SRE プラクティス導入支援、勉強会・ドキュメント整備 <目的> ・サービス開発速度を維持・向上させつつ、信頼性(可用性/安定運用/運用効率)を確保。 ・DevOps/SRE文化を社内に醸成し、チーム横断で運用改善を推進。 ■募集背景 人員不足のため。
開発環境
必須スキル
・チーム開発・運用経験(言語:Go / Scala / Python / Perl / TypeScript / JavaScriptなど、 環境:AWS、GCP) ・SREやDevOpsでの信頼性工学(SLO/SLI/運用自動化など)への興味・関心 ・実績ベースで「信頼性工学を定量的・改善サイクルで回した」経験
歓迎スキル
・運用ツールやSLI 計測用のツール設計・実装経験 ・クラウド環境(AWS/GCP)を使った Webサービスの構築・運用経験 ・コンテナ環境(ECS/EKS/GKE/Kubernetes)を活用したサービス運用経験 ・CI/CD や IaC(Terraform/CloudFormation/CDK 等)を用いた環境構築・運用改善経験 ・RDBMS(MySQL/Aurora 等)のチューニング・運用経験
稼働日数
週5日
勤務地
六本木一丁目
募集回数
1回