簡介
- 雲端基礎設施與自動化
- 設計與管理可擴展且安全的基礎設施,主要在 GCP、Azure,偶爾在 OCI/AWS 上運行。
- 主要使用 Terraform 實施和管理基礎設施即代碼 (IaC),偶爾使用 Terragrunt 和 Helm。
- 持續集成/持續交付管道
- 使用 GitHub Actions、Jenkins 和 GitHub Enterprise 設計與優化 CI/CD 工作流程(可重用工作流程、OIDC 聯合驗證)。
- 確保微服務和 AI 工作負載的代碼提交到生產的無縫部署管道。
- 容器編排
- 使用 Portainer、Docker 映像庫、Kubernetes 集群等工具管理 Docker 容器,包括 AI 工作負載的 GPU 節點基礎設施。
- 支持金絲雀發布、藍綠部署和自動擴展策略。
- 在 Google Cloud Platform 上實施和管理無伺服器部署(Cloud Functions、Cloud Run)。
- 資源規劃與硬體估算
- 根據資源需求(如感應器數量和存儲需求)協助進行本地和雲端環境的硬體估算。
- 確保所有基礎設施組件的穩健備份策略和數據冗餘。
- 協助團隊審核雲端和本地資源。
- 安全性與合規性
- 強化雲端安全最佳實踐:映像加固、秘密管理、IAM 最小權限、SBOM 和漏洞掃描。
- 就合規要求(SOC 2、ISO 27001)進行協作,並主動回應審核和事件。
- 配置和管理 Cloudflare 以增強安全性和性能。
- 監控與可觀察性
- 使用 Grafana、Prometheus、Loki、Tempo、Datadog、OpenTelemetry 和 Sentry 建立和維護可觀察性技術堆棧。
- 診斷和解決計算、存儲和網絡層的性能瓶頸。
- 監控和優化雲端支出,以確保成本效益。
- 制定和實施災難恢復計劃,定期進行演練以確保業務連續性。
- 團隊協作
- 與工程師合作嵌入 DevOps 最佳實踐。
- 建立並強化基礎設施、流程和故障排除指南的文件標準。
- 使用 Plane 進行衝刺規劃、事件追蹤和交付可見性。
職位要求
- 擁有 5 年以上的雲端/DevOps 工程經驗,最好是在生產環境中。
- 具備 GCP、Azure 的實際操作經驗,並且最好對 AWS 或 OCI 有接觸。
- 在 Terraform、Terragrunt、Helm、Kubernetes 和 Docker 方面具有深厚的專業知識。
- 精通腳本編寫(例如:Python、Bash 或 PowerShell);會 Go/Rust 者佳。
- 在 CI/CD 管道方面具有經驗,特別是使用 GitHub Actions。
- 對以下內容有深入理解:
- VPC、路由、VPN、防火牆、負載均衡器
- Kubernetes 自動擴展和 GPU/CPU 資源管理
- 使用 Datadog、Grafana OSS 和 OpenTelemetry 進行監控、報警和日誌管理
- 熟悉 DevSecOps 實踐和合規控制。
- 擁有強烈的責任感並能在分散式和快節奏的環境中茁壯成長。
Kubernetes雲端服務 (AWSAzureGCP)基礎設施即代碼 (TerraformAnsible)Jenkins持續集成/持續部署 (CI/CD)