簡介
- 雲端基礎設施與自動化
- 設計與管理可擴展且安全的基礎設施,主要在 GCP、Azure,偶爾在 OCI/AWS 上運行。
- 主要使用 Terraform 實施和管理基礎設施即代碼 (IaC),偶爾使用 Terragrunt 和 Helm。
- 持續集成/持續交付管道
- 使用 GitHub Actions、Jenkins 和 GitHub Enterprise 設計與優化 CI/CD 工作流程(可重用工作流程、OIDC 聯合驗證)。
- 確保微服務和 AI 工作負載的代碼提交到生產的無縫部署管道。
- 容器編排
- 使用 Portainer、Docker 映像庫、Kubernetes 集群等工具管理 Docker 容器,包括 AI 工作負載的 GPU 節點基礎設施。
- 支持金絲雀發布、藍綠部署和自動擴展策略。
- 在 Google Cloud Platform 上實施和管理無伺服器部署(Cloud Functions、Cloud Run)。
- 資源規劃與硬體估算
- 根據資源需求(如感應器數量和存儲需求)協助進行本地和雲端環境的硬體估算。
- 確保所有基礎設施組件的穩健備份策略和數據冗餘。
- 協助團隊審核雲端和本地資源。
- 安全性與合規性
- 強化雲端安全最佳實踐:映像加固、秘密管理、IAM 最小權限、SBOM 和漏洞掃描。
- 就合規要求(SOC 2、ISO 27001)進行協作,並主動回應審核和事件。
- 配置和管理 Cloudflare 以增強安全性和性能。
- 監控與可觀察性
- 使用 Grafana、Prometheus、Loki、Tempo、Datadog、OpenTelemetry 和 Sentry 建立和維護可觀察性技術堆棧。
- 診斷和解決計算、存儲和網絡層的性能瓶頸。
- 監控和優化雲端支出,以確保成本效益。
- 制定和實施災難恢復計劃,定期進行演練以確保業務連續性。
- 團隊協作
- 與工程師合作嵌入 DevOps 最佳實踐。
- 建立並強化基礎設施、流程和故障排除指南的文件標準。
- 使用 Plane 進行衝刺規劃、事件追蹤和交付可見性。
Kubernetes雲端服務 (AWSAzureGCP)基礎設施即代碼 (TerraformAnsible)Jenkins持續集成/持續部署 (CI/CD)