2026年6月19日Ilya · 高级 DevOps / SRE
生产环境 Kubernetes:集群上线前 CTO 检查清单
Kubernetes 承诺「开箱即用的自动扩缩容」。实践中,缺乏规范的集群是昂贵的混乱:CrashLoop、OOMKill、明文密钥,以及周五晚上用 `kubectl apply -f` 部署。
生产环境最低检查清单
- RBAC 与命名空间 — 分离 prod/stage,CI 遵循最小权限。
- Requests/limits — 每个 Deployment 都要设;没有 limits,邻居会互相拖垮。
- Ingress + TLS — cert-manager、HSTS、边缘限流。
- GitOps — Argo CD / Flux,一键回滚。
- 监控 — Prometheus + Pod 重启、饱和度、错误率告警。
- etcd 与 PV 备份 — DR 方案写在纸上,而不是记在 DevOps 脑子里。
常见错误
- 一个集群包办一切 — prod 与实验共用一个命名空间。
- 有状态服务没有 Operator — PostgreSQL「跑在 Pod 里」却没有 Patroni/Crunchy。
- 没有与 prod 拓扑一致的 staging 环境。
我们在高负载与 IoT 项目中搭建并运维集群。服务:交钥匙 Kubernetes、DevOps 与 CI/CD。现有集群审计 — 起价 35 000 ₽,见价格。
主题常见问题
先试点:一个非关键服务、基线策略、可观测性与清晰发布流程,否则复杂度会拖垮交付。
不够:金丝雀、数据库迁移、回滚与有状态组件的窗口仍不可少。
放在带轮换与审计的密钥库,最小权限——不要进仓库或到处明文环境变量。
按服务的 SLO、队列滞后、复制延迟、发布失败与集群余量——与用户路径挂钩。
相关文章
DevOps / SRE2026年6月19日
生产环境 DevOps 与 CI/CD:应优先配置什么
面向业务的 DevOps 服务:构建流水线、Staging、零停机部署、 监控与回滚 — 前 4–6 周的优先级。
阅读文章DevOps / SRE2026年1月5日
为什么企业需要 SRE?将可靠性转化为金钱
企业为何需要 SRE:SLI、SLO、错误预算与“可靠性=成本”的视角,在不过度追求虚荣可用性的前提下平衡发布速度。
阅读文章DevOps / SRE2025年12月10日
CI/CD:如何不再害怕周五发布
面向业务结果的 CI/CD:手动发布为何比宕机更贵、流水线如何降低发布风险,以及从代码仓库到生产环境应优先自动化的环节。
阅读文章