生产环境监控:不可忽视的指标
你是从愤怒的客户推文中得知网站宕机的吗?恭喜,你没有监控。或者它配置得太差以至于毫无用处。让我们解决这个问题。
监控仪表板:屏幕上应该显示什么
📊 Production Dashboard
指标 #1:延迟(响应延迟)
我们测量什么: 从请求到响应的时间。不是平均值,而是百分位数 — p95、p99。
为什么重要: 平均延迟 100ms 可能隐藏了 5% 的用户等待 5 秒的事实。
警报阈值: p95 > 500ms,p99 > 2s。
指标 #2:错误率
我们测量什么: HTTP 5xx 错误与总请求的比率。
为什么重要: 在 10,000 RPS 下 1% 的错误 = 每分钟 100 个用户看到"内部服务器错误"。
警报阈值: 5 分钟内 > 0.5%。
指标 #3:饱和度(资源饱和)
我们测量什么: CPU、RAM、磁盘 I/O、网络连接。
为什么重要: 当 CPU 达到 95% 时,系统已经在失败。你需要在 70% 时就知道。
警报阈值: CPU > 70%,RAM > 85%,磁盘 I/O > 80%。
指标 #4:流量
我们测量什么: RPS(每秒请求数)、活跃用户。
为什么重要: 突然的流量激增可能是 DDoS 攻击或关于你的病毒式帖子。
警报阈值: 10 分钟内偏离基线 > 200%。
工具:使用什么
- Prometheus + Grafana: 指标的黄金标准。开源,灵活。
- Datadog: SaaS"一体化"解决方案。昂贵但方便。
- Zabbix: 适合那些喜欢企业级且不怕复杂性的人。
NineLab 建议: 监控不是"设置后就忘记"。警报需要定期审查。如果你因为误报而在半夜被吵醒 — 你将停止对它们做出反应。
结论: 良好的监控意味着你在问题变成灾难之前就了解它们。设置这 4 个指标,你将睡得安稳。
主题常见问题
先试点:一个非关键服务、基线策略、可观测性与清晰发布流程,否则复杂度会拖垮交付。
不够:金丝雀、数据库迁移、回滚与有状态组件的窗口仍不可少。
放在带轮换与审计的密钥库,最小权限——不要进仓库或到处明文环境变量。
按服务的 SLO、队列滞后、复制延迟、发布失败与集群余量——与用户路径挂钩。
相关文章
为什么企业需要 SRE?将可靠性转化为金钱
企业为何需要 SRE:SLI、SLO、错误预算与“可靠性=成本”的视角,在不过度追求虚荣可用性的前提下平衡发布速度。
阅读文章CI/CD:如何不再害怕周五发布
面向业务结果的 CI/CD:手动发布为何比宕机更贵、流水线如何降低发布风险,以及从代码仓库到生产环境应优先自动化的环节。
阅读文章