2026年1月31日
生产环境监控:不可忽视的指标
你是从愤怒的客户推文中得知网站宕机的吗?恭喜,你没有监控。或者它配置得太差以至于毫无用处。让我们解决这个问题。
监控仪表板:屏幕上应该显示什么
📊 Production Dashboard
Response Time
127ms
✓ Normal (< 200ms)
Error Rate
0.8%
⚠ Warning (> 0.5%)
CPU Usage
45%
✓ Normal (< 70%)
Memory Usage
89%
🔥 Critical (> 85%)
指标 #1:延迟(响应延迟)
我们测量什么: 从请求到响应的时间。不是平均值,而是百分位数 — p95、p99。
为什么重要: 平均延迟 100ms 可能隐藏了 5% 的用户等待 5 秒的事实。
警报阈值: p95 > 500ms,p99 > 2s。
指标 #2:错误率
我们测量什么: HTTP 5xx 错误与总请求的比率。
为什么重要: 在 10,000 RPS 下 1% 的错误 = 每分钟 100 个用户看到"内部服务器错误"。
警报阈值: 5 分钟内 > 0.5%。
指标 #3:饱和度(资源饱和)
我们测量什么: CPU、RAM、磁盘 I/O、网络连接。
为什么重要: 当 CPU 达到 95% 时,系统已经在失败。你需要在 70% 时就知道。
警报阈值: CPU > 70%,RAM > 85%,磁盘 I/O > 80%。
指标 #4:流量
我们测量什么: RPS(每秒请求数)、活跃用户。
为什么重要: 突然的流量激增可能是 DDoS 攻击或关于你的病毒式帖子。
警报阈值: 10 分钟内偏离基线 > 200%。
工具:使用什么
- Prometheus + Grafana: 指标的黄金标准。开源,灵活。
- Datadog: SaaS"一体化"解决方案。昂贵但方便。
- Zabbix: 适合那些喜欢企业级且不怕复杂性的人。
NineLab 建议: 监控不是"设置后就忘记"。警报需要定期审查。如果你因为误报而在半夜被吵醒 — 你将停止对它们做出反应。
结论: 良好的监控意味着你在问题变成灾难之前就了解它们。设置这 4 个指标,你将睡得安稳。