Мониторинг в Production: Метрики, которые нельзя игнорировать
Вы узнаёте о падении сайта из гневного твита клиента? Поздравляю, у вас нет мониторинга. Или он настроен так, что толку от него ноль. Давайте исправим это.
Дашборд мониторинга: что должно быть на экране
📊 Production Dashboard
Метрика #1: Latency (Задержка ответа)
Что измеряем: Время от запроса до ответа. Не среднее, а перцентили — p95, p99.
Почему важно: Средняя задержка 100ms может скрывать, что 5% пользователей ждут 5 секунд.
Порог алерта: p95 > 500ms, p99 > 2s.
Метрика #2: Error Rate (Процент ошибок)
Что измеряем: Доля HTTP 5xx ошибок к общему числу запросов.
Почему важно: 1% ошибок при 10,000 RPS = 100 пользователей в минуту видят "Internal Server Error".
Порог алерта: > 0.5% за 5 минут.
Метрика #3: Saturation (Насыщение ресурсов)
Что измеряем: CPU, RAM, Disk I/O, сетевые соединения.
Почему важно: Когда CPU на 95%, система уже не справляется. Нужно знать об этом на 70%.
Порог алерта: CPU > 70%, RAM > 85%, Disk I/O > 80%.
Метрика #4: Traffic (Трафик)
Что измеряем: RPS (requests per second), активные пользователи.
Почему важно: Резкий скачок трафика может быть DDoS-атакой или вирусным постом о вас.
Порог алерта: Отклонение > 200% от нормы за 10 минут.
Инструменты: что использовать
- Prometheus + Grafana: Золотой стандарт для метрик. Open-source, гибкий.
- Datadog: SaaS-решение "всё в одном". Дорого, но удобно.
- Zabbix: Для тех, кто любит enterprise и не боится сложности.
Совет NineLab: Мониторинг — это не "поставил и забыл". Алерты нужно регулярно пересматривать. Если вас будят ночью из-за ложных срабатываний — вы перестанете на них реагировать.
Вывод: Хороший мониторинг — это когда вы узнаёте о проблеме раньше, чем она станет катастрофой. Настройте эти 4 метрики, и вы будете спать спокойно.