31 января 2026

Мониторинг в Production: Метрики, которые нельзя игнорировать


Вы узнаёте о падении сайта из гневного твита клиента? Поздравляю, у вас нет мониторинга. Или он настроен так, что толку от него ноль. Давайте исправим это.

Дашборд мониторинга: что должно быть на экране

📊 Production Dashboard

Response Time
127ms
✓ Normal (< 200ms)
Error Rate
0.8%
⚠ Warning (> 0.5%)
CPU Usage
45%
✓ Normal (< 70%)
Memory Usage
89%
🔥 Critical (> 85%)

Метрика #1: Latency (Задержка ответа)

Что измеряем: Время от запроса до ответа. Не среднее, а перцентили — p95, p99.

Почему важно: Средняя задержка 100ms может скрывать, что 5% пользователей ждут 5 секунд.

Порог алерта: p95 > 500ms, p99 > 2s.

Метрика #2: Error Rate (Процент ошибок)

Что измеряем: Доля HTTP 5xx ошибок к общему числу запросов.

Почему важно: 1% ошибок при 10,000 RPS = 100 пользователей в минуту видят "Internal Server Error".

Порог алерта: > 0.5% за 5 минут.

Метрика #3: Saturation (Насыщение ресурсов)

Что измеряем: CPU, RAM, Disk I/O, сетевые соединения.

Почему важно: Когда CPU на 95%, система уже не справляется. Нужно знать об этом на 70%.

Порог алерта: CPU > 70%, RAM > 85%, Disk I/O > 80%.

Метрика #4: Traffic (Трафик)

Что измеряем: RPS (requests per second), активные пользователи.

Почему важно: Резкий скачок трафика может быть DDoS-атакой или вирусным постом о вас.

Порог алерта: Отклонение > 200% от нормы за 10 минут.

Инструменты: что использовать

  • Prometheus + Grafana: Золотой стандарт для метрик. Open-source, гибкий.
  • Datadog: SaaS-решение "всё в одном". Дорого, но удобно.
  • Zabbix: Для тех, кто любит enterprise и не боится сложности.
Совет NineLab: Мониторинг — это не "поставил и забыл". Алерты нужно регулярно пересматривать. Если вас будят ночью из-за ложных срабатываний — вы перестанете на них реагировать.

Вывод: Хороший мониторинг — это когда вы узнаёте о проблеме раньше, чем она станет катастрофой. Настройте эти 4 метрики, и вы будете спать спокойно.