Skip to content

Настройка алертов

Retroview предоставляет мощные инструменты для мониторинга серверов и диагностики входящих потоков. Однако мониторинг становится по-настоящему эффективным, когда вы получаете уведомления о проблемах до того, как они повлияют на пользователей.

Этот дашборд позволяет настроить алерты для всех критических метрик и событий, которые были описаны в документации по мониторингу серверов и захвата.

Проблемы серверов и соответствующие алерты

В разделе Server Stats описаны основные проблемы, которые могут возникнуть с серверами. Для каждой из них есть соответствующий алерт.

Высокая загрузка CPU

Проблема: Как описано в разделе Загрузка CPU, высокая загрузка процессора может привести к деградации качества обработки потоков.

Алерт: cpu_load

Срабатывает, когда средняя загрузка CPU превышает 85% за последний час.

Требуется выбор конкретного сервера.

Настройка: Заведите этот алерт для каждого сервера, чтобы вовремя узнавать о перегрузке и принимать меры по оптимизации или масштабированию инфраструктуры.

Что делать при срабатывании:

  1. Откройте дашборд Server Stats и посмотрите на график CPU для конкретного сервера
  2. Проверьте, есть ли "полка" на графике — если CPU упирается в 100% длительное время, это критично
  3. Обязательно проверьте график загрузки шедулера — это более достоверный индикатор проблемы
  4. Если нагрузка планомерно растет последние 30 дней — начинайте планировать расширение инфраструктуры
  5. Если это разовый всплеск — проверьте, не добавились ли новые потоки или клиенты
  6. Рассмотрите оптимизацию: перенос части потоков на другие серверы или масштабирование кластера

Высокая загрузка планировщика

Проблема: Как объясняется в мониторинге CPU, загрузка шедулера — более достоверная метрика для оценки работоспособности стримингового сервера, чем просто загрузка CPU.

Алерт: scheduler_load

Срабатывает, когда средняя загрузка системного планировщика превышает 85% за последний час.

Требуется выбор конкретного сервера.

Настройка: Обязательно настройте этот алерт для всех серверов. Высокая загрузка шедулера — более критичный показатель, чем загрузка CPU.

Что делать при срабатывании:

  1. Откройте график шедулера для проблемного сервера
  2. Если видите "полку" (планировщик упирается в предел) — это критическая ситуация, сервер не справляется
  3. Проверьте количество потоков и клиентов — возможно была резкая нагрузка
  4. Срочно перенесите часть нагрузки на другие серверы или добавьте новый сервер в кластер
  5. Если загрузка шедулера высокая, но CPU относительно низкий — это нормальная работа виртуальной машины, но запаса по нагрузке уже нет

Нехватка оперативной памяти

Проблема: В разделе Использование оперативной памяти описано, что нестабильное или чрезмерное использование RAM может привести к проблемам с производительностью.

Алерт: memory_usage

Срабатывает, когда среднее использование памяти превышает 85% за последний час.

Требуется выбор конкретного сервера.

Настройка: Настройте для всех серверов, особенно тех, которые обрабатывают большое количество потоков или выполняют транскодирование.

Что делать при срабатывании:

  1. Откройте график памяти для проблемного сервера
  2. Проверьте, стабильное ли использование памяти или оно растет
  3. Растущее использование памяти может указывать на утечку — обратитесь в поддержку с графиками
  4. Проверьте количество активных потоков — возможно их стало больше
  5. Убедитесь, что swap выключен (на стриминговых серверах swap не нужен и опасен)
  6. При необходимости добавьте RAM или перенесите часть нагрузки на другой сервер

Проблемы с дисками

Проблема: Раздел Утилизация диска показывает, как перегрузка дисков может привести к ошибкам записи DVR.

Алерт: disk_io

Срабатывает, когда утилизация диска превышает 85% за последний час.

Требуется выбор конкретного сервера.

Настройка: Критически важен для серверов с DVR. Если видите collapsed writes на графиках ошибок записи, этот алерт поможет выявить проблему до появления failed writes.

Что делать при срабатывании:

  1. Откройте раздел Утилизация диска
  2. Проверьте график ошибок записи DVR — есть ли collapsed writes или failed writes
  3. Если есть collapsed writes — хранилище начинает не успевать, это тревожная ситуация
  4. Если есть failed writes — это уже серьезный отказ, видео потеряно безвозвратно
  5. Проверьте, какие диски перегружены (график процента загрузки диска)
  6. Для сетевых хранилищ — проверьте стабильность скорости записи, возможно проблема в сети
  7. Рассмотрите переход на более быстрые диски, Flussonic RAID для распределения нагрузки, или уменьшение количества DVR на этом сервере

Проблемы входящих потоков и соответствующие алерты

Раздел Мониторинг захвата детально описывает типичные проблемы с входящими потоками. Для их отслеживания предусмотрено несколько типов алертов.

Массовое падение потоков

Проблема: Как показано в примерах аварии у поставщика, может произойти одновременное падение множества потоков.

Алерт: streams_drop

Срабатывает для Watcher, когда более 10% потоков отвалились за указанный период времени.

Не требует выбора сервера – применяется ко всем серверам Watcher.

Настройка: Обязательно настройте этот алерт, если у вас Watcher. Он поможет быстро обнаружить системные проблемы у поставщика контента или в вашей сети.

Что делать при срабатывании:

  1. Откройте дашборд мониторинга захвата
  2. Посмотрите на график проблемных потоков — если много потоков упало одновременно, это системная проблема
  3. Как в примере аварии у поставщика — всё было хорошо и резко испортилось
  4. Звоните поставщику контента — возможно поломка оборудования, проблемы с дескремблированием или другая авария на их стороне
  5. Проверьте свою сеть — нет ли проблем с маршрутизацией или пропускной способностью
  6. Если абоненты не жалуются при массовом падении каналов — возможно эти каналы вам не нужны

Остановка критичных потоков

Проблема: Когда поток, который ранее работал, внезапно останавливается — это критическая ситуация, требующая немедленного вмешательства.

Алерт: stream_dead

Срабатывает, когда поток, который ранее имел вход, внезапно останавливается.

Можно выбрать конкретный сервер или использовать All для глобального применения.

Настройка: Используйте для мониторинга всех потоков. Если у вас есть особо критичные потоки, для них настройте отдельный алерт selected_stream_dead с более строгими параметрами уведомления.

Что делать при срабатывании:

  1. Откройте дашборд мониторинга захвата и выберите упавший поток
  2. Посмотрите на график ошибок потока — что произошло перед остановкой
  3. Проверьте доступность источника — возможно камера отключилась, сервер поставщика недоступен, или проблемы с сетью
  4. Если это RTSP камера — попробуйте переподключиться к ней вручную
  5. Если источник IPTV — проверьте, не истек ли срок авторизации (ошибка 403)
  6. Если много потоков упало одновременно — смотрите рекомендации для алерта streams_drop

Мониторинг выбранных потоков

Алерт: selected_stream_dead

Аналогично stream_dead, но отслеживает только выбранные потоки.

Можно выбрать конкретный сервер или All, и необходимо выбрать, какие потоки отслеживать.

Настройка: Используйте для VIP-каналов или особо важных потоков, настроив отдельную контактную точку с уведомлением ответственных за контент.

Что делать при срабатывании:

Действия такие же, как для stream_dead, но с повышенной срочностью, так как это критичный поток. Немедленно приступайте к диагностике и восстановлению.

Нестабильные потоки (флаппинг)

Проблема: Как описано в разделах о вечернем пике и эпизодических провалах сети, потоки могут периодически терять и восстанавливать соединение.

Алерт: flapping_streams

Срабатывает, когда поток временно теряет вход и восстанавливается более 3 раз в течение 3 часов.

Это может указывать на проблемы с сетью, нестабильный источник входа или нестабильность на стороне сервера.

Можно выбрать конкретный сервер или использовать All для мониторинга всех потоков на предмет флаппинга.

Настройка: Настройте этот алерт для выявления системных проблем с сетью или у провайдера. Флаппинг — это предвестник полного отказа, и его нужно устранять проактивно.

Что делать при срабатывании:

  1. Откройте дашборд мониторинга захвата с широким временным диапазоном (12-24 часа)
  2. Проверьте, есть ли суточная периодичность в проблемах — как в примере вечернего пика
  3. Если проблемы каждый вечер с 19:00 до 01:00 — это перегрузка сети из-за пользовательского трафика
  4. Решение для вечернего пика: разделите сеть физически или через VLAN, настройте QoS
  5. Если флаппинг эпизодический без паттерна — как в примере провалов сети — проверьте загрузку свитчей
  6. Расширьте пропускную способность сети или оптимизируйте маршрутизацию
  7. Проверьте стабильность источника — возможно проблема на стороне камеры или поставщика контента

Флаппинг выбранных потоков

Алерт: selected_stream_flapping

Аналогично flapping_streams, но отслеживает только выбранные потоки.

Необходимо выбрать, какие потоки отслеживать, а также можно выбрать конкретный сервер или использовать All.

Флаппинг может быть вызван проблемами сети, прерываниями на стороне источника или проблемами инфраструктуры доставки.

Настройка: Используйте для критичных потоков, которые должны работать максимально стабильно.

Что делать при срабатывании:

Действия такие же, как для flapping_streams, но с фокусом на конкретный выбранный поток. Проверьте путь от источника до сервера именно для этого потока.

Рост числа оффлайн потоков

Проблема: Постепенное увеличение числа оффлайн потоков может указывать на нарастающую проблему в сети или у поставщика, как показано в примере эпизодических провалов.

Алерт: input_availability_raise_offline

Срабатывает, когда количество оффлайн потоков увеличивается на указанный процент, как показано на графике input_availability.

Может быть создан для всех серверов или для конкретного.

После выбора этого типа алерта появится дополнительное поле, в котором нужно указать процент увеличения оффлайн потоков, который должен вызвать срабатывание алерта.

Настройка: Установите порог в 20-30% для получения раннего предупреждения о проблемах. Это позволит среагировать до того, как проблема затронет большую часть потоков.

Что делать при срабатывании:

  1. Откройте дашборд мониторинга захвата
  2. Посмотрите на динамику роста оффлайн потоков — резкий скачок или постепенный рост
  3. Если рост постепенный — проблема нарастает, возможно деградация сети или источника
  4. Проверьте, локализована ли проблема на одном сервере или затрагивает все
  5. Если проблема на всех серверах одновременно — скорее всего проблема у поставщика контента
  6. Если только на одном сервере — проверьте сетевое подключение этого сервера
  7. Свяжитесь с поставщиком контента или проверьте состояние своей сети до того, как проблема затронет критичную массу потоков

Рост числа проблемных потоков

Проблема: Увеличение количества потоков с ошибками входа (как описано в разделе Ошибки потока) может говорить о деградации качества сети или источников.

Алерт: input_availability_raise_bad

Срабатывает, когда количество потоков с ошибками входа увеличивается на указанный процент, как показано на графике input_availability.

Может быть создан для всех серверов или для конкретного.

После выбора этого типа алерта появится дополнительное поле, в котором нужно указать процент увеличения проблемных потоков, который должен вызвать срабатывание алерта.

Настройка: Установите порог в 15-25% для раннего обнаружения деградации качества потоков. Это особенно важно для IPTV-сервисов с большим количеством каналов.

Что делать при срабатывании:

  1. Откройте дашборд мониторинга захвата
  2. Выберите самые проблемные потоки и изучите детали ошибок
  3. Проверьте список известных ошибок для диагностики конкретных проблем
  4. lost_packets — проблемы с сетью, нужно улучшать канал между источником и сервером
  5. ts_cc (Continuity Counter) — потеря пакетов в MPEG-TS, чинить сеть
  6. ts_scrambled — поток идет шифрованным, срочно разобраться с CAM модулями
  7. src_403/404/500 — проблемы на стороне источника, менять авторизацию или чинить источник
  8. Если ошибки массовые и однотипные — это системная проблема, требуется вмешательство в сеть или у поставщика
  9. Деградация качества приводит к рассыпанию картинки у пользователей — действуйте быстро

Как создать алерт

Пошаговая инструкция

1. Выберите сервер – В верхней части дашборда выберите сервер, к которому должен применяться алерт. Некоторые алерты поддерживают опцию All для применения ко всем серверам.

2. Выберите потоки – Требуется только для алертов, связанных с конкретными потоками (selected_stream_dead, selected_stream_flapping).

3. Выберите алерт – В разделе Available alerts to create выберите тип алерта, который хотите создать, основываясь на рекомендациях выше.

4. Настройте контактную точку

  • Для email можно создать контакт напрямую в разделе Create email contact point
  • Для других типов (Telegram, Slack и т.д.) используйте страницу Grafana Alerting → Contact points

5. Введите имя алерта – Укажите осмысленное имя, отражающее суть проблемы, например: "Production Server CPU Critical" или "VIP Channels Down Alert".

6. Выберите интервал оценки (pending period)

Это время, которое Grafana ждет перед срабатыванием алерта после того, как условие выполнено.

Укажите в форматах:

  • 10s (10 секунд) – для критичных алертов по VIP-потокам
  • 30s (30 секунд) – для важных алертов
  • 1m (1 минута – рекомендуется по умолчанию)
  • 5m (5 минут) – для некритичных предупреждений
  • 1h (1 час) – для мониторинга трендов

Рекомендация: Для алертов по серверам (CPU, memory, disk) используйте 1m или 5m, чтобы избежать ложных срабатываний на кратковременных всплесках. Для критичных потоков можно использовать 30s или даже 10s.

7. Подтвердите – Если все параметры заполнены корректно, алерт будет создан и добавлен в список активных алертов

Создание email контактной точки

Позволяет создать контактную точку для отправки уведомлений алертов на email-адреса. Удобно использовать напрямую из дашборда без перехода в настройки Grafana.

Как создать email контактную точку

1. Имя контакта – Введите уникальное имя для контактной точки. Это имя будет отображаться в выпадающем списке выбора получателей.

2. Email адреса – Введите один или несколько email-адресов для получения уведомлений алертов.

Для ввода нескольких адресов разделите их запятыми.

Пример:

example@mymail.com,example2@mymail.com

После сохранения контактная точка появится в списке и будет доступна для выбора при создании алертов.

Список алертов

Отображает все созданные алерты. Позволяет быстро просмотреть ключевую информацию и управлять существующими алертами.

Отображаемая информация

Имя алерта – Уникальное имя, присвоенное при создании

Папка – Папка или группа, к которой принадлежит алерт

Статус – Если алерт приостановлен, появится метка paused

Управление алертами

У каждого алерта есть кнопка . Нажатие на неё удалит алерт.

Подробнее

Для полной информации и логики алертов перейдите в:

Grafana → Alerting → Alert rules

Список контактных точек

Отображает список всех созданных контактных точек, используемых для отправки уведомлений алертов. Позволяет просматривать и удалять контакты.

Отображаемая информация

Тип – Тип контактной точки (например, Email, Webhook и т.д.)

Имя – Уникальное имя, присвоенное при создании контакта

Управление контактными точками

У каждой контактной точки есть кнопка . Нажатие на неё удалит контакт.

Подробнее

Для просмотра или настройки контактных точек в Grafana перейдите в:

Grafana → Alerting → Contact points