Настройка алертов¶
Retroview предоставляет мощные инструменты для мониторинга серверов и диагностики входящих потоков. Однако мониторинг становится по-настоящему эффективным, когда вы получаете уведомления о проблемах до того, как они повлияют на пользователей.
Этот дашборд позволяет настроить алерты для всех критических метрик и событий, которые были описаны в документации по мониторингу серверов и захвата.
Проблемы серверов и соответствующие алерты¶
В разделе Server Stats описаны основные проблемы, которые могут возникнуть с серверами. Для каждой из них есть соответствующий алерт.
Высокая загрузка CPU¶
Проблема: Как описано в разделе Загрузка CPU, высокая загрузка процессора может привести к деградации качества обработки потоков.
Алерт: cpu_load
Срабатывает, когда средняя загрузка CPU превышает 85% за последний час.
Требуется выбор конкретного сервера.
Настройка: Заведите этот алерт для каждого сервера, чтобы вовремя узнавать о перегрузке и принимать меры по оптимизации или масштабированию инфраструктуры.
Что делать при срабатывании:
- Откройте дашборд Server Stats и посмотрите на график CPU для конкретного сервера
- Проверьте, есть ли "полка" на графике — если CPU упирается в 100% длительное время, это критично
- Обязательно проверьте график загрузки шедулера — это более достоверный индикатор проблемы
- Если нагрузка планомерно растет последние 30 дней — начинайте планировать расширение инфраструктуры
- Если это разовый всплеск — проверьте, не добавились ли новые потоки или клиенты
- Рассмотрите оптимизацию: перенос части потоков на другие серверы или масштабирование кластера
Высокая загрузка планировщика¶
Проблема: Как объясняется в мониторинге CPU, загрузка шедулера — более достоверная метрика для оценки работоспособности стримингового сервера, чем просто загрузка CPU.
Алерт: scheduler_load
Срабатывает, когда средняя загрузка системного планировщика превышает 85% за последний час.
Требуется выбор конкретного сервера.
Настройка: Обязательно настройте этот алерт для всех серверов. Высокая загрузка шедулера — более критичный показатель, чем загрузка CPU.
Что делать при срабатывании:
- Откройте график шедулера для проблемного сервера
- Если видите "полку" (планировщик упирается в предел) — это критическая ситуация, сервер не справляется
- Проверьте количество потоков и клиентов — возможно была резкая нагрузка
- Срочно перенесите часть нагрузки на другие серверы или добавьте новый сервер в кластер
- Если загрузка шедулера высокая, но CPU относительно низкий — это нормальная работа виртуальной машины, но запаса по нагрузке уже нет
Нехватка оперативной памяти¶
Проблема: В разделе Использование оперативной памяти описано, что нестабильное или чрезмерное использование RAM может привести к проблемам с производительностью.
Алерт: memory_usage
Срабатывает, когда среднее использование памяти превышает 85% за последний час.
Требуется выбор конкретного сервера.
Настройка: Настройте для всех серверов, особенно тех, которые обрабатывают большое количество потоков или выполняют транскодирование.
Что делать при срабатывании:
- Откройте график памяти для проблемного сервера
- Проверьте, стабильное ли использование памяти или оно растет
- Растущее использование памяти может указывать на утечку — обратитесь в поддержку с графиками
- Проверьте количество активных потоков — возможно их стало больше
- Убедитесь, что swap выключен (на стриминговых серверах swap не нужен и опасен)
- При необходимости добавьте RAM или перенесите часть нагрузки на другой сервер
Проблемы с дисками¶
Проблема: Раздел Утилизация диска показывает, как перегрузка дисков может привести к ошибкам записи DVR.
Алерт: disk_io
Срабатывает, когда утилизация диска превышает 85% за последний час.
Требуется выбор конкретного сервера.
Настройка: Критически важен для серверов с DVR. Если видите collapsed writes на графиках ошибок записи, этот алерт поможет выявить проблему до появления failed writes.
Что делать при срабатывании:
- Откройте раздел Утилизация диска
- Проверьте график ошибок записи DVR — есть ли
collapsed writesилиfailed writes - Если есть
collapsed writes— хранилище начинает не успевать, это тревожная ситуация - Если есть
failed writes— это уже серьезный отказ, видео потеряно безвозвратно - Проверьте, какие диски перегружены (график процента загрузки диска)
- Для сетевых хранилищ — проверьте стабильность скорости записи, возможно проблема в сети
- Рассмотрите переход на более быстрые диски, Flussonic RAID для распределения нагрузки, или уменьшение количества DVR на этом сервере
Проблемы входящих потоков и соответствующие алерты¶
Раздел Мониторинг захвата детально описывает типичные проблемы с входящими потоками. Для их отслеживания предусмотрено несколько типов алертов.
Массовое падение потоков¶
Проблема: Как показано в примерах аварии у поставщика, может произойти одновременное падение множества потоков.
Алерт: streams_drop
Срабатывает для Watcher, когда более 10% потоков отвалились за указанный период времени.
Не требует выбора сервера – применяется ко всем серверам Watcher.
Настройка: Обязательно настройте этот алерт, если у вас Watcher. Он поможет быстро обнаружить системные проблемы у поставщика контента или в вашей сети.
Что делать при срабатывании:
- Откройте дашборд мониторинга захвата
- Посмотрите на график проблемных потоков — если много потоков упало одновременно, это системная проблема
- Как в примере аварии у поставщика — всё было хорошо и резко испортилось
- Звоните поставщику контента — возможно поломка оборудования, проблемы с дескремблированием или другая авария на их стороне
- Проверьте свою сеть — нет ли проблем с маршрутизацией или пропускной способностью
- Если абоненты не жалуются при массовом падении каналов — возможно эти каналы вам не нужны
Остановка критичных потоков¶
Проблема: Когда поток, который ранее работал, внезапно останавливается — это критическая ситуация, требующая немедленного вмешательства.
Алерт: stream_dead
Срабатывает, когда поток, который ранее имел вход, внезапно останавливается.
Можно выбрать конкретный сервер или использовать All для глобального применения.
Настройка: Используйте для мониторинга всех потоков. Если у вас есть особо критичные потоки, для них настройте отдельный алерт selected_stream_dead с более строгими параметрами уведомления.
Что делать при срабатывании:
- Откройте дашборд мониторинга захвата и выберите упавший поток
- Посмотрите на график ошибок потока — что произошло перед остановкой
- Проверьте доступность источника — возможно камера отключилась, сервер поставщика недоступен, или проблемы с сетью
- Если это RTSP камера — попробуйте переподключиться к ней вручную
- Если источник IPTV — проверьте, не истек ли срок авторизации (ошибка 403)
- Если много потоков упало одновременно — смотрите рекомендации для алерта
streams_drop
Мониторинг выбранных потоков¶
Алерт: selected_stream_dead
Аналогично stream_dead, но отслеживает только выбранные потоки.
Можно выбрать конкретный сервер или All, и необходимо выбрать, какие потоки отслеживать.
Настройка: Используйте для VIP-каналов или особо важных потоков, настроив отдельную контактную точку с уведомлением ответственных за контент.
Что делать при срабатывании:
Действия такие же, как для stream_dead, но с повышенной срочностью, так как это критичный поток. Немедленно приступайте к диагностике и восстановлению.
Нестабильные потоки (флаппинг)¶
Проблема: Как описано в разделах о вечернем пике и эпизодических провалах сети, потоки могут периодически терять и восстанавливать соединение.
Алерт: flapping_streams
Срабатывает, когда поток временно теряет вход и восстанавливается более 3 раз в течение 3 часов.
Это может указывать на проблемы с сетью, нестабильный источник входа или нестабильность на стороне сервера.
Можно выбрать конкретный сервер или использовать All для мониторинга всех потоков на предмет флаппинга.
Настройка: Настройте этот алерт для выявления системных проблем с сетью или у провайдера. Флаппинг — это предвестник полного отказа, и его нужно устранять проактивно.
Что делать при срабатывании:
- Откройте дашборд мониторинга захвата с широким временным диапазоном (12-24 часа)
- Проверьте, есть ли суточная периодичность в проблемах — как в примере вечернего пика
- Если проблемы каждый вечер с 19:00 до 01:00 — это перегрузка сети из-за пользовательского трафика
- Решение для вечернего пика: разделите сеть физически или через VLAN, настройте QoS
- Если флаппинг эпизодический без паттерна — как в примере провалов сети — проверьте загрузку свитчей
- Расширьте пропускную способность сети или оптимизируйте маршрутизацию
- Проверьте стабильность источника — возможно проблема на стороне камеры или поставщика контента
Флаппинг выбранных потоков¶
Алерт: selected_stream_flapping
Аналогично flapping_streams, но отслеживает только выбранные потоки.
Необходимо выбрать, какие потоки отслеживать, а также можно выбрать конкретный сервер или использовать All.
Флаппинг может быть вызван проблемами сети, прерываниями на стороне источника или проблемами инфраструктуры доставки.
Настройка: Используйте для критичных потоков, которые должны работать максимально стабильно.
Что делать при срабатывании:
Действия такие же, как для flapping_streams, но с фокусом на конкретный выбранный поток. Проверьте путь от источника до сервера именно для этого потока.
Рост числа оффлайн потоков¶
Проблема: Постепенное увеличение числа оффлайн потоков может указывать на нарастающую проблему в сети или у поставщика, как показано в примере эпизодических провалов.
Алерт: input_availability_raise_offline
Срабатывает, когда количество оффлайн потоков увеличивается на указанный процент, как показано на графике input_availability.
Может быть создан для всех серверов или для конкретного.
После выбора этого типа алерта появится дополнительное поле, в котором нужно указать процент увеличения оффлайн потоков, который должен вызвать срабатывание алерта.
Настройка: Установите порог в 20-30% для получения раннего предупреждения о проблемах. Это позволит среагировать до того, как проблема затронет большую часть потоков.
Что делать при срабатывании:
- Откройте дашборд мониторинга захвата
- Посмотрите на динамику роста оффлайн потоков — резкий скачок или постепенный рост
- Если рост постепенный — проблема нарастает, возможно деградация сети или источника
- Проверьте, локализована ли проблема на одном сервере или затрагивает все
- Если проблема на всех серверах одновременно — скорее всего проблема у поставщика контента
- Если только на одном сервере — проверьте сетевое подключение этого сервера
- Свяжитесь с поставщиком контента или проверьте состояние своей сети до того, как проблема затронет критичную массу потоков
Рост числа проблемных потоков¶
Проблема: Увеличение количества потоков с ошибками входа (как описано в разделе Ошибки потока) может говорить о деградации качества сети или источников.
Алерт: input_availability_raise_bad
Срабатывает, когда количество потоков с ошибками входа увеличивается на указанный процент, как показано на графике input_availability.
Может быть создан для всех серверов или для конкретного.
После выбора этого типа алерта появится дополнительное поле, в котором нужно указать процент увеличения проблемных потоков, который должен вызвать срабатывание алерта.
Настройка: Установите порог в 15-25% для раннего обнаружения деградации качества потоков. Это особенно важно для IPTV-сервисов с большим количеством каналов.
Что делать при срабатывании:
- Откройте дашборд мониторинга захвата
- Выберите самые проблемные потоки и изучите детали ошибок
- Проверьте список известных ошибок для диагностики конкретных проблем
- lost_packets — проблемы с сетью, нужно улучшать канал между источником и сервером
- ts_cc (Continuity Counter) — потеря пакетов в MPEG-TS, чинить сеть
- ts_scrambled — поток идет шифрованным, срочно разобраться с CAM модулями
- src_403/404/500 — проблемы на стороне источника, менять авторизацию или чинить источник
- Если ошибки массовые и однотипные — это системная проблема, требуется вмешательство в сеть или у поставщика
- Деградация качества приводит к рассыпанию картинки у пользователей — действуйте быстро
Как создать алерт¶
Пошаговая инструкция¶
1. Выберите сервер – В верхней части дашборда выберите сервер, к которому должен применяться алерт. Некоторые алерты поддерживают опцию All для применения ко всем серверам.
2. Выберите потоки – Требуется только для алертов, связанных с конкретными потоками (selected_stream_dead, selected_stream_flapping).
3. Выберите алерт – В разделе Available alerts to create выберите тип алерта, который хотите создать, основываясь на рекомендациях выше.
4. Настройте контактную точку –
- Для email можно создать контакт напрямую в разделе Create email contact point
- Для других типов (Telegram, Slack и т.д.) используйте страницу Grafana Alerting → Contact points
5. Введите имя алерта – Укажите осмысленное имя, отражающее суть проблемы, например: "Production Server CPU Critical" или "VIP Channels Down Alert".
6. Выберите интервал оценки (pending period) –
Это время, которое Grafana ждет перед срабатыванием алерта после того, как условие выполнено.
Укажите в форматах:
10s(10 секунд) – для критичных алертов по VIP-потокам30s(30 секунд) – для важных алертов1m(1 минута – рекомендуется по умолчанию)5m(5 минут) – для некритичных предупреждений1h(1 час) – для мониторинга трендов
Рекомендация: Для алертов по серверам (CPU, memory, disk) используйте 1m или 5m, чтобы избежать ложных срабатываний на кратковременных всплесках. Для критичных потоков можно использовать 30s или даже 10s.
7. Подтвердите – Если все параметры заполнены корректно, алерт будет создан и добавлен в список активных алертов
Создание email контактной точки¶
Позволяет создать контактную точку для отправки уведомлений алертов на email-адреса. Удобно использовать напрямую из дашборда без перехода в настройки Grafana.
Как создать email контактную точку¶
1. Имя контакта – Введите уникальное имя для контактной точки. Это имя будет отображаться в выпадающем списке выбора получателей.
2. Email адреса – Введите один или несколько email-адресов для получения уведомлений алертов.
Для ввода нескольких адресов разделите их запятыми.
Пример:
example@mymail.com,example2@mymail.com
После сохранения контактная точка появится в списке и будет доступна для выбора при создании алертов.
Список алертов¶
Отображает все созданные алерты. Позволяет быстро просмотреть ключевую информацию и управлять существующими алертами.
Отображаемая информация¶
Имя алерта – Уникальное имя, присвоенное при создании
Папка – Папка или группа, к которой принадлежит алерт
Статус – Если алерт приостановлен, появится метка paused
Управление алертами¶
У каждого алерта есть кнопка ✕. Нажатие на неё удалит алерт.
Подробнее¶
Для полной информации и логики алертов перейдите в:
Grafana → Alerting → Alert rules
Список контактных точек¶
Отображает список всех созданных контактных точек, используемых для отправки уведомлений алертов. Позволяет просматривать и удалять контакты.
Отображаемая информация¶
Тип – Тип контактной точки (например, Email, Webhook и т.д.)
Имя – Уникальное имя, присвоенное при создании контакта
Управление контактными точками¶
У каждой контактной точки есть кнопка ✕. Нажатие на неё удалит контакт.
Подробнее¶
Для просмотра или настройки контактных точек в Grafana перейдите в:
Grafana → Alerting → Contact points