Поддержка S.M.A.R.T. NVMe SSD и новая проверка REST (JSON) в «Мониторинг Сети (Pro)» 6.8
SMART SSD-дисков, подключаемых через NVMe
В новой версии программы для контроля серверов и сетевого оборудования Мониторинг Сети (Pro) мы добавили поддержку SSD-дисков, подключённых по шине PCI Express (NVM Express или NVMe). Теперь программа их видит и позволяет выбрать из списка дисков при настройке проверки параметров S.M.A.R.T.
Набор параметров S.M.A.R.T. NVMe SSD-дисков отличается от ATA-дисков. В большинстве случаев это набор готовых показателей, без указания пороговых и наихудших значений. Вот пример S.M.A.R.T. SSD M.2 накопителя WD Blue SN500:
critical_warning: 0
temperature: 39
available_spare: 100
available_spare_threshold: 10
percentage_used: 1
data_units_read: 13733602
data_units_written: 14396473
host_reads: 365745477
host_writes: 391133456
controller_busy_time: 836
power_cycles: 1419
power_on_hours: 4612
unsafe_shutdowns: 13
media_errors: 0
num_err_log_entries: 1
warning_temp_time: 0
critical_comp_time: 0
Среди этих параметров наиболее интересными являются:
critical_warning
Параметр, сигнализирующий о состоянии диска:
- 0 — с диском всё хорошо,
- 1 — Ресурс носителя ниже порогового значения
- 2 — Температура превысила пороговое значение
- 4 — Надежность снижается из-за внутренних ошибок
- 8 — Носитель переведен в режим только для чтения
- 16 — Ошибка системы резервного копирования энергозависимой памяти
temperature
Температура в Цельсиях (иногда может быть в Кельвинах — нужно обращать на это внимание). Постоянные перегревы SSD могут привести к быстрому выходу его из строя, поэтому необходимо отслеживать этот параметр.
percentage_used
Израсходованный ресурс SSD в процентах. Как только этот параметр достигнет 100%, SSD перейдёт в режим для чтения (заблокируется). Это очень важный параметр, который нуждается в мониторинге. Задача администратора — заблаговременно отследить те диски, остаток ресурса которых приближается к максимальному значению, и заменить их.
media_errors
Количество случаев, когда контроллер обнаружил неустранимую ошибку целостности данных. Если значение этого параметра постоянно растёт, следует подумать о замене SSD на новый.
num_err_log_entries
Количество записей журнала с информацией об ошибках за весь срок службы контроллера. Как и в предыдущем случае, следует обращать внимание на рост этого параметра.
Проверка REST через HTTP/HTTPS
REST (REpresentational State Transfer) — способ взаимодействия и обмена данными в распределённых системах (например, веб-служб). В общем случае REST является несложным интерфейсом получения информации от системы. Каждая порция данных однозначно определяется URL. Говоря простым языком, REST — это возможность системы отдавать сформированный JSON- или XML-ответ на HTTP-запрос. Ответ может содержать интересующие запрашивающую сторону параметры.
С помощью проверки REST (JSON) можно выполнять мониторинг неограниченного круга систем и приложений, которые предоставляют REST API. К примеру, есть целый класс программ, которые получают информацию о состоянии процессора, памяти, жёсткого диска, кулеров и так далее. Эти программы содержат встроенный web-сервер, который по запросу может передавать эти данные в формате JSON. «Мониторинг Сети» парсит ответ и достаёт из него значения необходимых переменных, которые вы задаёте при настройке проверки.
Работу проверки можно протестировать на бесплатной программе Open Hardware Monitor, которая имеет встроенный web-сервер. Запустите программу, зайдите в меню Options — Remote Web Server и поставьте там галочку в пункте Run. Затем зайдите там же в меню Port:
Откройте ссылку, которая там отображается и скопируйте её в буфер из адресной строки браузера. Затем создайте новую проверку REST и в поле URL вставьте адрес, добавив к нему /data.json. Например: http://172.31.0.1:8085/data.json
Затем, рядом с полем «Значение тега» нажмите кнопку «…» и выберите в дереве параметр, который хотите мониторить. Пусть в нашем примере это будет температура жёсткого диска. Программа автоматически формирует полный путь к этому параметру, поэтому вручную ничего писать не нужно.
Задаём порог, при котором проверка будет считаться пройдённой: «Проверка прошла, если значение тега меньше 50». Сохраняем и через некоторое время получаем график изменения температуры HDD.
Аналогично можно настроить работу проверки с любым другим RESTful сервисом, который по запросу GET или POST может возвращать данные в формате JSON.
Все изменения версии 6.8 списком:
- Добавлена проверка «Параметры REST (JSON) через HTTP/HTTPS».
- Pro: Добавлена поддержка NVMe SSD в проверке S.M.A.R.T.
- В проверке RTSP добавлена поддержка новых камер видеонаблюдения (некоторые модели HikVision).
- Добавлена возможность ввода дробного делителя и множителя параметра мониторинга в настройках проверки.
- Доработана проверка «Место на диске». Добавлена возможность применения множителя или делителя к результату (можно преобразовать в проценты).
- Добавлено определение IP-камер и видеорегистраторов при сканировании сети, если они отвечают по RTSP.
- Pro: Добавлена возможность полной очистки статистики NetFlow.
- Добавлена возможность возврата к названиям колонок списка проверок по умолчанию.
- Pro: Web: Добавлено всплывающее окно текстовых оповещений при сигнализации.
- Доработана функция поиска открытых портов TCP при сканировании сети.
- Pro: Оптимизирован приём и запись в базу статистики NetFlow.
- Pro: Расширена диагностика проблем подключения к базе данных консоли и службы.
- Pro: Оптимизировано чтение настроек программы, ускорена загрузка формы с параметрами.
- Pro: Доработан сервис Watchdog.
- Исправлена ошибка с датой начала и конца в отчёте «Общая статистика».
Скачивайте новую версию и обновляйтесь!