Поддержка S.M.A.R.T. NVMe SSD и новая проверка REST (JSON) в «Мониторинг Сети (Pro)» 6.8

SMART SSD-дисков, подключаемых через NVMe

В новой версии программы для контроля серверов и сетевого оборудования Мониторинг Сети (Pro) мы добавили поддержку SSD-дисков, подключённых по шине PCI Express (NVM Express или NVMe). Теперь программа их видит и позволяет выбрать из списка дисков при настройке проверки параметров S.M.A.R.T.

Набор параметров S.M.A.R.T. NVMe SSD-дисков отличается от ATA-дисков. В большинстве случаев это набор готовых показателей, без указания пороговых и наихудших значений. Вот пример S.M.A.R.T. SSD M.2 накопителя WD Blue SN500:

critical_warning: 0
temperature: 39
available_spare: 100
available_spare_threshold: 10
percentage_used: 1
data_units_read: 13733602
data_units_written: 14396473
host_reads: 365745477
host_writes: 391133456
controller_busy_time: 836
power_cycles: 1419
power_on_hours: 4612
unsafe_shutdowns: 13
media_errors: 0
num_err_log_entries: 1
warning_temp_time: 0
critical_comp_time: 0

Среди этих параметров наиболее интересными являются:

critical_warning

Параметр, сигнализирующий о состоянии диска:

  • 0 — с диском всё хорошо,
  • 1 — Ресурс носителя ниже порогового значения
  • 2 — Температура превысила пороговое значение
  • 4 — Надежность снижается из-за внутренних ошибок
  • 8 — Носитель переведен в режим только для чтения
  • 16 — Ошибка системы резервного копирования энергозависимой памяти

temperature

Температура в Цельсиях (иногда может быть в Кельвинах — нужно обращать на это внимание). Постоянные перегревы SSD могут привести к быстрому выходу его из строя, поэтому необходимо отслеживать этот параметр.

percentage_used

Израсходованный ресурс SSD в процентах. Как только этот параметр  достигнет 100%, SSD перейдёт в режим для чтения (заблокируется). Это очень важный параметр, который нуждается в мониторинге. Задача администратора — заблаговременно отследить те диски, остаток ресурса которых приближается к максимальному значению, и заменить их.

media_errors

Количество случаев, когда контроллер обнаружил неустранимую ошибку целостности данных. Если значение этого параметра постоянно растёт, следует подумать о замене SSD на новый.

num_err_log_entries

Количество записей журнала с информацией об ошибках за весь срок службы контроллера. Как и в предыдущем случае, следует обращать внимание на рост этого параметра.

 

Проверка REST через HTTP/HTTPS

REST (REpresentational State Transfer) — способ взаимодействия и обмена данными в распределённых системах (например, веб-служб). В общем случае REST является несложным интерфейсом получения информации от системы. Каждая порция данных однозначно определяется URL. Говоря простым языком, REST — это возможность системы отдавать сформированный JSON- или XML-ответ на HTTP-запрос. Ответ может содержать интересующие запрашивающую сторону параметры.

С помощью проверки REST (JSON) можно выполнять мониторинг неограниченного круга систем и приложений, которые предоставляют REST API. К примеру, есть целый класс программ, которые получают информацию о состоянии процессора, памяти, жёсткого диска, кулеров и так далее. Эти программы содержат встроенный web-сервер, который по запросу может передавать эти данные в формате JSON. «Мониторинг Сети» парсит ответ и достаёт из него значения необходимых переменных, которые вы задаёте при настройке проверки.

Работу проверки можно протестировать на бесплатной программе Open Hardware Monitor, которая имеет встроенный web-сервер. Запустите программу, зайдите в меню Options — Remote Web Server  и поставьте там галочку в пункте Run. Затем зайдите там же в меню Port:

 

Откройте ссылку, которая там отображается и скопируйте её в буфер из адресной строки браузера. Затем создайте новую проверку REST и в поле URL вставьте адрес, добавив к нему /data.json. Например: http://172.31.0.1:8085/data.json

Затем, рядом с полем «Значение тега» нажмите кнопку «…» и выберите в дереве параметр, который хотите мониторить. Пусть в нашем примере это будет температура жёсткого диска. Программа автоматически формирует полный путь к этому параметру, поэтому вручную ничего писать не нужно.

 

Задаём порог, при котором проверка будет считаться пройдённой: «Проверка прошла, если значение тега меньше 50». Сохраняем и через некоторое время получаем график изменения температуры HDD.

Аналогично можно настроить работу проверки с любым другим RESTful сервисом, который по запросу GET или POST может возвращать данные в формате JSON.

 

Все изменения версии 6.8 списком: 

  • Добавлена проверка «Параметры REST (JSON) через HTTP/HTTPS».
  • Pro: Добавлена поддержка NVMe SSD в проверке S.M.A.R.T.
  • В проверке RTSP добавлена поддержка новых камер видеонаблюдения (некоторые модели HikVision).
  • Добавлена возможность ввода дробного делителя и множителя параметра мониторинга в настройках проверки.
  • Доработана проверка «Место на диске». Добавлена возможность применения множителя или делителя к результату (можно преобразовать в проценты).
  • Добавлено определение IP-камер и видеорегистраторов при сканировании сети, если они отвечают по RTSP.
  • Pro: Добавлена возможность полной очистки статистики NetFlow.
  • Добавлена возможность возврата к названиям колонок списка проверок по умолчанию.
  • Pro: Web: Добавлено всплывающее окно текстовых оповещений при сигнализации.
  • Доработана функция поиска открытых портов TCP при сканировании сети.
  • Pro: Оптимизирован приём и запись в базу статистики NetFlow.
  • Pro: Расширена диагностика проблем подключения к базе данных консоли и службы.
  • Pro: Оптимизировано чтение настроек программы, ускорена загрузка формы с параметрами.
  • Pro: Доработан сервис Watchdog.
  • Исправлена ошибка с датой начала и конца в отчёте «Общая статистика».

Скачивайте новую версию и обновляйтесь!