Данный проект был просмотрен 1198 раз

Диагностика и прогнозирование сбоев в работе систем хранения данных (СХД)

Проект:
Разработка программно-аппаратного компонента для прогнозирования сбоев в работе системы хранения данных с целью предотвращения критических ситуаций, в том числе деградации производительности, отказа сервиса записи/чтения данных и потери данных
Заказчик:
Министерство науки и высшего образования Российской Федерации
Руководитель проекта:
Год:
М.В. Болсуновская
2017-2019
Руководитель проекта:
М.В. Болсуновская
Год:
2017-2019

Работа выполняется при финансовой поддержке Министерства науки и высшего образования Российской Федерации в рамках Федеральной целевой программы «Исследования и разработки по приоритетным направлениям развития научно-технологического комплекса России на 2014-2020 годы». Соглашение о предоставлении субсидии между ФГАОУ ВО «СПбПУ» и Министерством науки и высшего образования Российской Федерации от 03.10.2017 г. № 14.581.21.0023. Уникальный идентификатор – RFMEFI58117X0023.

Индустриальный партнер: ООО «КНС Групп» (Yadro)

Соисполнитель: НИУ «Высшая школа экономики»

В основу решения, разработанного сотрудниками лаборатории «Промышленные системы потоковой обработки данных» (ПСПОД) Центра НТИ СПбПУ, легло модельно-диагностическое программное обеспечение с использованием алгоритмов машинного обучения, позволяющее выявлять внештатные ситуации и аномальное поведение, прогнозировать и предотвращать сбои в СХД.

Результатом проекта станет опытно-промышленный компонент для встраивания в программно-аппаратную архитектуру платформы хранения данных TATLIN, позволяющий своевременно обнаруживать возникающие неисправности, предсказывать их возникновение и определять возможные меры, позволяющие их предотвратить.

Программные модули компонента, созданные на основе комплекса моделей и алгоритмов машинного обучения, позволят обеспечивать детальную диагностику состояния СХД на уровне современных мировых аналогов.

Для обучения алгоритмов использовались как реальные статистические данные о работе различных конфигураций систем хранения данных из продуктового портфеля TATLIN, так и данные, смоделированные при помощи компьютерной программы – имитатора СХД. Рассматривались три основных типа сбоев для любого компонента СХД:

  • отказ – аппаратный компонент не выполняет свои функции и нуждается в замене;
  • ошибка – компонент сохраняет частичную работоспособность;
  • прогнозируемый отказ – составляющая системы работает без внешних симптомов сбоя, но проявляет признаки возможного отказа.

Для диагностирования и прогнозирования различных типов сбоев на основании данных мониторинга применяются алгоритмы, использующие модели, обученные на наборе накопленных исторических данных о функционировании СХД, и алгоритмы выявления аномалий, определяющие отклонение от нормального режима работы системы хранения данных.

В создании программного комплекса применялись различные методы моделирования, в том числе имитационное и системно-динамическое, с построением онтологических и графовых моделей, а также алгоритмы машинного обучения для решения задач классификации и выявления аномалий.

«Применяемые в полученном решении методы и подходы соответствуют современным тенденциям в области диагностики систем хранения данных, обеспечивая высокую эффективность предотвращения сбоев. Внедрение разработанного программного обеспечения позволит существенно повысить сохранность данных и снизить совокупную стоимость пользования системой для ее владельцев, в то же время повышая ее надежность и исключая возможные финансовые или репутационные риски в случае потери или недоступности данных компании», – пояснил руководитель группы разработки Михаил Успенский.

Результаты проекта были представлены на 17-м Международном симпозиуме по интеллектуальным системам и информатике (Сербия, 12-14 сентября 2019).