Как сократить время обучения нейросетей в 5 раз

Как сократить время обучения нейросетей в пять раз. Опыт EasyMerch

Компания EasyMerch развивает собственные ML-решения. В кейсе рассказываем, как она построила свою IT-инфраструктуру с помощью Selectel, при этом увеличив скорость обучения ML-моделей и сократив расходы на серверы.

Изображение записи

Кейс будет полезен для компаний в следующих сферах:

  • E-commerce
  • FinTech

Задачи:

  • Ускорить процесс обучения ML-моделей.
  • Повысить точность алгоритма определения продуктов.

О компании

Платформа EasyMerch помогает производителям товаров массового потребления отслеживать эффективность акций в рознице и управлять наполняемостью полок в магазинах. Также компания предоставляет инструменты для детальной аналитики и прогнозирования.

Для расчета доли полки компания внедряет алгоритм, распознающий товар по фото с точностью более 97%. Кроме этого, платформа автоматизирует отчетность по наличию товаров, что помогает быстрее реагировать на дефицит и повышает продажи.

«Мы активно развиваем собственные ML-решения, поэтому с каждым годом увеличиваем количество серверов с GPU для ускорения и точности определения продуктов. В 2019 году, на старте работы с Selectel, мы арендовали 20 серверов — с тех пор каждый год их число увеличивается на 15-20 машин.»

Владимир Оленин генеральный директор EasyMerch

Вызовы и решения

  • Предоставить отказоустойчивую инфраструктуру.
    ЦОД провайдера соответствуют Tier III. Объекты защищены на случай отключения электричества. Все системы резервируются по схеме N+2.
  • Оптимизировать суточную нагрузку серверов с учетом активной загрузки изображений с 04:00 до 22:00.
    В ночное время запускается фоновое вторичное распознавание. Инфраструктура не простаивает, а алгоритм определяет товары с точностью ≃100%.
  • Провести миграцию данных в сжатые сроки.
    После тестирования GPU под нагрузкой инфраструктура проекта из семи серверов мигрировала в Selectel за одну ночь.

Почему выбрали Selectel

  • Надежные и безопасные ЦОДы
  • Сборка кастомных серверов за 1–5 дней
  • Большие диски для развертывания PostgreSQL

Результаты

  • 1 день

    вместо пяти теперь занимает полное обучение новой нейронной сети на 1000-1500 товаров.

  • 22

    сервера Selectel с GPU находятся в продакшене.

EasyMerch провели ряд тестов, в том числе с A4000, A5000, RTX 3080, RTX 2080 и Tesla T4. Также составили рейтинг и определили GPU, которые лучше других подходят для решения бизнес-задач и оптимизируют затраты компании.

IT-инфраструктура проекта сейчас выглядит так:

Техническая архитектура.
Серверы с GPU на схеме занимают позицию Photo recognition servers.

Сейчас в инфраструктуре EasyMerch 62 выделенных сервера. Из них 16 с RTX А4000 — это самый большой кластер с GPU в проекте. Конфигурация машин включает NVMe-диски на 256-500 ГБ и 64 RAM. Серверы этой группы выполняют работу широкого профиля: чтение JPEG, распознавание объектов, распаковку данных. 

Гибкий подход к выбору комплектующих для серверов позволяет комфортно грузить батчи данных и быстро обучать ML-модели. Благодаря уникальной возможности Selectel по кастомизации сборки заказных серверов, компания собрала одновременно несколько серверов на базе разных платформ и провела собственное исследование совместимости комплектующих и процессоров, а также кастомных настроек операционной системы. Это увеличило скорость обучения на 70% с одновременной экономией средств до 35% на сервер.

Архитектура проекта позволяет развести процесс обработки изображений на два потока: онлайн и в порядке очереди. При скоплении очереди из 100 изображений происходит дополнительная проверка работы инфраструктуры и под нее выделяется больше ресурсов с помощью отдельной подсистемы управления кластером.

На текущий момент EasyMerch использует шесть типов нейросетей, специализированных под разные задачи, и три основные модели GPU:

  • Серверы с RTX А4000 16 ГБ отвечают за распознавание товаров на полках, ценников, векторизацию изображений, распознавание POSM и другие задачи.
  • Серверы с GTX 1080 8 ГБ используются для задач классификации, face recognition и проверки на фрод.
  • Серверы с RTX A5000 24 ГБ выделяют ресурсы на обучение новых нейронных сетей, а при увеличении очереди временно запускают алгоритмы распознавания.
Специалисты Selectel в сжатые сроки предоставили оборудование по индивидуальному заказу, быстро собрали его и ввели в эксплуатацию. Компания также предоставляет SLA — 100% на услугу, чем гарантирует бесперебойную работу серверов и компенсацию за любой простой.