Как сократить время обучения нейросетей в пять раз. Опыт EasyMerch

Компания EasyMerch развивает собственные ML-решения. В кейсе рассказываем, как она построила свою IT-инфраструктуру с помощью Selectel, при этом увеличив скорость обучения ML-моделей и сократив расходы на серверы.

Кейс будет полезен для компаний в следующих сферах:

E-commerce
FinTech

Задачи:

Ускорить процесс обучения ML-моделей.
Повысить точность алгоритма определения продуктов.

Продукты и услуги Selectel:

О компании

Платформа EasyMerch помогает производителям товаров массового потребления отслеживать эффективность акций в рознице и управлять наполняемостью полок в магазинах. Также компания предоставляет инструменты для детальной аналитики и прогнозирования.

Для расчета доли полки компания внедряет алгоритм, распознающий товар по фото с точностью более 97%. Кроме этого, платформа автоматизирует отчетность по наличию товаров, что помогает быстрее реагировать на дефицит и повышает продажи.

«Мы активно развиваем собственные ML-решения, поэтому с каждым годом увеличиваем количество серверов с GPU для ускорения и точности определения продуктов. В 2019 году, на старте работы с Selectel, мы арендовали 20 серверов — с тех пор каждый год их число увеличивается на 15-20 машин.»

Владимир Оленин генеральный директор EasyMerch

Вызовы и решения

Предоставить отказоустойчивую инфраструктуру.
ЦОД провайдера соответствуют Tier III. Объекты защищены на случай отключения электричества. Все системы резервируются по схеме N+2.
Оптимизировать суточную нагрузку серверов с учетом активной загрузки изображений с 04:00 до 22:00.
В ночное время запускается фоновое вторичное распознавание. Инфраструктура не простаивает, а алгоритм определяет товары с точностью ≃100%.
Провести миграцию данных в сжатые сроки.
После тестирования GPU под нагрузкой инфраструктура проекта из семи серверов мигрировала в Selectel за одну ночь.

Почему выбрали Selectel

Надежные и безопасные ЦОДы
Сборка кастомных серверов за 1–5 дней
Большие диски для развертывания PostgreSQL

Результаты

1 день

вместо пяти теперь занимает полное обучение новой нейронной сети на 1000-1500 товаров.
22

сервера Selectel с GPU находятся в продакшене.

EasyMerch провели ряд тестов, в том числе с A4000, A5000, RTX 3080, RTX 2080 и Tesla T4. Также составили рейтинг и определили GPU, которые лучше других подходят для решения бизнес-задач и оптимизируют затраты компании.

IT-инфраструктура проекта сейчас выглядит так:

Выделенные серверы Selectel

Арендуйте физические серверы в кастомной или готовой конфигурации.

Техническая архитектура. — *Серверы с GPU на схеме занимают позицию Photo recognition servers.*

Сейчас в инфраструктуре EasyMerch 62 выделенных сервера. Из них 16 с RTX А4000 — это самый большой кластер с GPU в проекте. Конфигурация машин включает NVMe-диски на 256-500 ГБ и 64 RAM. Серверы этой группы выполняют работу широкого профиля: чтение JPEG, распознавание объектов, распаковку данных.

Гибкий подход к выбору комплектующих для серверов позволяет комфортно грузить батчи данных и быстро обучать ML-модели. Благодаря уникальной возможности Selectel по кастомизации сборки заказных серверов, компания собрала одновременно несколько серверов на базе разных платформ и провела собственное исследование совместимости комплектующих и процессоров, а также кастомных настроек операционной системы. Это увеличило скорость обучения на 70% с одновременной экономией средств до 35% на сервер.

Архитектура проекта позволяет развести процесс обработки изображений на два потока: онлайн и в порядке очереди. При скоплении очереди из 100 изображений происходит дополнительная проверка работы инфраструктуры и под нее выделяется больше ресурсов с помощью отдельной подсистемы управления кластером.

На текущий момент EasyMerch использует шесть типов нейросетей, специализированных под разные задачи, и три основные модели GPU:

Серверы с RTX А4000 16 ГБ отвечают за распознавание товаров на полках, ценников, векторизацию изображений, распознавание POSM и другие задачи.
Серверы с GTX 1080 8 ГБ используются для задач классификации, face recognition и проверки на фрод.
Серверы с RTX A5000 24 ГБ выделяют ресурсы на обучение новых нейронных сетей, а при увеличении очереди временно запускают алгоритмы распознавания.

Специалисты Selectel в сжатые сроки предоставили оборудование по индивидуальному заказу, быстро собрали его и ввели в эксплуатацию. Компания также предоставляет SLA — 100% на услугу, чем гарантирует бесперебойную работу серверов и компенсацию за любой простой.