Как сократить время обучения нейросетей в 5 раз
В панель
Изображение записи

Как сократить время обучения нейросетей в пять раз. Опыт EasyMerch

  • Готовые и кастомные выделенные серверы с GPU

  • Сборка кастомных серверов за 1–5 дней

  • Отказоустойчивая инфраструктура

Задача

Быстро мигрировать к российскому провайдеру. Использовать кастомные выделенные серверы с GPU, чтобы сократить время обучения моделей и ускорить time-to-market ML-продуктов.

Решение поможет:

Компаниям, которые ищут гибкий подход к разработке нейросетей и стремятся оптимизировать расходы на инфраструктуру.

Продукты и услуги Selectel:

О компании

Платформа EasyMerch помогает производителям товаров массового потребления отслеживать эффективность акций в рознице и управлять наполняемостью полок в магазинах. Также компания предоставляет инструменты для детальной аналитики и прогнозирования. 

Для расчета доли полки компания внедряет алгоритм, распознающий товар по фото с точностью более 97%. Кроме этого, платформа автоматизирует отчетность по наличию товаров, что помогает быстрее реагировать на дефицит и повышает продажи.

«Мы активно развиваем собственные ML-решения, поэтому с каждым годом увеличиваем количество серверов с GPU для ускорения и точности определения продуктов. В 2019 году, на старте работы с Selectel, мы арендовали 20 серверов — с тех пор каждый год их число увеличивается на 15-20 машин.»

Владимир Оленин генеральный директор EasyMerch

Гибкий подход к выбору комплектующих для серверов позволяет комфортно грузить батчи данных и быстро обучать ML-модели. Благодаря уникальной возможности Selectel по кастомизации сборки заказных серверов, компания собрала одновременно несколько серверов на базе разных платформ и провела собственное исследование совместимости комплектующих и процессоров, а также кастомных настроек операционной системы. Это увеличило скорость обучения на 70% с одновременной экономией средств до 35% на сервер.

  • Вызов

    Предоставить отказоустойчивую инфраструктуру.

    Решение

    ЦОД провайдера соответствуют Tier III. Объекты защищены на случай отключения электричества. Все системы резервируются по схеме N+2.

  • Вызов

    Оптимизировать суточную нагрузку серверов с учетом активной загрузки изображений с 04:00 до 22:00.

    Решение

    В ночное время запускается фоновое вторичное распознавание. Инфраструктура не простаивает, а алгоритм определяет товары с точностью ≃100%.

  • Вызов

    Провести миграцию данных в сжатые сроки.

    Решение

    После тестирования GPU под нагрузкой инфраструктура проекта из семи серверов мигрировала в Selectel за одну ночь.

Результаты 

EasyMerch провели ряд тестов, в том числе с A4000, A5000, RTX 3080, RTX 2080 и Tesla T4. Также составили рейтинг и определили GPU, которые лучше других подходят для решения бизнес-задач и оптимизируют затраты компании.

IT-инфраструктура проекта сейчас выглядит так:

Техническая архитектура.
Серверы с GPU на схеме занимают позицию Photo recognition servers.

Сейчас в инфраструктуре EasyMerch 62 выделенных сервера. Из них 16 с RTX А4000 — это самый большой кластер с GPU в проекте. Конфигурация машин включает NVMe-диски на 256-500 ГБ и 64 RAM. Серверы этой группы выполняют работу широкого профиля: чтение JPEG, распознавание объектов, распаковку данных. 

Архитектура проекта позволяет развести процесс обработки изображений на два потока: онлайн и в порядке очереди. При скоплении очереди из 100 изображений происходит дополнительная проверка работы инфраструктуры и под нее выделяется больше ресурсов с помощью отдельной подсистемы управления кластером.

На текущий момент EasyMerch использует шесть типов нейросетей, специализированных под разные задачи, и три основные модели GPU:

  • Серверы с RTX А4000 16 ГБ отвечают за распознавание товаров на полках, ценников, векторизацию изображений, распознавание POSM и другие задачи.
  • Серверы с GTX 1080 8 ГБ используются для задач классификации, face recognition и проверки на фрод.
  • Серверы с RTX A5000 24 ГБ выделяют ресурсы на обучение новых нейронных сетей, а при увеличении очереди временно запускают алгоритмы распознавания.
Специалисты Selectel в сжатые сроки предоставили оборудование по индивидуальному заказу, быстро собрали его и ввели в эксплуатацию. Компания также предоставляет SLA — 100% на услугу, чем гарантирует бесперебойную работу серверов и компенсацию за любой простой.

Почему выбрали Selectel

  • Свои ЦОДы с максимальной отказоустойчивостью оборудования.

  • Сборка кастомных серверов за 1–5 дней.

  • Большие диски для развертывания PostgreSQL.

  • 1

    день вместо пяти теперь занимает полное обучение новой нейронной сети на 1000-1500 товаров.

  • 22

    сервера Selectel с GPU в продакшене.

Хотите таких же результатов?

Мы знаем, как этого достичь. Оставьте заявку на консультацию, и мы свяжемся с вами в ближайшее время.

Вы всегда можете получить бесплатную консультацию по телефону, 8 800 555 06 75, почте sales@selectel.ru или в Telegram.

Читайте также: