Как развернуть инфраструктуру для ML-задач: опыт Just AI
Чтобы развернуть продуктивную среду для B2B-сервисов на базе разговорного и генеративного ИИ, компания Just AI выбрала инфраструктуру Selectel — одного из наиболее надежных провайдеров в этой области.
Задачи:
- Развернуть инфраструктуру для B2B-сервисов на базе разговорного и генеративного AI.
- Иметь большой выбор оборудования для разных задач.
- Обеспечить стабильную работу сервисов.
Продукты и услуги Selectel:
О компании
Just AI с 2011 года работает в сфере разговорного искусственного интеллекта и специализируется на разработке и применении генеративного ИИ в корпоративной среде. Компания предлагает решения для работы с клиентами, продаж и маркетинга, а также voice-брендинга.
Продукты Just AI используют десятки крупных российских компаний из ритейла, финтеха, телекома и других отраслей.
В продуктовом портфеле компании есть голосовые чат-боты, виртуальные ассистенты, диалоговые платформы и другие AI-решения. Компания активно развивает собственную платформу для хостинга ML-моделей, Caila.
Вызовы и решения
- Создать инфраструктуру для работы AI-продуктов. Компания Just AI развернула продуктивную среду на облачных и выделенных серверах Selectel, которые обеспечивают необходимую эффективность инференса.
- Получить большой выбор GPU под разные задачи. Selectel предложил широкий выбор GPU: от десктопных GTX 1080 до серверных А4000.
- Обеспечить бесперебойную работу сервисов. Инфраструктура Just AI развернута на уровне геораспределенного кластера дата-центров в Москве и Санкт-Петербурге, каждый из которых соответствует международному стандарту Tier III.
Почему выбрали Selectel
- Возможность развернуть инфраструктуру для размещения AI-продуктов в продакшене
- Широкий выбор железа, в том числе видеокарт, под разные задачи
- Отказоустойчивая инфраструктура и ее резервирование на нескольких площадках в Санкт-Петербурге и Москве
Создать инфраструктуру для работы AI-продуктов
Компания Just AI обучает модели и тестирует продукты в основном на собственных серверах. У провайдера она арендует преимущественно инфраструктуру для продакшена, в которой работают клиенты.
Теоретически для работы AI-продуктов можно использовать почти любое оборудование. Но на практике алгоритмы машинного обучения крайне требовательны к железу, поэтому компания Just AI оценивала инфраструктуру провайдера с точки зрения эффективности инференса. Решающими критериями были пропускная способность и время отклика системы, которое не должно превышать 300 мс. Если продакшен голосового и генеративного ИИ разместить на недостаточно мощной инфраструктуре, он будет работать настолько медленно, что его применение потеряет смысл.
Решение
Чтобы обеспечить необходимую производительность, Selectel предложил широкий выбор выделенных и облачных серверов с GPU. Графические ускорители обеспечивают более быструю работу алгоритмов и помогают быстрее выполнять сложные вычисления.
Кроме того, если говорить о создании продуктивной среды для генеративного ИИ, серверы с GPU подходят не только благодаря большей производительности. Их аренда оказывается даже дешевле, чем аренда серверов такой же мощности только с CPU. Компания Just AI провела собственное тестирование и пришла к выводу: сервер с одной GTX 1080 обладает такой же производительностью, как десять аналогичных, в каждом из которых установлено по восемь CPU, но нет видеокарт. При этом стоит он втрое дешевле, а еще один сервер гораздо удобнее обслуживать и настраивать, чем сразу десять.
Получить большой выбор GPU под разные задачи
Спектр задач, которые решает Just AI, достаточно широк. Использовать во всех случаях одно и то же железо не всегда оправданно: одни продукты требуют больше вычислительных ресурсов, другие — меньше. Компании было важно, чтобы провайдер предоставил широкий выбор оборудования и мог обеспечить максимальную утилизацию мощностей.
Решение
В Selectel компания Just AI нашла большой выбор оборудования, подходящего под ее задачи. Например, большие языковые модели семейства Bert, используемые для понимания естественного языка, прекрасно себя чувствуют на относительно недорогих консьюмерских GTX 1080. Этих карт вполне хватает трансформерам для NLU-моделей. Модели синтеза речи требуют больше ресурсов, поэтому работают на гораздо более мощных серверных А4000, которые обеспечивают высокую пропускную способность.
Компания Just AI самостоятельно выполняет тесты на собственном железе и определяет минимальные требования к нему. А Selectel подбирает необходимое оборудование из своего ассортимента.
Кроме того, Just AI активно интересуется новинками железа, которое появляется в Selectel. И периодически арендует свежие модели GPU, чтобы оценить их применимость в своей инфраструктуре.
Selectel возглавляет рейтинг издания CNews GPU Cloud 2023. При его составлении учитывались 12 критериев, включая виды GPU-серверов, количество конфигураций, выбор графических ускорителей и т. д.
Обеспечить бесперебойную работу сервисов
Для Just AI важно, чтобы сервисы были постоянно доступны. Ведь даже небольшие перебои по электричеству в серверной могут вызвать недовольство R&D-отдела и замедлить разработку и тестирование новых продуктов. Но это не должно сказываться на продакшене и комфорте клиентов. Кроме того, компания размещает у провайдера преимущественно инференс-сервисы, которые должны быть доступны в режиме 24/7 и быть максимально отказоустойчивыми.
Решение
Дата-центры Selectel соответствуют международному стандарту Tier III. Это значит, что в них резервируются все системы, коэффициент отказоустойчивости составляет не менее 99,982%, а размещенные сервисы будут работать даже во время ремонтов или отключения электричества.
Инфраструктура Just AI развернута на уровне геораспределенного кластера дата-центров в Москве и Санкт-Петербурге. Это дополнительно повышает надежность в случае непредвиденной ситуации в одном из ЦОДов или даже регионов.
Результаты
-
300
миллисекунд — максимальное время отклика системы в продуктах Just AI, развернутых на инфраструктуре Selectel
-
99,982
% — отказоустойчивость инфраструктуры Selectel, в которой развернуты сервисы Just AI
-
1
сервер с GPU, по подсчетам Just AI, равен по производительности 10 аналогичным серверам только с CPU
Перспективы
Just AI рассматривает Kubernetes в качестве оркестратора своих сервисов, который может распределять нагрузку по GPU.
В системе Just AI довольно много разных задач: векторизация, классификация, извлечение сущностей, исправление опечаток, распознавание и синтез речи и т. д. Под каждую из них есть несколько вариантов ML-моделей. В общей сложности их так много, что запускать и останавливать каждую вручную, одновременно отслеживая и распределяя нагрузку на GPU, нерационально.
Возможно, в будущем решением станет Managed Kubernetes с поддержкой GPU. В рамках услуги поддерживаются все серверные видеокарты облачной платформы. Например, для обучения больших моделей подойдут A2, A30 и A100, а для самых маленьких — T4.