GPU из облака: реалии и тенденции быстрорастущего рынка

Развитие технологий машинного обучения и искусственного интеллекта вместе с распространением VDI предопределило развитие сегмента GPU Cloud. Но при одинаковых объемах видеопамяти качество сервиса может быть разным: все зависит от типа графических процессоров, скорости обмена данными и другими характеристиками. О целевой аудитории и характеристиках GPU Cloud рассказывает Иван Колегов, менеджер продуктов, Selectel.

Рост популярности облачных платформ с GPU

Портфель предложений современного облачного провайдера становится все более обширным. Заказчики могут использовать целый спектр различных решений — от готовых программных сервисов SaaS и платформ PaaS до аренды виртуальных машин или целой инфраструктуры IaaS. Однако действительно взрывной рост в этом направлении демонстрирует аренда мощностей графических ускорителей или GPU.

Аренда GPU — это один из самых быстрорастущих сегментов бизнеса в Selectel. Результаты 2021 г. показывают увеличение доходов от этого направления в 4 раза по сравнению с 2020 г. Кроме того, в первом полугодии 2022 г. наблюдалось троекратное увеличение объемов, хотя обычно реализация крупных проектов происходит преимущественно в 3 и 4 кварталах. Это значит, что по итогам года рост может стать даже пятикратным. И для этого есть множество причин.

В чем отличие GPU от CPU?

Если говорить про персональный компьютер, то очевидно, что GPU отвечает за графику, а CPU — за основные вычисления. Но даже с учетом этого в последнее время у пользователей появляется все больше возможностей для вычислений на GPU. Так, современные видеокарты позволяют как минимум кодировать видео, а специальные библиотеки типа OpenCL делают возможными проведение специальных расчетов.

Когда речь идет об облачном сервисе, на первый взгляд может показаться, что заказчику безразлично, на базе каких ресурсов провайдера решать свои задачи, но это не так. GPU обладают большим количеством отдельных вычислительных модулей и тем самым оказываются эффективнее в задачах с большой степенью параллелизма.

Так, работа с графикой является только одним из примеров эффективного использования GPU. Во многих научных и промышленных сферах использование графического, а не центрального процессора позволяет поднять эффективность вычислений до 10 и более раз.

Кому нужны GPU из облака?

Из-за особенностей работы спектр задач, для решения которых необходимо или оптимально использование GPU, достаточно широк.

Основное направление, в котором GPU обеспечивают возможности для прорыва — это технологии машинного обучения (ML) и искусственного интеллекта (AI). Для тренировки алгоритмов на больших наборах данных (а именно это позволяет сделать работу AI по-настоящему эффективной) использование большого количества вычислительных блоков дает огромное преимущество. Поэтому все компании, которые занимаются разработкой и совершенствованием нейросетей, предпочитают запускать задачи именно на GPU.

Также среди тех, чья потребность в графических ускорителях очевидна, можно выделить представителей индустрии развлечений — организации, которые разрабатывают и тестируют игры, создают аттракционы виртуальной реальности, генерируют разнообразный контент и так далее.

Кроме того, вычисления на графических процессорах необходимы компаниям, которые производят сложное 3D-моделирование и визуализацию. Им GPU дают преимущество как для работы с моделью, так и для однотипных инженерных расчетов.

Среди клиентов Selectel это направление представлено строительными компаниями и девелоперами, компаниями из сферы машиностроения и автопроизводителями. А учитывая ситуацию на рынке, сегодня спрос растет и со стороны российской авиационной промышленности, которой предстоит произвести огромное количество воздушных судов и компонентов для них.

VDI — новый тренд организации рабочего пространства

Популярной сферой применения GPU в облаке является масштабное развертывание удаленных рабочих мест (VDI). Это направление приобрело особую актуальность в период пандемии. Компании были вынуждены перевести сотрудников на удаленный режим работы, но не могли обеспечить всех инженеров, проектировщиков, дизайнеров и других специалистов мощными компьютерами или ноутбуками с серьезной графической подсистемой.

Однако и после окончания пандемии этот тренд продолжает набирать популярность в связи с сохраняющимся курсом на диверсификацию рабочей силы. Прошлые годы показали, что выгоднее и удобнее бывает нанять сотрудника вне зависимости от региона его проживания, чем арендовать большой офис и размещать людей в Москве или Санкт-Петербурге, а также закупать для каждого специалиста дорогостоящее оборудование.

Почему облачные GPU стали выгоднее?

В последнее время сервис по предоставлению облачных GPU мощностей стал особенно интересен с финансовой точки зрения из-за появления новых технологий виртуализации видеокарт, а также выхода на рынок более интересных графических решений.

На сегодняшний день для поддержки облачных сервисов GPU в основном применяются ускорители лидера рынка. Новые видеокарты корпоративного класса обладают впечатляющей производительностью, а технология mGPU вместе со специализированным ПО открывают возможности для гибкого использования ресурсов. Вендор позволяет разделить видеокарту между пользователями, либо объединить десятки адаптеров, создавая высокопроизводительную систему.

Например, технология NVlink обеспечивает обмен данными между GPU на скорости до 900 Гбайт/с, что больше, чем у современной шины PCI. Благодаря этому появляется возможность установить 8 карт в один и тот же сервер и получить небольшой суперкомпьютер.

Кроме того, управляющее ПО позволяет использовать мощные GPU по-разному, в том числе и в рамках VDI. Технически сегодня можно отдать видеокарту виртуальной машине, обеспечив пользователю полный доступ к ее ресурсам, либо «нарезать» ресурсы адаптера на нужное количество пользователей.

Для тех компаний, которые не обладают большим штатом администраторов для управления ресурсами, есть возможность использовать виртуальные машины с уже распределенными или, наоборот, объединенными GPU в соответствии с их запросами.

Помимо этого, сами графические процессоры тоже стали намного производительнее. Предыдущее поколение GPU Nvidia T4 обладало 16 Гбайт встроенной памяти GDDR. И если считать оптимальным наличие 2 Гбайт видеопамяти для работы одного инженера или проектировщика, к ней можно было подключить до 8 сотрудников.

Новая A16 мало того, что обладает гораздо большим количеством графических процессоров, но и комплектуется 64 Гбайт встроенной памяти. А это значит, что один GPU может быть задействован для работы сразу 32 профессионалов.

Экономика облачной подписки

Доступ к GPU из облака несет в себе сразу несколько преимуществ. Главным из них является возможность воспользоваться высокой производительностью на короткий промежуток времени, что особенно важно при просчете крупных моделей, для финального моделирования или рендеринга.

Кроме того, облачный доступ к GPU выглядит наиболее выгодным решением при работе в формате единичных непрогнозируемых задач. В таком случае вместо покупки техники можно получить доступ к высокой мощности на любой промежуток времени — ведь для расчета модели может понадобится всего несколько часов работы высокопроизводительных GPU.

При этом каждая компания может выбрать свой формат аренды мощностей. Если в организации работает достаточное количество высококвалифицированных сотрудников и администраторов, одной из возможных опций является аренда выделенного сервера и настройка его параметров под свои нужды.

Если же специалисты не могут заниматься подобной настройкой, компания может использовать готовые сервисы на базе облачной платформы. Подобные PaaS-решения становятся все популярнее в части AI и ML, ведь заказчику не нужно беспокоиться о механизмах: данные просто загружаются на сервер для обучения моделей.

Все это можно реализовать по модели pay-as-you-go (для интенсивных и непродолжительных нагрузок) или в рамках прямой аренды (если ожидаются регулярные задачи). При выборе схемы сотрудничества также необходимо учитывать трудозатраты на настройку и время специалистов. Поэтому все чаще заказчики предпочитают получить готовое решение и сразу приступить к работе.

Перспективы рынка

Рынок демонстрирует рост спроса на аренду GPU, и в текущей ситуации преимущество получают те провайдеры, которые смогли сформировать избыточную емкость GPU-серверов. Учитывая, что на рынке корпоративных GPU не возникло таких проблем, как с пользовательскими графическими ускорителями, облачным провайдерам, заранее позаботившимся о приобретения актуального «железа», должно хватить тех каналов, по которым проводятся закупки на данный момент.

За последнее время увеличилось количество требований к надежности сервисов и гарантиям стабильности, хотя для AI и ML, например, отказоустойчивость не так важна — инженерные расчеты и обработка моделей могут и подождать пару часов, пока пройдет восстановление. Тем не менее, заказчики хотят получить весь спектр сервисов от одного провайдера, чтобы свести к минимуму юридические вопросы и работу с документами. В этом смысле все чаще встречаются запросы на территориально-распределенную репликацию между площадками компании. При таком подходе при наличии сбоя виртуальные машины запускаются в другом ЦОДе и время простоя для клиента исчисляется минутами.

Еще одним вектором развития облачных GPU является использование кластеров Managed Kubernetes — это направление особенно популярно среди компаний, занимающихся ML-проектами. Тенденции показывают, что для запуска ML-моделей лучше использовать контейнеры, которые можно развернуть как в облаках, так и на выделенных серверах. Для управления контейнерами есть оркестратор Kubernetes.

Деплой сервисов значительно усложняется из-за специфики Kubernetes. Для помощи администраторам в работе с контейнерами есть Managed Kubernetes, который позволяет автоматизировать основные задачи, связанные с поддержкой приложений.

В настоящее время Selectel работает над тем, чтобы внедрить все современные технологии работы с GPU, а также создать витрину готовых сервисов для любых задач, чтобы заказчики могли выбирать нужные им ресурсы в автоматизированном или полу-автоматизированном режиме. Это планируется сделать на базе облачной платформы, которая используется клиентами для самостоятельного заказа виртуальных машин.

Как известно, некоторые компании ранее арендовали инфраструктуру (в том числе GPU) у зарубежных провайдеров, поэтому в начале года был выявлен тренд на миграцию таких организаций в Россию. Эта тенденция во многом сохраняется, а клиенты, которые переносят инфраструктуру из-за рубежа, приносят с собой новые требования к организации сервисов.

Таким образом, в приоритете оказываются те российские провайдеры, которые уже внедрили лучшие практики и позволяют работать с GPU в том же формате и в соответствии с теми же высокими требованиями, что и зарубежные конкуренты.

Источник: CNews