Как мы выбирали лучшие из 9 новых GPU NVIDIA
Сергей Ковалев
Категорийный менеджер

Весной 2021 года NVIDIA представила новую линейку видеокарт RTX Ax000 и Ax0 на архитектуре Ampere, с тензорными ядрами третьего поколения. Мы отобрали лучшие для серверов Selectel.

На тот момент в Selectel уже можно было арендовать выделенные и облачные серверы с GPU Tesla M60, T4, V100 и даже топовыми NVIDIA A100.

Поскольку мы стараемся предоставлять клиентам только актуальное железо с современными технологиями, решили, что пора обновить линейку видеокарт. Предлагать все анонсированные NVIDIA видеокарты нерационально как для нас, так и для клиентов. Под катом расскажу, как мы выбирали лучших из лучших и поделюсь результатами нашего бенчмарка на тестовой сборке.

Подход, с помощью которого мы в Selectel выбираем железо — видеокарты, процессоры и другие комплектующие, — довольно прост. Мы предполагаем, что клиент хочет решить свои бизнес-задачи эффективно и с минимальными затратами. Соответственно, отталкиваемся от следующей формулы:

По ней же мы выбирали лидеров среди новых видеокарт.

Какие видеокарты рассматривали

Сравнивали девять GPU: видеокарты RTX от А2000 до А6000, А10, А16, А30, А40 и A100 PCIe. A2000 вышла только летом этого года, но это не помешало рассмотреть характеристики чипа и протестировать образец.

Тут у нас «семья» RTX Ax000 — от старшей A5000 до младшей А2000.

Все участники тестирования — серверные видеокарты, десктопных GeForce RTX 3080 и 3090 в списке нет. Эти карты (а если быть точным, установка драйверов NVIDIA) запрещены к использованию в серверах в дата-центрах. Производитель строго следит за соблюдением ограничений: санкции за нарушение применяются не только к провайдеру, но и клиенту, который арендует сервер с десктопным железом или устанавливает на нем ПО NVIDIA.

Для оценки видеокарт мы отталкивались от нескольких характеристик, которые важны для решения задач, часто возникающих у клиентов. То есть смотрели на то, за что, вообще, берут эти GPU. Назначение ядер представлено в упрощенной форме, каждый тип влияет на производительность видеокарты.

Среди них:

  1. Число ядер CUDA (для тех, кто не знает, это условное обозначение скалярных вычислительных блоков в видеочипах NVIDIA). Чем больше ядер, тем лучше карта справляется с работой с графикой и вычислениями в целом.
  2. Число тензорных ядер, которые динамически оптимизируют вычисления и здорово справляются с нагрузками, характерными для работы с ИИ, перемножением матриц для обучения нейросетей и анализа данных.
  3. Число RT (Ray Tracing) ядер, которые обеспечивают высокую точность рендеринга.
    К слову, NVIDIA не всегда указывает точное количество CUDA, RT и тензорных ядер. Для сравнения мы использовали данные сторонних источников.
  4. Объем памяти.
  5. Пропускная способность памяти. Эти два пункта логично влияют на производительность видеокарты.
  6. Поддержка виртуальных GPU VDI. Этот пункт важен, поскольку инфраструктуру виртуальных рабочих столов нередко используют наши клиенты.
  7. Энергопотребление. Это, скорее, пунктик для нас: для дата-центра этот показатель важен при выборе корпуса, питания для сервера и стойки.

Вот что получилось по цифрам:

GPURTX A2000RTX A4000RTX A5000RTX A6000A10A16A30A40A100 PCIe
CUDA ядра332861448192107529216*1280 x 43804*107526912*
Тензорные ядра104192256336288*40 x 4224*336432*
RT ядра264864847210 x 484
Объем памяти (ГБ)6 GDDR616 GDDR624 GDDR648 GDDR624 GDDR616 x 4 GDDR624 HBM248 GDDR6 ECC40 HBM2
Пропускная способность памяти (Гб/c)288448768768600200 x 49336961555
Поддержка vGPU VDI+++++++
Максимальное энергопотребление (W)70140230300150250165300250
Данные не предоставляются NVIDIA, взяты из открытых сторонних источников (pny.eu, techpowerup.com).

Какие выводы можно сделать из этой таблички

Для линейки RTX Ax000 характеристики растут почти линейно с ростом индекса модели.

A16 — это четыре видеокарты в одной. NVIDIA позиционирует устройство как специальное решение для VDI.

A30, на первый взгляд, менее производительная, чем A10, однако тип памяти HBM2 имеет большую пропускную способность. NVIDIA позиционирует A30 как решение для ИИ. По обоим устройствам компания не публикует данные по количеству тензорных и других ядер (характеристики получены из сторонних источников).

В сравнение с другими видеокартами в таблице, топовое решение A100 в форм-факторе PCIe имеет максимальную пропускную способность памяти и максимальное количество тензорных ядер, что ожидаемо. Очевидно, что основное назначение этой GPU — работа с искусственным интеллектом и сложными вычислениями. В линейке NVIDIA это самая производительная видеокарта на сегодняшний день, особенно версия с 80 ГБ памяти в форм-факторе SXM. Но последняя распаивается на плате, и из соображений унификации мы рассматривали только вариант в форм-факторе PCIe.

NVIDIA A4000.

А сколько стоит

Следуя уже озвученной формуле по выбору комплектующих, рассмотрим цены. Сложно писать о них в 2021 году, который запомнился кризисом чипов и постоянными перебоями поставок.

Точных цифр не будет по двум причинам. Во-первых, это коммерческая тайна. Во-вторых, и это главное, с момента анонсирования карт весной цены успели измениться (и, уверен, продолжат меняться далее).

Будем использовать такой подход: примем за эталон GPU A5000 — его цена в сравнительной таблице будет равняться 1 «попугаю». Цены на остальные карты я представлю через отношение к цене A5000. A10 и A16 в близком ценовом диапазоне, поэтому «стоят» столько же.

GPUA2000A4000A5000A6000A10A16A30A40A100
Цена0.20.512111.61.73.3

На этом этапе соотношение цен и заявленных характеристик ожидаемо. Первый кандидат на добавление в линейку видеокарт Selectel, на роль младшей модели, – А2000. Также вызывает интерес паритет между A5000, A10 и A16.

Изнанка наших GPU.

Перейдем к тестированию производительности претендентов.

Тестирование видеокарт

Проводить тесты оборудования — обычная практика для Selectel. Мы используем большое количество железа в различных продуктах компании, поэтому тестируем его как на совместимость друг с другом и ПО, так и на производительность.

Для этого у нас есть своя «лаборатория» — Selectel Lab. Некоторое оборудование мы даже предоставляем клиентам для бесплатного тестирования в их проектах. Из свежих примеров: отдаем на тест настоящего монстра DGX A100 c 8 одноименными видеокартами. Подробней о его бенчмарке можно прочитать по ссылке.

Для тестирования новых видеокарт мы собрали тестовые серверы с двумя мощными процессорами от Intel и достаточным количеством оперативной памяти.

Вот один из серверов для тестирования.

Характеристики следующие:

  • 2 × Intel® Xeon® Gold 6240: 18 ядер с частотой 2.6 ГГц
  • 192–384 ГБ DDR4;
  • 240–480 ГБ SSD SATA;
  • 1 × выбранный GPU

Бенчмарки, которые мы выбрали:

GeekBench 5 — общий тест, моделирующий выполнение задач и определяющий производительность GPU.

AI-benchmark — тест производительности, который замеряет скорость обучения и применения различных нейронных сетей на задачах распознавания и классификации.

V-Ray Benchmark — тест для проверки скорости рендеринга.

ffmpeg NVENC — тест на производительность при транскодинге видео.

Результаты тестирования представлены в таблице. Выделили лидеров по каждому пункту.

МодельRTX А2000RTX А4000RTX A5000А10А30А40А100
GeekBench 5OpenCL Compute Score81 638137 850182 930167 215122 106N/A170 137
CUDA Compute Score87 283144 283197 025172 765134 492221 139213 899
AI-benchmarkInference Score8 61113 70718 94715 86018 01618 4895 177
Training Score9 12714 12319 18316 27919 38519 26523 775
AI-Score17 73827 83038 13032 13937 40137 75448 952
V-RayV-Ray Benchmark, vpaths7211 3171 7421 1938971 7381 539
ffmpeg NVENC benchmarkfps172173175N/AN/A157N/A
Время, с110,98110,38108,81N/AN/A121,85N/A
На время написания статьи видеокарт A16 и RTX A6000 на руках у нас не было, поэтому в таблицу они не вошли. Их бенчмарк планируется позже.

Лидеры бенчмарка

По результатам тестирования A5000 побеждает по соотношению цены и качества. Лучший результат в OpenCL Compute Score, незначительно уступает более дорогим A40 и A100 в CUDA Compute Score и подойдет для работы с графикой. Второе место в AI-benchmark после A100. Лидер в V-Ray тесте на скорость рендеринга, лидер в тесте на транскодинг. Поддерживает VDI. Безоговорочно наш вариант, если сопоставить с таблицей цен.

A2000 — в пять раз дешевле A5000, при этом демонстрирует приемлемые результаты бенчмарка для базовой модели. Не поддерживает VDI, но подходит для работы с графикой и задач ИИ.

A4000 — «середнячок» по производительности между A2000 и A5000, не поддерживает VDI, но в остальном выдерживает критику по соотношению цены и результатов бенчмарков.

A100, как я уже писал, — безоговорочный лидер для работы с искусственным интеллектом, обучением моделей, инференсом, анализом данных и сложными вычислениями. Оптимален для инфраструктуры удаленных рабочих столов.

Остальные GPU при сравнении бенчмарков и цены показали меньшие результаты.

Финал

На пьедестале победителей (которые, кстати, уже можно заказать на сайте) — четыре видеокарты. Нашей формуле соответствуют RTX A2000, RTX A4000, RTX A5000 и A100.

Мы хотим предоставить клиентам свободу выбора: от недорогих серверов с одним GPU до кластеров с несколькими видеокартами на борту. Если нужен «крепкий» сервер для рендеринга, добавьте в него A2000 — выполнит работу на пять и не «съест» бюджет. А для амбициозных задач со сложными вычислениями, ИИ, крупными VDI-проектами есть сервер с восемью А100. Уже есть готовый конфиг. Несмотря на наш строгий отбор, мы готовы предоставить клиенту любую карту NVIDIA (кроме десктопных RTX 3080 и 3090, конечно).

Выбранные карты в наличии на складе, а это значит, что кастомный сервер с ними вы получите в течение пяти дней. Если подойдет уже собранный сервер с GPU, он будет готов для работы уже через 2-60 минут.

Что еще почитать по теме

Александр Никифоров 17 ноября 2021

Маленькие «малинки» в крупном дата-центре: автоустановка

Это заключительная часть цикла статей, посвященного интеграции одноплатных компьютеров Raspberry Pi 4 в наши дата-центры. Сегодня соберем эти знания в цельную картину: зачем нам кастомная опция 224 и …
Александр Никифоров 17 ноября 2021
Александр Никифоров 8 ноября 2021

Маленькие «малинки» в крупном дата-центре: Kea DHCP

Мы двигаемся к финалу нашей саги об интеграции Raspberry Pi 4 в выделенные серверы. В первом тексте я рассказал об отличиях процесса загрузки «малинок» от «классических» серверов. Во втором — собрал о…
Александр Никифоров 8 ноября 2021
Александр Никифоров 2 ноября 2021

Маленькие «малинки» в крупном дата-центре: iPXE + Buildroot

Продолжим историю о появлении одноплатников в выделенных серверах. В прошлой статье мы рассмотрели отличие процесса загрузки Raspberry Pi 4 от «‎обычных» серверов и подробно описали, ка…
Александр Никифоров 2 ноября 2021

Новое в блоге

Николай Рубанов 23 ноября 2021

Забэкапьте это немедленно: Veeam Backup & Replication 11 CE с файловым хранилищем Selectel

В этой статье мы покажем, как быстро и за адекватные деньги поднять систему резервного копирования при помощи бесплатной версии приложения от Veeam и файлового хранилища Selectel.
Николай Рубанов 23 ноября 2021
Александр Никифоров 17 ноября 2021

Маленькие «малинки» в крупном дата-центре: автоустановка

Это заключительная часть цикла статей, посвященного интеграции одноплатных компьютеров Raspberry Pi 4 в наши дата-центры. Сегодня соберем эти знания в цельную картину: зачем нам кастомная опция 224 и …
Александр Никифоров 17 ноября 2021