Dataflow-ускорители, сетевое оборудование для AI и другие новинки железа - Академия Selectel

Dataflow-ускорители, сетевое оборудование для AI и другие новинки железа

Сергей Ковалев
Сергей Ковалев Продакт-менеджер
12 декабря 2025

Изображение записи

Инфраструктура для задач инференса и ИИ в целом переживает стремительный рост — возможно, самый бурный за всю историю отрасли. Мощность GPU и специализированных ускорителей растет, постоянно выходят новые модели, а сетевые фабрики переходят на скорости терабитного уровня.

На этом фоне производители постоянно представляют новые решения — от революционных dataflow-ускорителей и гипермасштабных коммутаторов до систем жидкостного и иммерсионного охлаждения, без которых уже невозможно строить современные ИИ-кластеры.

В новом дайджесте — ключевые анонсы, большинство из которых завязаны на задачах AI. Подробности под катом!

GPU

Dataflow-ускоритель NextSilicon Maverick-2

NextSilicon Maverick-2. Источник.

NextSilicon представила Maverick-2 — второе поколение своего Intelligent Compute Accelerator (ICA), ориентированного на HPC, научные вычисления и сложные ИИ-нагрузки.

В отличие от традиционных CPU и GPU, Maverick-2 использует dataflow-архитектуру, динамически перестраивая исполнительные блоки во время выполнения программы.

В основе чипа — массив реконфигурируемых ALU (Arithmetic Logic Unit), объединенных в Compute Blocks (CB). Ключевые элементы: Mill-ядра — графы операций, которые ALU выполняют по мере поступления данных; автоматическая репликация Mill-ядер внутри и между CB для увеличения параллелизма; MEP-блоки и RS-станции для оптимизации работы с памятью.

Также есть поддержка любого существующего кода: C++, Fortran, Python, CUDA, ROCm, OneAPI, ИИ-фреймворки. Ускоритель адаптирует топологию вычислений на лету: сближение узлов графа, переключение между векторным и матричным режимами, устранение узких мест за счет дублирования операций. Все это происходит автоматически, разработчику ничего менять не нужно.

Технические характеристики Maverick-2

  • Производство: 5 нм TSMC
  • Тактовая частота: 1,5 ГГц
  • Форм-фактор: PCIe 5.0 x16 (1× кристалл, 400 Вт), OAM (2× кристалла, жидкостное охлаждение, 750 Вт)

Однокристальная версия (PCIe)

  • RISC-V ядра: 32 управляющих
  • Память: 96 ГБ HBM3E
  • Кеш: 128 МБ
  • Сети: 1× 100GbE
  • Охлаждение: воздушное

Двухкристальная версия (OAM)

  • RISC-V ядра: 64 управляющих
  • Память: 192 ГБ HBM3E
  • Кеш: 256 МБ
  • Сети: 2× 100GbE
  • Охлаждение: жидкостное

Компания также показала тестовый кристалл CPU Arbel, который будет хост-процессором будущего Maverick-3.

По мнению NextSilicon, классическая архитектура ограничивает производительность CPU, а GPU требуют специфической разработки (CUDA, сложная память). Maverick-2 делает ставку на автоматическую оптимизацию горячих участков кода: чип анализирует рабочие нагрузки в реальном времени и мгновенно изменяет структуру вычислений, не прерывая выполнение. Это дает производительность, близкую к ASIC, но без потери универсальности.

Массовые поставки устройства запланированы на начало 2026 года, а уже в 2027 году будет представлена третья версия.

Baidu Kunlun M100 и M300 — собственные GPU, а не новое дейтинг-приложение

Фотография с конференции Baidu World 2025.

На конференции Baidu World 2025 в Пекине компания Baidu раскрыла планы по развитию собственного аппаратного стека для ИИ и анонсировала два ускорителя нового поколения — Kunlun M100 и Kunlun M300.

Kunlun M100 — ускоритель для энергоэффективного инференса. Среди его особенностей — оптимизация под массовый инференс, высокая энергоэффективность  («economic-first» дизайны Baidu) и архитектура, ускоряющая MoE-графы.

Kunlun M300 — вариант для обучения мультимодальных моделей триллионного масштаба. GPU ориентирован как на инференс, так и на обучение сверхкрупных моделей. Можно сказать, это решение класса «maximum performance». Kunlun M300 ориентирован на высокую пропускная способность межсоединений (характеристики не раскрыты) и универсальность: обучение + инференс.

Поставки M100 планируются на 2026 год, а M300 — на начало 2027 года. Также Baidu подтвердила, что следующее поколение — серия Kunlun N — запланировано на 2029 год.

Baidu также представила планы по масштабированию вычислительных узлов: Tianchi256 (до 256 ускорителей Kunlun P800) и Tianchi512 (до 512 ускорителей P800). Для понимания масштабов устройств — заявлено, что одиночный Tianchi512 способен обучить модель с 1 трлн параметров

Подразделение Baidu Intelligent Cloud Group уже использует Kunlun-ускорители и AI-платформу Baige. За счет собственной аппаратной базы Baidu шесть лет удерживает лидерство на рынке облачных AI-решений в Китае.

Компания развивает полный вертикальный стек — от чипов до облачных платформ — и стремится сформировать самостоятельную ИИ-инфраструктуру национального уровня.

Tachyum Prodigy — универсальные устройства, совмещающие CPU, GPU и TPU

Источник.

Словацкая компания Tachyum продолжает публиковать спецификации процессоров Prodigy, которые должны объединить функции CPU, GPU и TPU в одном архитектурном решении. По замыслу разработчиков, Prodigy позволит запускать AI-модели на порядки крупнее современных — однако, несмотря на многолетние анонсы, компания пока не представила ни одного работающего кристалла. С 2019 года планы выпуска неоднократно смещались. По итогу релиз перенесен с 2021 на 2025 год.

Тем не менее, Tachyum заявляет, что архитектура Prodigy продолжает эволюционировать вслед за требованиями ИИ-платформ и систем HPC. В новая версии спецификации следующие: Tachyum говорит о переходе на 2-нм техпроцесс и серьезно переработанный дизайн чиплетов.

Основные технические характеристики (Prodigy Ultimate)

  • Техпроцесс: 2 нм
  • Архитектура: до 4 чиплетов
  • Число ядер: до 256 кастомных 64-битных ядер на чиплет, до 1 024 ядер в 4-чиплетной конфигурации
  • Тактовая частота: до 6 ГГц
  • Память: 24 контроллера, DDR5-17600, до 48 ТБ на сокет
  • Интерфейсы: 128 линий PCIe 7.0
  • TDP: до 1 600 Вт
  • Масштабирование: конфигурации до 8 сокетов (8S)

Tachyum обещает поддержку запуска немодифицированных приложений: x86, Arm, RISC-V. Заявления Tachyum о производительности особенно агрессивны, обещан рост AI-производительности в 21,3 раз по сравнению NVIDIA Rubin Ultra NVL576.

Также устройство анонсировано как первое с более чем 1 000 Пфлопс инференса (против ~50 Пфлопс у NVIDIA Rubin). Однако в опубликованных спецификациях фигурируют более сдержанные цифры: FP64 около 400 Тфлопс.

Tachyum продолжает продвигать Prodigy как универсальный сверхмасштабируемый процессор, объединяющий CPU/GPU/TPU-возможности. Новые спецификации выглядят масштабно: до 1 024 ядер, PCIe 7.0, DDR5-17600 и память до 48 ТБ на сокет. Однако компания по-прежнему не продемонстрировала рабочий чип, а сроки выхода неоднократно переносились. Пока Prodigy остается амбициозной архитектурной концепцией, а не реальным продуктом, однако если он выйдет на рынок — это будет амбициозный вызов лидерам.

Платформы

Cisco Unified Edge — платформа для вычислений, хранения данных и организации сети

Cisco Unified Edge. Источник.

Cisco представила новую модульную платформу Unified Edge. Решение ориентировано на предприятия, которым необходимы распределенные ML-модели и быстрый инференс на периферии — в ритейле, медицине, промышленности и других областях, где важны локальная обработка данных и минимальные задержки. Платформа объединяет вычисления, сеть, хранение и средства безопасности в едином аппаратном комплексе.

Unified Edge базируется на двух основных элементах: шасси Cisco UCS XE9305 и вычислительных узлах Cisco UCS XE130c M8. 

Характеристики шасси

  • Форм-фактор: 3U
  • Блоки питания: 2× по 2 400 Вт (80 PLUS Titanium)
  • Охлаждение: 5× малошумных вентиляторов 80 мм
  • Слоты расширения: 1× слот PCIe 5.0 HHHL мощностью до 75 Вт — подходит, например, для GPU NVIDIA L4
  • Управление: 2× контроллера Cisco Edge Chassis Management Controller с горячей заменой

Характеристика вычислительного узла UCS XE130c M8 (до 5 в одной платформе)

  • Процессор: Intel Xeon 6-го поколения Granite Rapids (12, 20 или 32 P-ядра)
  • Оперативная память: 8 слотов DDR5-6400
  • Сетевые интерфейсы: 2× 25GbE (rear) и 2× 10GbE RJ45 (front)
  • Поддержка GPU: слот PCIe 5.0 HHHL до 75 Вт
  • Слоты расширения: карта расширения PCIe 5.0 HHHL 
  • Разъемы: KVM и USB Type-C
  • Встроенное хранилище (RAID): 2× M.2 по 960 ГБ (RAID 1);
  • Основное хранилище: 3 или 4 NVMe SSD E3.S по 30 ТБ, с фронтальным доступом.

Платформа Unified Edge уже открыта для заказов, а первые поставки ожидаются до конца года. Интересны потенциальные объемы продаж и кейсы локального применения таких платформ.

Диски

SSSTC ER4 — SSD на 15,36 Тбайт

SSSTC ER4. Источник.

Компания SSSTC (дочерняя структура Kioxia) представила корпоративные SSD серии ER4, ориентированные на ИИ-инференса, аналитику в реальном времени, виртуализацию и системы хранения SMB-класса. Новые модели подходят также для NAS, резервного копирования и видеонаблюдения, где требуются надежность и стабильная производительность.

Технические характеристики

  • Форм-фактор: SFF
  • Память: 112-слойная Kioxia 3D TLC NAND
  • Контроллер: Innogrit IG5600BAA 575P TFBGA
  • Интерфейс: SATA-3
  • Объем: 7,68 ТБ или 15,36 ТБ
  • Скорость чтения: 550 МБ/с 
  • Скорость записи: 530 МБ/с
  • Заявленный MTBF: 3 млн часов

Также SSD ER4 оснащены корпоративным набором защитных функций: сквозной целостностью данных, безопасным стиранием, AES-256 шифрованием (опционально — TCG Enterprise) и Power Loss Protection (PLP) для защиты при сбое питания.

В период роста цен на память и диски интересна цена на новинку, которая пока не сообщается.

Toshiba HDD S300 AI для умных систем видеонаблюдения

Toshiba HDD S300 AI. Источник.

С помощью искусственного интеллекта решается все больше различных задач. 

Toshiba вывела на рынок линейку S300 AI — жесткие диски, ориентированные на системы видеонаблюдения, где анализ видеопотоков выполняется нейросетями в реальном времени. Диски рассчитаны на работу с многопоточной нагрузкой: до 64 потоков с камер высокого разрешения плюс до 32 потоков AI-аналитики.

Аппаратная часть

  • Тип записи: CMR (традиционная магнитная запись)
  • Форм-фактор: LFF
  • Интерфейс: SATA-3
  • Скорость вращения: 7 200 об/мин
  • Буфер: 512 МБ (8–10 ТБ) / 1 024 МБ (14–24 ТБ)
  • Заполнение корпуса: воздух (8–10 ТБ) / гелий (14–24 ТБ)

Производительность и ресурс

  • Линейная скорость: 281–309 МБ/с
  • MTBF: 2,0–2,5 млн часов
  • Рабочая нагрузка: до 550 ТБ/год
  • Парковка головок: до 600 тыс. циклов

В моделях реализована система Rotational Vibration Safeguard (RVS), снижающая влияние вибраций — это важная опция для серверных шасси с плотной установкой (до 24 HDD). Поставки моделей на 8 и 10 ТБ стартуют в ближайшие недели; версии от 14 до 24 ТБ выйдут в продажу в первом квартале 2026 года.

Сетевое оборудование

Arista R4 — коммутаторы для масштабных AI-кластеров и облачных сред

Arista R4. Источник

Arista Networks расширила портфель решений для высокопроизводительных дата-центров, анонсировала новое семейство коммутаторов R4. Линейка ориентирована на ИИ-фабрики, крупные облака и HPC-сегмент, которому требуется ультранизкая задержка, высокая плотность портов и масштабируемость на десятки Тбит/с.

В серию входят три класса устройств — 7800R4, 7280R4 и 7020R4, охватывающие магистральные, распределительные и пограничные уровни сетевой инфраструктуры. В основе всех новинок лежит программируемая кремниевая платформа Broadcom Jericho3 Qumran3D, которая обеспечивает поддержку современных сетевых архитектур: EVPN, VXLAN, MPLS, SR/SRv6, Segment Routing-TE и т. д.

Отдельные модели оснащены фирменной технологией HyperPort, позволяющей агрегировать 4×800GbE в единый канал 3,2 Тбит/с, что особенно востребовано при построении ИИ-кластеров с интенсивным восточно-западным трафиком.

Arista 7800R4 — модульная флагманская платформа

Предназначение: spine-уровень hyperscale-кластера, backplane-магистрали, ИИ-фабрики. 

Ключевые спецификации

  • Пропускная способность: до 460 Тбит/с, либо 920 Тбит/с в полнодуплексном режиме
  • Порты: до 576× 800GbE, до 1 152× 400GbE, до 4 608× 100GbE
  • Производительность: 173 млрд pps
  • Задержка: < 4 мкс
  • Форм-факторы шасси: 10U / 16U / 23U / 32U
  • Потребление: 6,8–28 кВт
  • HyperPort: поддерживается

Arista 7280R4 — высокоплотная платформа для spine/leaf-уровня

Предназначение: крупные дата-центры, AI/ML-нагрузки, магистрали межкластерной связи.

Ключевые спецификации

  • Конфигурации портов: 32× 800GbE (OSFP/QSFP-DD) или 64× 100GbE + 10× 800GbE
  • Емкость: 25,6 Тбит/с (до 51,2 Тбит/с FDX)
  • Производительность: 9,6 млрд pps
  • Процессор: 8-ядерный x86
  • Память: 64 Гбайт DRAM
  • Накопитель: 480 Гбайт SSD

Arista 7020R4 — компактные коммутаторы для TOR/edge-уровня

Предназначение: пограничные узлы, серверные стойки, гибридные сетевые решения.

Ключевые спецификации

  • Конфигурации портов: 48× 1/10/25GbE SFP или RJ45, + 4/8× 100GbE uplinks
  • Емкость: до 2 Тбит/с
  • Производительность: до 1 млрд pps
  • Задержка: ~3,8 мкс
  • Процессор: 4-ядерный x86
  • Память: 32 Гбайт DRAM
  • SSD: 120 Гбайт

Arista R4 — это обновленный стек сетевых платформ, способный обслуживать современные ИИ-нагрузки, где критичны высокая портовая плотность, низкая задержка и прогнозируемая масштабируемость. Линейка ориентирована на инфраструктуру уровня hyperscale.

Cisco N9100 — высокопроизводительный коммутатор для ИИ

Cisco N9100. Источник.

Компания Cisco представила новый коммутатор семейства N9100, созданный под задачи современных ИИ-центров обработки данных. Модель Cisco N9164E-NS4-O создана на базе Ethernet-платформы NVIDIA Spectrum-X и входит в экосистему NVIDIA Cloud Partner, предлагая решения поставщикам облачных и изолированных инфраструктур.

Ключевые технические особенности

  • ASIC: NVIDIA Spectrum-4
  • Порты: 64× 800G OSFP
  • Совокупная пропускная способность: до 51,2 Тбит/с
  • Поддерживаемые ОС: Cisco NX-OS и SONiC
  • Форм-фактор: 2RU (подходит для ЦОД)

Аппаратная часть коммутатора включает процессор Intel Xeon D-1734NT (Ice Lake-D, 8 ядер/16 потоков, до 3,1 ГГц), 64 ГБ оперативной памяти и встроенный SSD 240 ГБ для служебных задач. Питания обеспечивают два блока по 3 000 Вт, а за охлаждение отвечает модуль hotswap-вентиляторов.

Заявлено, что серия N9100 сочетает сетевые технологии Cisco с производительностью NVIDIA, обеспечивая масштабируемость и предсказуемое поведение сети в нагрузках ИИ-класса. Для расширенного мониторинга используется система управления Cisco Nexus Dashboard.

Nokia — новое поколение дата-центровых коммутаторов 7220 IXR-H6

Nokia 7200 IXR-H6. Источник.

Компания Nokia представила коммутаторы 7220 IXR-H6, ориентированные на высоконагруженные ИИ-кластеры и инфраструктуры гиперскейл-уровня. Линейка обеспечивает расширенные механизмы управления трафиком, минимизацию перегрузок и оптимизацию работы сети в масштабных вычислительных средах. (стандарт Ultra Ethernet Consortium (UEC).

Основные технические характеристики

  • Общая пропускная способность: до 102,4 Тбит/с
  • Интерфейсы: 800GbE и 1.6TbE

В серии две модификации с 64 портами 1.6TbE (версии с воздушным и жидкостным охлаждением), а также модель на 128 портов 800GbE.

У воздушных систем охлаждения предусмотрена горячая замена вентиляторов, что упрощает обслуживание. Тип сетевого ASIC Nokia пока не раскрывает.

Коммутаторы оснащаются резервируемыми источниками питания с поддержкой горячей замены. Из интерфейсов управления доступны RJ45, USB 3.0 и консольный порт. В качестве сетевой операционной системы предлагаются SR Linux NOS или SONiC.

По заявлению Nokia, устройства 7220 IXR-H6 подходят для построения облачных платформ, инфраструктур гиперскейлеров и ИИ-кластеров с числом ускорителей свыше миллиона XPU. Новинки совместимы с различными стойковыми форм-факторами и поступят в продажу в I квартале следующего года.

Cornelis Networks CN6000 — до 800 Гбит/с

Cornelis Network CN6000. Источник.

Компания Cornelis Networks анонсировала сетевой адаптер CN6000 SuperNIC, рассчитанный на инфраструктуры AI и высокопроизводительных вычислений (HPC). Новинка обеспечивает скорость передачи данных до 800 Гбит/с и уже привлекла внимание крупных отраслевых игроков, среди которых Lenovo, Synopsys и Atipa Technologies.

Адаптер построен на фирменной архитектуре Omni-Path и полностью совместим со стандартами Ultra Ethernet и RoCEv2, что делает его пригодным для сред с высокими требованиями к пропускной способности и задержкам.

Ключевые характеристики CN6000 SuperNIC

  • Пропускная способность: до 800 Гбит/с
  • Производительность сообщений: до 1,6 млрд msg/s
  • Оптимизация под крупные кластерные конфигурации ИИ и HPC

Cornelis подчеркивает, что традиционные реализации RoCEv2 сталкиваются с проблемами масштабируемости из-за ограничений на количество пар очередей (QP) и высокой нагрузки на память. CN6000 SuperNIC решает эту задачу с помощью «облегченных» алгоритмов QP и аппаратно-ускоренных RoCEv2 In-Flight (RiF) таблиц для отслеживания миллионов параллельных операций.

Такой подход снижает требования к ресурсам, обеспечивает предсказуемую задержку и позволяет сохранять пиковую пропускную способность в кластерах любого размера.

Пробные поставки CN6000 SuperNIC запланированы на середину 2026 года, после чего стартует массовое производство. Решение может существенно ускорить обучение крупных моделей и снизить эксплуатационные затраты дата-центров, ориентированных на AI-нагрузки.

Охлаждение

Модули Alloy Enterprises для прямого жидкостного охлаждения

Alloy Enterprises. Источник.

Alloy Enterprises объявила о выпуске цельных охлаждающих модулей, предназначенных для прямого жидкостного охлаждения (DLC) всех периферийных компонентов серверов — от оперативной памяти до сетевых и оптических модулей. Решение закрывает растущий разрыв в охлаждении между GPU и остальными компонентами серверов по мере увеличения мощности современных AI- и HPC-систем.

Новые решения Alloy Enterprises созданы по технологии Stack Forging, формирующей монолитную конструкцию с микрорельефом каналов. Такая геометрия обеспечивает эффективность теплоотвода и работу под высоким давлением без риска протечек.

Основные технические характеристики

  • Тип охлаждения: прямое жидкостное охлаждение
  • Технология изготовления: монолитная конструкция по технологии Stack Forging
  • Максимальное рабочее давление: до 138 бар без деформации
  • Назначение: периферия высокоплотных AI/HPC-узлов класса 200–600+ кВт

Работа с оперативной памятью

  • Двустороннее охлаждение DIMM
  • Поддержка модулей мощностью >40 Вт (спецификация JEDEC следующего поколения)
  • Горячая замена без отключения/слива жидкости

Сеть

  • Оптические модули 800G и 1,6T: рассеивание до 50 Вт/порт
  • Сетевые адаптеры: равномерный теплоотвод + дополнительная механическая жесткость

С ростом энергопотребления серверных стоек существенно меняется и архитектура теплового контура. Если раньше около 80% потребления приходилось на GPU и 20% оставшегося воздушного охлаждения для периферии было достаточно, то в системах следующего поколения ситуация иная.

Например, стойка NVIDIA GB200 NVL72 потребляет 120–140 кВт, из которых 24–28 кВт приходится на периферийные устройства — все еще в пределах возможностей воздуха.

Но уже платформы класса с GPU NVIDIA Rubin на 600 кВт, потребуют до 100 кВт отвода тепла только для периферии. Это делает DLC и подобные технологии практически обязательным.

Модульная система погружного охлаждения Vertiv CoolCenter Immersion

CoolCenter Immersion. Источник.

Vertiv анонсировала новую платформу иммерсионного охлаждения CoolCenter Immersion, рассчитанную на работу с высокоплотными HPC- и AI-системами. Решение предназначено для ЦОД и обеспечивает эффективность при плотной установке оборудования.

Система поддерживает тепловые нагрузки от 25 кВт до 240 кВт на модуль (форм-фактор 24U–52U) и позволяет добиться показателя PUE ≈ 1,08, что делает ее одной из самых энергоэффективных иммерсионных систем на рынке. Применяемый тип охлаждения: двухконтурное иммерсионное (внешний водяной контур + пластинчатый теплообменник).

Архитектура системы

  • Внутренний или внешний резервуар теплоносителя
  • CDU (блок распределения жидкости)
  • Датчики температуры
  • Регулируемые насосы, трубопроводы, резервный насос
  • Два блока питания
  • Встроенная телеметрия и 9-дюймовый сенсорный дисплей
  • Поддержка интеграции с BMS (система управления зданием)

Развитие иммерсионных систем сдерживается тем, что NVIDIA не сертифицирует иммерсионные СЖО, предпочитая более консервативное DLC. Тем не менее, эксперты ожидают ускорение рынка в 2027–2028 годах, особенно после выхода ускорителей NVIDIA Rubin Ultra, которые будут значительно горячее современных решений.

Заключение

2025 год становится знаковым моментом для серверной индустрии. В бизнес приходят решения, полностью пересматривающие подход к построению вычислительных систем: Dataflow-ускорители автоматизируют оптимизацию кода, GPU национального уровня формируют технологический суверенитет стран, сетевые фабрики поднимают пропускную способность до 102 Тбит/с и выше, а охлаждение становится критическим элементом архитектуры.