LLM-инференс на фотонах? Передовые технологии, вышедшие в апреле - Академия Selectel

LLM-инференс на фотонах? Передовые технологии, вышедшие в апреле

Сергей Ковалёв
Сергей Ковалёв Продакт-менеджер
21 мая 2026

Majestic Labs Prometheus, Kingston DC3000ME на 30,72 ТБ, TPU восьмого поколения от Google и не только.

Изображение записи

Серверные платформы

Majestic Labs Prometheus: 128 ТБ в одном сервере

Крупный план гравировки фирменного геометрического логотипа и текстового названия Majestic на текстурированной металлической поверхности черного серверного корпуса.
Логотип на корпусе AI-сервера Majestic Labs Prometheus. Источник.

При инференсе больших моделей GPU простаивают, пока ждут данные из памяти. И чем модель крупнее – тем сильнее просадка. Стартап Majestic Labs анонсировал серверную платформу Prometheus на базе собственных чипов Ignite (AIU). Решение примечательно большим суммарным объемом памяти, что позволяет снизить задержки. Подробнее о характеристиках и возможностях новой серверной платформы рассказали в Академии Selectel.

Главный вопрос, который компания аккуратно обходит: какая реальная пропускная способность у этих 128 ТБ? Если она окажется на уровне обычного DDR5, то Prometheus проигрывает HBM-решениям при любом объеме. В общем, ждем результаты независимого тестирования.

Lumai Iris для LLM-инференса на фотонах

Ряд из пяти черных серверных стоек с логотипом Lumai в верхней части, заполненных горизонтальными блоками вычислительной AI-платформы с серебристыми вентиляционными панелями, выстроенных на белом фоне.
Серверные стойки оптической вычислительной платформы Lumai. Источник.

Британский стартап Lumai из Оксфордского университета представил семейство серверов Iris. Целых три модели: Nova, Aura, Tetra — для инференса LLM с использованием оптических вычислений.

Технология трехмерной фотоники преодолевает ограничения последовательной кремниевой микроэлектроники за счет массового пространственного параллелизма, позволяя обрабатывать миллионы световых каналов одновременно в объемной структуре.

Компания заявляет, что именно это дает на порядок более высокую эффективность на этапе матричных умножений, которые составляют основу инференса трансформеров.

Технические характеристики

  • Гибридная архитектура: «оптика» для тензорных вычислений + «цифра» для управления.
  • Поддерживаемые модели: Llama 8B и Llama 70B (на Iris Nova).
  • Заявленное снижение энергопотребления: до 90% по сравнению с GPU-архитектурами.
  • Дезагрегированный инференс: эффективная обработка на этапе prefill.

Iris Nova открыта для оценки гиперскейлерами. Детали архитектуры, бенчмарки, цены пока не раскрываются. Но продолжим следить за новостями.

Внутренние компоненты сервера инференса Lumai Iris Nova в металлическом корпусе, демонстрирующие установленные вертикальные оптические вычислительные платы с подключенными оранжевыми кабелями и закрытый черным кожухом модуль с логотипом Lumai.
Оптическая вычислительная ИИ-платформа Lumai Iris Nova. Источник.

Фотоника теоретически дает огромный параллелизм при низком энергопотреблении. На практике ни одного публичного независимого теста нет. Доступность для оценки гиперскейлерами означает, что позже станет понятно, это технологический прорыв или красивый питч для инвесторов.

Слабое место фотонных вычислений — точность. Оптические вычисления по природе аналоговые и плохо масштабируются на высокую битность. Для инференса с INT8 или FP16 это еще может быть терпимо. Компания пока не объясняет, как устройства справляются с накопленными ошибками в длинных цепочках операций.

Supermicro на AMD EPYC 4005: компактные решения «младших» платформ

Тонкий стоечный сервер Supermicro высотой 1U в черном металлическом корпусе с монтажными креплениями (ушками) по бокам, демонстрирующий переднюю панель с сетевыми портами RJ-45, разъемами USB и вентиляционной решеткой, расположенный на белом фоне.
Компактный сервер начального уровня Supermicro AS-1116R-FN4. Источник.

Supermicro выпустила три компактных сервера на младшей линейке с AMD EPYC 4005 Grado. 

Технические характеристики

  • CPU: EPYC 4005/4004, Socket AM5 (LGA-1718), TDP до 65 Вт.
  • Память: 4 слота DDR5-5600, до 192 ГБ.
  • Хранилище: 1 или 2 × SFF SATA + 1× M.2 2280 + 1× M.2 22110 (оба PCIe 5.0 x4).
  • Расширение: PCIe 5.0 x16.

AS-E300-14GR — в форм факторе mini-1U, AS-1116R-FN4 – 1U малой глубины а AS-3015TR-i4 в формате башенного корпуса. Последний сервер выполнен в форм-факторе Tower и поддерживает установку двухслотовых GPU без дополнительного питания. Это позволяет использовать его для инференса AI-моделей начального уровня — например, в задачах распознавания речи.

Башенный формат меньше всего эффективен для использования в дата-центрах. В остальном, серверы отлично подходят в роли edge-точек, а также для начальных задач инфраструктуры.

TPU восьмого поколения от Google

Две официальные модели тензорных процессоров Google восьмого поколения, размещенные на глянцевой отражающей поверхности: слева представлен чип TPU 8t для обучения моделей, справа — чип TPU 8i для инференса, на фоне размытых серверных печатных плат.
Новые ИИ-ускорители Google TPU 8-го поколения. Источник.

На Google Cloud Next представили TPU восьмого поколения сразу в двух архитектурах. Фактически Google официально подтвердил тренд, который давно витал в воздухе: «один GPU под все» — устаревший подход. Подробнее о новинках уже рассказали в Академии Selectel.

Bolt Graphics Zeus: tape-out есть, готового чипа нет

Bolt Graphics объявила об успешном финальном этапе проектирования тестового чипа Zeus на производственных мощностях TSMC. Создатель компании до текущей деятельности занимался проектированием дата-центров и облачной инфраструктуры, но впоследствии переключился на создание GPU для рендеринга.

Графический ускоритель Bolt Graphics Zeus без радиатора охлаждения, демонстрирующий печатную плату черного цвета с центральным процессором, распаянной встроенной памятью, слотами расширения DDR5 SO-DIMM и внешними интерфейсами подключения, расположенный под углом на комбинированном сине-белом фоне.
Архитектура печатной платы графического процессора Bolt Graphics Zeus. Источник.

Также о прототипе новых GPU Bolt Graphics Zeus подробнее рассказали в отдельной статье.

Позиционирование Zeus — GPU для рендеринга и трассировки лучей, с прицелом на рендер-фермы, VFX-студии и отдельные HPC-задачи вроде ЭМ-симуляций. Это сознательный уход от прямой конкуренции с NVIDIA в инференсе, где разрыв в программном стеке непреодолим в обозримые сроки.

Диски

Micron 6600 ION 245 ТБ: самый большой SSD в продаже

Два серверных твердотельных накопителя Micron 6600 ION емкостью 24.576TB в черных матовых корпусах, демонстрирующие исполнение в различных форм-факторах: U.2 с ребристым радиатором слева и плоский вариант E3.S справа, на чистом белом фоне.
Серверные твердотельные накопители Micron 6600 ION.

Готовятся поставки новых NVMe емкостью 245 ТБ. Вся линейка 6600 ION объединена общей базой.

  • Интерфейс: PCIe Gen5.
  • NAND: 276-слойная G9 QLC.
  • Форм-факторы: E3.L и U.2 (оба варианта — это важно, см. ниже).
  • Поддерживаются также E3.S форм-фактор в емкостях до 122 ТБ.

Характеристики диска на 245,76 ТБ

  • Последовательное чтение: 13,7 ГБ/с.
  • Последовательная запись: 3,0 ГБ/с.
  • Случайное чтение: 1,78 млн IOPS.
  • Случайная запись: 42 000 IOPS (4 КБ блоки).
  • DWPD: 1 (последовательная запись), 0,075 (случайная 4 КБ).
  • Энергопотребление: до 30 Вт.

Стоит отметить, что конкуренты с аналогичным объемом пока не добрались до «полок магазинов».

Kingston DC3000ME 30,72 ТБ: TLC для тех, кто пишет часто

Твердотельный накопитель Kingston DC3000ME PCIe 5.0 NVMe U.2 емкостью 30.72ТБ, выполненный в черном металлическом 2.5-дюймовом корпусе с массивным продольным радиатором охлаждения и белой информационной наклейкой сверху, расположенный под углом на белом фоне.
Серверный NVMe-накопитель Kingston DC3000ME емкостью 30.72ТБ. Источник.

На фоне Micron с ее 245 ТБ скромно вышел Kingston DC3000ME на 30,72 ТБ. Здесь принципиальное отличие: 3D eTLC NAND вместо QLC. TLC переносит намного больше циклов перезаписи, что видно по характеристикам. Это первая модель серии DC3000ME объемом 30 ТБ+ — предыдущие топовые варианты заканчивались на 15,36 ТБ.

Технические характеристики

  • Форм-фактор: U.2, 15 мм (SFF).
  • Интерфейс: PCIe 5.0 x4 (NVMe).
  • NAND: 3D eTLC.
  • Последовательное чтение: 14 ГБ/с.
  • Последовательная запись: 9,7 ГБ/с.
  • Случайное чтение: 2,6 млн IOPS (4 КБ).
  • Случайная запись: 350 000 IOPS (4 КБ).
  • DWPD: 1 в течение пяти лет (56 064 ТБ суммарной записи, TBW).
  • MTBF: 2 млн часов.

PetaIO: PCIe 6.0 + CXL 3.0 из Китая

Выставочный стенд с твердотельными накопителями PetaIO различных форм-факторов, включая серверные модели серий E1.S и M.2 NVMe SSD, размещенные на прозрачных подставках перед информационными плакатами на синем фоне.
Линейка твердотельных NVMe-накопителей компании PetaIO. Источник.

Китайская компания PetaIO показала SSD нового поколения с интерфейсом PCIe 6.0 и поддержкой CXL 3.0. В основе дисков — контроллер Titanium Himalaya, собственная разработка на 6-нм техпроцессе.
У компании уже есть коммерческие продукты на PCIe 4.0 (серия PETA8118 в форматах U.2, M.2, E1.S), так что это не чистый стартап с одним слайдом.

Технические характеристики

  • Интерфейс: PCIe 6.0.
  • Протокол: CXL 3.0.
  • Пул памяти: до 256 ТБ.
  • Последовательное чтение: более 28 ГБ/с, что вдвое быстрее флагмана Micron 6600 ION.
  • Случайное чтение (512 Б): до 50 млн IOPS.
  • Задержка: 2,7 мкс.
  • Форм-фактор и емкость: не раскрыты.

Текущий стандарт серверных SSD — PCIe Gen5. PCIe 6.0 удваивает пропускную способность на линию. Оборудование и платформы с поддержкой Gen6 только начинает появляться в анонсах. CXL 3.0, в свою очередь, позволяет создавать пулы памяти через стандартный интерфейс — это интересная комбинация двух топовых технологий CXL и PCIe 6.0.

Стоимость, сроки, форм-факторы — неизвестны. Но вектор очевиден: Китай серьезно инвестирует в собственные контроллеры для серверных накопителей — и это не последняя такая новость. Если характеристики подтвердятся на реальном железе, то для AI-инференса, где нередко идут мелкие случайные чтения весов из кэш-хранилища, это могло бы существенно снизить задержки по сравнению с текущими Gen5-решениями.

Контроллеры

HighPoint — HBA и RAID-адаптеры на PCIe 5.0

Плата расширения HighPoint Rocket 1608A PCIe 5.0 x16 для восьми NVMe M.2 SSD-накопителей, выполненная в полноразмерном черном корпусе с массивным ребристым радиатором охлаждения, центральным круглым вентилятором с логотипом HPT и синей монтажной планкой, расположенная на белом фоне.
Плата расширения HighPoint Rocket 1608A NVMe Switch. Источник.

HighPoint Technologies представила две серии контроллеров: Rocket 7600A (RAID для NVMe) и Rocket 1600 (для программно-определяемых хранилищ). Обе базируются на интерфейсе PCIe 5.0 x16.

Это решение оптимизирована для сред Hyper-V, Proxmox, S2D, ZFS, Ceph. Характерно, что HighPoint прямо указывает на этот контекст в пресс-релизе: компания явно ориентируется на волну миграций с VMware, которую Broadcom спровоцировал своей ценовой политикой.

Серия Rocket 7600A (RAID 0/1/10 для NVMe)

  • Rocket 7628A / 7628U: 4 × MCIO 8i, до 8 NVMe напрямую (до 32 через бэкплейн), U.2/U.3/E3.S; исполнение MD2; TAA-compliant у 7628U; SafeStorage OPAL SED.
  • Rocket 7624A: 2 × MCIO 8i, до 4 NVMe напрямую (до 16 через бэкплейн), чип Broadcom PEX89048, пропускная способность до 32 ГБ/с при 4 NVMe; U.2/U.3/E3.S/E1.S.
  • Rocket 7638D (гибрид): 1 × внешний порт CDFP-CopprLink (16 линий) + 2 × MCIO 8i — прямой канал GPU ↔ NVMe; ориентирован на AI/ML/HPC.

Серия Rocket 1600 (для SDS: S2D, ZFS, Ceph)

  • Rocket 1628A: 4 × MCIO 8i, до 8 NVMe напрямую (до 32 через бэкплейн), до 60 ГБ/с.
  • Rocket 1624A: 2 × MCIO 8i, до 4 NVMe напрямую (до 16 через бэкплейн), до 32 ГБ/с.

Все контроллеры имеют полноразмерный интерфейс PCIe 5.0 x16 и однослотовое исполнение. Это может создать узкое место на материнских платах с дефицитом слотов x16, где устройствам придется конкурировать за линии с видеокартами или другими адаптерами.

Rocket 7638D с прямым каналом GPU–NVMe особенно интересен для AI-задач: данные идут напрямую из хранилища на ускоритель без лишних копий через CPU. Rocket 7600A с RAID1 для загрузочных дисков — решение для Hyper-V и Proxmox, где отказ загрузочного SSD роняет весь хост. 60 ГБ/с у старшего 1628A – серьезный показатель для Ceph-кластеров. Пожелаем удачи новинке!

Сетевое оборудование

QNAP QSW-M7230-2X4F24T — L3-коммутатор с 100GbE под AI-инфраструктуру

 Рекламный баннер управляемого коммутатора QNAP QSW-M7230-2X4F24T на синем футуристичном фоне с микросхемами, демонстрирующий корпус устройства в стойку 1U и текстовые характеристики портов 100GbE, 25GbE и 10GbE.
Управляемый коммутатор L3 Lite QNAP QSW-M7230-2X4F24T. Источник

QNAP выпустила управляемый коммутатор уровня L3 Lite. Новинка позиционируется как устройство для корпоративных сетей, сред хранения и AI-инфраструктуры.

Технические характеристики

  • Форм-фактор: 1U, внутренний блок питания.
  • Порты: 2 × 100GbE QSFP28 + 4 × 25GbE SFP28 + 24 × 10GbE RJ45 (всего 30 портов).
  • Неблокируемая пропускная способность: 540 Гбит/с.
  • Коммутационная матрица: 1 080 Гбит/с.
  • Поддержка PFC и ECN для RDMA/RoCE.
  • Совместимость с AMIZcloud (удаленный мониторинг и управление).

Конфигурация 100G uplink + 25G для серверов / NAS + 10G для рабочих станций — классическая трехуровневая схема без замены существующей 10G-базы. Из минусов: только L3 Lite, полный L3 с динамической маршрутизацией не для этой модели.

Foxconn FII — CPO-коммутаторы в массовое производство

Foxconn Industrial Internet (FII) начала пробные поставки CPO-коммутаторов (Co-Packaged Optics — оптика, интегрированная прямо в коммутирующий ASIC) и анонсировала массовое производство на третий квартал 2026 года. Первые образцы CPO-коммутаторов отгружены уже в первом квартале 2026 года.

Основные цифры

  • Прогноз рынка: рост с 23 000 единиц в 2026 году до 200 000+ к 2030 году.
  • Экосистема: совместимость с NVIDIA QuantumX/SpectrumX и Broadcom Tomahawk.
  • Доля собственного производства в AI-стойках FII: более 60% ключевых компонентов.
  • Выручка FII в 2025 году: $132 млрд (+48,2% год к году), облачный сегмент — $88 млрд (+88,7%).

CPO устраняет задержки на интерфейсе чип-оптика. Для плотных GPU-стоек в AI-ЦОД это принципиально.

FII — крупнейший контрактный производитель такого оборудования. Запуск массового производства в этом году означает, что CPO-коммутаторы к 2027 году могут стать стандартом, а не экзотикой. Возможно, что CPO при таком росте плотности стоек неизбежность, а не опция.

Системы охлаждения

Airsys LiquidRack — серверы под душем из диэлектрика

Автономный серверный шкаф черного цвета со встроенной системой струйного жидкостного охлаждения Airsys LiquidRack, оснащенный панелью управления и прозрачной фронтальной дверью, на темно-синем фоне.
Система жидкостного охлаждения серверов Airsys LiquidRack. Источник.

Airsys анонсировала систему жидкостного охлаждения LiquidRack, где диэлектрическая жидкость буквально распыляется на вертикально установленные серверы в специальных кассетах. Нагретая жидкость попадает в пластинчатый теплообменник и отдает тепло во внешний контур.

Принципиальное отличие от погружных СЖО в том, что серверы не тонут в ванне с жидкостью, а остаются в вертикальных кассетах. Это упрощает обслуживание: замена узла не требует слива и повторного заполнения системы, то есть достаточно вытащить кассету.

Технические характеристики

  • Мощность на сервер: от 0,5 до 8 кВт.
  • Мощность на стойку: до 80 кВт (10U).
  • Расход жидкости: на 80% меньше, чем у погружных СЖО.
  • Без компрессора — совместима с драйкулерами, чиллерами, адиабатическими системами.
  • Развертывание на действующих объектах без замены основной инфраструктуры.
  • Дополнительно анонсирована UniCool-Max: воздушная система до 60 кВт для модульных ЦОД и телекоммуникационных объектов.

LiquidRack заполняет нишу между обычным воздушным охлаждением и крупными СЖО с отдельными CDU. Ограничение — 80 кВт на 10U, в то время как современная GPU-стойка с H200/B300 легко уходит за 100 кВт.

Кроме того, решение использует на 80% меньше жидкости, чем у погружных систем — это также означает, что понадобится меньше диэлектрика для заправки и меньше расходов на обслуживание, так как диэлектрик периодически нужно менять.

Заключение

Апрель оказался насыщенным обновлениями. Вендоры продолжают выпускать AI-ориентированные инструменты, но в то же время «экспериментируют» с технологиями: от использования фотоники до сверхплотных флеш-носителей.