Калькулятор ресурсов для LLM: расчёт VRAM для локального развертывания и запуска AI-модели

Подберите оптимальный GPU для запуска LLM

Калькулятор показывает ориентировочные значения. Для точного подбора инфраструктуры под ваш запрос рекомендуем — мы подробно рассмотрим вашу задачу и предложим оптимальное решение.

Параметры
Модель
Точность
Batch size
Одновременные пользователи
Длина контекста

GPU
Выберите модель и ее параметры, чтобы получить список подходящих GPU под ваши задачи

0 ГБ

Общий VRAM

0 %

Потребления от GPU

Перейти в панель

Параметры модели

Вес модели

0 ГБ

KV Cache

0 ГБ

Активации

0 ГБ

Оверхед

0 ГБ

Все для AI в одной панели
управления

Инстансы для инференса, файн-тюнинга и обучения AI-моделей. Большой запас GPU всегда в наличии. NVIDIA^® HGX B300, H200, RTX 6000 PRO, L4, RTX 4090 и другие.

Надежные виртуальные машины для сервисов любой сложности — с моментальным масштабированием, оплатой по потреблению и готовностью меньше минуты.

Сервис для запуска и управления LLM в облаке Selectel. Выберите модель, конфигурацию и получите готовый endpoint для работы с ней.

Цена всех услуг указана с учетом НДС 22%

FAQ

Какие факторы формируют серверный расчет VRAM?
- Статические веса: базовый размер модели в целевой точности (FP16, INT8, FP4).
- Динамический KV—Cache: память под контекст, умноженная на Max Batch Size.
- Рантайм (Runtime): оверхед TensorRT-LLM, vLLM или Hugging Face TGI.
- Запас под пики: буфер для предотвращения сбоев OOM при максимальной нагрузке.
Как размер батча (Batch Size) влияет на требования к памяти?
- Линейный рост: каждый новый параллельный запрос увеличивает размер KV—Cache.
- Эффект сжатия: vLLM с PagedAttention снижает фрагментацию, но батч все равно доминирует.
Какие типы квантования оптимальны для инференса?
- AWQ / GPTQ (INT4/INT8): сохраняют высокую скорость вычислений на Tensor Cores.FP8 (Hopper / Blackwell): стандарт для современных дата-центров (H100/B200).
- Исключение GGUF: данный формат неэффективен для параллельной серверной нагрузки.
Что происходит при превышении лимита VRAM в продакшене?
- Для vLLM / TGI: новые запросы встают в очередь (K-V swapping / Eviction).
- Для обычных систем: мгновенный сбой Out of Memory (OOM) и падение пода/контейнера.
- Бизнес-эффект: рост задержки (Latency) или полная недоступность сервиса (Downtime).
Как рассчитать VRAM для MoE (Mixtral, DeepSeek) архитектур?
- Особенность весов: в память загружаются все эксперты (Experts) целиком.
- Плюс вычислений: в один момент времени активируется лишь часть параметров.
- Требование к памяти: такое же высокое, как для плотных (Dense) моделей аналогичного объема.
Как выбрать оптимальный GPU под расчетные данные?
- Для инференса 7B-34B: одиночные карты NVIDIA L40S, A10 или H100 NVL.
- Для сверхбольших LLM: кластеры (8x H100 / A100) с разделением через Tensor Parallelism.
- Критерий выбора: пропускная способность памяти (Memory Bandwidth, ГБ/с) важнее сырой мощности.
- Для точного подбора инфраструктуры под ваш запрос рекомендуем обратиться к специалистам Selectel — мы подробно рассмотрим вашу задачу и предложим оптимальное решение.

Готовы начать?

Зарегистрируйтесь в панели управления, чтобы получить доступ ко всем продуктам Selectel и управлять инфраструктурой в едином окне

Подберите оптимальный GPU для запуска LLM

Все для AI в одной панели
управления

Выделенные серверы

Облачные серверы

Foundation Models Catalog (FMC)

FAQ

Готовы начать?

Новости Selectel

Нужна помощь?

Сообщество

VRAM-калькулятор

Подберите оптимальный GPU для запуска LLM

Все для AI в одной панелиуправления

Выделенные серверы

Облачные серверы

Foundation Models Catalog (FMC)

Возможности для быстрого старта

− 37% скидка в облаке

Серверы с GPU навынос

Бесплатно перенесем ваш проект в Selectel

FAQ

Готовы начать?

Новости Selectel

Нужна помощь?

Сообщество

Все для AI в одной панели
управления