Деплой генератора картинок от команды DeepSeek: тесты и сравнения
Разворачиваем модель Janus-Pro-7B в облаке и сравниваем ее результаты с другими генераторами изображений.

Всего месяц назад команда DeepSeek выпустила в открытый доступ новую мультимодальную модель для генерации картинок — Janus-Pro-7B. Разработчики заверяют, что она умеет генерировать изображения, почти неотличимые от настоящих, отлично работает в локальном режиме, бесплатна и превосходит западных конкурентов в ряде задач.
Что нового в Janus-Pro
Janus-Pro — это усовершенствованная версия Janus, в которой:
- оптимизирована стратегия обучения,
- расширен датасет,
- увеличен размер модели.
Благодаря этим улучшениям Janus-Pro достигает значительных успехов в мультимодальном понимании и лучше преобразует текст в изображение. Но это только по заверениям разработчиков. Перейдем к тестам.
Развертывание модели на облачном сервере
Перейдем к развертыванию модели в облаке. Далее — сравним ее результаты с другими нейросетями.
1. Перейдем в раздел Продукты → Облачные серверы внутри панели управления.
2. Нажмем Создать сервер.
3. В качестве источника использую загруженный образ Ubuntu 20.04 6 LTS.
4. Выбираем Регион «Москва» и Пул — ru-7b. Для работы воспользуемся фиксированной конфигурацией с видеокартой A5000, но вы можете подобрать произвольную сборку под свои задачи.
5. Указываем тип диска и публичную подсеть, чтобы сервер был доступен из интернета.
6. После ознакомления с конфигурацией и стоимостью сборки нажимаем Создать сервер.
7. Перейдем к развертыванию модели.
# Обновляем список пакетов
apt update
# Устанавливаем pip
apt install -y pip
# Обновляем pip
python3 -m pip install --upgrade pip
# Устанавливаем git
apt install -y git
# Клонируем репозиторий с моделью
git clone https://github.com/deepseek-ai/Janus.git
# Переходим в папку с репозиторием
cd Janus
# Устанавливаем пакет в режиме редактируемого режима
pip install -e .
# Ставим дополнительные зависимости для Gradio
pip install -e .[gradio]
# Запускаем сервер
python3 demo/app_januspro.py
Развертывание заняло около 20 минут, где большую часть времени я ждал загрузки модели.
Для доступа к нейросети переходим по ссылке:
- локально — http://127.0.0.1:7860/,
через публичный URL — https://8690e0b19830202a84.gradio.live.
Скорее всего, разворачивать собственный сервер — это не самый выгодный вариант с точки зрения затрат. Модели, такие как Janus Pro 7B, требуют значительных ресурсов (например, GPU) и времени на настройку, что может быть дорого и нецелесообразно.
Если ваша цель — получить быстрые результаты без значительных затрат, лучше использовать веб-версии. Они работают быстрее, не требуют от вас ресурсов и, что немаловажно, бесплатны в базовом использовании. Рассматривать запуск собственного сервера можно как пет-проект для экспериментов или для глубокого анализа модели, но вряд ли как основной рабочий инструмент.
Проверка качества генерации
Важный момент при использовании Janus-Pro-7B — это возможность работы с мультимодальным пониманием и генерацией текста в картинку. Нас интересует второй вариант.
Генерация картинок на разных языках
Попробовал задать промт на русском:
Белый медведь играет в теннис на марсе с дельфином и слоном.
Результат: нейросеть отрисовала пять картинок. Отобрал для вас наиболее адекватные:
Зададим тот же промт, но на английском:
A polar bear plays tennis on Mars with a dolphin and an elephant.
Результат: точность выше, композиция ближе к ожидаемой.
Финальный босс — традиционный китайский:
北極熊與海豚、大像在火星打網球
Результат: из пяти картинок удалось выбрать лишь одну, но и к ней достаточно вопросов. Псевдокитайский (или японский), традиционный дом, лес и облака. Все как просили (нет).
Подробный промт
Попробуем задать подробно описанный промт:
A highly realistic and cinematic scene featuring Jean-Claude Van Damme, the legendary martial artist and actor, sitting in a perfect split position between two massive semi-trucks on a Texas highway. The composition is dynamic and visually striking, with extreme attention to detail. The trucks are modern, shiny, and reflect the bright sunlight, creating realistic lighting effects. The road stretches into the distance, surrounded by the iconic Texan landscape—rolling golden plains, distant mesquite trees, and a vast blue sky with scattered clouds. The time of day is late afternoon, with warm, golden-hour lighting casting long shadows and enhancing the textures of the environment. Jean-Claude Van Damme is dressed in a classic 90s action-hero outfit: tight black tank top, camouflage pants, and combat boots, showcasing his muscular physique. His expression is calm but confident, exuding strength and focus. Ultra-high detail, photorealistic rendering, 8k resolution, cinematic lighting, volumetric rays, depth of field, realistic skin texture, intricate clothing details, lifelike reflections on the trucks, and an epic widescreen aspect ratio (21:9). Art style inspired by high-end movie posters and hyperrealistic photography.
Результат: детализация осталась та же, и качество изображения по-прежнему оставляет желать лучшего.
Итог
Основная часть обучающих данных, которые используют нейросети, представлена на английском языке — именно на него модели ориентируются в первую очередь. Для других языков качественных данные сильно меньше, что может влиять на точность генерации.
Для наилучших результатов рекомендуется формулировать запросы на английском. Это значительно повысит эффективность работы нейросети. Если вам не хочется разворачивать модель локально, проще воспользоваться веб-версией на Hugging Face. Результат будет практически таким же, но без необходимости тратить время на настройку:
Сравнение с другими моделями
Сравним качество генерации Janus-Pro с другими онлайн-нейросетями. Не будем рассматривать слишком популярные варианты, чтобы сравнение было чуть справедливее.
Deep Dream Generator
Начнем с сайта deepdreamgenerator.com. Ключевые особенности:
- генерация и улучшения изображений;
- генерация видео;
- лимит «энергии» — при регистрации у вас 100 единиц, каждая генерация стоит от 4 до 30. При этом 80 начисляют единоразово, а 20 регулярно пополняется со временем;
- можно протестировать нейросеть без авторизации.
А еще никто не запрещает использовать мультиаккаунты. 😉

Выберем нужную модель. Площадка позволяет выбрать три pro-модели в день, при этом использовать обычные можно без ограничений.
Советую задавать запросы на английском, так как запросы по промтам на иных языках будут очень абстрактными. Протестируем тот же промт.
A polar bear plays tennis on Mars with a dolphin and an elephant.
Результат: за четыре единицы энергии получилось неплохо, но дельфина забыли.
Попробуем тот же промт, но с моделью AIVision. За 30 единиц «энергии» она соблюла ТЗ, но от себя добавила какую-то человекоподобную черепаху.

Проверим генерацию на более подробном промте, который ранее тестировали с Janus.
Промт
A highly realistic and cinematic scene featuring Jean-Claude Van Damme, the legendary martial artist and actor, sitting in a perfect split position between two massive semi-trucks on a Texas highway. The composition is dynamic and visually striking, with extreme attention to detail. The trucks are modern, shiny, and reflect the bright sunlight, creating realistic lighting effects. The road stretches into the distance, surrounded by the iconic Texan landscape—rolling golden plains, distant mesquite trees, and a vast blue sky with scattered clouds. The time of day is late afternoon, with warm, golden-hour lighting casting long shadows and enhancing the textures of the environment. Jean-Claude Van Damme is dressed in a classic 90s action-hero outfit: tight black tank top, camouflage pants, and combat boots, showcasing his muscular physique. His expression is calm but confident, exuding strength and focus. Ultra-high detail, photorealistic rendering, 8k resolution, cinematic lighting, volumetric rays, depth of field, realistic skin texture, intricate clothing details, lifelike reflections on the trucks, and an epic widescreen aspect ratio (21:9). Art style inspired by high-end movie posters and hyperrealistic photography.
Результат: Нейросеть справилась с поставленной задачей.
DeepAI
Следующий сервис для сравнения — deepai.org. Это универсальная платформа с множеством инструментов: от стандартного чат-бота и генератора изображений до аудиочата и «хуманизатора» ИИ-текстов. Использовать можно без регистрации.
Для генерации картинок нужно:
- задать промт,
- выбрать качество генерации,
- определить приоритет (скорость или качество),
- подобрать стиль из более чем ста вариантов.

Создадим изображение с игрой в теннис на Марсе. Промт прежний.
A polar bear plays tennis on Mars with a dolphin and an elephant.
Можно поэкспериментировать со стилями, чтобы получить более интересные генерации. Все в ваших руках! Результаты неплохие, но не идеальные. Однако ключевые плюсы платформы — бесплатное использование и отсутствие ограничений по количеству генераций. Можно дорабатывать промт и получать более точные картинки без лишних затрат.
Далее выберем подходящий неоновый стиль и зададим подробный промт.
Промт
A highly realistic and cinematic scene featuring Jean-Claude Van Damme, the legendary martial artist and actor, sitting in a perfect split position between two massive semi-trucks on a Texas highway. The composition is dynamic and visually striking, with extreme attention to detail. The trucks are modern, shiny, and reflect the bright sunlight, creating realistic lighting effects. The road stretches into the distance, surrounded by the iconic Texan landscape—rolling golden plains, distant mesquite trees, and a vast blue sky with scattered clouds. The time of day is late afternoon, with warm, golden-hour lighting casting long shadows and enhancing the textures of the environment. Jean-Claude Van Damme is dressed in a classic 90s action-hero outfit: tight black tank top, camouflage pants, and combat boots, showcasing his muscular physique. His expression is calm but confident, exuding strength and focus. Ultra-high detail, photorealistic rendering, 8k resolution, cinematic lighting, volumetric rays, depth of field, realistic skin texture, intricate clothing details, lifelike reflections on the trucks, and an epic widescreen aspect ratio (21:9). Art style inspired by high-end movie posters and hyperrealistic photography.
Результат: получилось качественное изображение с прорисованным «Жаном», грузовиками, и даже тенью.
Chatbot Arena
Последний сервис в нашем сравнении — lmarena.ai. Особенности платформы:
- возможность получать ответы от двух разных моделей одновременно;
- сравнение полученных результатов (генерация текста, чат, помощь с GitHub-репозиториями);
- голосование за лучший результат.
Прописываем промт и получаем два результата. Чтобы узнать, где какая нейросеть, нужно проголосовать.
Chabot Area — интересный инструмент для сравнения различных нейросетей на основе результата их работы. Пользователи участвуют в оценке генераций моделей, формируя объективный рейтинг.
Заключение
Развернуть модель Janus-Pro-7B локально или в облаке будет полезно, если вам нужно неограниченное количество генераций, а также полный контроль над процессом. Однако стоит помнить, что это требует затрат и времени на настройку. Онлайн-версия модели при этом работает быстро, бесплатна и не требует от вас ресурсов, но накладывает ограничения на количество использований.
Пока Janus Pro 7B уступает по качеству генерации бесплатным онлайн-нейросетям, которых на просторах интернета сейчас очень много. Но списывать модель со счетов не стоит. Конкуренция между OpenAI и DeepSeek только растет, а с увеличением финансирования модели будут развиваться.