Qwen-Image-Layered: декомпозируем изображения на слои - Академия Selectel

Qwen-Image-Layered: декомпозируем изображения на слои

Антон Дятлов
Антон Дятлов Инженер по ИБ
6 февраля 2026

Проверяем, насколько модель от Qwen подходит для автоматического разбиения изображений на семантические слои — и где проходят границы ее применимости.

Изображение записи

За последние годы инструменты на базе генеративного ИИ стали заметной частью работы с изображениями. В Adobe Photoshop появились функции вроде Generative Fill, упрощающие редактирование сцен и объектов без ручного маскирования.

В этом контексте интерес представляет семейство моделей Qwen от Alibaba, а именно Qwen-Image-Layered — модель, предназначенная для разбиения изображений на отдельные семантические слои. Такой подход потенциально может упростить работу с иллюстрациями и фотографиями, но на практике имеет ряд ограничений, которые важно учитывать.

Многослойность в Qwen

Тестирование на иллюстрации

В качестве первого примера возьмем детализированную иллюстрацию с большим количеством мелких элементов, острых форм и пересечений объектов. Такие изображения обычно сложнее для автоматической сегментации, чем условно «плакатные» сцены с простыми формами и однородным фоном.

Исходное изображение c маскотом Selectel — динозавром Тирексом.
Исходное изображение.

Модель разобрала картинку на четыре слоя, но их количество можно настраивать вплоть до десяти:

Сгенерированный первый слой (фон изображения).

Первый слой (фон).
Второй слой (стол и несколько персонажей-друзей Тирекса)
Второй слой.
Третий слой (сам Тирекс с несколькими треугольниками от гирлянды).
Третий слой (сам Тирекс).
Четвертый слой (торт и его небольшие отпечатки).
Четвертый слой.

В целом модель справилась неплохо: фон с мишурой корректно вынесен в отдельный слой, основные объекты отделены друг от друга, а мелкие детали в большинстве случаев сохранены. При этом несколько треугольников мишуры с фона задублировались между слоями, что усложняет дальнейшее редактирование. Но плюс в карму модели за то, что она очистила лапы Тирекса от торта и даже поместила отпечатки в отдельный слой с тортом.

Само разбиение — лишь половина задачи. Для полноценного редактирования важно уметь менять содержимое каждого слоя или генерировать замену с сохранением стиля. Для этого в экосистеме Qwen существует отдельный инструмент — Qwen Image Edit, однако на текущий момент он не интегрирован напрямую в Layered.

Мы уже тестировали Qwen Image Edit в отдельном материале, где заодно рассмотрели модель для генерации речи TTS-Flash и универсальную мультимодальную модель Qwen Omni.

Тестирование на фотографии

Для второго сценария была выбрана фотография Таймс-сквер в Нью-Йорке — сцена с большим количеством мелких деталей, пересечений объектов и разнородными слоями. Такой тип изображений традиционно сложен для автоматической семантической сегментации.

Фото Таймс-сквера в Нью-Йорке с большим количеством людей, рекламных баннеров и зданий.
Исходное фото. Источник.

В результате модель также сформировала четыре слоя:

Первый слой (фон изображения).
Первый слой (фон).
Второй слой (один из прохожих на прозрачном фоне).
Второй слой (один из прохожих).
Третий слой (несколько прохожих, выделенных по неочевидной логике).
Третий слой (несколько прохожих, выделенных по неочевидной логике).
Четвертый слой с монументом и хаотично вырезанными элементами.
Четвертый слой.

Получившиеся слои слабо соответствуют логической структуре сцены. Модель не удерживает целостность объектов: например, людей, идущих вместе, она разносит по разным слоям. В таком виде результат сложно использовать для последующего редактирования — слои не отражают ни смысловые группы, ни пространственные связи между объектами.

По итогам тестирования можно сделать вывод, что Qwen-Image-Layered неплохо справляется с разбиением относительно простых иллюстраций, но демонстрирует существенные ограничения при работе с фотографиями сложных сцен. Дополнительное ограничение — отсутствие прямой интеграции Qwen Image Edit в Layered. Для генерации или замены объектов приходится сначала работать в Image Edit, а затем вручную переносить результат в Layered, что усложняет рабочий процесс и нарушает целостность контекста.

Возможные аналоги

Насколько уникален подход Qwen-Image-Layered и есть ли у него прямые конкуренты? Среди доступных решений удалось найти лишь несколько веб-сервисов с ограниченным бесплатным доступом, которые позволяют автоматически разбивать изображение на слои. Протестируем их на тех же примерах, что и Qwen.

Foundation Models Catalog — сервис для запуска и управления LLM в облаке Selectel. Выберите модель, конфигурацию и получите готовый endpoint для работы с ней. На борту уже есть преднастроенные модели Qwen, OpenAI, DeepSeek и Mistral AI. Сейчас доступ к сервису предоставляется в первую очередь юридическим лицам по запросу. В дальнейшем сервис станет доступен для всех пользователей.

Image to Layers

Первый сервис — Image to Layers — представляет собой веб-инструмент для автоматического разбиения фотографий и изображений на слои. Среди ключевых особенностей — возможность дополнительно дробить полученные слои и автоматическое заполнение скрытых участков фона при разделении, что снижает количество артефактов.

Скриншот интерфейса сервиса imagetolayers.com.
Интерфейс сервиса.
Сгенерированный первый слой изображения без персонажей, обеденного стола и гирлянды.
Первый слой (фон).
Второй сгенерированный слой (Тирекс на прозрачном фоне).
Второй слой (Тирекс).
Третий сгенерированный слой (друзья Тирекса, обеденный стол и гирлянда).
Третий слой (друзья Тирекса, обеденный стол и гирлянда).
Четвертый слой (торт и небольшие артефакты вокруг).
Четвертый слой.

При тестировании на иллюстрации результат оказался сопоставимым, а в отдельных моментах — даже более аккуратным. Треугольные элементы мишуры были корректно отделены без заметных артефактов. При этом часть мелких деталей, таких как конфетти и брови персонажей, оказалась ошибочно вынесена в отдельный слой. 

В целом качество генерации можно оценить немного выше по сравнению с результатом от Qwen. Но небольшой спойлер: с разделением фотографии эта модель не справилась.

Разбиение фото в интерфейсе imagetolayers.com. 
Разбиение фото в интерфейсе. 
Первый сгенерированный слой из фото Таймс-сквер, который на первый взгляд не многим отличается от исходника.

Первый слой, который на первый взгляд не многим отличается от исходника.

Второй сгенерированный слой с двумя прохожими. Люди из семейной пары при этом разделены на несколько слоев.
Второй слой с двумя прохожими.
Третий сгенерированный слой с одним прохожим. Люди из семейной пары при этом разделены на несколько слоев.
Третий слой с одним прохожим.

При работе с фотографией сервис продемонстрировал примерно те же ограничения. Алгоритм не сохраняет семантическую целостность объектов: людей, идущих вместе, он разделяет на разные слои, что делает результат малопригодным для дальнейшего редактирования сложных сцен.

AI Layer Splitter от KomikoAI

Второй инструмент для тестов — AI Layer Splitter (KomikoAI). Сервис позиционирует себя как универсальную платформу для генерации картинок, их анимации, раскрашивании, редактировании и разделении на слои. Доступ к функциям ограничен системой кредитов с возможностью оформления подписки.

Сервис KomikoAI отображает результаты генераций других пользователей, среди которых встречается контент, не соответствующий требованиям законодательства Российской Федерации. В рамках статьи инструмент рассматривается исключительно с технической точки зрения, без оценки или распространения пользовательских материалов.

Для теста была загружена та же иллюстрация, при этом использовалась расширенная модель, потребляющая большее количество кредитов.

Результат разбиения выглядит пугающе: «черты» персонажей были искажены, а задние лапы и нижняя часть туловища Тирекса были сгенерированы без спроса. Но в остальном модель справилась хорошо и фон вырезан — подставляй какой хочешь. Конфетти удалены — модель немного упростила себе жизнь и не стала вырезать их в отдельные слои. Сложные фигуры отделены хорошо. В сумме было получено около 20 слоев, что удобно для дальнейшего ручного редактирования и компоновки сцены.

Результат разделения картинки на слои.

Однако при тестировании на фотографии сервис столкнулся с теми же ограничениями, что и ранее рассмотренные решения. Вместо осмысленного разбиения сцены на логические слои результат представлял собой набор «лего-человечков», не отражающих семантическую структуру изображения. Как и в предыдущих случаях, инструмент не продемонстрировал устойчивой сегментации сложной городской сцены. Но и небольшой прогресс есть: семейная пара здесь выделена как один элемент!
Модель не перестает пугать своими генерациями, на этот раз слоев мы вообще не получили, а получили набор лего-человечков. С задачей разбиения фотографии и эта модель не справилась. Но хоть тут семейная пара была вместе! Это прогресс.

Разбиение фотографии Тайм-сквер в сервисе AI Layer Splitter от KomikoAI.
Разбиение фотографии в сервисе.
Результат разбиения на слои — автомобиль, фонарный столб, набор прохожих, а также отдельно выделенные лица и кисти рук.
Результат.

Заключение

Инструменты для автоматического разбиения изображений на слои пока остаются на ранней стадии развития. В ходе тестирования были заметны артефакты, несогласованность слоев и отсутствие устойчивой логики сегментации в ряде сценариев. Особенно слабо все рассмотренные решения справляются с разбиением реальных фотографий сложных сцен.

Qwen-Image-Layered демонстрирует приемлемые результаты при работе с иллюстрациями и простыми композициями. Несмотря на ограничения, его преимущество заключается в бесплатной доступности и возможности использовать в связке с Qwen Image Edit для генерации и замены отдельных элементов. Это делает его наиболее практичным вариантом среди протестированных инструментов.

Коммерческие веб-сервисы в ряде случаев показывают более аккуратное разбиение иллюстраций на отдельные элементы, однако они также не справляются с фотографиями и накладывают ограничения в виде кредитной системы и подписок.

В целом направление автоматической декомпозиции изображений выглядит перспективным и потенциально полезным для дизайнеров и разработчиков. Однако до уровня удобства и точности, который сегодня предлагает Photoshop с ручным и полуавтоматическим редактированием, таким моделям пока далеко.