Начало сравнений
Оцениваться нейросети будут в трех категориях, назовем это раундами. Всего сделаем три раунда:
- стандартная генерация изображения с фоном;
- генерация очень детального изображения;
- способность генерации текста на изображении.
Первый раунд: генерация персонажа-банана
Nano Banana
Начнем с теста: предложим нейросети промт, связанный с бананом. Но вместо обычного фрукта попросим ИИ изобразить «живой и нестандартный» образ.
Промт: «Желтый банан, состоящий в вымышленной организации “ба-на-на” стоит около белой стены разрисованной граффити, в халате, на котором написано название его благотворительной организации, он стоит с доброжелательным лицом, держа в руках аптечку, на голове медицинская шапка».
После обработки запроса система выдала следующий результат:

Получилось неплохо, но нейросеть «посвоявольничила» и добавила несколько деталей на стене — это не критично. Главная проблема — надпись на всю стену: «HELPING HANDS», которой не было в промте. Почему нейросеть добавила эту надпись?
Алгоритм выхватил лишние ассоциации из базы данных, пытаясь визуально интерпретировать промт — технически это объясняется семантическим наложением: в промпте упоминались «благотворительная организация» и «граффити». Нейросеть выстроила ассоциативный ряд и «галлюцинировала» лозунг, перенеся его с халата на стену.
Разработчику стоит поработать над точностью генерации и свести галлюцинации к минимуму. Для пользователя важны предсказуемость и качество, поэтому данному изображению я ставлю 6 из 10 за вышеперечисленные недостатки.
Nano Banana 2
Теперь взглянем на вторую, более новую и усовершенствованную версию — Nano Banana 2. Первая версия показала довольно посредственный результат, который не оправдал возложенные на нее ожидания.
После генерации мы получили следующий результат:

Неплохо. Результат достойный, картинка получилась реалистичной, в отличии от предшественника с его мультяшным стилем. Банан проработан детально и приятен для глаза.
На стене — получилось много граффити, причем большинство из них имеют в себе какой-то смысл или посыл. Но есть один нюанс, вызывающий вопросы к нейросети: почему на тротуаре видны штрихи, напоминающие те же граффити?
Возможно, модель слегка перепутала тротуар и стену. Но есть также другой вариант: нейросеть, благодаря большой базе данных, выяснила, что художники перед нанесением краски, часто, проверяют баллоны перед работой, распыляя краску куда придется, в том числе и под ноги.
Остается два варианта, почему нейросеть так поступила — высокая проработанность и большая база данных, или просто баг генерации. Итоговая оценка: 9 из 10 за хорошую проработанность и приятный для глаза реализм и дизайн.
ChatGPT
В отличие от остальных конкурентов, эта модель отличается хорошо проработанными деталями и качеством изображения, что не может не радовать.
Повторим тот же запрос с «благородным» бананом и посмотрим на результат.

Генерация от ChatGPT выглядит явно лучше, чем у предыдущего испытуемого. По качеству она выглядит приятнее и детальнее. Есть пара любопытных моментов. Нейросеть сама добавила расшифровку названия организации «ба-на-на» на халате как дополнение. Хотя прочесть текст целиком сложно, кое-что там все-таки можно рассмотреть, например, слова «бананова» и «нано». Видимо, ChatGPT знает, с кем имеет дело.
Но расшифровка не единственное, на что стоит обратить внимание. Руки по текстуре напоминают молодой картофель. Если приглядеться, можно увидеть черные точки, и светло-коричнево-желтый цвет, который специфичен данному корнеплоду.
Этому изображению я ставлю 8,5 из 10 из-за реалистичности и неплохой детализации, но небольшие недостатки не позволяют получить наивысший балл.
Qwen
Эта модель делает ставку на фотореализм, а не на избыточную детализацию. В генерации изображений реалистичность преобладает над детальностью, но качество генерируемых изображений остается на высоком уровне даже не имея мелких деталей.
Отправляем наш промт и смотрим на результат:

Третий участник выдает довольно хороший результат, который может конкурировать с предыдущими. Как я уже говорил выше, у этой нейросети преобладает реализм, поэтому изображение получилось очень реалистичным — даже пугающе — реалистичным.
Рассмотрев фотографию, хочется отметить граффити: оно выглядит приятно, а особенно цепляют символичные рисунки бананов.
Я ставлю этой генерации 10 из 10 за красоту и эстетичность, хоть и присутствует небольшая, но не критичная ошибка в генерации текста на халате.
Вывод по раунду
Все участники справились с задачей достойно, но лидером в этом раунде можно считать Qwen, набравший наивысший балл.
Второй раунд: генерация кабины пилота изнутри
В этом раунде проверим нейросети на детализацию. Мы попросим их сгенерировать панель управления в Boeing: на ней расположено множество приборов, индикаторов и переключателей — именно их детальность и проработка нам и нужна.
Порядок нейросетей оставим таким же, как и в первом раунде.
Промт: «Сгенерируй панель управления пилота в самолете модели Boeing и как можно детальнее».

Nano Banana

В этот раз Nano Banana постарался и показал отличный результат: кокпит с обилием панелей, рычагов и лампочек выглядит впечатляюще. Поскольку в этом раунде мы оцениваем именно детализацию, реалистичность не войдет в сравнение, но будет плюсом.
Хочется похвалить нейросеть за проработку мелочей: кнопки приятны глазу, а надписи при желании можно даже прочитать.
Хоть и генерация получилась хорошая, есть интересный недочет: откуда в креслах взялись пилоты? Вероятно, алгоритм воспринял слово «пилота» из промта буквально и добавил самих людей в кадр. Это в очередной раз показывает, что нейросеть часто ошибается в понимании некоторых частей текста.
По итогу изображение получилось реалистичным, приятным, а главное — с большим количеством мелких деталей на панеле управления. За выполнение задания — заслуженные 10 из 10.
Nano Banana 2

Результат получился удовлетворительный. Внимательно рассмотрев генерацию, можно увидеть много панелей, мелкого текста и цифр, но некоторые из них проработаны плохо — это разочаровывает, ведь первая версия показала результат куда лучше. Стоит отметить, что крупный текст видно неплохо и его можно разобрать, но мелкие надписи и панельки — с трудом.
По итогу нейросеть справилась с заданием на средний балл — даже хуже, чем его прошлая версия, что довольно удивительно. За выполнение задания нейросеть получает оценку 5 из 10 за большое количество деталей.
ChatGPT

Результат от ChatGPT неоднозначный: с одной стороны, все элементы кокпита присутствуют, с другой — их почти невозможно распознать. Приглядевшись можно увидеть артефакты и некачественную генерацию: вместо текста на кнопках и панелях красуются непонятные символы и «закорючки».
Но этот параметр мы не оцениваем и на этот минус можно закрыть глаза. За неплохие способности генерировать мелкие детали можно поставить и 8 из 10, но из-за сомнительного качества самих элементов оценка снижается до 6,5 из 10.
Qwen

Результат получился, мягко говоря, неутешительным — это самый худший результат в этом раунде. Объясню, что пошло не так. Первое, что сильно бросается в глаза — размер панели: она выглядит крошечной по сравнению с другими участниками. Детали хоть и присутствуют, но не впечатляют. Например, если вглядется в мониторы, то некоторые числа выглядят как непонятный набор белых пикселей.
Положительные черты есть, но их слишком мало, чтобы перебить минусы. В этот раз Qwen разочаровал: генерация вышла не особо интересной и не оправдала ожиданий. Итоговая оценка 4 из 10 за сомнительное качество и слабую проработку.
Вывод по раунду
Nano Banana показал себя в этом раунде отлично, и стал в нем фаворитом. Другие участники показали себя в генерации мелких деталей хуже.
Больше статей про сравнения и генерацию:
Третий раунд: генерация текста на изображении
В заключительном раунде будем сравнивать генерацию текста. За основу возьмем текст красивого стихотворения великого поэта 19 века — Александр Сергеевича Пушкина. Мы попросим нейросеть сгенерировать два четверостишия и посмотрим на его качество, ну и конечно, оценим его.
Промт: «Сгенерируй белый лист бумаги формата А4, на котором написано 2 четверостишья стихотворения А.С. Пушкина “Я помню чудное мгновенье“».
Получаем такие результаты:
Nano Banana

Впервые взглянув на генерацию, я был очень приятно удивлен качеством картинки и самого текста — все выглядит очень приятно, особенно само стихотворение. Перед началом строк нейросеть добавила его название, а в конце — инициалы автора. Мелочь, а приятно.
В генерации текста Nano Banana показала себя отлично, я бы даже сказал, «шикарно»: пока это мой фаворит в раунде. Изображению ставим заслуженные 10 из 10.
Nano Banana 2

Что и требовалось ожидать: генерация получилась почти точно такая же, как и у первой версии, только с небольшими изменениями. Нет названия в начале и инициалов автора в конце, но это не так важно, как качество текста, — а оно у обоих версий на уровне. Картинке я ставлю 10 из 10.
ChatGPT

По моему мнению, нейросеть не справилась с заданием от слова «совсем». Соблюден разве что порядок строк, а вот с положением и написанием букв явные проблемы. Единственное, что можно отчетливо прочитать, — это слово «мгновенье».
За такую генерацию хочется поставить ноль, но порядок строк правильный и за это можно натянуть один балл. Поэтому моя оценка 1 из 10. Плохо, ChatGPT, плохо. Разработчикам стоит поработать над оптимизацией текстового энкодера и рендерингом шрифтов. В текущем виде модель плохо следует промту: вместо связного текста мы видим визуальные артефакты.
Qwen

Посмотрев на эту генерацию, я подумал «Ну, хотя бы не так плохо как у ChatGPT». Качество текста довольно посредственное, но уже некоторую часть можно расшифровать. Текст получился немного лучше, чем у предыдущего участника, но далек от идеального. Я ставлю этой генерации 3,5 из 10 за верную структуру и хоть немного понятный текст.
Вывод
Nano Banana и Nano Banana 2 показали себя с хорошей стороны. Эти нейросети лучше всего использовать для генерации текста на картинках и изображений с точной детализацией. Но без минусов не обошлось — имеются трудности с пониманием промтов. Нейросети могут сгенерировать то, чего пользователь не хочет, и могут сложить о себе не лучшее впечатление.
А для генерации обычных изображений я бы выбрал других сегодняшних претендентов — Qwen и ChatGPT, в этой сфере они справляются лучше.