Сам себе режиссер: тестируем нейросети для создания видео
Оцениваем нейросети PixVerse, Qwen, Wan и RunwayML по качеству видео, количеству видимых артефактов и следованию ТЗ.

В рабочих процессах часто наступает момент, когда видео очень нужно, но времени, ресурсов или навыков для его создания нет. Например, хочется оживить презентацию коротким видеодайджестом или воссоздать историческое событие по архивным фото.
Хорошая новость: теперь и эту задачу можно поручить нейросетям. В тексте разберем, какие генеративные модели помогают превращать текст или картинку в полноценное видео, а также какие платформы агрегируют эти модели, предлагая удобные инструменты для работы. Посмотрим, насколько они хороши и какие артефакты можно встретить.
Важно отметить, что большинство моделей, генерирующих видео, недоступны публично или требуют платной подписки. Однако коммерческие сервисы часто предлагают пробный период или ограниченное число бесплатных генераций.
Мы протестируем нейросети в двух режимах: text-to-video (генерация по текстовому запросу) и image-to-video (анимация заданного изображения). Оценивать будем по нескольким критериям.
PixVerse
Начнем сравнение с PixVerse — нейросети, которая создает видео и анимации на основе текстовых запросов или изображений. Она поддерживает множество художественных стилей — например, аниме, реализм, пиксель-арт. — и позволяет настраивать параметры видео (длительность, ракурс, плавность анимации).
PixVerse использует диффузионные модели, аналогичные Stable Diffusion и MidJourney, адаптированные для работы с видео. Это позволяет создавать плавные переходы между кадрами и сохранять консистентность (единообразие объектов в кадре).
Сервис доступен через веб-интерфейс, но бесплатный режим накладывает некоторые ограничения:
- можно создать только несколько генераций в день (60 едениц «энергии» для генераций восполняется ежедневно),
- есть очередь генераций,
- скачанные видео содержат вотермарку.
Итак, генерировать будем при помощи модели PixVerse V.4.0.
Генерация по тексту
Воссоздадим культовый шпагат Ван Дамма на движущихся грузовиках — с помощью PixVerse. Сможет ли она передать кинематографичность, напряжение мышц и детали сцены? Проверяем! Промт:
Create an ultra-realistic 8-second video in hyper-realistic style, depicting Jean-Claude Van Damme performing his iconic split between two moving trucks on a busy highway. The scene features Van Damme in sharp focus: his face is photorealistic with precise anatomy, visible wrinkles, skin texture, and a concentrated expression. He wears black athletic gear (lycra and matte nylon) that clings to his muscular, tense body, highlighting anatomical details. The split between the trucks is perfectly executed, with subtle body sway from the vehicles’ motion. Two massive semi-trucks (Volvo or Scania models) move synchronously at 60 km/h, their wheels splattered with mud, exhaust pipes emitting faint smoke, and sunlight glinting off their metallic surfaces. The distance between the trucks matches the width of Van Damme’s split. The setting is an American-style highway with cracked asphalt, faded lane markings, and dust kicked up by tires. A mountainous backdrop with pine trees and distant haze frames the scene, illuminated by golden-hour sunlight casting warm tones, long shadows, and highlights on the trucks’ surfaces. Start with a ground-level close-up of Van Damme’s face, then pull back to reveal the full split and trucks. Use slow-motion during the peak muscle tension moment, with motion blur on the trucks and swirling dust under their wheels. Render in cinematic 8K HDR with natural colors, depth of field, and hyper-realistic details like sweat beads, eye reflections, and fabric textures. Include ambient sound design: engine rumbles, wind gusts, and muffled highway noise.
Результат
Генерация получилось неплохой, но с ошибками:
- Жан повернут к нам спиной;
- сгенерировались не все пальцы;
- шпагат есть, но персонаж не между грузовиками, а перед ними, причем левитирует.
Вывод: качество в бесплатной версии оставляет желать лучшего. Есть несколько артефактов, ТЗ выполнено некорректно.
Генерация по изображению
Попробуем улучшить результат, загрузив референсное изображение к текстовому промту.
Результат
Генерация с добавлением картинки получилась более точной. Изображение служит конкретной отправной точкой и предоставляет информацию о деталях, что уменьшает пространство догадок для нейросети. Когда генерация идет только по тексту, модель вынуждена интерпретировать абстрактные описания по-своему, что увеличивает риск ошибок.
Помимо прочего, формат видео требует от объектов сохранения стабильной формы на протяжении времени. Исходное изображение задает опорные точки — форму объекта, текстуру, что помогает нейросети анимировать сцену без «дрейфа» деталей между кадрами. Без этого модель может хаотично менять элементы и создавать артефакты.
Вывод: качество видео осталось прежним, но деталей стало больше. Артефактов не увидел, а требования ТЗ соблюдены.
Qwen
Опробуем генерацию видео в Qwen 2.5 Max — модели от компании Alibaba. К слову, мы уже тестировали ее в сравнении с ChatGPT и DeepSeek — тогда оценивали три нейросети в логике, а также генерации изображений и исправного кода.
Генерация по тексту
Погрузимся в атмосферу классического вестерна и попытаемся сгенерировать ограбление паровоза на полном ходу. Промт:
A cinematic ultra-realistic 16:9 video scene, 15 seconds long, depicting a group of rugged cowboys robbing a moving steam train in the Wild West. The train is enveloped in thick clouds of smoke from its locomotive, creating a dramatic and intense atmosphere. The camera captures dynamic angles, focusing on the cowboys’ detailed faces, their weathered clothing, and their determined expressions as they leap onto the train cars. The environment is richly detailed with a desert landscape stretching into the distance under a stormy sky with dark clouds. Sunlight breaks through the clouds, illuminating the scene with golden rays. The cowboys use ropes, ladders, and guns to take control of the train, showcasing tension and action. Sparks fly from the train’s wheels as it speeds along the tracks, adding to the chaos. The scene is filled with realistic textures, intricate lighting, and lifelike movements. The style is hyper-realistic, cinematic, and immersive, reminiscent of high-budget Hollywood westerns.
Результат
Qwen расстроил. Он не смог сгенерировать 15-секундное видео: качество оказалось сомнительным, сцена выглядит хаотично, а итог совершенно не соответствует ТЗ.
Генерация по изображению
Используем тот же промт, но теперь загрузим изображение с ковбоями и поездом, чтобы дать модели больше визуальных ориентиров.
Результат
И снова мимо. Модель не справилась с задачей.
Почему так получилось
Qwen — это в первую очередь текстовая модель. Она отлично отвечает на вопросы, пишет тексты, анализирует информацию. Однако генерация видео — совсем другая лига. Для качественной работы нужны мультимодальные модели, которые либо могут создавать только изображения и видео, либо обращаться к более обученным и «высокобюджетным» собратьям.
Генерация видео для Qwen — принципиально иная задача, требующая отдельных алгоритмов и обучения на визуальных данных. Но зато мы можем создавать контент бесплатно и без ограничений. 😀
Wan
На очереди Wan — еще одна нейросеть от Alibaba Cloud, разработчиков Qwen. В отличие от «родственницы», Wan специализирована на генерации картинок и видео. В ее арсенале:
- Wan 2.1 Plus — генерация изображений;
- Text2Video 2.1 Plus — генерация видео по тексту;
- Image2Video — превращение изображения в видео (опционально с текстовым промтом).
После авторизации начисляют 50 «кредитов», которых хватит на пять генераций. Если выполнять простые задания — например, оценивать работы других пользователей, можно получить еще 50 единиц виртуальной валюты.
Генерация по тексту
Попробуем сгенерировать стимпанковский дирижабль, пролетающий над Парижем на фоне заката. Промт:
Steampunk airship over Paris sunset, Eiffel Tower dwarfed. Warm tones vs cold metal.
Результат
Важное преимущество Wan — возможность создавать видео со звуком, чем я и воспользовался. В генерации услышал утреннее щебетание птиц и звуки пропеллеров дирижабля.
Вывод: неплохая картинка, ТЗ детально соблюдено, аномалий нет — результатом доволен.
Генерация по изображению
Попробуем улучшить результат: добавим референсную картинку дирижабля и уточним детали сцены.
Текстовый промт:
Create a cinematic video showing a giant steampunk airship flying over Paris, with the Eiffel Tower visible in the background, appearing small compared to the airship. The scene is set during sunset, with orange and pink clouds reflecting in the Seine. The airship has a futuristic design with metal panels, glowing portholes, and visible engines, casting a shadow over the city. The camera starts with a wide shot of Paris, zooms in on the airship, and pans along its length to highlight its size. Include distant birds, tiny people looking up, and a misty haze around the tower. Soundtrack: epic orchestral music mixed with mechanical sounds. Color grading contrasts warm sunset tones with the airship’s cold metallic surface. End with the airship disappearing into the horizon, leaving the Eiffel Tower behind.
Результат

Видео немного удивило концовкой: то ли солнце пробивается сквозь парижский туман, то ли это что-то более фантастическое. Модель неожиданно сгенерировала на черно-белом исходнике яркое закатное небо и раскрасила всю сцену. Но стоит отдать ей должное: результат получился довольно качественным.
Замечание одно: движения дирижабля неестественные и немного резкие, а к его направлению тоже есть вопросы. Однако нейронка неплохо разукрасила референсное черно-белое изображение, что добавило своего изыска, а также полностью выполнила требования текстового промта.
Вывод: Wan, как и большинство других нейросетей для генерации картинок и видео, обладает системой «поинтов». По их истечению вы не сможете генерировать новые творения. Однако это сделано не ради покупки подписки, а чтобы все попробовали создать что-то необычное. Качество видео мне понравилось, не у каждой нейросети есть генерация фоновых звуков и возможность загрузки начальных/конечных кадров для более точного попадания в ваше ТЗ.
RunwayML
Рассмотрим RunwayML — платформу, которая позволяет выбирать и работать с разными моделями в зависимости от ваших потребностей. Она условно-бесплатная: у вас есть «кредиты», но за дополнительные генерации и лучшее качество придется заплатить. Основные возможности:
- готовые модели для обработки изображений, видео, звука и текста;
- удобный и понятный веб-интерфейс,
- возможность дообучения моделей на своих данных.
Генерация видео в Gen3 Alpha Turbo
Для теста выбрал модель Gen3 Alpha Turbo — одну из моделей-видеомейкеров. Что обещают:
- формат видео 720p — выше, чем у большинства конкурентов;
- длительность генераций до 10 секунд,
- фактическое разрешение — 1260×768, чуть ниже стандартного HD.
К текстовому запросу нас сразу просят добавить картинку для более качественной генерации. Добавляем немного классики в нашу подборку — попробуем воссоздать культовую сцену похищения коровы НЛО. Промт:
A classic UFO hovers above, casting a glowing beam of light. Inside the beam, a cow is being lifted into the ship while others watch in confusion.
Результат
Вывод: Gen3 Alpha Turbo сгенерировал видео среднего качества с аномалиями. Складывается ощущение, что корову создали в фоторедакторе и там же начали двигать ее в сторону НЛО. Модели еще далеко до качественных генераций. Я бы остановился на бесплатной версии и улучшал видео, пока не закончатся кредиты.
Заключение и приглашение на мероприятие
Среди протестированных нейросетей и платформ лучше всего себя показали PixVerse — за счет качественной анимации статичных изображений, и Wan — благодаря генерации звуки и детализированных сцен. Остальные решения пока далеки от идеала: видео все еще генерируется с артефактами, а сложные запросы часто дают непредсказуемые результаты.
Если вам интересны актуальные ML-технологии, их применение и реальные кейсы, регистрируйтесь на митап «MLечный путь — 2025: знания, опыт, комьюнити». Будем не только слушать, но и обмениваться мнениями в дискуссиях, челленджах и на питчах проектов. Каждый участник сможет напрямую поговорить с экспертами, задать вопросы и получить подробную обратную связь. Мероприятие бесплатное — нужно только зарегистрироваться. Задайте вопрос спикерам и получите шанс выиграть подарок от Selectel.
📅 23 апреля, 18:00
📍 Формат участия — онлайн и оффлайн в Санкт-Петербурге.