Сегодня полностью погрузимся в мир TTS (Text-to-Speech) — новое русло нейросетей, призванных облегчить жизнь и отобрать работу у профессиональных дикторов, актеров и тех, чей голос мы привыкли слышать в любимых фильмах.
Заранее обозначу, что не все модели поддерживают русский язык, а у некоторых присутствует своеобразный акцент, как у Шварценеггера из фильма «Красная жара».
Я буду генерировать озвучивание не только на английском, но и на русском языке, чтобы понять, насколько отличается качество звучания и произношения, и можно ли вообще использовать эти модели, закрыв глаза на ограничение языков.
VibeVoice
Первая модель на очереди — VibeVoice-Realtime-0.5B. Модель от Microsoft с длиной контекста в 8 000 токенов и возможностью озвучить до десяти минут текста. Модель заявлена как моноязычная, но это мы еще посмотрим.
Интерфейс простой:
- поле для ввода текста, который нужно озвучить;
- кнопка Speaker Voice для выбора голоса, которым будет озвучен ваш текст;
- ползунок CFG SCALE (Calssifier-Free Guidance Scale) — задает степень следования модели входному тексту (чем ниже значение, тем менее четко модель будет следовать тексту, будут появляться аномалии, но интонация будет на более высоком уровне; при высоком значении CFG, все будет наоборот — четкое следование тексту, избегание аномалий, но без выразительности).

Итак, первый текст у нас будет на русском языке. Хочется посмотреть, сможет ли модель хоть как-то справиться с великим и могучим:
Люблю грозу в начале мая,
Когда весенний, первый гром,
Как бы резвяся и играя,
Грохочет в небе голубом.
Гремят раскаты молодые,
Вот дождик брызнул, пыль летит,
Повисли перлы дождевые,
И солнце нити золотит.
Для моноязычной модели получилось удовлетворительно. Чтение было выразительным, но почти в каждом слове был акцент, а некоторые слова не слышались корректно — к этому я не придираюсь, но сообщить должен.
А теперь попробуем играть по правилам — пусть попробует прочитать стих на английском языке, и посмотрим, не будет ли аномалий:
Spring is here! Spring is here!
Winter is gone and two flowers appear.
Three little robins begin to sing.
Four bicycle bells begin
to ring.
Five children come out and jump the rope.
Spring is here now! I hope, I hope!
Качество произношения мне понравилось, я не услышал каких-то запинок и галлюцинаций, но на заднем фоне в начале и самом конце звучания я обнаружил лишние шумы, которых не было в первой генерации на русском языке.
Решил проверить максимальную длительность генерации и загрузил две страницы из романа «Война и мир» Л. Н. Толстого. Модель выдала ошибку без всяких уведомлений. Видимо, до классики еще не дошли.

Vibe-Voice-Realtime-0.5B показалась мне перспективной моделью, способной выразительно читать текст с учетом знаков препинания. За понимание русского языка отдельный плюсик, т.к. не все модели могут распознавать его.
Kokoro
Вторая модель на очереди — Kokoro-TTS. Она имеет 82 млн параметров, поддерживает два языка (вернее сказать, два диалекта английского: en-us, en-gb) и дает возможность прописывать произношение слов транскрипцией. Также модель чувствительна к пунктуации и ей можно указать, куда в тексте ставить ударения.
Хоть в Kokoro и заявлена поддержка только двух языков, в описании сказано, что можно использовать эту модель и с другими языками.

Сама панель управления проста: слева можно ввести текст, выбрать, каким голосом он будет озвучен и с какой скоростью. Справа получаем генерацию либо запись в реальном времени, нажав кнопку Stream.
Первый тест — уже знакомый нам стих про майскую грозу — модель толком не озвучила — получилось озвучивание рандомных английских слов длительностью четыре секунды.
Что насчет английского стихотворения? Сейчас узнаем.
Модель прочитала текст без какого-то энтузиазма, без выражения. На мой слух, VibeVoice даже с русским текстом и акцентом озвучила стих выразительнее.
Chatterbox
Chatterbox TTS — модель Text-to-Speech с открытым исходным кодом для генерации естественного голосового аудио из текста. Появилась как открытый аналог проприетарных сервисов наподобие ElevenLabs.

Интерфейс обычный, но тут можно загрузить часть своего голоса (что не рекомендуется) либо какой-то другой записанный голос. По данному референсу модель попробует сгенерировать аудиодорожку. Также в этой модели можно задать степень просодической экспрессии — это амплитуда интонационных колебаний, акценты, растяжение гласных, четкость и выразительность речи, паузы и «вдохи воздуха» — все как у реальных людей.
Модель построена на архитектуре с использованием LLaMA-подобных компонентов (~ 0,5 B параметров). Возможности у Chatterbox заявлены амбициозные, осталось проверить их на практике.
Когда я попытался создать запись с прочтением русского стиха и включил проигрывание аудио, задумался, не ошибся ли я и не включил ли запись с WAIC на китайском.
Да, это такая особенность некоторых моделей, не обученных на русском языке — пытаться бегло прочитать текст, не понимая его смысла и не зная букв.

Но если записать стихотворение транслитом, все становится более-менее понятно, но еще не дотягивает до качественного произношения. Если и озвучивать русский текст на таких моделях, то только забавы ради или при необходимости озвучить иностранца, который в первый раз прикоснулся к русским стихам.
При озвучке родного английского языка результат оказался приемлемым. Аномалий выявлено не было, каких-то шумов не замечено. Модель рекомендуется к использованию, но только если нужно озвучивать что-то на английском языке.
Обычно модель обучается на английском и китайском языках, и для себя я решил проверить, возможно ли озвучить китайский текст с помощью рассмотренных ранее моделей?
Спойлерить не буду, послушайте:
Аудио-фрагменты
Результат вы слышали сами. Немного позабавила Kokoro, которой конкретно поставили задачу озвучить, и она озвучила.
Вывод
Мой фаворит с Hugging Face — VibeVoice. Это сбалансированная модель, способная озвучивать текст на русском и английском языках, имеющая небольшую интонацию при чтении и отсутствие аномалий в произношениях и на заднем фоне. А как вам озвучка от Microsoft? Или вы знаете модель, которая прочитала бы Тютчева лучше? Пишите названия в комментарии.