Теперь можно создавать озвучку к уже созданным нейросетями (и не только) видео

Зачем это нужно?

Модели генерации видео развиваются невероятными темпами, но до сих пор создавали "немые" видео, без звука. Google DeepMind решил эту проблему, анонсировав 17 июня технологию создания аудио на основе имеющегося видео (V2A). И буквально через день подтянулся с решением другой конкурент, единорог ElevenLabs. Расскажу о сервисе, и чем он нам может быть полезен.

Подписывайтесь на мой канал Продуктовые штучки

С помощью - теперь уже двух решений - можно будет создавать полноценные видео с саундтреками, реалистичными звуковыми эффектами и диалогами, соответствующими персонажам и тону видео.

Сервисы также могут создавать озвучку для архивных материалов, немых фильмов, что открывает широкий спектр творческих возможностей.

Что в этом нового?

Теперь можно получить синхронизированную (что важно и сложно) генерацию аудиовизуального контента.

То, что она совместима с ИИ-видеогенераторами. Теперь можно генерировать звук для любого видео (технология V2A совместима с моделями генерации видео, такими как Veo), немых фильмов из прошлого.

Промпт: барабанщик на сцене, в окружении огней и ликующей толпы.  Создано с помощью V2A. Источник

Возможности V2A от Google

Теперь можно создавать озвучку к уже созданным нейросетями (и не только) видео

Гибкость и контроль над результатом, который обеспечивается:

  • V2A может генерировать неограниченное количество саундтреков для любого видео на входе.
  • При желании можно задать «положительную подсказку», чтобы направить генерируемый вывод в сторону желаемых звуков, или «негативную подсказку», чтобы отклонить ее от нежелательных звуков.

Все это позволяет быстро экспериментировать с результатами и выбирать наиболее подходящий. В блоге Google приведен пример трех разных озвучек одного и того же видео.

Кроме того, системе не требуется ручное согласование создаваемого звука с видео, что предполагает утомительную настройку различных элементов звука, визуальных эффектов и таймингов.

Как это работает?

Google экспериментировал с подходами, чтобы найти наиболее масштабируемую архитектуру ИИ, которая при этом позволяет получить наиболее реалистичные и впечатляющие результаты для синхронизации видео- и аудиоинформации.

Система V2A начинается с кодирования входного видео в сжатое представление. Затем модель диффузии итеративно очищает звук от случайного шума. Этот процесс управляется визуальным вводом и подсказками на естественном языке для создания синхронизированного реалистичного звука, который точно соответствует подсказке. Наконец, аудиовыход декодируется, преобразуется в звуковой сигнал и объединяется с видеоданными.

Схема работы V2A. <a href="https://api.vc.ru/v2.8/redirect?to=https%3A%2F%2Fdeepmind.google%2Fdiscover%2Fblog%2Fgenerating-audio-for-video%2F&postId=1249171" rel="nofollow noreferrer noopener" target="_blank">Источник</a>
Схема работы V2A. Источник

Чтобы создавать звук более высокого качества и добавить возможность направлять модель на создание определенных звуков, Google добавили в процесс обучения больше информации: аннотации с подробным описанием звука, расшифровки разговорных диалогов. Обучаясь, технология “привыкает” связывать определенные аудиособытия с визуальными сценами.

Что дальше?

Существует ряд ограничений, которые разработчики пытаются устранить, и дальнейшие исследования продолжаются.

Качество звука. Поскольку качество получаемого звука зависит от качества входящего видео, это может привести к заметному падению качества звука.

Синхронизация с видео. Есть куда улучшать синхронизацию губ для видеороликов. V2A пытается синхронизировать ее с движениями губ персонажей. Но случается странная синхронизация губ, поскольку видеомодель не генерирует соответствующие расшифровке движения рта в исходном видео.

Как воспользоваться?

Пока ничего об этом нет информации. Следим.

Решение от ElevenLabs

Буквально на следующий день пришла новость о том, что ElevenLabs теперь также может создавать озвучку для видео с помощью инструмента Voiceover Studio. Это показывает, насколько плотная гонка началась на рынке ИИ инструментов.

Конечно, сама модель была сделана не за день, она разрабатывалась ранее. Стартап специализируется на аудио продуктах, в частности, есть инструмент для дубляжа и создания спец эффектов. В данном случае уже был готов инструмент, который уже тестировался, просто анонс Google заставил выпустить модель раньше.

Однако специалисты говорят, что гугловская модель имеет более фундаментальный подход, чем у ElevenLabs. В методе Elevenlabs используются 4 кадра из первых 4-х секунд (поэтому последний подрезал в начале, иначе там просто шум), так что местами создается впечатление наличия какой-то синхронизации. Google же сначала "женит" текстовый промпт и видео, а по ним уже генерируется аудиодорожка

Интерфейс <a href="https://api.vc.ru/v2.8/redirect?to=https%3A%2F%2Felevenlabs.io%2Fapp%2Fvoiceover-studio&postId=1249171" rel="nofollow noreferrer noopener" target="_blank">Voiceover Studio</a> от ElevenLabs для озвучки видео. <br />
Интерфейс Voiceover Studio от ElevenLabs для озвучки видео.

ElevenLabs - стартап-единорог, среди основателей которого есть выходец из Google. Основан в 2022 году, получил финансирование от известных инвестфондов и ангелов.

В отличие от V2A от DeepMind, его можно уже попробовать самостоятельно уже сейчас.

Пожалуйста, поддержите меня, поставьте лайк!

33
1 комментарий

Круто!!

Ответить