ByteDance представила ИИ-модель для генерации видео Goku. Наступает эра фейковых блогеров

Согласитесь ли вы со мной, если я скажу, что наступает эра фейковых инфлюенсеров?

По правде говоря, она уже наступила.

Согласно исследованию Influencer Marketing Hub, 31,7 % брендов считают, что виртуальные блогеры имеют преимущество перед реальными. Еще 29,1 % назвали круглосуточную доступность самым большим преимуществом ИИ-инфлюенсеров.

Сегодня доступны платформы на базе ИИ, позволяющие создавать образы привлекательных женщин и генерировать реалистичные видеоролики с их участием. Некоторые из них даже являются бесплатными.

Однако, судя по моему личному опыту, видеоролики с людьми, созданные ИИ, по-прежнему не отличаются реалистичностью. Большинство, если не все, видеомодели по-прежнему испытывают трудности с поддержанием согласованности движений.

Недавно Гонконгский университет официально представил модель для генерации видео Goku, разработанную в сотрудничестве с ByteDance. Эта новая видеомодель позволяет создавать максимально реалистичные видеоролики в стиле «тиктока», в том числе и для создания видеороликов с участием ИИ-блогеров.

Телеграм-бот SYNTX предоставляет доступ к более чем 30 ИИ-инструментам. Без ВПН, оплата любой картой, запросы на любом языке, пробуйте бесплатно! В боте есть GPTo1, Gemini, Claude, Grok, Llama, Perplexity, DeepSeek, MidJourney, DALL-E 3, Flux, Ideogram и Recraft, LUMA, Runway, Kling, Sora, Pika, Hailuo AI (Minimax), Suno, синхронизатор губ, Редактор с 12 различными ИИ-инструментами для ретуши фото. ☝Это только часть функций, доступных в SYNTX!

Goku - это семейство моделей, построенных на архитектуре Rectified flow transformers и предназначенных для генерации изображений и видео. Оно разработано для достижения отраслевого уровня производительности, объединяя передовые методы для высококачественной визуальной генерации, включая тщательную обработку данных, разработку модели и формулировку потока.

Goku поддерживает множество задач по генерации:

🎬 Генерация видео по текстовому запросу
🖼 Генерация видео из изображений
🎨 Генерация изображений по текстовому запросу

У Goku есть еще одна разновидность под названием Goku+, которая позволяет напрямую создавать виртуальные цифровые видео с людьми. С помощью Goku+ вы можете сгенерировать по текстовому промпту очень реалистичные видео с людьми.

Он даже создает видео длительностью более 20 секунд, с естественными движениями рук и очень выразительной мимикой и движениями тела.

Друзья, буду рад, если вы подпишетесь на мой телеграм-канал про нейросети и на канал с гайдами и советами по работе с нейросетями - я стараюсь делиться только полезной информацией.

В Goku для создания видео из изображения (I2V) используется широко распространенная стратегия использования первого кадра каждого видеоклипа в качестве референсного изображения. Вот описание этого процесса:

Эталонное изображение как условие. Исходное изображение используется в качестве дополнительного условия для генерации видео.
Конкатенация токенов. Токены изображения, соответствующие эталонному изображению, передаются в сеть, а затем конкатенируются с токенами зашумленного видео по канальному измерению.
Чтобы использовать уже имеющиеся знания, для выравнивания каналов вводится один слой MLP (многослойный перцептрон). Остальная архитектура модели остается такой же, как и в модели Goku-T2V (text-to-video).
Тонкая настройка. Модель Goku-I2V была тонко настроена с использованием примерно 4,5 млн триплетов «текст-изображение-видео» из различных доменов для обеспечения обобщения. Несмотря на использование всего 10 000 шагов тонкой настройки, модель способна анимировать эталонное изображение и поддерживать соответствие с текстом.
Результаты. У сгенерированных видеороликов - высокое визуальное качество и временная согласованность, они передают семантические детали, описанные в тексте.

Взгляните на эти примеры:

Эталонные изображения показаны в крайних левых колонках. Ключевые слова выделены красным текстом.

Чтобы гарантировать, что Goku создаст высококачественное видео, модель обучается на наборе данных, который является визуально привлекательным, контекстуально релевантным и разнообразным.

Конвейер обработки данных состоит из пяти основных этапов:

Сбор изображений и видео
Извлечение и обрезка видео
Фильтрация изображений и видео
Создание надписей
Балансировка распределения данных

Этот конвейер обеспечивает высокое визуальное качество видеоклипов, используемых для обучения модели. Это достигается путем визуальной эстетической фильтрации с использованием эстетических моделей для оценки ключевых кадров и сохранения фотореалистичных и визуально насыщенных клипов.

Например, видео с разрешением около 480 x 864 отсеиваются, если их эстетический балл ниже 4,3, а для разрешений, превышающих 720 x 1280, порог повышается до 4,56.

Более подробную информацию о технических деталях вы можете найти в этом техническом документе.

Приведенные ниже примеры демонстрируют возможности Goku+ по созданию гиперреалистичных видеороликов с продуктами и AI-блогерами:

Пример №1: Рекламный ролик
Пример №2: Взаимодействие продукта и человека
Пример №3: Превращение изображения продукта в видеоклип
Пример №4: Видео по текстовому промпту

В приведенном ниже примере Goku+ наглядно показаны возможности создания видеороликов, идеально подходящих для рекламы средств по уходу за собой. Визуальный стиль в точности повторяет динамичную, стремительную эстетику, характерную для таких популярных платформ, как TikTok.

Действительно ли они отсканировали миллионы видеороликов в TikTok и использовали их в качестве обучающих данных? Если да, то получали ли они вообще разрешение от тех, кто их загружал?

В этом примере модель отлично справляется с созданием видеороликов, в которых человек естественно взаимодействует с продуктом. Видео похоже на дружеское объяснение или обычную демонстрацию, где все происходит естественно.

Подумайте о том, чтобы использовать ИИ-блогера для живых продаж вместо вас. Как здорово, когда есть кто-то, кто не устает разговаривать и отвечать на вопросы.

Эта функция, пожалуй, одна из самых практичных: превращение статичного изображения товара в живой видеоклип. Вместо того чтобы устраивать полноценную видеосъемку, вы просто берете одно изображение и позволяете Goku+ оживить его с помощью мельчайших движений и интересных деталей.

Это огромная экономия времени, особенно для онлайн-продавцов, которым быстро нужен динамический контент. Однако сохранит ли Goku+ этот уровень соответствия эталонному изображению, еще предстоит выяснить.

Наконец, посмотрите, как Goku+ генерирует видео по простому текстовому промпту. Модель генерирует видео, которое выглядит как сцена из популярного корейского телешоу.

Промпт: Two women are sitting at a table in a room with wooden walls and a plant in the background. Both women look to the right and talk, with surprised expressions.

Может ли Goku+ когда-нибудь быть использован в производстве телевизионных шоу? Это, несомненно, вызовет множество споров.

На данный момент Goku все еще является исследовательской работой, и у нее нет общедоступной демо-страницы. Я настоятельно рекомендую следить за их сайтами на GitHub и HuggingFace, чтобы быть в курсе будущих обновлений.

HuggingFace space
Страница на GitHub

Goku+ впечатляет - видеоролики с примерами выглядят просто фантастически. Но это лишь отдельные примеры, а реальную картину мы узнаем только после публичного релиза. Когда мы увидим его в действии для всех видов контента, мы получим реальное представление о том, действительно ли он может обеспечить стабильную и высококачественную производительность.

Еще один большой вопрос, который не дает мне покоя, - это то, как на самом деле собирались данные для обучения. Действительно ли они использовали для обучения видео с TikTok? Если это так, то возникает ряд серьезных вопросов о конфиденциальности и разрешениях. И еще вопрос об участии ByteDance - что это им даст?

Возможность того, что эти ИИ-блогеры в конечном итоге могут быть интегрированы в TikTok, довольно необычна, и она открывает совершенно новые дебаты о будущем цифрового контента и блогерского маркетинга.

#goku

Источник статьи на английском - здесь

ByteDance представила ИИ-модель для генерации видео Goku. Наступает эра фейковых блогеров

Что такое Goku?

Принцип работы преобразования изображения в видео

Примеры использования

Пример №1: Рекламный ролик

Пример № 2: Взаимодействие продукта и человека

Пример № 3: Превращение изображения продукта в видеоклип

Пример № 4: Генерация видео из текста

Как получить доступ к Goku?