ByteDance представила ИИ-модель для генерации видео Goku. Наступает эра фейковых блогеров
Согласитесь ли вы со мной, если я скажу, что наступает эра фейковых инфлюенсеров?
По правде говоря, она уже наступила.
Согласно исследованию Influencer Marketing Hub, 31,7 % брендов считают, что виртуальные блогеры имеют преимущество перед реальными. Еще 29,1 % назвали круглосуточную доступность самым большим преимуществом ИИ-инфлюенсеров.
Сегодня доступны платформы на базе ИИ, позволяющие создавать образы привлекательных женщин и генерировать реалистичные видеоролики с их участием. Некоторые из них даже являются бесплатными.
Однако, судя по моему личному опыту, видеоролики с людьми, созданные ИИ, по-прежнему не отличаются реалистичностью. Большинство, если не все, видеомодели по-прежнему испытывают трудности с поддержанием согласованности движений.
Недавно Гонконгский университет официально представил модель для генерации видео Goku, разработанную в сотрудничестве с ByteDance. Эта новая видеомодель позволяет создавать максимально реалистичные видеоролики в стиле «тиктока», в том числе и для создания видеороликов с участием ИИ-блогеров.
Телеграм-бот SYNTX предоставляет доступ к более чем 30 ИИ-инструментам. Без ВПН, оплата любой картой, запросы на любом языке, пробуйте бесплатно! В боте есть GPTo1, Gemini, Claude, Grok, Llama, Perplexity, DeepSeek, MidJourney, DALL-E 3, Flux, Ideogram и Recraft, LUMA, Runway, Kling, Sora, Pika, Hailuo AI (Minimax), Suno, синхронизатор губ, Редактор с 12 различными ИИ-инструментами для ретуши фото. ☝Это только часть функций, доступных в SYNTX!
Что такое Goku?
Goku - это семейство моделей, построенных на архитектуре Rectified flow transformers и предназначенных для генерации изображений и видео. Оно разработано для достижения отраслевого уровня производительности, объединяя передовые методы для высококачественной визуальной генерации, включая тщательную обработку данных, разработку модели и формулировку потока.
Goku поддерживает множество задач по генерации:
- 🎬 Генерация видео по текстовому запросу
- 🖼 Генерация видео из изображений
- 🎨 Генерация изображений по текстовому запросу
У Goku есть еще одна разновидность под названием Goku+, которая позволяет напрямую создавать виртуальные цифровые видео с людьми. С помощью Goku+ вы можете сгенерировать по текстовому промпту очень реалистичные видео с людьми.
Он даже создает видео длительностью более 20 секунд, с естественными движениями рук и очень выразительной мимикой и движениями тела.
Друзья, буду рад, если вы подпишетесь на мой телеграм-канал про нейросети и на канал с гайдами и советами по работе с нейросетями - я стараюсь делиться только полезной информацией.
Принцип работы преобразования изображения в видео
В Goku для создания видео из изображения (I2V) используется широко распространенная стратегия использования первого кадра каждого видеоклипа в качестве референсного изображения. Вот описание этого процесса:
- Эталонное изображение как условие. Исходное изображение используется в качестве дополнительного условия для генерации видео.
- Конкатенация токенов. Токены изображения, соответствующие эталонному изображению, передаются в сеть, а затем конкатенируются с токенами зашумленного видео по канальному измерению.
- Чтобы использовать уже имеющиеся знания, для выравнивания каналов вводится один слой MLP (многослойный перцептрон). Остальная архитектура модели остается такой же, как и в модели Goku-T2V (text-to-video).
- Тонкая настройка. Модель Goku-I2V была тонко настроена с использованием примерно 4,5 млн триплетов «текст-изображение-видео» из различных доменов для обеспечения обобщения. Несмотря на использование всего 10 000 шагов тонкой настройки, модель способна анимировать эталонное изображение и поддерживать соответствие с текстом.
- Результаты. У сгенерированных видеороликов - высокое визуальное качество и временная согласованность, они передают семантические детали, описанные в тексте.
Взгляните на эти примеры:
Эталонные изображения показаны в крайних левых колонках. Ключевые слова выделены красным текстом.
Чтобы гарантировать, что Goku создаст высококачественное видео, модель обучается на наборе данных, который является визуально привлекательным, контекстуально релевантным и разнообразным.
Конвейер обработки данных состоит из пяти основных этапов:
- Сбор изображений и видео
- Извлечение и обрезка видео
- Фильтрация изображений и видео
- Создание надписей
- Балансировка распределения данных
Этот конвейер обеспечивает высокое визуальное качество видеоклипов, используемых для обучения модели. Это достигается путем визуальной эстетической фильтрации с использованием эстетических моделей для оценки ключевых кадров и сохранения фотореалистичных и визуально насыщенных клипов.
Например, видео с разрешением около 480 x 864 отсеиваются, если их эстетический балл ниже 4,3, а для разрешений, превышающих 720 x 1280, порог повышается до 4,56.
Более подробную информацию о технических деталях вы можете найти в этом техническом документе.
Примеры использования
Приведенные ниже примеры демонстрируют возможности Goku+ по созданию гиперреалистичных видеороликов с продуктами и AI-блогерами:
- Пример №1: Рекламный ролик
- Пример №2: Взаимодействие продукта и человека
- Пример №3: Превращение изображения продукта в видеоклип
- Пример №4: Видео по текстовому промпту
Пример №1: Рекламный ролик
В приведенном ниже примере Goku+ наглядно показаны возможности создания видеороликов, идеально подходящих для рекламы средств по уходу за собой. Визуальный стиль в точности повторяет динамичную, стремительную эстетику, характерную для таких популярных платформ, как TikTok.
Действительно ли они отсканировали миллионы видеороликов в TikTok и использовали их в качестве обучающих данных? Если да, то получали ли они вообще разрешение от тех, кто их загружал?
Пример № 2: Взаимодействие продукта и человека
В этом примере модель отлично справляется с созданием видеороликов, в которых человек естественно взаимодействует с продуктом. Видео похоже на дружеское объяснение или обычную демонстрацию, где все происходит естественно.
Подумайте о том, чтобы использовать ИИ-блогера для живых продаж вместо вас. Как здорово, когда есть кто-то, кто не устает разговаривать и отвечать на вопросы.
Пример № 3: Превращение изображения продукта в видеоклип
Эта функция, пожалуй, одна из самых практичных: превращение статичного изображения товара в живой видеоклип. Вместо того чтобы устраивать полноценную видеосъемку, вы просто берете одно изображение и позволяете Goku+ оживить его с помощью мельчайших движений и интересных деталей.
Это огромная экономия времени, особенно для онлайн-продавцов, которым быстро нужен динамический контент. Однако сохранит ли Goku+ этот уровень соответствия эталонному изображению, еще предстоит выяснить.
Пример № 4: Генерация видео из текста
Наконец, посмотрите, как Goku+ генерирует видео по простому текстовому промпту. Модель генерирует видео, которое выглядит как сцена из популярного корейского телешоу.
Промпт: Two women are sitting at a table in a room with wooden walls and a plant in the background. Both women look to the right and talk, with surprised expressions.
Может ли Goku+ когда-нибудь быть использован в производстве телевизионных шоу? Это, несомненно, вызовет множество споров.
Как получить доступ к Goku?
На данный момент Goku все еще является исследовательской работой, и у нее нет общедоступной демо-страницы. Я настоятельно рекомендую следить за их сайтами на GitHub и HuggingFace, чтобы быть в курсе будущих обновлений.
- HuggingFace space
- Страница на GitHub
Goku+ впечатляет - видеоролики с примерами выглядят просто фантастически. Но это лишь отдельные примеры, а реальную картину мы узнаем только после публичного релиза. Когда мы увидим его в действии для всех видов контента, мы получим реальное представление о том, действительно ли он может обеспечить стабильную и высококачественную производительность.
Еще один большой вопрос, который не дает мне покоя, - это то, как на самом деле собирались данные для обучения. Действительно ли они использовали для обучения видео с TikTok? Если это так, то возникает ряд серьезных вопросов о конфиденциальности и разрешениях. И еще вопрос об участии ByteDance - что это им даст?
Возможность того, что эти ИИ-блогеры в конечном итоге могут быть интегрированы в TikTok, довольно необычна, и она открывает совершенно новые дебаты о будущем цифрового контента и блогерского маркетинга.
Телеграм-бот SYNTX предоставляет доступ к более чем 30 ИИ-инструментам. Без ВПН, оплата любой картой, запросы на любом языке, пробуйте бесплатно! В боте есть GPTo1, Gemini, Claude, Grok, Llama, Perplexity, DeepSeek, MidJourney, DALL-E 3, Flux, Ideogram и Recraft, LUMA, Runway, Kling, Sora, Pika, Hailuo AI (Minimax), Suno, синхронизатор губ, Редактор с 12 различными ИИ-инструментами для ретуши фото. ☝Это только часть функций, доступных в SYNTX!
Источник статьи на английском - здесь