Живые фотографии с помощью ИИ: ByteDance внедряет новую технологию

ByteDance, родительская компания TikTok, презентовала новую ИИ-технологию INFP, которая заставляет статичные портретные фотографии «говорить» и реагировать на звук аудио в автоматическом режиме.

Уникальность модели INFP в том, что она позволяет реагировать и распознавать роли «говорящего» и «слушающего» без предварительной настройки. Процесс работы INFP выстроен следующим образом: — Motion-Based Head Imitation — первый этап, во время которого ИИ-модель учитывает все нюансы человеческого поведения, включая мимику и повороты головы на основе видео. Полученные данные INFP затем использует при анимировании статичного изображения. — Audio-guided motion generation — второй этап, во время которого система INFP определяет, как сопоставлять звуки с естественными движениями. Специально разработанный командой ByteDance инструмент motion guider помогает создать паттерны как для говорения, так и слушания. Таким образом модель INFP анализирует звуки с двух сторон одновременно. В самом конце специальный AI-компонент — диффузионный трансформер — уточняет движения до плавных, естественных, максимально подходящих тому, что изображено на картинке. Для правильного обучения в модель INFP внедрили коллекцию разговоров DyConv. ByteDance утверждает, что создала модель, превосходящую по всем параметрам аналоги. INFP отлично сопоставляет движения губ с речью, сохраняет уникальные человеческие черты лица и создаёт широкий спектр естественных движений.

В ближайшее время в планах у рабочей команды расширить функционал INFP для соединения работы анимации с текстом. Это позволит расширить свободу творчества — оживлять можно будет все тело. Принимаю заказы на написание текстов на бизнес-темы, про маркетинг, технологии и IT (кроме бухгалтерии, финучёта, традиционного инвестирования и классической биржевой торговле, про крипту обсуждаемо). По всем вопросам пишите в личку на этом сайте.Ещё больше интересного контента из жизни общества, политики, бизнеса и технологий читайте в Telegram-канале «Политичка».