Уникальность модели INFP в том, что она позволяет реагировать и распознавать роли «говорящего» и «слушающего» без предварительной настройки.
Процесс работы INFP выстроен следующим образом:
— Motion-Based Head Imitation — первый этап, во время которого ИИ-модель учитывает все нюансы человеческого поведения, включая мимику и повороты головы на основе видео.
Полученные данные INFP затем использует при анимировании статичного изображения.
— Audio-guided motion generation — второй этап, во время которого система INFP определяет, как сопоставлять звуки с естественными движениями.
Специально разработанный командой ByteDance инструмент motion guider помогает создать паттерны как для говорения, так и слушания. Таким образом модель INFP анализирует звуки с двух сторон одновременно.
В самом конце специальный AI-компонент — диффузионный трансформер — уточняет движения до плавных, естественных, максимально подходящих тому, что изображено на картинке.
Для правильного обучения в модель INFP внедрили коллекцию разговоров DyConv.
ByteDance утверждает, что создала модель, превосходящую по всем параметрам аналоги. INFP отлично сопоставляет движения губ с речью, сохраняет уникальные человеческие черты лица и создаёт широкий спектр естественных движений.
Мне одной кажется, что когда таким способом оживляют фото, то это выглядит жутко?😬 Да и ненатурально, не раз видела такое, вроде и говорит, но даже то, как шевелит губами, выглядит неестественно
У некоторых нейронок действительно выглядит жутковато, но вот у Bytedance, если судить по видео-презентации, на этот раз норм получилось. Надо было бы, конечно, скачать видюху и добавить в пост, поленились я...
С другой стороны, в презентационных видео всегда всё красиво выглядит=))