Китайские разработчики выпустили видеогенератор Step-Video без ограничений на создание известных личностей

Его можно протестировать в бесплатной демоверсии.

Китайский проект StepFun представил модель для генерации видео по текстовому описанию Step-Video-T2V с 30 млрд параметров.
Она может создавать ролики длиной до десяти секунд с некоторыми реальными личностями, например Илоном Маском и Стивом Джобсом. Из-за внутренних ограничений этого не могут делать другие модели вроде Sora от OpenAI.

Запрос (перевод с английского): «Илон Маск читает книгу, сидя у камина». Генерация vc.ru

Демоверсию можно протестировать на сайте проекта. Доступна регистрация на российский номер телефона, код проверки приходит в Telegram.
Интерфейс сайта на китайском, нейросеть понимает запросы на китайском и английском. На момент написания заметки генерация ролика занимает около шести минут.

Поле для ввода запроса и сгенерированные видео. Скриншот vc.ru

В запросе можно описать персонажа, его эмоции, одежду, указать тип съёмки, а также прописать текст на табличке или плакате. Модель может изобразить надпись на китайском и английском. На русском она попытается заменить буквы на латинские.

Запрос (перевод с китайского): «Стив Джобс в чёрном свитере перед большим экраном. Сзади надпись "Stepvideo is coming". Сцена происходит на современной площадке, на экране отображается информация о продукте. Статичная камера». Источник: StepFun

Запрос (перевод с английского): «Крупный план. Владимир Ленин сидит за столом в современном ресторане. Он задумчив. На фоне неоновая надпись "Ресторан"». Генерация vc.ru

В примерах ниже можно посмотреть, как модель справляется с созданием человеческих движений.

Источник: StepFun

Пример пользователя. Источник: Aimirai46487

Код и веса для локальной установки Step-Video-T2V доступны на GitHub.
Кроме генератора видео, у команды StepFun есть чат-бот Yuewen с их моделью Step1 и рассуждающей R1 от DeepSeek, а также сервис для создания ИИ-персонажей Maopaoya.

#новости