Сделали видеоролик шортс (рилс) полностью нейросетью
Всем привет, мы в KolerskyAI уже нескольких лет занимаемся нейросетями.
Периодически мы пробуем тестить нейросети для реальных задач и в этот раз решили создать видеоролик полностью с помощью ИИ.
Идея ролика
Идею ролика взяли произвольную, полностью из головы: «итальянский повар рассказывает, как готовить пиццу».
Перед началом попыток всяких генераций мы подумали, как это все можно слепить из ИИ.
Начало генераций
Решили генерировать видео кусками и сначала просто налепили разных видео типа повар готовит пиццу. Из разных нейросетей выбрали Luma Ray-2 mini.
Из этих двух поваров выбрали того, что помоложе (он больше похож на итальянца).
Делаем много много фрагментов
Теперь нам нужно:
- Во-первых: много фрагментов с лицом повара, чтобы его показать в разных ракурсах и кадрах. Для этого заскриншотили его лицо и сгенерировали еще несколько видео с ним функцией image you video. Иногда получались забавные варианты.
- Во-вторых: детали готовки пиццы: нарезка овощей, подготовка теста, пиццу в печь.
- В-третьих: создавали кадры где сначала показывается повар, а потом камера идет вниз и показывает что повар режет еду и др.
Итак, в общем-то куски видео готовы.
Объединение кусков видео
Теперь готовые куски мы объединяем и стыкуем с помощью программы Luma Fusion.
Озвучка видео нейросетью
Теперь другой основной этап, видео надо озвучить. Исходя из слепленного видео, текстом прописываем реплики повара текстом.
Далее загружаем текст для озвучки через сервис Voicegen, выбираем более подходящий голос, ну и в общем-то через минуту вся озвучка готова.
Заливаем аудио в Luma Fusion. Режем на реплики и сопоставляем с фрагментами видео. Добавляем быструю старую итальянскую музыку на фон. И все готово.
Сложности при создании видео нейросеть
Основная сложность - еще достаточная слабость нейросетей. Для создания итогового ролика пришлось создать около 120 пятисекундных фрагментов и большая часть из них была кривой.