Я создал видеоролик, используя Midjourney и Runway Gen-3 и разместил его на YouTube: вот чему я научился и как я его делал
В последнее время я погрузился в мир создания видео с помощью ИИ. Я считаю, что эти инструменты достаточно развились, чтобы с помощью них можно было создавать достойные видеоистории, и единственный способ по-настоящему узнать это - сделать это самому.
🔥Телеграм-бот SYNTX предоставляет доступ к более чем 30 ИИ-инструментам. Без ВПН, оплата любой картой, запросы на любом языке, пробуйте бесплатно! Под капотом - GPT4o/Gemini/Claude, MidJourney, DALL-E 3 и Ideogram, LUMA, Runway, Kling, Suno, Редактор с 12 различными ИИ-инструментами для ретуши фото.
☝Это только часть функций, доступных в SYNTX!
🔥 При покупке подписки Elite - анлим на генерации в Runway!
Используемые инструменты:
- Концепция и сценарий: ChatGPT и Claude AI
- Базовые изображения, создание кадров и концепт-дизайн: Midjourney и Freepik
- Генерация видео: Runway Gen-3, LumaLabs, Kling
- Голоса и звуковые эффекты: ElevenLabs, Hedra Labs и Capcut
- Редактирование: Capcut
- Графический дизайн: Figma
Поскольку эти инструменты все еще относительно новые, рабочий процесс является экспериментальным, и я рассчитываю, что он будет меняться с каждым уникальным проектом.
Вот обзор процесса, которому я следовал при работе над этим проектом.
Еще больше полезностей - в телеграм-канале про нейросети и канале про генерацию изображений Миджорниум.
Концепция и сценарий
Как дизайнер, я часто черпаю вдохновение в отдельных изображениях. Мне понравился стиль sref 3456119169:
Я хотел создать мрачную историю об одиноком фантастическом охотнике за головами, используя этот референс в качестве идеи. С этими мыслями я обратился к ChatGPT и Claude AI для мозгового штурма идей, задав следующий промпт:
Футуристическая обстановка в человеческой колонии на другой планете. Киллер отправляется в бар, чтобы получить плату. В итоге он получает задание на кого-то охотиться. Предложи 5 возможных идей для короткой видеоистории в мрачном стиле киберпанк
Просмотрев ответы, я выбрал понравившиеся идеи и доработал историю с помощью этого промпта:
Составь сценарий по следующему сюжету: Киллер заходит в бар, чтобы забрать свою оплату, но узнает, что человек, который ему должен, был убит известным преступником-дроидом, который скрывался в трущобах колонии и также забрал оплату. Киллер решает охотиться на этого преступника.
Теперь, имея базовый вариант сценария, я использовал его в качестве руководства для создания изображений с помощью Midjourney и Freepik.
Генерация изображений
Чтобы сохранить единую эстетику во всем видео, я использовал параметр sref в Midjourney, а именно sref 3456119169. Это позволило создать оранжевое, туманное настроение для всех изображений. Вот несколько примеров сгенерированных изображений:
Cinematic Still, aerial view of futuristic city with skyscrapers, remove person, dystopian, cyberpunk — ar 16:9 — sref 3456119169 — p — stylize 1000 — v 6
Cinematic Still, Futuristic vehicle in an alley in a city with skyscrapers, dystopian, cyberpunk — ar 16:9 — sref 3456119169 — v 6 — stylize 1000 — p
Cinematic Still, Futuristic bar sign in an alley, city with skyscrapers in the background, dystopian, cyberpunk — ar 16:9 — sref 3456119169 — v 6 — stylize 1000 — p
Некоторые изображения, созданные с помощью этого sref, были немного грубоваты, что может быть проблематично при анимации.
Для улучшения качества было необходимо увеличить масштаб с помощью Freepik.
Анимация изображений
На следующем этапе мы анимировали эти изображения с помощью Runway, LumaLabs и Kling. Добавление краткого промпта с описанием необходимых действий помогло оживить сцены:
Промпт: Vehicle flies away
Промпт: Person walking
Функция смешивания изображений LumaLabs оказалась полезной, позволив мне поэкспериментировать с переходами между сценами. Результаты добавили глубину в композицию.
Основная структура уже вырисовывалась.
Но тут возникает САМАЯ БОЛЬШАЯ ПРОБЛЕМА ИИ-фильмов:
Согласованность персонажей.
Это остается серьезной проблемой в ИИ-кинематографе, и она далеко не полностью решена. Для этого проекта я использовал обходной путь, благодаря которому получил удовлетворительные результаты.
Персонажи
У меня было четкое представление о внешности персонажа, основанное на упоминании знаменитостей. Мой первоначальный промпт был таким:
Cinematic still, frontal shot, portrait Bruce Willis with a futuristic trenchcoat walking in an alley, dystopian, cyberpunk — ar 16:9 — sref 3456119169 — p — stylize 1000 — v 6
Он работает.
Он сработал достаточно хорошо, поэтому я использовал его в качестве базового шаблона для всех сцен с персонажами, изменив только описание сцены и добавив параметр -cref с URL-адресом изображения для усиления.
Хотя и не идеально, но достаточно хорошо для проекта.
Совет: Не переживайте по этому поводу. На данный момент идеального решения не существует. Но вы можете сами обучить модель генерировать изображения с одинаковым персонажем. Как это сделать - прочитайте в статье.
Для персонажей второго плана есть еще один прием: создайте основной портрет персонажа и используйте редактор Midjourney для изменения окружения. Это вносит достаточное разнообразие в сцену и делает персонажей достаточно разными после анимации.
Примечание: Одним из ограничений, с которым я столкнулся при создании этого sref, была невозможность изменить одежду персонажа на футуристическую. Позже я понял, что смешение этого sref с другим, содержащим футуристические элементы, могло бы решить эту проблему.
После оживления они будут достаточно разными.
Примечание: Здесь я обнаружил ограничение на этот Midjourney sref. Сколько бы я ни менял промпт, я не мог заставить MJ одеть ее в футуристическую одежду. (Когда я писал это, мне пришло в голову, что я мог бы объединить этот sref с другим с футуристическими элементами. Ну и ладно, скорее всего, с Flux будет легче.
Голоса и звуки
Существует несколько вариантов добавления голоса и звука персонажам:
- ElevenLabs: Генерация голосов с помощью технологии Text to Voice.
- Runway и Hedra Labs: Функции синхронизации губ позволяют добавлять голоса к изображениям.
- Capcut: Предлагает генерацию голосов, но не имеет функции синхронизации с губами.
Кроме того, звуковые эффекты улучшают качество видео. И ElevenLabs, и Capcut предоставляют возможность генерировать или добавлять их.
Какой вариант вам больше нравится?
Это окончательный результат. Я буду рад узнать ваши мнения.
🔥Телеграм-бот SYNTX предоставляет доступ к более чем 30 ИИ-инструментам. Без ВПН, оплата любой картой, запросы на любом языке, пробуйте бесплатно! Под капотом - GPT4o/Gemini/Claude, MidJourney, DALL-E 3 и Ideogram, LUMA, Runway, Kling, Suno, Редактор с 12 различными ИИ-инструментами для ретуши фото.
☝Это только часть функций, доступных в SYNTX!
🔥 При покупке подписки Elite, - анлим на генерации в Runway!
Источник статьи на английском - здесь.
Комментарий удалён модератором
Да, на таких видео можно натренироваться делать даже мини-фильмы
Один из последних клипов Limp Bizkit был сделан таким образом.
Хайпа много с этими нейронками, а по факту вроде бы видео операторы никуда пока не пропали, как и мультипликаторы.
А куда они пропадут? Просто специалисты, умеющие пользоваться нейросетями, будут все делать быстрее конкурентов, которые не умеют
Результат пока выглядит как типичный контент, сгенерированный ИИ - ни больше ни меньше. Эталонные ии-шные ракурсы, условные движения героев, ощущение "анимированных" картинок а не кино-кадров, и нулевая динамика как следствие. Близко не тянет даже на средней руки трейлер.
Это да, но здесь не было задачи сделать реалистичное видео