Нужен ли ИИ в видеопродакшне? Создаем ролик для «Острова мечты» с помощью ChatGPT, Midjorney, DALL·E 2 и Riffusion
Рассказываем, как с помощью нейросетей мы попробовали создать рекламный ролик по реальному брифу клиента: сгенерировали сценарий, актеров, персонажей и даже музыку.
Искусственный интеллект развивается все быстрее, многие компании уже пытаются внедрить его в работу и автоматизировать процессы. Мы видели кейсы, в которых нейросети создают иллюстрации и дизайн для соцсетей, помогают в написании текстов для разных площадок и даже генерируют код, выполняя рутинную работу за программистов. Команда Yes, today! Film решила проверить, как хорошо искусственный интеллект справится с задачей по созданию рекламного видеоролика. Чтобы результат получился приближенный к реальности, мы решили работать с нейросетями по брифу нашего клиента — «Острова мечты», с которым мы сотрудничали в прошлом году. Отыскали документ с брифом, зарегистрировались в популярных нейросетях и пошли генерить сценарий, актеров, персонажей и музыку.
О клиенте и задаче
Остров Мечты — первый в России и крупнейший в Европе крытый парк развлечений в Нагатинской пойме на берегу Москва-реки. Территория парка огромна: аттракционы, детские и игровые центры, магазины, фудкорты и ландшафтный парк с зоной отдыха.
Клиент пришел с задачей снять рекламу именно ландшафтного парка — часть острова с тенистыми аллеями, водоемами, фонтанами, пространствами для комфортного отдыха и детскими площадками. Это идеальное место для семейного времяпрепровождения, прогулок с детьми, активных развлечений и подвижных игр, где каждый найдет занятие по душе. Возможности этого пространства как раз необходимо было отразить в ролике.
Остров Мечты хотели сделать акцент на развлечениях для молодежной аудитории, поэтому запрос на съемку был следующий: «Драйвовый ролик об активном и эстетичном отдыхе в ландшафтном парке. Молодые люди, которые гуляют и занимаются разными делами: катаются на велосипеде, устраивают пикник, делают йогу, обедают в летнем кафе. Все образы должны быть яркие, запоминающиеся».
Сюжет
После брифинга клиента наша команда обычно приступает к разработке концепции ролика. За сюжетом мы обратились к ChatGPT, которой силён в генерации подобных идей.
В первом запросе нейросеть создала нам сценарий с закадровой озвучкой на 1740 знаков. Задачу про парк и молодых людей ChatGPT понял правильно, вот, например, что он предложил (переведено с помощью встроенного веб-переводчика):
Вполне неплохо, но закадровый голос звучит шаблонно и кажется лишним. Тогда мы решили добавить в конце запроса пометку «without narrator», и следующий результат порадовал больше. Нейросеть описала не только то, что будет происходить в каждом кадре на переднем и заднем плане, но и движение камеры. Например (переведено с помощью встроенного веб-переводчика):
ChatGPT сам определил нужное количество кадров: в первом и во втором сценарии их было восемь, а также сгенерировал разные действия, которые будут на них происходить. Нам зашло, оставляем.
Персонажи
Сценарий согласовали, переходим к его детальной проработке и подбору актеров. Остров Мечты хотели видеть в кадре ярких молодых людей, поэтому мы попросили ChatGPT дать подробное описание трем таким персонажам. В итоге мы получили Эмили, Макса и Софию. ИИ прописал возраст, цвет волос и глаз, черты лица, строение тела и даже одежду каждого. Внешность Эмили, к примеру, описана вот так:
С этими описаниями мы пошли к Midjorney и попробовали визуализировать наших актеров.
София, девушка с короткой стрижкой и розовым цветом волос, переходящим на кончиках в неоновый зеленый
Девушки выглядят эффектно! Но вот парни у ChatGPT и Midjorney получились хуже — слишком суровые, под настроение ролика не подходят. Поэтому мы подкорректировали запрос, ввели: «молодой жизнерадостный парень с необычной прической и яркой, стильной внешностью», и нейросети выдали совершенно другой результат.
Думаем, что в кадре эти ребята смотрелись бы отлично. Берем их в работу и идем дальше.
Локации
Ландшафтный парк большой, а нам необходимо выбрать несколько лучших локаций. На этом этапе мы решили протестировать еще одну нейросеть — DALL E 2. Те, кто успели ее изучить, отмечают, что персонажей она создает криво, а вот с локациями дела обстоят лучше.
У Острова Мечты в ландшафтном парке есть летний кинотеатр, пруд, спортивные площадки и кафе. Попробуем опираться на эти ключевые слова.
Если добавить в эти локации наших ярких персонажей, кадр получится интересный. DALL E 2 неплохо справился со своей задачей, но на составление запросов пришлось потратить много времени. Сначала он выдавал результаты леса, пруд выглядел зеленым, как болото, а кафе показывал не полностью, только стул и столики, стоящие на улице.
Музыка
Когда наша команда создавала креатив для Острова Мечты, мы решили, что закадрового голоса в ролике не будет, только музыка на фоне. Поэтому подумали, что нейросети на этапе постпродакшена могли бы помочь нам подобрать музыку под настроение и динамику видео. Для генерации трека мы использовали Riffusion — модель искусственного интеллекта, которая генерирует музыку на основе текстовых подсказок.
Нам нужна была динамичная песня для быстрой смены кадров, т.к. локаций много и на каждую приходится всего несколько секунд.
Результат нас не впечатлил: музыка получилась однообразная и совсем не драйвовая. Какие бы мы запросы не присылали, нейросеть выдает что-то в стиле хауса. Расслабиться и немного подвигаться — да, но веселится, кататься на велике и отдыхать в парке — точно нет.
Видео-бонус
Пока мы выбирали нейросети, которые будем тестировать в этой статье, нашли сервис, способный генерировать видео по текстовому запросу. Designs AI — креативная платформа на базе искусственного интеллекта, которая может создавать логотипы, графику, видео и баннеры в социальных сетях за считанные минуты. Загрузить туда наших персонажей и музыку невозможно, но сценарий, созданный ChatGPT, вполне реально. Правда, нам пришлось его сократить до нескольких предложений, потому что словосочетание «движение камеры», например, программа воспринимает буквально и показывает, как человек держит в руках фотоаппарат. Также система озвучивает текстовый запрос закадровым голосом в готовом видео и дублирует эти же предложения на экран. Зачем? Мы не смогли понять. Убрать закадровый голос можно, а вот текст с экрана никак, что выглядит неуместно и портит всю картинку. Запросы программа понимает через раз, генерирует фрагменты, не связанные друг с другом.
Мы не представляем, как такой инструмент можно использовать в коммерческих целях. Качество видео, текст, наложенный поверх и дублирующий запрос, шаблонность переходов и музыки — все это говорит о том, что подобные нейросети пока не готовы конкурировать с креативными командами и решать задачи клиента.
Итого
Искусственный интеллект может стать отличным помощником продакшн-студиям. Например, для разгона креатива при проработке сценария или в подборе актеров — Midjorney поможет визуализировать картинку, которая есть у вас в голове. ИИ продолжит обучаться, но в ближайшие 10-20 лет точно не заменит команду видеопродакшена. Сама съемка остается главным этапом в создании ролика, и пока нейросети не в силах выполнять такую работу. В качестве подтверждения хотим показать рекламу, которую мы сняли по тому же брифу для Острова Мечты.
Расскажите в комментариях, что вы думаете об использовании нейросетей в видеопродакшне — особенно если у вас есть подобный удачный опыт. Будем очень рады, если поделитесь им с нами :)
Представляю разочарование москвичей, которые туда придут после этого ролика. Где панки, коктейли, ядовитая трава? Где эти люди с чистыми лицами без следа мысли в глазах? Доколе?
Кстати, а зачем вообще генеренка? Бюджет или что-то другое?
Мы просто решили протестировать возможности ИИ в создании видеорекламы. Ролик для Острова Мечты, который представлен в конце статьи, мы сняли в прошлом году своими силами, без использования нейронок. А сейчас решили взять тот же бриф, посмотреть, какой результат сгенерят нейросети и сравнить это с тем, что получилось у нашей команды :)
Надеюсь вы не узнаете что такое "остров мечты")
Что же, конечный ролик который сняли летом 2022 года. Ничего не рассказывает про этот остров. Народ может также активно и на воробьях бегать, есть виноград, сидеть на траве и поливать друг друга из водяных пистолетов. Ролик просто ни о чем. Припрели нейронки потому что это популярно, а в ролике ничего от нейронок нет.
оу, ну, давайте введем вас в курс дела.
Перед нами стояла задача показать разные локации ландшафтного парка и передать атмосферу парка — отсюда воробьи, трава и пистолеты :) Драматургия здесь не нужна, совсем другая цель была у клиента. За другим подходом велком на наш сайт, там найдете разные работы: https://yestoday.pro
На момент съемок нейросети, конечно, не настолько еще были развиты, так что мы решили потестить их сейчас на ролике, который уже готов и оценен клиентом. Почему нет?)
спасибо что сказали когда снят ролик
Вот смотрю как нейросети генерируют картинки, какие-то классные, а какие-то очень красивые