Как пять нейросетей заменяют целую студию людей

Эту историю для моего блога рассказал Александр Шаляпин, журналист и медиа-дженералист.

Всё началось с запроса от группы психологов, которые проводят тренинги по профессиональному выгоранию. Они хотели необычную визуализацию для своих корпоративных программ — что-то, что иронично показало бы офисную жизнь и проблемы выгорания.

Идея использовать нейросети для создания клипа показалась идеальной: это одновременно демонстрировало новые технологии и решало творческую задачу.

Мой опыт в продакшене и документальном кино подсказывал, насколько трудоёмким был бы традиционный процесс создания такого видео. С нейросетями появился шанс сделать идею гораздо быстрее, хотя и со своими сложностями.

Я начал с создания текста будущей песни. Для этого выбрал Claude, который лучше работает с русским языком и поэтикой. Российские нейросети (Яндекс, Сбер) оказались пока не на том уровне качества, который мне требовался.

Claude сгенерировал базовый текст, но результат требовал доработки. Нейросети часто выдают «ванильный» результат — достаточно посредственный, но приемлемый. Я вручную отредактировал текст, улучшил рифмы и смысловую нагрузку.

Получил такой результат:

[ Куплет 1 ] Серый офис, тусклый свет. Кофе стынет, сил больше нет. Цифры, графики, отчет. Время медленно идет. [ Припев ] Выгорание — тотальный стресс. Где мечта? Где интерес? Каждый день как вечный круг. Выдыхаюсь я, мой друг! [ Куплет 2 ] Почта битком, дедлайн горит. Начальник снова в уши ссыт. Усталость в теле, внутри — пустота. Все тише шаг, и дальше — мечта. [ Припев ] [ Куплет 3 ] Каждый день здесь как война. Я не успеваю делать нихрена. Офисное кресло — мой вечный трон. Мой титул — офисный планктон. [ Припев ] [ Куплет 4 ] Может завтра изменится что-то вдруг. Может я найду спасательный круг. Вырвусь я из офисных оков. Начну дышать свободно средь новых берегов. [ Припев ]

После текста взялся за музыку в Suno. Процесс оказался удивительно быстрым — перебрал около 10 вариантов с различными доработками промтов. В некоторых случаях Suno неправильно ставит ударения в словах, но мне повезло избежать этой проблемы. Если бы она возникла, пришлось бы использовать «костыли» — разбивать проблемные слова на части с помощью пробелов или других символов, пока нейросеть не распознает их правильно.

Следующим шагом стало создание кадров-основ для будущего видео. Здесь я использовал Flux вместо более популярного Midjourney. Выбор был обусловлен тем, что мне требовалась максимальная фотореалистичность, а Midjourney, несмотря на все настройки фотореализма, всё равно привносит художественные элементы.

Flux работает локально на моем компьютере с видеокартой RTX 3090, и научен преимущественно на фотографиях, что давало нужный реалистичный результат. Я сгенерировал множество изображений, основываясь на сценарии, который постепенно складывался в голове.

Любопытный момент: в клипе присутствует персонаж, немного похожий на меня. Это не случайность — я использовал LoRA, натренированную на моих фотографиях, с уровнем воздействия 0,7 (70%).

Сделал это скорее для забавы, чтобы посмотреть, как бы я выглядел в офисном сеттинге.

Превращение статичных изображений в видео оказалось самым трудоемким этапом. Работа строилась по принципу «картинка в видео» — подаёшь на вход изображение, и нейросеть его «оживляет». Это дает больше контроля, чем прямая генерация из текста.

Для видеогенерации я выбрал подписку Runway за 12 тысяч рублей в месяц с безлимитными генерациями. Ограниченные тарифы с видеогенераторами бесполезны — они пожирают кредиты с ужасающей скоростью из-за многочисленных перегенераций.

Здесь начались настоящие сложности. Нейросети часто галлюцинировали: персонажи с тремя руками, музыканты с лишними пальцами, парящие в воздухе части тел. На фоне офиса появлялись отдельные головы или руки, которые никому не принадлежали.

Рука в воздухе, коллега играет на принтере. Чехол для гитары выглядит очень странно.

В среднем каждый 10-секундный фрагмент требовал около 5 перегенераций, чтобы получить приемлемый результат без явных глюков. Иногда приходилось менять исходное изображение или промпты.

Для автоматизации создания промптов я использовал ChatGPT. Загрузил туда гайды от Runway, Minimax и Kling по составлению эффективных промптов, и просил сгенерировать подробные описания для каждой сцены. ChatGPT справлялся отлично, это сэкономило много времени.

Особенностью клипа стал качественный липсинк — совпадение движения губ персонажей с текстом песни. Вместо использования специализированных сервисов липсинка, которые часто создают «деревянные» лица без эмоций, я применил интересное решение.

Я задействовал новую на тот момент функцию Runway под названием Act 1. Она позволяет загрузить видеореференс с эмоциями, которые затем переносятся на сгенерированное изображение.

Процесс был прост, но трудоемок: я записал себя на камеру, проговаривая и «проигрывая» текст песни с нужными эмоциями. Затем разбил эту запись на 10-секундные фрагменты (максимум для Act 1) и загрузил их как референсы для каждой сцены с поющими персонажами.

Это заняло время, но результат того стоил — персонажи ожили, выражали настоящие эмоции, сжимали глаза, наклоняли головы, показывая «боль и отчаяние своего положения».

Интересная проблема возникла при создании финальных сцен, где офис должен был затопиться водой и сгореть — метафора мечты главного героя об избавлении от офисной рутины.

Большинство нейросетей отказывались генерировать сцены разрушения, похоже, из соображений цензуры. Только китайский Minimax позволил реализовать задуманное — затопить и поджечь офис.

Видимо, их цензура направлена на другие аспекты, не включающие разрушение имущества.

Финальный этап включал работу в After Effects. Я использовал его для цветокоррекции, чтобы привести все кадры к единому тональному балансу, и для монтажа.

Важный момент: все движения камеры (повороты, зумы) я добавлял уже в After Effects, а не на этапе генерации. Это давало гибкость при монтаже — я выбирал, какое движение лучше подойдет для конкретного перехода между сценами, уже видя общую картину.

Весь проект в неспешном темпе (около 4 часов работы в день) занял полторы недели. Если сравнивать с традиционными методами съемки, это невероятно быстро — подобный проект занял бы не меньше месяца.

Главной технической задачей было сделать клип, который выглядел бы как обычный стандартный музыкальный видеоролик, а не как экспериментальное «нейросетевое искусство». Для этого я поддерживал единый визуальный стиль, цвета и характеристики персонажей на протяжении всего видео.

К моему удивлению, работа даже попала в шортлист конкурса, хотя я работал один, а не командой как многие другие участники.

Технологический стек проекта

Claude — для написания текста песни
ChatGPT — для генерации промптов
Suno — для создания музыки
Flux — для генерации фотореалистичных изображений
Runway (включая Act 1) — для преобразования изображений в видео с эмоциями
Minimax — для сцен разрушения офиса
After Effects — для цветокоррекции и монтажа

Я веду блог «Сегодня без ИИ, а завтра без работы», посмотреть готовый клип можно там. Подпишись, чтобы не пропускать новые выпуски!

Как пять нейросетей заменяют целую студию людей

Работа над текстом и музыкой

Как я получал фотореалистичные кадры

Оживление картинок и борьба с глюками

Как я заставил персонажей «петь» с эмоциями

Сцены разрушения и цензура

Финальная доводка и монтаж

Итоги проекта