Как пять нейросетей заменяют целую студию людей
Эту историю для моего блога рассказал Александр Шаляпин, журналист и медиа-дженералист.
Всё началось с запроса от группы психологов, которые проводят тренинги по профессиональному выгоранию. Они хотели необычную визуализацию для своих корпоративных программ — что-то, что иронично показало бы офисную жизнь и проблемы выгорания.
Идея использовать нейросети для создания клипа показалась идеальной: это одновременно демонстрировало новые технологии и решало творческую задачу.
Мой опыт в продакшене и документальном кино подсказывал, насколько трудоёмким был бы традиционный процесс создания такого видео. С нейросетями появился шанс сделать идею гораздо быстрее, хотя и со своими сложностями.
Работа над текстом и музыкой
Я начал с создания текста будущей песни. Для этого выбрал Claude, который лучше работает с русским языком и поэтикой. Российские нейросети (Яндекс, Сбер) оказались пока не на том уровне качества, который мне требовался.
Claude сгенерировал базовый текст, но результат требовал доработки. Нейросети часто выдают «ванильный» результат — достаточно посредственный, но приемлемый. Я вручную отредактировал текст, улучшил рифмы и смысловую нагрузку.
Получил такой результат:
После текста взялся за музыку в Suno. Процесс оказался удивительно быстрым — перебрал около 10 вариантов с различными доработками промтов. В некоторых случаях Suno неправильно ставит ударения в словах, но мне повезло избежать этой проблемы. Если бы она возникла, пришлось бы использовать «костыли» — разбивать проблемные слова на части с помощью пробелов или других символов, пока нейросеть не распознает их правильно.
Как я получал фотореалистичные кадры
Следующим шагом стало создание кадров-основ для будущего видео. Здесь я использовал Flux вместо более популярного Midjourney. Выбор был обусловлен тем, что мне требовалась максимальная фотореалистичность, а Midjourney, несмотря на все настройки фотореализма, всё равно привносит художественные элементы.
Flux работает локально на моем компьютере с видеокартой RTX 3090, и научен преимущественно на фотографиях, что давало нужный реалистичный результат. Я сгенерировал множество изображений, основываясь на сценарии, который постепенно складывался в голове.
Любопытный момент: в клипе присутствует персонаж, немного похожий на меня. Это не случайность — я использовал LoRA, натренированную на моих фотографиях, с уровнем воздействия 0,7 (70%).
Оживление картинок и борьба с глюками
Превращение статичных изображений в видео оказалось самым трудоемким этапом. Работа строилась по принципу «картинка в видео» — подаёшь на вход изображение, и нейросеть его «оживляет». Это дает больше контроля, чем прямая генерация из текста.
Для видеогенерации я выбрал подписку Runway за 12 тысяч рублей в месяц с безлимитными генерациями. Ограниченные тарифы с видеогенераторами бесполезны — они пожирают кредиты с ужасающей скоростью из-за многочисленных перегенераций.
Здесь начались настоящие сложности. Нейросети часто галлюцинировали: персонажи с тремя руками, музыканты с лишними пальцами, парящие в воздухе части тел. На фоне офиса появлялись отдельные головы или руки, которые никому не принадлежали.
В среднем каждый 10-секундный фрагмент требовал около 5 перегенераций, чтобы получить приемлемый результат без явных глюков. Иногда приходилось менять исходное изображение или промпты.
Для автоматизации создания промптов я использовал ChatGPT. Загрузил туда гайды от Runway, Minimax и Kling по составлению эффективных промптов, и просил сгенерировать подробные описания для каждой сцены. ChatGPT справлялся отлично, это сэкономило много времени.
Как я заставил персонажей «петь» с эмоциями
Особенностью клипа стал качественный липсинк — совпадение движения губ персонажей с текстом песни. Вместо использования специализированных сервисов липсинка, которые часто создают «деревянные» лица без эмоций, я применил интересное решение.
Я задействовал новую на тот момент функцию Runway под названием Act 1. Она позволяет загрузить видеореференс с эмоциями, которые затем переносятся на сгенерированное изображение.
Процесс был прост, но трудоемок: я записал себя на камеру, проговаривая и «проигрывая» текст песни с нужными эмоциями. Затем разбил эту запись на 10-секундные фрагменты (максимум для Act 1) и загрузил их как референсы для каждой сцены с поющими персонажами.
Сцены разрушения и цензура
Интересная проблема возникла при создании финальных сцен, где офис должен был затопиться водой и сгореть — метафора мечты главного героя об избавлении от офисной рутины.
Большинство нейросетей отказывались генерировать сцены разрушения, похоже, из соображений цензуры. Только китайский Minimax позволил реализовать задуманное — затопить и поджечь офис.
Финальная доводка и монтаж
Финальный этап включал работу в After Effects. Я использовал его для цветокоррекции, чтобы привести все кадры к единому тональному балансу, и для монтажа.
Важный момент: все движения камеры (повороты, зумы) я добавлял уже в After Effects, а не на этапе генерации. Это давало гибкость при монтаже — я выбирал, какое движение лучше подойдет для конкретного перехода между сценами, уже видя общую картину.
Итоги проекта
Весь проект в неспешном темпе (около 4 часов работы в день) занял полторы недели. Если сравнивать с традиционными методами съемки, это невероятно быстро — подобный проект занял бы не меньше месяца.
Главной технической задачей было сделать клип, который выглядел бы как обычный стандартный музыкальный видеоролик, а не как экспериментальное «нейросетевое искусство». Для этого я поддерживал единый визуальный стиль, цвета и характеристики персонажей на протяжении всего видео.
К моему удивлению, работа даже попала в шортлист конкурса, хотя я работал один, а не командой как многие другие участники.
Технологический стек проекта
- Claude — для написания текста песни
- ChatGPT — для генерации промптов
- Suno — для создания музыки
- Flux — для генерации фотореалистичных изображений
- Runway (включая Act 1) — для преобразования изображений в видео с эмоциями
- Minimax — для сцен разрушения офиса
- After Effects — для цветокоррекции и монтажа
Я веду блог «Сегодня без ИИ, а завтра без работы», посмотреть готовый клип можно там. Подпишись, чтобы не пропускать новые выпуски!