Как написать песню в нейросети: от текста до клипа
Разбавляем плейлист ИИ-хитами.
Умеет ли нейросеть творить наравне с человеком — вопрос спорный, но случаи создания, например, нейропесен уже есть. Треки с помощью нейросетей создавали продюсер Timbaland и музыкант Давид Гетта, а группе The Beatles ИИ помог воссоздать песню с голосом Джона Леннона. В этом материале — эксперимент: смогут ли нейросети написать песню и даже снять на неё клип.
Содержание:
- Как написать текст для песни
- Как написать музыку
- Suno AI: песня и караоке в подарок
- Udio: поп-рок, похожий на советскую эстраду
- Uberduck: олдскульный, андеграундный и современный рэп
- Riffusion: неограниченное количество треков
- Как нарисовать обложку
- Бонус: как «снять» клип с помощью нейросети
- Итог: для чего пригодятся нейропесни
Как написать текст для песни
Нейросети могут написать стих на заданную тему и для определённого жанра. Для этой задачи подойдут чат-боты:
Проведём эксперимент: попросим каждую из пяти нейросетей написать текст для песни в стиле поп-рок — на русском и на английском. Стихи должны состоять из двух куплетов и двух припевов. Тема текста — любовь к нейросетям.
Все нейросети справились с задачей, YandexGPT даже добавил юмора: «Твои ответы — это просто дивный бред». Но есть недочёты. Например, Qwen допустила ошибку в окончании: «Генерирую строки, словно в мире иной живу я». Сделаем субъективный выбор лучшего результата и продолжим эксперимент с русским текстом от DeepSeek.
Как написать музыку
Сгенерировать песню на основе готового текста можно в таких нейросетях:
Подробных инструкций, как пользоваться указанными нейросетями для создания музыки здесь не будет. Ниже — только алгоритмы создания песен на основе готового текста, рассматривать все функции нейросетей мы не будем.
Suno AI: песня и караоке в подарок
Включаем режим «Custom», чтобы максимально влиять на результат. Добавляем текстовое описание и свои стихи. Нейросеть можно попросить сгенерировать текст песни и прямо в Suno.
Указываем стиль музыки. В этом эксперименте будем создавать композицию в стиле поп-рок, а чтобы песня была ближе к лёгкому поп-звучанию, добавляем тег «pop». Последний доступный этап — дать песне название. У нашей будет «Любовь к нейросетям». Пользователи с подпиской Pro и Premium могут также выбрать мужской или женский вокал и тембр.
Нажимаем «Create» и получаем два варианта трека, которые можно скачать в mp3. Бонус — сгенерированное видео по типу караоке.
Источник: suno.com
Источник: suno.com
Результат: все пожелания нейросеть учла и даже добавила соло на гитаре. Что выдаёт в композиции нейромузыку, так это качество звука. Трек звучит так, будто у него низкий битрейт. То есть, чтобы использовать песню, её придётся перезаписать и, возможно, придумать более оригинальные музыкальные ходы, так как с коммерческим использованием могут возникнуть проблемы. Нейросети учатся на чужих треках и иногда заимствуют их элементы без ведома правообладателя.
Стоимость:
- На бесплатном тарифе доступны 10 песен в день для некоммерческого использования.
- Платные тарифы с возможностью коммерческого использования начинаются от $10 в месяц за 2500 кредитов (внутренняя валюта сайта) или 500 песен.
Udio: поп-рок, похожий на советскую эстраду
Чтобы создать песню, заходим в раздел «Create» и пишем промпт. В нашем случае: «Song about love to neural net. Style pop and pop-rock» («Песня про любовь к нейросетям. Стиль — поп и поп-рок»). Дальше, чтобы добавить собственный текст, в разделе «Write your lyrics» отмечаем «Custom». В расширенных настройках можно также выбирать:
- Модель генерации.
- Структуру песни (как рано или поздно начинается текст).
- Уровень влияния промпта и текста песни на результат.
- Детализацию отдельных инструментов и партий.
- Качество (чем оно выше, тем медленнее будет генерироваться песня, чем ниже — тем быстрее).
Нажимаем «Create».
Источник: udio.com
Источник: udio.com
Результат: нейросеть сгенерировала две версии трека. Первый оказался тяжелее по звучанию, чем обе версии Suno AI, а второй — похожим на советскую эстраду. Интересно, что нейровокалисты шепелявят и иногда картавят. Скачать трек можно в форматах MP3, WAV, а можно сгенерировать в формате видео.
Стоимость:
- У бесплатной версии есть лимит — 10 коротких или 3 полноценных песни в день (до 2 минут и 10 секунд). Есть дополнительный месячный лимит в 100 песен. Их тоже можно тратить, если понадобится сгенерировать больше треков.
- Платные тарифы стоят от $10 в месяц. В них добавлены режим редактирования, более быстрая генерация и возможность коммерческого использования.
Uberduck: олдскульный, андеграундный и современный рэп
Ещё одна нейросеть, которая способна наложить музыку на текст — это Uberduck. Заходим на сайт и выбираем нужную функцию. Из всех предложенных больше всего подходит «Rap Generator» (песню в поп-рок стиле здесь сгенерировать не получится). Дальше нейросеть предложит выбрать одно из шести направлений:
- «Old School».
- «Southern».
- «West Coast».
- «East Coast».
- «Modern».
- «Underground».
Выбираем «Modern», дальше — выбор голоса (всего 12 вариантов, вокал по умолчанию будет наиболее качественным). Также можно создать голос на основе промпта или клонировать свой. На следующем этапе вставляем текст песни. Максимальная длина стихов — 380 символов, этого хватило на один куплет и один припев. Нажимаем «Generate Rap».
Нюанс: русский текст нейросеть просто не видит, поэтому получится озвучить только англоязычные стихи.
Источник: uberduck.ai
Результат: трек получился довольно роботизированным, музыку нейросеть наложила только на паузы между куплетом и припевом, а сам рэп больше похож на поэтические чтения. Скачать трек можно в формате WAV.
Стоимость:
- В бесплатном тарифе 300 кредитов. Одна генерация стоит 35 кредитов.
- Платные тарифы начинаются от $2 за 1000 кредитов.
Riffusion: неограниченное количество треков
Riffusion — полностью бесплатная нейросеть. Выбираем метод генерации «Compose». Он открывает возможность добавить собственный текст и на его основе сгенерировать полноценную песню. Кроме текста, в этом режиме можно прописать желаемый стиль или настроение. Указываем тег «pop rock» и нажимаем «Generate».
Источник: riffusion.com
Источник: riffusion.com
Результат: нейросеть сгенерировала два варианта трека — с мужским и женским вокалом. Обе композиции неплохо звучат, но некоторые слова ИИ-певцы коверкают — меняют ударение, глотают окончания или шепелявят. Не зная, что это нейросеть, такие галлюцинации можно было бы принять за особенности речи исполнителя.
Понравившийся трек можно отредактировать — внести правки в текст и стиль. Скачать песню получится в формате M4A.
Как нарисовать обложку
В любой нейросети, которая генерирует изображения, можно нарисовать обложку для клипа. Для этого подойдут:
- Midjourney.
- Dall-E.
- Leonardo AI.
- Gemini.
- Ideogram.
- «Шедеврум».
- Kandinsky.
Выберем нейросетку, которая хорошо справляется с текстом, — например, Ideogram. Нужно это для того, чтобы добавить название песни на картинку. Ниже — примеры генерации по промпту «A picture for a song in the pop-rock style with the atmosphere 70’s. A love song for neural networks. Below the inscription “love of neural networks”» (перевод: «Картинка к песне в стиле поп-рок с атмосферой 70-х. Песня о любви к нейронным сетям. Внизу надпись „любовь к нейронным сетям“».
Бонус: как «снять» клип с помощью нейросети
На музыке творчество не заканчивается. Идём дальше и делаем клип.
В Hailuo AI генерируем видео на основе промта: «Music video in the style of pop music. A woman in a shiny dress, on a shiny dance floor, sings a song about her love for neural networks. There are pink fluffy walls around the girl. The general atmosphere of the video is retro, in the style of 70’s films. Everything glitters and sparkles» (перевод: «Музыкальный клип в стиле поп-музыки. Женщина в блестящем платье на блестящем танцполе поёт песню о любви к нейронным сетям. Вокруг розовые пушистые стены. Общая атмосфера видео — ретро, в стиле фильмов 70-х. Всё блестит и сверкает»).
Одна генерация в Hailuo AI стоит 30 кредитов. Нейросеть можно попросить сгенерировать сразу три видео, чтобы позже склеить их. Сделать это можно в одной из программ для монтажа видео. Всего в бесплатном режиме есть 1100 кредитов, этого хватит на 36 отрывков.
Готовые части клипа озвучиваем в нейросети Kling AI.
- В разделе «AI video» выбираем функцию «Lip sync».
- В окошко «Upload local dubbing» загружаем аудио, в «Video for lip sync» — сгенерированное видео (оно должно быть короче 10 секунд).
- Выбираем уровень свободы нейросети, продолжительность видео (в бесплатной версии только 5 секунд), соотношение сторон.
- Также можно указать отрицательные промпты.
Одна генерация стоит 5 кредитов и занимает около 8 минут.
Результат: кадры, хоть и имеют общую атмосферу, всё же разнятся — чтобы сделать связный клип, понадобятся высокие навыки работы с промптами, немало генераций и времени. Например, на то, чтобы сгенерировать эти небольшие клипы, понадобилось около двух часов.
Итог: что нужно знать о нейропеснях
- Создать песню с помощью нейросети можно бесплатно.
- Композиции, созданные ИИ, — хорошие помощники для музыкантов. Ими можно вдохновиться, но использовать их как готовый продукт вряд ли получится. Артефакты выдают то, что песня создана и спета программой.
- Кроме песен, нейросети способны создавать клипы, тексты, обложки для песен и альбомов.
Как вам треки, созданные ИИ? Как, по вашему мнению, нейросети повлияют на будущее музыкальной индустрии?