Так как сонограмма представляет собой изображение, она поддается преобразованию с помощью модели Stable Diffusion. Разработчики составили сонограммы нескольких музыкальных композиций, пометили получившиеся изображения соответствующими терминами (например “блюз на гитаре”, “джаз на пианино” и тд). На основе коллекции этих изображений модель обучили тому, как “выглядят” определенные звуки и как она может их воссоздавать, преобразовывать или комбинировать. В конечном итоге Riffusion научился генерировать новую музыку на основе ключевых слов и текстовых подсказок, описывающих тип музыки или звука, который пользователь хочет услышать. После создания сонограммы инструмент преобразовывает её в звук, используя библиотеку Torchaudio, специализирующуюся на машинной обработке аудио.
Спектр звука - это ж просто 2 картинки - real + imaginary. Че такого по словам генерить такие две картинки, а не привычные нам.