Такой подход позволяет системе лучше понимать происходящее в видео и создавать более подходящее звуковое сопровождение. Например, увидев падающие капли дождя, MMAudio не просто генерирует шум дождя, а пытается воспроизвести характерный звук капель, попадающих на разные поверхности.
Всё прекрасно, но вопрос: кому это нужно на деле? Серьезно, если я занимаюсь созданием сложных звуковых дорожек для игр или фильмов, то я лучше потрачу время на ручную работу, чем буду ждать, пока эта нейросеть соизволит сделать что-то стоящее. Потери качества для меня критичны, а тут только базовые звуки