Мне потребовалось преобразовать достаточно большое количество аудио файлов для дальнейшей обработки моделью по распознанию аудио (SpeechToText). Для преобразования речи в текст я использовал достаточно популярный инструмент - VOSK для Python. Чтобы речь правильно распознавалась моделью, аудио файлы должны быть определенного формата и частоты дискретизации (битрейт), а файлы, которые были в наличии, не подходили и их необходимо было предварительно подготовить. Для обработки использовалась консольная программа ffmpeg, которая могла изменять битрейт аудио дорожки на необходимый для распознания речи. Запустив ее в командной строке с определенными параметрами (подробно останавливаться на параметрах запуска я не буду, все подробно описано в документации на сайте к самой программе), я опишу только те которые использовал: Данный пример позволяет преобразовать один файл.
Потоки и процессы — не одно и то же.
А если просто запускать ffmpeg через xargs с ограничением числа параллельных запусков?
Да, такой вариант тоже возможен. В статье указана часть кода для примера. В своем проекте был использован ffmpeg для преобразования и вывода в модель VOSK.