Whisper довольно неплохо справляется с расшифровкой одного голоса, но не умеет делить спикеров по ролям. Иногда в тексте могут быть ошибки, потому что нейросеть не вникает в контекст, как это сделал бы человек. Со сложной записью, шумами на улице и музыкой на фоне нейросеть справится так себе.
А для macOS?
Мака нет, не могу помочь
https://appstorrent.ru/3496-whisper-transcription.html
Актуальней и проще онлайн формат.
Но за статью-инструкцию спасибо!
Комментарий недоступен
Опробовал на одном своем видеоролике. Расшифровал хорошо, совершил только одну ошибку (одно слово исковеркал). Работает быстро. Спасибо за статью!