Топ-5 нейросетей для транскрибации аудио в текст онлайн бесплатно
Проверил рабочие нейросети для перевода аудио в текст и предложил еще парочку хитровыкрученных способов. Цель – сделать расшифровку аудиофайла достаточной продолжительности. Пригодится, например, студентам, чтобы сделать конспекты лекций, да и много есть применений.
Скажем, тем, кто хочет читать подкасты, а не слушать их. Я в курсе, что подкасты придумали для тех, кто не любит читать. Но я вот, например, лучше текстовую информацию принимаю, на слух не могу. Или для создания текстового контента для ваших блогов – в конце покажу, как сделать из любого подкаста уникальную статью или пост.
Часто смм-щикам бывает нужно транскрибировать большое количество виральных рилзов, чтобы делать сценарии для клиентов.
Но давайте по порядку. В качестве примера скачал этот подкаст.
1. Перевести аудио в текст с помощью speechnotes.co
Ссылка на сервис https://speechnotes.co/.
Бесплатно после регистрации дают 50 минут. Потом можно зарегистрироваться снова. Результат на выходе достаточно быстрый и качественный, можно сразу на распечатку, в PDF или в doc файл.
2. Транскрибатор REV.AI
Ссылка на сервис https://www.rev.ai/. После регистрации дают 300 минут. Экспорт в нескольких форматах.
Рекомендую, 300 минут для рынка нейросетей, которые заточены на то чтобы вынудить пользователя купить подписку, это просто аттракцион неслыханной щедрости по нынешним временам.
3. Whisper JAX
Но не все разработчики нейронок такие жадные. Есть открытые проекты, например нейросеть для транскрибации аудио в текст Whisper JAX. Базируется на Hugginface. Вот ссылка.
Результат вполне читаемый, не хуже, чем у коммерческих нейронок для расшифровки аудио в текст. Но не форматированный, что не страшно. Именно эту простыню я буду использовать для создания статьи потом.
4. SaluteSpeech от Сбера
У него есть десктопное приложение для винды и Мак, которое можно скачать тут, а также Телеграм-бот (вот он родимый). Авторизация в приложении через СберID. Бот транскрибирует только MP3 размером до 20 МБ, и поэтому пришлось немного снизить битрейт до 64 кб/с. Но, браво, Сбер SaluteSpeech! Ты все понял и расшифровал!
5. Расшифровка аудио с помощью субтитров CapCut
Известное приложение СapCut — лучший бесплатный видеоредактор. Но в нем есть встроенная нейросеть, которая может создавать субтитры из аудиодорожки, а это и есть Speech To Text. Правда, вытащить их кажется не так просто, но на самом деле ничего сложного, сейчас расскажу как.
Создайте проект в CapCut.
Импортируйте mp3 файл как аудиодорожку.
Сгенерируйте субтитры.
Сохраните проект и запомните путь (см картинку, обычно это C:\Users\Имя пользователя\AppData\Local\CapCut\User Data\Projects\com.lveditor.draft ).
Выйдите из CapCut.
Пройдите в эту папку и найдите файл draft_content.json
В этом файле и зашифрованы субтитры.
Потом пройдите на сайт https://www.biyaoyun.com/capcutsrt или другой подобный сервис, их немало, которые умеют расшифровывать такие файлы и получите файл субтитров.
Тайм коды не убирает, увы.
Для исправления этого используйте сервис aspose.app.
Таким способом можно сделать транскрибацию с аудио-файла практически любой продолжительности.
Как сделать из транскрибированного текста пост или статью
Блогерам, у которых затык с идеями, может пригодиться этот способ.
Полученную расшифровку скармливаете любой текстовой нейросети и в промте просите: «Прочитай, проанализируй и напиши пост/структурированную статью» и тому подобное. Уже все, наверное, применяют нейрогенераторы для создания контента, поэтому много распространяться не буду.
Вот так – берешь любой подкаст и делаешь из него за 10 минут статью для сайта или блога, с нашей любимой уникальностью 100%. Ну не красота ли? Кстати, на любом языке.
Делитесь мнением в комментариях.