Нейросети для транскрибации аудио в текст

Наша команда провела новый эксперимент, сравнивая различные AI-сервисы для распознавания речи. Цель исследования - определить какой из доступных инструментов наиболее эффективен для преобразования аудио в текст.

Мы протестировали ряд популярных сервисов, включая Speechnotes, Speechtotext, Web.descript, Speech2text и Any2text.

Вот аудио, которое нужно было распознать AI-инструментам:

Speechnotes выделяется возможностью распознавать около часа аудиофайлов бесплатно. После этого лимита стоимость составляет примерно $0.12 за минуту. Сервис позволяет указать язык аудио, количество спикеров и выбрать дополнительный язык (платная опция). Обработка занимает пару минут, а результат можно скачать в различных текстовых форматах или просмотреть онлайн.

Результат:

"Нейросети открывают новые горизонты для бизнеса и творчества. Ай создает креативные решения на основе искусственного интеллекта, которые помогают автоматизировать рутинные задачи и улучшать взаимодействие с данными. Узнайте, как технологии могут сделать ваши процессы проще и эффективнее."

Speechtotext предлагает максимально простой интерфейс. Нужно только загрузить файл, а результат можно скачать в формате txt или просмотреть онлайн.

Результат:

"Нейросети открывают новые горизонты для бизнеса и творчества. Ай Ю создает креативные решения на основе искусственного интеллекта. Которые помогают автоматизировать рутинные задачи и улучшать взаимодействие с данными. Узнайте, как технологии могут сделать ваши процессы проще и эффективнее."

Web.descript - это комплексный онлайн видео-аудио редактор с функцией распознавания речи. Сервис почти мгновенно предоставляет транскрипцию загруженного файла. Однако отсутствует выбор языка, и результат всегда выдается на английском, хотя русский аудиофайл распознается довольно хорошо.

Результат:

"Neural networks open up new horizons for business and creativity. IUI creates creative solutions based on artificial intelligence that help automate routine tasks and improve data interaction. Learn how technologies can make your processes easier and more efficient."

Speech2text автоматически определяет количество спикеров, язык и создает таймкоды. Результат доступен для скачивания в формате docx, но онлайн-просмотр отсутствует. Язык можно изменить после анализа файла.

Результат:

"Спикер 1
00:00:00
Нейросети открывают новые горизонты для бизнеса и творчества. IUI создает креативные решения на основе искусственного интеллекта, которые помогают автоматизировать рутинные задачи и улучшать взаимодействие с данными. Узнайте, как технологии могут сделать ваши процессы проще и эффективнее."

Any2text также автоматически определяет параметры файла, но обработка занимает больше времени. Результат можно скачать в форматах txt, docx, xlsx, srt или просмотреть онлайн.

Результат:

"Спикер 1: Нейросети открывают новые горизонты для бизнеса и творчества. IUI создает креативные решения на основе искусственного интеллекта, которые помогают автоматизировать рутинные задачи и улучшать взаимодействие с данными. Узнайте, как технологии могут сделать ваши процессы проще и эффективнее,"

Собственный скрипт на Python работает только с файлами формата wav, обрабатывает их за несколько секунд и выводит результат в терминал PyCharm. При желании результат можно сохранить в текстовый файл.

Результат:

"Распознанный текст: нейросети открывают Новые горизонты для бизнеса и творчество i.ua создаёт креативные решения на основе искусственного интеллекта которые помогают автоматизировать рутинные задачи и улучшать взаимодействие с данными Узнайте как технологии могут сделать ваши процессы проще и эффективнее"

Мы также попытались протестировать Yandex SpeechKit и Google speech-to-text, но столкнулись с техническими трудностями. Yandex SpeechKit выдавал ошибки при распознавании файлов, а Google speech-to-text требует привязки иностранной карты для бесплатного использования.

В целом, эксперимент показал, что мир AI-распознавания речи предлагает множество решений с различными подходами и возможностями. Большинство сервисов успешно справляются с базовыми задачами, но отличаются по степени сложности, дополнительным функциям и ценовой политике.

Читайте больше интересных обзоров у нас на канале: