5 онлайн-сервисов для расшифровки речи в 2024
Мы проверили и сравнили пять популярных онлайн-сервисов для транскрибации аудио и видео в текст. В этом материале мы оцениваем качество распознавания, скорость работы и функциональные возможности каждого сервиса
В чем суть:
Год назад мы с командой протестировали расшифровку речи на нескольких онлайн-платформах. Результаты были неоднозначными: в одних сервисах часовую запись приходилось ждать 30 минут, в других — всего 5-6. Ошибочно распознанных слов стенограммах мы обнаружили от 8% до 29% (2023).
Спустя год нам обещают более высокую точность и скорость распознавания речи. Сервисы активно добавляют фичи, которые должны упростить работу с текстами расшифровок. Это подтолкнуло нас повторить эксперимент — на этот раз тестируем 6 сервисов, которые поддерживают распознавание русского языка и оплату из России
Навигация
Как мы оценивали
В прошлом обзоре мы использовали для теста только одно видео. Теперь для чистоты эксперимента взяли три ролика из разных сфер: новости экономики, образование и наука, нейросети. Длительность записей варьируется от 20 минут до часа — по длинным роликам проще оценить частоту ошибок и скорость расшифровки.
Для сравнения расшифровок текста мы использовали метрику WER (Word Error Rate), которая показывает процент ошибок, исходя из общего числа слов. Например, если исходный текст содержит 100 слов, а расшифровка содержит 10 ошибок, WER будет равен 10%. Чем ниже WER, тем точнее распознавание речи
Дополнительные критерии оценки:
наличие онлайн-редактора;
поддерживаемые форматы импорта и экспорта;
тестовый период и стоимость за минуту расшифровки;
поддержка нескольких языков;
скорость обработки аудио и видеозаписей;
наличие функции разбивки текста по спикерам;
грамотность: частота ошибок, расстановка знаков препинания, деление текста на абзацы, заглавные буквы;
возможности сервисов для бизнеса;
дополнительный функционал
1. Teamlogs
Teamlogs.ru — онлайн-сервис транскрибации, который принимает любые форматы аудио- и видеофайлов до 1,5 Гб на русском и английском языке.
При регистрации новые пользователи получают 15 бесплатных минут — для теста. Затем минимальная стоимость расшифровки — 6 рублей за минуту. Чем больше минут вы покупаете, тем выгоднее будет цена
В сервисе есть онлайн-редактор. Воспроизведение записи синхронизировано с бегунком в тексте расшифровки — не нужно вручную искать фрагмент аудио. Готовый файл можно выгрузить в форматах DOCX, XLSX, SRT. При экспорте можно отключить проставление таймкодов или изменить их частоту, а еще включить или выключить нумерацию реплик, указание имен спикеров
Результат теста:
WER или частота ошибок в словах: 11,46%
Скорость расшифровки 20-ти минутного видео: около 2 минут
Тестовый период: 15 минут
Редактор: есть
Деление по спикерам: есть
Расстановка знаков препинания: есть
Экспорт в форматах: DOCX, SRT и XLSX
Особенности сервиса:
- Не разбивает текст на абзацы
- Есть функции конспектирования и выделения ключевых слов
Умеет выделять из текста задачи и исполнителей
Возможности для бизнеса:
Можно работать в команде
Есть возможность оплаты со счета организаций
Данные обрабатываются на территории РФ и не передаются третьим лицам
2. Conspecto
Поддерживает более 300 форматов и 50 языков. Бесплатно можно расшифровать файл длительностью до минуты, платный тариф — от 3 рублей за минуту
Результат теста:
- WER или частота ошибок в словах: 11,99%
- Скорость расшифровки 20-ти минутного видео: около 2 минут
- Тестовый период: минута
- Редактор: нет
- Деление по спикерам: нет
- Расстановка знаков препинания: есть
- Экспорт в форматах: TXT, HTML, DOCX, SRT
Особенности сервиса:
- При оплате от 4 рублей за минуту дополнительно извлекается конспект транскрибируемого файла
- Есть Telegram-бот
3. Писец
Есть бесплатный тариф, однако на нем транскрибацию в общей очереди можно прождать более суток — сервис не принимает больше одного файла одновременно. Для срочных случаев есть платные тарифы, самый дешевый из них — 2.2 рубля за минуту.
Писец поддерживает любые форматы, расшифровывает файлы на русском и английском языке
Результат теста:
WER или частота ошибок в словах: 13,82%
Скорость расшифровки 20-ти минутного видео: около 2 минут на платном тарифе
Тестовый период: есть бесплатный тариф
Редактор: нет
Деление по спикерам: есть
Расстановка знаков препинания: есть
Экспорт в форматах: DOCX на почту
Особенности сервиса:
- Разбивает текст на абзацы
Возможности для бизнеса:
Можно создать корпоративный аккаунт
4. Any2Text
Принимает для расшифровки большинство популярных форматов на 50-ти языках. Первые 15 минут бесплатно, далее при регистрации можно получить еще 60 бонусных или оплатить тариф — от 4-х рублей за минуту
Результат теста:
WER или частота ошибок в словах: 13,69%
Скорость расшифровки 20-ти минутного видео: около 2 минут
Тестовый период: 15 минут
Редактор: нет
Деление по спикерам: есть
Расстановка знаков препинания: есть
Экспорт в форматах: DOCX, XLSX, SRT, TXT
5. WordVoice
Сервис для транскрибации медиа-файлов на 6 языках. Загрузить в сервис можно практически все популярные форматы, а готовый материал скачать в формате TXT — с таймкодами или без них.
Стоимость минуты расшифровки — 5 рублей. При регистрации в подарок начисляется 90 рублей для тестовой транскрибации
Результат теста:
WER или частота ошибок в словах: 12,47%
Скорость расшифровки 20-ти минутного видео: около 5 минут
Тестовый период: есть
Редактор: есть, но изменения в нем не сохраняются
Деление по спикерам: нет
Расстановка знаков препинания: есть
Экспорт в форматах: TXT
Итог
Мы подготовили итоговую таблицу с основными критериями сравнения, где отсортировали сервисы по показателю WER (процент ошибок распознавания)
Надеюсь, статья была вам полезна и вы нашли подходящий сервис для решения своих задач. Вернемся через год, когда создатели сервисов напридумывают новых фич