Как расшифровать аудио и видео бесплатно
Устанавливаем Whisper на компьютер: без навыков программирования и танцев с бубнами
Whisper — это модель преобразования речи в текст от OpenAI, которую можно использовать для бесплатного транскрибирования аудио- и видеофайлов. Поддерживает 99 языков.
Навыки программирования не потребуются. Инструкция подойдет для пользователей ОС Windows (тестировал на Windows 10).
Немного теории. За качество расшифровки отвечает модель распознавания. У Whisper их всего пять: tiny, base, small, medium и large. Чем "больше" модель распознавания, тем качественнее будет расшифровка.
В этой таблице указаны требования к производительности вашего компьютера. Больше всего нас интересуют значения VRAM. Запомните их.
Чтобы узнать VRAM на вашем компьютере, выполните следующие действия:
1. Откройте рабочий стол.
2. Нажмите на любую пустую область рабочего стола правой кнопкой мыши.
3. Во всплывающем меню нажмите "Параметры экрана"
4. В разделе "Дисплей" (он откроется сразу) прокрутите вниз и нажмите "Дополнительные параметры дисплея"
5. Нажмите на кнопку "Свойства видеоадаптера для дисплея 1"
В новом окне появятся свойства видеокарты. Мы искали значение "Используется видеопамяти".
Теперь, понимая возможности компьютера, выбираем подходящую модель:
1. base (~1000MB VRAM): Скачать
2. small (~2000MB VRAM): Скачать
Whisper Desktop
Выбранную модель нам нужно будет загрузить в программу, которая называется Whisper Dekstop: Скачать
Распаковываем ZIP-архив и открываем программу через WhisperDekstop.exe
Откройте программу, нажмите на "..." и выберите скачанную ранее модель распознавания. Нажмите OK, и программа подгрузит нашу модель. На это потребуется некоторое время.
Выберите язык (Language) и файл, который хотите расшифровать (Transcribe File).
Поддерживаемые форматы: M4A, MP3, MP4, MPEG, MPGA, WAV и WEBM.
Далее выбираем текстовый документ, куда будет сохраняться расшифровка (Output Format).
Подсказка:
1. Text file - обычная расшифровка
2. Text with timestamps - расшифровка с тайм-кодами [00:00:00]
Теперь нам нужно выбрать или создать новый текстовый документ в формате .txt. Нажмите на нижнюю кнопку "...". В появившемся окне нажмите на любую пустую область, выберите "Создать" и "Текстовый документ". Задайте имя файла и нажмите "Открыть"
Когда всё готово, нажимаем Transcribe и ждем окончания расшифровки.
Если вы сделали всё правильно, у вас начнётся процесс расшифровки файла.
На расшифровку файла длительностью 100 минут с использованием модели medium у меня ушло 28 минут. Чем тяжелее модель, тем больше времени потребуется на расшифровку.
Дополнительно. Расшифровка с микрофона
Можно говорить в микрофон и параллельно превращать голос в текст. В меню с выбором файла для расшифровки нажмите на кнопку Audio Capture. Выберите язык (Language) и микрофон (Capture device).
Если микрофон не подключен, список будет пустым.
Нажмите на кнопку Capture и начинайте говорить. По окончании нажимаем Stop и получаем готовую расшифровку
Whisper довольно неплохо справляется с расшифровкой одного голоса, но не умеет делить спикеров по ролям. Иногда в тексте могут быть ошибки, потому что нейросеть не вникает в контекст, как это сделал бы человек. Со сложной записью, шумами на улице и музыкой на фоне нейросеть справится так себе.
Эта инструкция размещена в моем боте @NeuroNavigator_bot. В нём я сохраняю обучающие материалы по работе с нейросетями, промты для генерации текстов и изображений, обзоры на полезные сервисы и многое другое. Буду рад обратной связи.
На этом всё. Если статья помогла, ставьте лайк, класс, сердечко или что угодно еще.
А для macOS?
Мака нет, не могу помочь
https://appstorrent.ru/3496-whisper-transcription.html
Актуальней и проще онлайн формат.
Но за статью-инструкцию спасибо!
Комментарий недоступен
Опробовал на одном своем видеоролике. Расшифровал хорошо, совершил только одну ошибку (одно слово исковеркал). Работает быстро. Спасибо за статью!