👋 Как я создал Vid2Text: бота для расшифровки видео и распознавания текста на изображениях
Меня зовут Алексей, и я создатель Vid2Text — телеграм-бота, который помогает пользователям делать расшифровку видео (с ютуба и не только) и распознает текст с изображений.
Начав с идеи преобразования YouTube видео в текстовый формат, я постепенно расширил функционал бота, добавив возможность распознавания текста на изображениях.
Как это началось
Нам нужно было обеспечить быстрое преобразование аудио- и видеозаписей в удобный текстовый формат для последующего использования. Это стало основным стимулом для создания Vid2Text — инструмента, способного автоматизировать процесс транскрибирования видео в текст.
Особенности бота
Отличительной особенностью Vid2Text является то, что помимо традиционной для подобных сервисов транскрибации видео, бот предлагает отформатированную html-статью, готовую для размещения на сайте или в соц. сетях.
Пользователь может выбрать режим конвертации: оригинал или креативный
Пользователь может выбрать режим конвертации: оригинал или креативный, Креативный режим добавит в статью новых деталей, а оригинальный — будет придерживаться ближе к исходной версии, но все равно сделает базовую редактуру текста.
Создание тестов
Еще одна фишка чат-бота – к полученной статье можно создать тест. В нашем случае, мы создаем тесты к конспектам записей эфиров с экспертами. Таким образом, наши пользователи могут быстренько чекнуть, насколько они поняли, о чем вещал спикер.
Вот примерчик
Вопросы теста и варианты ответа можно отредактировать в личном кабинете.
В принципе, на основе подборки видео в чат-боте можно на коленке собрать мини-курс с функцией проверки усвоения материала. Скоро напишу об этом функционале отдельно.
Распознавание изображений в текст
Начав с простого преобразования аудио в текст, я постепенно расширил функциональность бота. Одним из ключевых моментов стало внедрение функции распознавания текста на изображениях. Это позволило пользователям быстро создавать статьи и документацию на основе визуального контента, что существенно ускорило процесс работы.
Вот, например, можно подсунуть фото своего обеда и быстренько запилить статейку для поста.
Можно подсунуть фото своего обеда и быстренько запилить статейку для поста
В первом сообщении бот выведет описание того, что он видит на картинке, а вторым сообщением даст ссылку на готовую статью. В данном случае может получиться такой результат.
Активность пользователей
Расширение функционала Vid2Text принесло ряд преимуществ для пользователей. Теперь им не нужно тратить время на ручной ввод текста с изображений — бот справляется с этим заданием за них.
Это делает процесс создания контента более быстрым и удобным, как я уже показал на фото выше.
Вы просто загружаете фото, пишете, что хотите сделать с описанием изображения и получаете готовую статью за копейки.
(Ну, ок — за несколько рублей)
На текущий момент чат-бот используют пользователи в основном все-таки для расшифровки видео в текст, но собирая обратную связь у пользователей, сделал вывод, что функционал распознавания текста с изображений тоже востребован. Решил, что буду развивать его.
Если вы:
- Преподаватель или тренер, который регулярно записывает обучающие видеоуроки или вебинары;
- Специалист, который проводит презентации или веб-семинары и хочет быстро создавать материалы для учебных целей;
- Предприниматель или бизнес-аналитик, который использует видеозаписи для анализа рынка или презентации своих продуктов;
То попробуйте бота в действии!
Vid2Text поможет вам максимально эффективно использовать ваш видеоконтент, преобразуя его в текстовый формат с автоматическим распознаванием аудио и текста на изображениях.