Bot Polina: Анализ голосовых сообщений в Telegram с помощью ChatGPT
Скажите, что не меня одного бесит, когда в середине рабочего дня, друзья прямо в общем чате устроили обсуждение какой-то темы длинными голосовыми? Или жена прислала аудио на 5 минут, когда вы на совещании или важном звонке, и остается только гадать, насколько срочный там вопрос?
Привет всем! Меня зовут Игорь Филиппов, и я веб-разработчик. Долгое время меня мучила проблема: мои друзья любят обмениваться голосовыми сообщениями в общих чатах в Telegram, иногда оочень долгими. Здорово, когда у вас есть время послушать их все. Но что, если вам некогда? И вы хотите получить суть сообщения без прослушивания каждого длинного войса? Именно так ко мне пришла идея создать нового Telegram-бота: Polina Voice Messages Recognizer.
Сначала я написал его для себя и своих друзей, но он оказался слишком хорошим, чтобы не поделиться им с миром))
В чем смысл бота?
Бот расшифровывает ваши голосовые сообщения в Telegram. Но было бы слишком просто ограничить его функционал только распознаванием текста, верно? Поэтому была добавлена интеграция с ChatGPT, и в дополнение к распознанному тексту, вы получаете краткое содержание всего голосового буквально в одном-двух предложениях.
Попробуйте и проверьте на себе, насколько сокращается время на понимание основной мысли/вопроса/того, что хотел сказать автор.
Есть два варианта работы с ботом:
- Добавляйте его прямо в ваши групповые чаты. Бот будет обрабатывать все голосовые сообщения, которые поступают в группу, и, помимо полной расшифровки, автоматически предоставляет краткое резюме под каждым из них. Таким образом, вы всегда в курсе обсуждения, не тратя кучу времени на прослушивание длинных голосовых и подключаясь только по мере необходимости.
- Вы можете пересылать ему аудио сообщения в личку из любых ваших чатов, будь то группа, канал или просто переписка с вашим приятелем.
Но есть же Telegram Premium?
Логичный вопрос, который может возникнуть - зачем нужен бот, если функционал распознавания аудио уже есть в premium подписке Telegram? Расскажу на примере с группой или чатом. Если вы зашли вечером, и увидели, что днем была активная дискуссия на 50+ сообщений, из них ~15 войсов под 2-3-5 минут, то нужно кликнуть на каждый и дождаться пока Telegram напишет расшифровку (а это бывает достаточно долго). У вас отсутствует возможность быстро проскролить чат и ухватить суть, прочитав переписку по диагонали. В случае, когда бот добавлен в группу, вы можете прочитать только краткое содержание всех сообщений и в считанные секунды влиться в разговор.
Вот еще пару примеров:
Что под капотом?
Под капотом плотная интеграция с OpenAI. Модель whisper используется для расшифровки голоса и перевода его в текст, а модель gpt-3.5-turbo - для предоставления краткого содержания исходного текста.
На старте, для преобразования голоса в текст я выбрал Yandex SpeechKit, но после некоторых тестов выяснилось, что аналогичный сервис от OpenAI справляется лучше: нет ограничения в 30 секунд для аудиофайлов (поэтому не нужно резать длинные войсы на фрагменты, из-за чего некоторые слова терялись из распознанного текста, так как попадали на конец/начало фрагмента), неплохо расставляет пунктуацию (Яндекс отдает неразмеченный текст) и самое важное - он кратно дешевле.
Мои голосовые сообщения будут храниться у вас на сервере?
Нет, на сервере не хранятся ни оригиналы аудио сообщений, ни расшифровки или краткие пересказы. Хранится только мета-информация для статистики: сколько голосовых было обработано, сколько использовались сервисы OpenAI и т.д.
Что дальше? Монетизация?
Сейчас монетизации нет, но если расходы на инфраструктуру и OpenAI сервисы будут превышать разумные пределы, подумаю над внедрением недорогой подписной модели, например, за полный безлимит во все группы, где вы - участник. Или можно будет у активных участников ежемесячно клянчить скромный донат :)
Я постоянно работаю над улучшением бота, и мне будет очень интересно услышать ваши отзывы и получить фидбек. Если у вас есть идеи или замечания, пожалуйста, оставьте комментарий. Ваше мнение поможет сделать бота еще лучше!
Кстати, ссылка на бота здесь.
Лайк, шер, репост приветствуются :)
Интересно, искал что то подобное, протестим
Прикольная альтернатива Премиума)
Потестил, распознает хорошо.
Кстати, если будете в группы добавлять, не забудьте дать боту права админа, даже просто админа максимально зарезанного в плане прав. Это особенность телеги, без админ прав бот в группах работать не может.
спасибо за крутого бота)
спасибо ,нужно будет опробовать
Забавно, не использовал Telegram Premium, так что для меня это будет что-то новое)