Технология впечатляет, особенно скорость обработки. Полтора часа за 10 минут - это действительно быстро. Интересно бы узнать, какие вычислительные мощности за этим стоят и какой процент точности пересказа
Это очень долго на самом деле. Коммерческие text-to-speech решений 2.5 часа меньше чем за минуту переделывают в субтитры. 10 минут он видимо тратит на скачивание аудиодорожки с тормозного рутуба. У меня в тг боте эта фича давно есть и она тоже большую часть времени занимается скачиванием (с любого видеосайта который можно скачать с помощью yt-dlp) а не распознаванием и пересказом.
Технология впечатляет, особенно скорость обработки. Полтора часа за 10 минут - это действительно быстро. Интересно бы узнать, какие вычислительные мощности за этим стоят и какой процент точности пересказа
Это очень долго на самом деле. Коммерческие text-to-speech решений 2.5 часа меньше чем за минуту переделывают в субтитры. 10 минут он видимо тратит на скачивание аудиодорожки с тормозного рутуба. У меня в тг боте эта фича давно есть и она тоже большую часть времени занимается скачиванием (с любого видеосайта который можно скачать с помощью yt-dlp) а не распознаванием и пересказом.