Как стартапу с названием «Кириллица» работать в Европе после 2022 года?

Несколько лет назад студия дубляжа «Кириллица» начала вести разработки в области синтеза речи. Стартап занимается озвучиванием видеоконтента с помощью синтеза речи и их голоса звучат так, что зачастую их просто невозможно отличить от озвучания реальным актёром. На зарубежных рынках компания известна как проект voxqube.

Основатель компании, выпускник акселератора «Спринт» и программы GoGlobal «Акселератора ФРИИ» Валерий Довбня рассказал, почему робот все ещё не может красиво говорить без помощи человека и как «Кириллица» становится международной.

Валерий Довбня
Основатель студии «Кириллица», продюсер, сценарист и режиссёр

Сперва была «Кириллица»

15 лет назад была основана студия дубляжа «Кириллица» — мы предоставляем услуги традиционного озвучания контента (актёры закадровой озвучки, актёры дубляжа). Лет пять назад нейротехнологии и искусственный интеллект стали относительно доступны и мы решили сделать тестовую запись на первых доступных технологиях и показали знакомому режиссёру. Он не распознал в голосе робота, стало ясно, что с этой технологией уже можно работать.

Голоса будущего

Первые упоминания технологии Машинного Перевода (MT – Machine Translation) появились ещё в середине 40-х годов. То есть технологии уже около 80 лет. Однако, до сих пор полностью положиться на автоматический перевод нельзя, перевод необходимо корректировать. И это несмотря на огромное количество данных и использование инструмента повсеместно на протяжение последних пятнадцати лет.

Похожая ситуация складывается и в области синтеза речи: движков синтеза много, пользовательских приложений ещё больше, но надёжный и вовлекающий в контент результат получить достаточно сложно. Аудитория ждёт от диктора не просто хорошего звука, голос должен воспроизводить интонацию, правильно расставлять паузы.

Озвучка помогает вовлечь в контент, повысить engagement rate продукта. Для этого речь должна быть живой, а не просто человекоподобной.

Пока для решения этой задачи только высококлассным софтом обойтись не получается – на длинных отрывках ломается интонация, в сложных словах скачет ударение, а технические термины порой и вовсе не произносятся. Для стабильного результата нужен человек, который знает, как работает софт и понимает тонкости локализационной работы.

Мы используем технологии синтеза речи и совмещаем их с креативом человеческого таланта, чтобы получить живую озвучку, вне зависимости от контекста, обрабатываемого нами контента.

Видео становится одним из основных форматов взаимодействия с аудиторией в корпоративном мире. Международные компании хотят разговаривать со своей аудитории на их языке.

65%
потребителей предпочитают работать с локализованными образовательными и промоматериалами о продукте.

Когда к нам приходит контент, мы обрабатываем его в 4 шага:

  • транскрипция;
  • перевод;
  • озвучание с помощью синтеза речи;
  • сведение.

Каждый из этих 4-х шагов выполняется алгоритмом, но также поддерживается человеком. Транскрипция должна соответствовать оригиналу, перевод не содержать странных и неестественных сочетаний, а речь звучать так, как она звучала бы, если бы её произносил человек (пускай и немного нудный).

Как стартапу с названием «Кириллица» работать в Европе после 2022 года?

Больше человечности, меньше человеческого фактора

Влияние человеческого фактора по-прежнему остаётся ключевым. Поэтому наш основной продукт сегодня невозможен без наших дизайнеров синтеза – людей, которые, поддерживают алгоритм на каждом этапе локализации контента.

Мы идём в сторону полной автоматизации процесса. Каждый проект, звуковая дорожка обрабатывается нашими дизайнерами синтеза с помощью кода, тегов и дополнительных элементов, которые влияют на итоговое звучание. И все эти данные мы собираем. С каждым новым проектом мы все лучше и лучше понимаем, как каждый голос ведёт себя в заданном контексте видео. Мы хотим, чтобы модели умели воссоздавать эмоции и интонации, исходя из контекста видео.

Все боятся конкурентов. Сейчас любая сфера, любые генеративные модели — все супер конкурентные.

Где-то мы берём опыт коллег, тех же гигантов. Мы можем пользоваться моделями Microsoft, чтобы не вкладывать миллиарды в создание своих специализированных моделей. Берём доступные голоса, отдаём свои. Сейчас на рынке больше коллаборации, чем жёсткой конкуренции. Софта очень много, но синтезом мало кто занимается, мы одни из первопроходцев.

Голоса «Кириллицы» для России

На российском рынке мы очень много работаем с документалками. Переводим оригинальный контент на русский язык, озвучиваем. некоторые наши работы российские зрители уже слышали, а некоторые слышат каждый день. Кроме того, мы создаём так называемые речевые датасеты — наборы данных для создания кастомных брендовых голосов. Мы, пожалуй, ведущая компания в этой сфере на российском рынке сейчас.

Часто специалисты по нейроголосам подходят к вопросу, как к математической задаче, потому что они из IT. Но недостаточно иметь безупречную модель.

Наш подход базируется на экспертизе в области звука и озвучки. Мы знаем, как нужно создавать датасеты, чтобы они стали основой хорошего голоса.

Пока что для каждого языка нужен отдельный датасет. Но мы учимся конвертировать голос на другой язык. Технически это непросто, но достижимо.

Голос Voxqube для Европы

На международных рынках мы делаем первые шаги. Мы работаем с международными scale-up’ами, производителями документального контента и YouTube блогерами.

Наш основной фокус сейчас в Европе и США, есть партнеры из Азии, с которыми мы работаем по модели white label. В условиях стартапа приходится фокусировать на главном.

С клиентом мы взаимодействуем либо напрямую, либо через маркетинговые или локализационные агентства. В основном, работаем с компаниями, которые имеют штаб-квартиры в США и с их европейскими дочками, им в первую очередь требуется локализация контента. Например, мы сотрудничаем с европейскими командами Cloudbees, которые работают в Португалии, Франции, Испании, Италии.

В корпоративных видео, например, в каком-нибудь онбординге, как и в документальном кино, нужен ровный голос. Там не нужна экспрессия и игра голосом, поэтому наши разработки отлично подходят. Это позволяет компаниям сильно экономить на производстве контента.

Если понадобится переозвучить какой-то кусок, то не надо ждать актёра, снимать студию, либо искать замену – наши голоса никогда не спят и не привередливы в оборудовании.

Много акселераторов ФРИИ не бывает

Мы последовательно прошли программу Спринт и программу GoGlobal от «Акселератора ФРИИ». Это был очень хороший трамплин. Спринт помог всё структурировать. А после GoGlobal у нас начались полноценные зарубежные продажи.

В Спринте выстраивали логику и подтягивали знания, GoGlobal нам дал решающий толчок к выходу на международные рынки.

В нашем случае прорыв случился, когда мы начали полноценно исследовать и сегментировать целевую аудиторию и её боли. Эксперты и трекеры GoGlobal нам в этом очень сильно помогли. Мы смогли детально прорабатывать аудитории и начали тестировать их. Я бы посоветовал всем IT-компаниям обратить на это внимание, если есть амбиции идти на новые рынки. И второе, что мы для себя уяснили — это необходимость сквозной аналитики. Нужно видеть все конверсии, анализировать все разговоры менеджеров и если заниматься этим поверхностно продажи работать не будут. Всё должно быть структурировано.

Как стартапу с названием «Кириллица» работать в Европе после 2022 года?

Четыре правила бизнеса от Валерия Довбни:

1. Важно научиться преодолевать страх.

Это не такой сложный процесс, как кажется. К преодолению страхов нужно относиться, как к гигиене сознания, как к чистке зубов. Проще начинать с маленьких шагов, с небольших препятствий. Например, 15 минут гимнастики каждое утро или две страницы новой книги каждый день. Вы можете придумать для себя любое новое посильное действие, которое должно стать регулярным, превратиться в своего рода ритуал. В результате вы получите позитивный опыт, у вас появится желание двигаться дальше.

2. Выход на глобальные рынки.

Это очень специфическая настройка бизнеса. Есть распространённая привычка смотреть на Запад снизу вверх. А на Восток зачастую наоборот. И ни то, ни другое не является правильным.

3. Нужно помнить о необходимости настройки коммуникации с людьми. Любое общение, любой язык нуждается в своего рода локализации/адаптации. Даже внутри родной культурной среды мы говорим разными языками — с детьми одним, со старшими другим, мужчины между собой разговаривают не так, как с женщинами, и наоборот. Когда вы выходите за рубеж, прибавьте необходимость донастройки национальной, религиозной, культурной. Всегда нужно помнить о необходимости адаптации в коммуникации, иначе вы сильно рискуете быть непонятыми и сами можете неверно понять собеседника.

4. Программа GoGlobal.

Эта программа помогает во всех перечисленных пунктах. Трекинг позволяет команде двигаться даже тогда, когда страшно и непонятно. А зарубежные эксперты и менторы, знакомые с культурой и местным бизнесом, позволяют избежать ошибок в коммуникации. Вы сразу общаетесь с нужными людьми, с необходимым настроем и близким культурным кодом.

До 25 мая можно пройти в программу GoGlobal от «Акселератора ФРИИ» при поддержке Московского экспортного центра. МЭЦ софинансирует 85% стоимости программы. В конкурсе могут участвовать столичные IT-компании с опытом работы на зарубежных рынках и без него.

Оставьте заявку на сайте до 25 мая.

88
2 комментария

Можно связаться с Кириллицей? Хочу пригласить в эфир ВКонтакте на интервью. Провожу эфиры с классными людьми из сферы современных технологий и культуры.

2
Ответить

Будем рады, если вы пришлёте подробную информацию на pr@cyrillica.ru

1
Ответить