Yandex Cloud добавила в SpeechKit нейросети, которые распознают и синтезируют речь на узбекском языке

С их помощью можно создавать голосовых помощников и озвучивать тексты.

  • Нейросети для синтеза и распознавания узбекского работают с латинским алфавитом, который в Узбекистане используют более 20 лет, рассказала компания. Модели обучали на предзаписях голоса диктора, тысячах часов аудио и их расшифровках — с короткими и длинными фразами, именами, адресами, датами и числами.
  • Компания научила алгоритмы синтеза учитывать звуковые особенности некоторых букв: например, что «Х» в узбекском обозначает твёрдый звук [х], хотя в иностранных словах может произноситься как [кс].
  • Модели также умеют синтезировать речь не только из текста, но и из фонемной записи, если слова или имена собственные произносятся не по правилам. Для этого нужно указать в тексте фонемный разбор нужного слова с помощью специального синтаксиса.
  • Настроить модели можно через API. Их уже тестируют некоторые компании, среди них — ИТ-фирма Kolesa Group, Unistar Digital и Tomoru, а также ИИ-сервисы TargetAI и JustAI.
3535
33 комментария

Насчёт узбекского ничего не скажу, но вообще SpeechKit — одна из самых классных вещей в Cloud.
Развивайте, успеха!

16
Ответить

Как по-узбекски будет "синхрофазотрон"?

4
Ответить

sinxrofazotron

13
Ответить

Синхрофазотрон-ака.

1
Ответить

Я не понял, это уже нейросеть внизу ответы про "синхрофазотрон" выдает? :)

Ответить

Шашлык-машлык

Ответить