«Выбирали корпоративные цвета и шрифты — пора задуматься и о голосе»: зачем бизнес «нанимает» синтезаторы речи
Виртуальные голоса научились «плакать», имитировать акценты и адаптироваться под стили текстов. С их помощью компании исправляют оговорки актёров в кино, персонализируют рекламу, озвучивают игры и приложения. Как развивается рынок ИИ-голосов — в пересказе MIT Technology Review.
Синтезированную речь нередко используют мошенники, например, для автоматических звонков и спама. Несмотря на это, бизнес не теряет интереса к технологии.
По мнению издания, использовать искусственные голоса проще и дешевле, чем нанимать актёров. Также глубокое обучение помогает создавать ботов с естественными характеристиками речи:
- «Роботы» делают присущие человеку вдохи и паузы.
- Выражают эмоции.
- Меняют манеру изложения в зависимости от жанра текста.
Разработчики создают голоса для цифровых устройств, колл-центров и видеоигр. Сиэтлский стартап WellSaid Labs, например, специализируется на озвучке обучающих роликов. Недавно компания выпустила восемь мужских и женских голосов для разных задач — среди них:
- Тобин — «энергичный и проникновенный, хороший рассказчик».
- Пейдж — «голос спокойный и выразительный, настраивает на размышление».
- Ава — «учтивая, уверенная в себе, подойдёт для продаж».
За основу каждого WellSaid Labs берёт голоса реальных актёров и продаёт лицензии на синтезированные копии. Покупателю достаточно загрузить текст в программу, чтобы бот его озвучил.
Как технологии глубокого обучения помогают рынку
Вместо этого разработчики используют алгоритмы: «скармливают» ботам несколько часов аудио, и те самостоятельно обучаются и определяют шаблоны речи. Сервис WellSaid Labs использует две основные модели технологии:
- Первая определяет общие характеристики текста и предполагает, какими будут акцент, тональность и тембр виртуального актёра.
- Вторая добавляет детали: анализирует, где имитировать вдох и как голос будет резонировать в пространстве.
Однако в живой речи человек эмоционирует, сбивается и может произнести одну и ту же реплику по-разному. Поэтому, чтобы синтезированный голос звучал убедительно, алгоритму нужно обработать множество аудиозаписей от разных актёров. На это, по словам журнала, могут уйти недели.
Повысить узнаваемость и персонализировать рекламу: зачем бизнесу ИИ-голоса
Бренды внедряют голосовых помощников в корпоративные приложения, «умные» колонки, автомобили и дома. Пандемия только повысила спрос: виртуальное общение стало основным способом взаимодействия бизнеса с клиентами во время карантина.
Однако фирмы всё реже хотят использовать унифицированные голоса — вроде тех, что предлагают Google, Apple и Amazon.
Голос ресторанов Pizza Hut должен отличаться от голосов пиццерий Domino’s Pizza и Papa John’s. Он — часть айдентики бренда.
Компании ведь выбирают корпоративные цвета, шрифты. Пора задуматься и о фирменном звучании.
Раньше компаниям приходилось для каждого рынка нанимать разных актёров для озвучки ботов. Теперь технологии позволяют им использовать всего один голос и переключаться между акцентами и языками.
Благодаря этому стриминговые платформы могут адаптировать рекламу под регионы, изменяя не только характеристики голоса, но и содержание: например, рассказывать зрителю из Торонто, какой местный паб продаёт рекламируемый напиток.
Разработчик голосов для «умных» помощников и промороликов Resemble AI уже работает над запуском персонализированных аудиореклам для Spotify и Pandora.
Внедряет новые ИИ-технологии также развлекательно-игровая индустрия. Британский стартап Sonantic разработал алгоритм, который научился наделять цифровые голоса эмоциями: они смеются, плачут, шепчут и кричат.
Компания работает с производителями видеоигр и анимационными студиями и отмечает, что раньше многие из них использовали синтезированные голоса лишь на стадии разработки. Во время постпроизводства они заменяли ИИ реальными актёрами.
Сейчас, говорит Sonatic, они всё чаще используют искусственные голоса и в итоговых версиях игр. Правда, пока что для персонажей с меньшим количеством реплик.
Компании вроде Resemble AI также сотрудничают с кино- и телекомпаниями: последние заменяют с помощью ИИ неправильно произнесённые актерами фрагменты.
Как будет развиваться синтез речи и потеряют ли актёры работу
Несмотря на интерес к рынку и его рост, разработчикам по-прежнему предстоит решить ряд проблем, пишет издание:
- Пока что они не могут управлять ИИ-голосом так же свободно, как режиссёр направляет актёра.
- Со временем человек замечает «искусственность», даже если голос звучит реалистично. Это касается продолжительных записей — например, аудиокниг и подкастов.
Поэтому истинное развитие синтеза речи впереди, считает основатель Resemble AI Зохайб Ахмед. Так, по его словам, было и с технологией CGI: раньше с её помощью раскрашивали объекты, а теперь — создают «целые миры».
Не заменит искусственный интеллект и актёров: с длинными экспрессивными и нестандартными текстами пока что лучше справляется человек, считает журнал. К тому же именно актёр предоставляет алгоритму исходные данные для обучения.
Основная цель индустрии — не заменить человека, а открыть принципиально новые возможности.
Например, использовать синтез речи, чтобы быстро адаптировать образовательные онлайн-программы для аудиторий из разных культурно-социальных слоёв.
Однако профессионалы боятся потерять не работу, а деньги и уважение, говорит представитель профсоюза актёров США SAG-AFTRA. Они полагают, что компании урежут гонорары и станут использовать их голос без разрешения.
Последнее стало предметом недавнего иска против TikTok. По словам канадской актрисы Бев Стэндинг, приложение использует копию её голоса во встроенном генераторе озвучки.
С подобным столкнулась и американская актриса Сьюзен Беннетт. Именно её голосом говорила первая версия Siri в США, хотя сама она узнала об этом лишь после запуска функции — от друзей.
Изначально актриса полагала, что записывает типовые сообщения для внутренних сервисов Apple — например, голосовой почты. Именно за эти записи актриса получила деньги. За дальнейшее использование её голоса на миллионах устройств ей не заплатили.
Поэтому профсоюз SAG-AFTRA призывает принять законы, которые защищали бы актёров, и признаёт, что некоторые компании всё же работают добросовестно:
- Они консультируются с профсоюзом по вопросу гонораров.
- Делятся с актёрами прибылью каждый раз, когда клиент покупает право на использование их голоса.
- Позволяют актёрам самим решать, в каких проектах будет звучать их голос.
Владельцы компаний "секс по телефону" аккуратно переписывают контактные данные разработчиков.