Нейросеть ElevenLabs для озвучки текста: обзор и инструкция для новичков

Сервис сделает дубляж, озвучит аудиокнигу и сгенерирует подкаст из текста.

Инструмент ElevenLabs преобразовывает текст в естественно звучащую речь, причём «нейроспикеру» можно задать возраст, пол и даже акцент. Это пригодится разработчикам игр, авторам подкастов, видеоблогерам. О том, как зарегистрироваться в России, озвучить текст и сгенерировать виртуальный голос, — в этом материале.

Содержание:

Что такое ElevenLabs
Как пользоваться ElevenLabs
Какие есть тарифы
Что можно делать в ElevenLabs
Преобразовывать текст в речь
Создать голос звезды раннего Голливуда, пирата и любой другой
Изменить голос
Сделать дубляж с сохранением интонаций
Сгенерировать звуковой эффект
Отредактировать аудио для озвучки книги и создания подкастов
Ко��у пригодится ElevenLabs
Какие аналоги есть у ElevenLabs
Итого: чем полезен ElevenLabs

ElevenLabs — американская технологическая компания и одноимённый сервис, который специализируется на разработке программного обеспечения для синтеза естественно звучащей речи.

Стартап основали предприниматели Пётр Дабковский и Матеуш Станишевский в 2022 году. На создание сервиса их вдохновили фильмы с некачественным дубляжом: оба бизнесмена росли в Польше, где были широко распространены пиратские переводы американских картин.

До регистрации можно озвучить текст длиной до 100 символов (примерно как это предложение). Скачать полученный отрывок не получится.

Cервис недоступен в некоторых регионах, в том числе в России и республике Беларусь. Источник: elevenlabs.io

Если обойти региональные ограничения, регистрация выглядит максимально просто:

Зайти на официальный сайт компании и нажать на кнопку «Get started free».
Войти через Google или указать адрес электронной почты и придумать пароль. Во втором случае потребуется подтвердить почту, перейдя по ссылке в письме.
Ответить на несколько вопросов: указать имя, выбрать цели использования.
Готово! Скачать ElevenLabs нельзя — сервис существует в виде веб-приложения и требует постоянного подключения к интернету.

Регистрация в сервисе ElevenLabs. Источник: elevenlabs.io

Выбрать можно из семи тарифов: Free, Starter, Creator, Pro, Scale, Business, Enterprise.

Бесплатный (Free) имеет ограничение в 10 тысяч кредитов, которые обновляются каждые 30 дней. Этого хватит для генерации примерно 10 минут аудио.

В тарифах Starter ($5 в месяц) и Creator ($11 в месяц) лимит увеличивается (до 30 и 100 тысяч кредитов соответственно). При этом пользователь получает доступ к возможности клонировать собственный голос и расширенному набору инструментов для редактирования речи.

Тарифы Pro (от $99 в месяц) и выше подойдут для профессионального и бизнес-использования. На них доступно более 500 тысяч кредитов и высокое качество аудио (битрейт 192 кбит/с, частота 44,1 кГц).

Инструмент «Text-to-Speech» с использованием алгоритмов искусственного интеллекта преобразует текст в высококачественную речь. На бесплатном тарифе есть ограничение на размер текста — не больше 5 тысяч символов (примерно половина этой статьи).

В меню настроек пользователь может выбрать голос и ИИ-модель, а также задать параметры синтеза. Ниже — подробнее о настройках.

Голос

ElevenLabs бесплатно предоставляет широкую библиотеку голосов. Доступны они в разделе «Library» вкладки «Voices».

Здесь можно выбрать язык (всего их 32, есть и русский) и задать фильтры:

Стиль и цель использования: например, Narrative & Story (повествование), Entertainment & TV (развлечения), Informative & Educational (информативный стиль, образование). В зависимости от выбора голос будет иметь разную эмоциональную окраску и тон.
Акцент: модели ElevenLabs на русском позволяют выбирать между обычным, московским и петербургским говорами.
Пол: мужской, женский и обезличенный.
Возраст: молодой, зрелый и пожилой.

Каждый голос из библиотеки можно добавить в свою личную подборку и использовать для озвучки.

Модель

Доступно семь моделей генерации. Самая продвинутая — Eleven Multilingual v2. Она включается по умолчанию.

Помимо неё есть Eleven Turbo v2.5 и Eleven Flash v2.5 — упрощённые версии, при выборе которых «стоимость» озвучки снижается вдвое. Для некоторых русскоязычных голосов сервис предлагает выбрать Turbo v2.5. Обе модели работают быстрее, чем Multilingual v2, но часть голосов звучит не так естественно.

Остальные четыре модели — устаревшие варианты.

Раздел выбора модели. Источник: elevenlabs.io

Параметры синтеза

Stability — стабильность голоса. Чем стабильность ниже, тем больше интонационный разброс и вольность произношения. Чем значение выше, тем эмоционально ровнее звучит голос.
Similarity — сходство голоса. Чем выше показатель, тем сильнее нейросеть будет пытаться сохранить оригинальное звучание. Это актуально, если речь идёт о голосе, клонированном с голоса профессионального диктора или самого пользователя.
Style Exaggeration — усиление стиля. Параметр регулирует степень выразительности речи. Доступен только в модели Eleven Multilingual v2.
Speaker boost — усиление громкости сгенерированного аудио. По умолчанию параметр включён.

Вот так, например, звучит один и тот же фрагмент «Игрока» Достоевского с нулевыми и рекомендуемыми параметрами.

В меню «Voices» пользователь может сгенерировать и добавить в библиотеку новый голос.

Настройки создания голоса. Источник: elevenlabs.io

Для этого необходимо выбрать раздел «Voice Design» и ввести описание персонажа. Например — «An angry old pirate, loud and boisterous» (Сердитый старый пират, громкий и шумный) или «Deep, powerful, dramatic voice, used to build anticipation in movie trailers, typically associated with action or thrillers» (Глубокий, мощный, драматический голос, который используется для создания предвкушения в трейлерах к фильмам, обычно ассоциирующийся с боевиками или триллерами).

Описание можно ввести только на английском языке, сам текст — на любом из языков, который поддерживает сервис. Длина пробного фрагмента — до 1000 символов. Доступно три варианта голосов на выбор.

Источник: elevenlabs.io

В конце голосу необходимо дать название и присвоить теги для поисковых фильтров. Затем его можно сохранить в собственную подборку и использовать для полноценной озвучки.

Функция «Speech-to-Speech» позволяет преобразовывать запись с одним голосом в аудио с другим голосом. При этом нейросеть сохранит интонацию и эмоциональную окраску оригинала.

Инструмент находится во вкладке «Voice Changer». Пользователь может загрузить уже готовое аудио (до 50 Мб) или сделать запись прямо на сайте.

Для озвучки доступны те же голоса, что и в случае с текстовым исходником.

В октябре 2023 года ElevenLabs представила инструмент «AI Dubbing», способный переводить речь более чем на 20 языков. Нейросеть сохраняет оригинальный голос, эмоции и интонацию говорящего. Меняется только язык. Это значительно упрощает процесс локализации контента для международной аудитории.

Перевести можно аудио или видео весом до 500 Мб и продолжительностью до 45 минут. Кроме того, в качестве источника можно прикрепить ссылку на видео с YouTube или TikTok.

Чтобы перевести речь, нужно указать язык исходника и результата, а также выбрать число говорящих. Ниже — результат дубляжа отрывка из «Игрока» на японский язык.

Источник: elevenlabs.io

Хотя основная специализация ElevenLabs — синтез речи, компания активно работает над расширением функциональности.

Во вкладке «Sound Effects» находится функция генерации звуковых эффектов (звуки метро, шум прибоя, тиканье часов) на основе текстовых описаний. Ввести промпт можно только на английском языке, одна генерация стоит 320 кредитов. По одному запросу нейросеть создаст четыре аудио на выбор.

Настройками можно отрегулировать продолжительность аудиофрагмента (от 0,5 до 22 секунд) и значение параметра «Prompt influence» — влияние запроса: чем оно ниже, тем свободнее нейросеть в трактовке.

Например, запрос «Inside a busy supermarket, carts passing by and cashiers giving change» (перевод: «В оживлённом супермаркете, мимо проезжают тележки, а кассиры дают сдачу») в исполнении нейросети звучит так.

Источник: elevenlabs.io

Инструмент «Studio» предназначен для создания длинных аудиоматериалов, например аудиокниг и подкастов.

«Studio» позволяет авторам и продюсерам точечно управлять процессом создания аудиоконтента. Так, можно выбирать разные голоса (или настройки одного голоса) для разных абзацев.

Интересно, что сервис сам исправляет «ошибки» в тексте. Например, в выделенном фрагменте «Игрока» Достоевского нейросеть заменила несколько слов на более привычные современному читателю:

Было: «в четвёртом этаже». Стало: «на четвёртом этаже».
Было: «считают здесь все богатейшим». Стало: «считают здесь самым богатейшим».

Источник: elevenlabs.io

Контент-креаторы. Создатели контента, например блогеры и подкастеры, могут озвучить материалы и добавить в них профессионально звучащие голос��.

Журналисты, копирайтеры, редакторы. Генерация речи пригодится для создания аудиоверсий текстовых материалов. Кроме того, в озвученном тексте можно услышать несовершенства и сложные для восприятия фрагменты — это помогает в редактуре.

Разработчики игр и мультипликаторы. В игровой и��дустрии и создании анимационного контента ElevenLabs можно использовать для озвучивания персонажей и генерации звуковых эффектов. Это делает производство более доступным для небольших команд и инди-разработчиков.

Разработчики (в широком смысле). Благодаря доступному API разработчики могут интегрировать возможности ElevenLabs в свои приложения — например, для создания голосовых ботов и других элементов UI/UX, которые требуют синтеза речи.

Школьники и студенты. Ученики и студенты могут использовать ElevenLabs для создания аудиоверсий учебных материалов — например, чтобы слушать их по дороге и лучше запоминать информацию. Более того, одновременно чтение и прослушивание конспектов поможет усвоению информации и ускорит подготовку к занятиям.

Murf.ai предлагает более 200 голосов и поддерживает более 20 языков, в том числе русский. В бесплатной версии доступно 10 минут генерации, платные тарифы начинаются от $29 в месяц.

Speechify поддерживает порядка 60 языков, в том числе русский. Выбор голосов в бесплатной версии ограничен: шесть универсальных и по одному для каждого языка. Также пользователь не может гибко настраивать параметры речи, только скорость.

Voicemaker.in преобразовывает текст в речь более чем на тысячи голосов на 130 языках и диалектах. Сервис поддерживает русский язык и предлагает бесплатный план с ограничениями на количество символов (до 250 знаков). Для расширенного использования доступны платные тарифы (от $5 в месяц).

Speechgen.io предлагает бесплатный план с ограниченным количеством символов в месяц (до 1500 знаков). На русском языке доступны только «механические» и неестественные голоса (например, бот Максим).

PlayHT поддерживает более 60 языков, включая русский. PlayHT предлагает бесплатный план с базовыми функциями и ограничениями по длине текста (до 12,5 тысяч символов). Для доступа к расширенным возможностям и большему количеству знаков есть платные тарифы (от $39 в месяц).

ElevenLabs — продвинутый ИИ-инструмент для синтеза естественно звучащей речи.
Сервис предоставляет широкие возможности для преобразования текста в речь, изменения голоса спикера, перевода аудиоконтента, создания уникальных голосов и звуков для различных целей.
В бесплатном тарифе доступно 10 000 кредитов, которых хватает на генерацию около 10 минут аудио. Для профессионального использования подойдут платные тарифы с увеличенным лимитом и расширенными функциями, например клонированием собственного голоса.

А для чего вы бы использовали возможности ElevenLabs? Воссоздали бы голос Володарского со старых кассет, чтобы озвучить свежие фильмы?

Нейросеть ElevenLabs для озвучки текста: обзор и инструкция для новичков

Что такое ElevenLabs

Как пользоваться ElevenLabs

Какие есть тарифы

Что можно делать в ElevenLabs

Преобразовывать текст в речь

Создать голос звезды раннего Голливуда, пирата и любой другой

Изменить голос

Сделать дубляж с сохранением интонаций

Сгенерировать звуковой эффект

Отредактировать аудио для озвучки книги и создания подкастов

Кому пригодится ElevenLabs

Какие аналоги есть у ElevenLabs

Итого: чем полезен ElevenLabs