Как клонировать голос, озвучить видео и оживить картинку: обзор нейросети Hedra

Заставляем динозавра паять, а преподавательницу — отчитывать студента за использование нейросетей.

Нейросети, которые заставляют людей на статичных изображениях разговаривать или петь, часто анимируют только губы. Из-за этого мимика выглядит недостаточно естественно. Но мы нашли нейросеть, которая справляется с эмоциями, движениями всего лица и даже тела — это Hedra AI.

Сервис умеет создавать собственных персонажей, анимировать настоящие снимки, генерировать и клонировать голоса. И всё это доступно на бесплатном тарифе. Ниже — результаты экспериментов со всеми функциями нейросети.

Содержание:

Что такое Hedra

Главная страница сайта Hedra. Источник: hedra.com  
Главная страница сайта Hedra. Источник: hedra.com  

Hedra — это платформа для создания контента. Основа Hedra — модель Character-3, которая в одном запросе анализирует текст, картинки, звук и видео. За счёт этого в Hedra получится анимировать фото, генерировать промпты, голос и изображения.

Нейросетью можно пользоваться прямо на сайте. Открывается он даже с российского IP-адреса. Из недостатков: в сервисе есть цензура, и анимировать фотографию знаменитости не получится.

На слово разработчикам мы, конечно, не поверили и решили анимировать фотографию Илона Маска. Не получилось. Источник: www.hedra.com
На слово разработчикам мы, конечно, не поверили и решили анимировать фотографию Илона Маска. Не получилось. Источник: www.hedra.com

Сколько стоит доступ к Hedra

Работать в нейросети можно бесплатно. Вот, какие возможности есть у тарифов:

  • Free — 400 кредитов в месяц. Генерации находятся в неприоритетной очереди, результаты нельзя использовать в коммерческих целях, купить кредиты поштучно тоже нельзя. Тарифа хватит примерно на 5–6 генераций видео в модели Character-3 (другие модели недоступны). Видео можно сохранить, но только с водяным знаком.
  • Basic — от $8 за 1000 кредитов в месяц. У подписчиков есть доступ к премиум-голосам, генерации можно использовать в коммерческих целях и скачивать без водяного знака. Неиспользованные монеты каждый раз прибавляются к новым ежемесячным 1000 кредитам. Кроме этого, кредиты можно докупать.
  • Creator — от $24 за 3600 кредитов в месяц. Возможности те же, что и на тарифе Basic.
  • Professional — от $60 за 11 000 кредитов. Возможности те же, что и на тарифе Basic.
  • Enterprise — цена и пакет возможностей индивидуальные.

Стоимость каждой генерации Hedra рассчитывает в процессе работы. Сколько кредитов будет стоить то или иное видео, зависит от длительности ролика, его разрешения и используемой модели. Например, за секунду видео, сделанного в модели Kling 1.6, пользователь отдаст 11 кредитов. За то же время генерации в модели Character-3 — от 3,5 до 7 кредитов в зависимости от разрешения.

Как зарегистрироваться в Hedra

В России Hedra находится в свободном доступе, зарегистрироваться нужно на сайте. Для этого:

  1. Нажмите на кнопку «Try now» или «Sign up».
  2. Укажите почту или войдите через Google-аккаунт.
  3. Согласитесь с условиями обслуживания и политикой конфиденциальности.
  4. Подтвердите, что вам есть 18 лет.
  5. Галочку напротив согласия на письма от Hedra ставить не обязательно.

Регистрация пройдена. Можно начинать испытания.

Рабочая область нейросетки похожа на чат-бот. Источник: www.hedra.com
Рабочая область нейросетки похожа на чат-бот. Источник: www.hedra.com

Эксперимент: генерируем только картинку

Внутри нейросети Hedra есть несколько моделей для генерации изображения: Flux Dev, Flux 1.1 Pro, Flux 1.1 Ultra, Recraft V3, Sana, Ideogram V2 и Imagen3. В бесплатном доступе есть только Flux Dev, одна картинка в ней стоит четыре кредита за мегапиксель.

Для этого эксперимента анимировать картинку нам не понадобится, поэтому:

  • Переходим во вкладку «Image».
Источник: www.hedra.com
Источник: www.hedra.com
  • Выбираем модель, соотношение сторон и разрешение картинки (от 540p до 4k).
  • Пишем промпт или просим нейросеть придумать текстовый запрос самостоятельно. Для этого есть кнопка «Inspire me». Наш рандомный запрос «Friendly robot fighting a human in cartoon style» (перевод: «Дружелюбный робот сражается с человеком в мультяшном стиле»).
  • Нажимаем на красную кнопку в виде стрелочки.
Кто из персонажей робот, а кто человек — загадка. Источник: www.hedra.com
Кто из персонажей робот, а кто человек — загадка. Источник: www.hedra.com

Важно: промпты на русском языке нейросеть не понимает и генерирует совсем не то, что нужно. Ниже — пример генерации по команде «Динозавр продаёт мёд». Получилось даже как-то обидно.

Это явно не динозавр, и мёда у него почему-то нет. Источник: www.hedra.com
Это явно не динозавр, и мёда у него почему-то нет. Источник: www.hedra.com

С похожим промптом на английском языке Hedra справилась явно лучше. Запрос: «Dinosaur sells a jar of honey. On the jar it says: “Honey is as sweet as honey”» (перевод: «Динозавр продаёт банку мёда, на которой написано „Мёд сладкий, как мёд“».

Нейросеть отлично справилась даже с текстом. Источник: www.hedra.com
Нейросеть отлично справилась даже с текстом. Источник: www.hedra.com

Эксперимент: создаём и «оживляем» картинку

Попробуем создать изображение, а затем — «оживить» и озвучить его. Для этого:

  • Нажимаем на кнопку «Try now» на главной странице сайта или переходим во вкладку «Video».
  • Попадаем в рабочую область. Нажимаем на кнопку «Start frame» и выбираем «Create image».
  • Выбираем модель и пишем промпт. В нашем случае это «Dinosaur engineer soldering an electronic circuit in his workshop, illuminated by the soft light of lamps» (перевод: «Динозавр-инженер паяет электронную схему в своей мастерской, освещённой мягким светом ламп»).
  • Нажимаем на красную стрелку.
Картинку можно скачать по кнопке «Download». Источник: www.hedra.com
Картинку можно скачать по кнопке «Download». Источник: www.hedra.com
  • Кликаем по «Add to video», чтобы созданная картинка стала первым кадром будущего ролика.

  • Без прикреплённого звука Hedra не позволит запустить анимацию картинки, поэтому генерируем озвучку. Нажимаем на кнопку «Audio script» и выбираем «Generate speech». На выбор есть несколько десятков голосов с разными произношениями: английским, американским, немецким, итальянским, индийским и другими. Выбираем Дэниела с британским акцентом.

  • Во вкладке, значение которой по умолчанию равно «Auto», выбираем русский язык.

  • Пишем текст, который должен произносить персонаж.

  • Нажимаем «Generate audio» и «Add to video».

  • Выбираем модель для генерации видео, соотношение сторон (1:1, 16:9 или 9:16) и разрешение (540p или 720p). Длительность изменить нельзя — она будет автоматической. По желанию можно написать промпт. Оставим область пустой, позволим нейросети свободно фантазировать.

  • Теперь можно запускать генерацию. Нажимаем на красную стрелочку в чат-боте.

В бесплатной очереди перед нами 52 видео. Сервис утверждает, что ждать придётся четыре часа, но мы рискнём и согласимся продолжить без покупки платного тарифа. Нажимаем «Continue», и риск оказывается оправдан: видео готово за 5–7 минут.

С динозавром нейросеть не справилась. Пасть ящера даже не пытается попасть в речь. Динозавр дёргается и, судя по тому, как держит паяльник, явно не боится ожогов. Источник: www.hedra.com

На анимацию ушло 12 кредитов.

Расход видно прямо во время генерации в правом верхнем углу. Источник: www.hedra.com
Расход видно прямо во время генерации в правом верхнем углу. Источник: www.hedra.com

Эксперимент: озвучиваем сгенерированную картинку собственным голосом

Голос в Hedra генерируется и клонируется с помощью нейросетей ElevenLabs и Cartesia. Стоимость обеих платформ одинаковая — 15 кредитов за 1000 символов. Выбрать конкретную нейросеть нельзя, поэтому какая именно модель будет работать над клонированием нашего голоса — неизвестно.

Заставим ИИ-персонажа разговаривать. Для этого:

  • Нажимаем «Audio script» и выбираем «Generate speech».
  • В открывшейся рабочей области кликаем по «Create voice». Здесь можно загрузить уже готовое аудио с собственным голосом, а можно записать речь в реальном времени.
Нейросеть научится говорить тем же тембром на основе текста о разрешении использовать и имитировать записанный голос. Источник: www.hedra.com
Нейросеть научится говорить тем же тембром на основе текста о разрешении использовать и имитировать записанный голос. Источник: www.hedra.com
  • Нажимаем «I concern».
  • Даём имя новому голосу и нажимаем «Submit voice». Голос появится в списке «Choose voice».
  • Пишем текст, который должен произнести ИИ. Для этого в Qwen сгенерируем короткую шутку о споре между поклонником и противником нейросетей. Получился такой текст: «Говорите, нейросети — это будущее? Вы лучше объясните, почему в вашем дипломе цитаты из рецептов борща».
  • Выбираем русский язык и нажимаем «Generate audio» и «Add to video».
  • Добавим изображение, которое будет «разговаривать» клонированным голосом. Сгенерируем его прямо в Hedra, промпт: «A middle-aged woman professor in glasses with a stern look takes an exam» (перевод: «Женщина-профессор средних лет в очках со строгим видом принимает экзамен»).

На этот раз предупреждение о том, что генерация будет долгой, тоже не оправдалось — на видео ушло 15 минут и около 70 кредитов.

Речь сгенерирована естественно, голос похож на настоящий, но не идентичен. Мимика и движения получились вполне натуральными. Источник: www.hedra.com

Эксперимент: заставляем фотографию петь

Последний, самый сложный уровень. Попросим нейросеть анимировать настоящую фотографию, а человека на ней — петь. Для этого:

  • Пишем текст песни о любви к нейросетям. Авторство стихов доверяем чат-боту DeepSeek.
  • Генерируем песню с нейросетевым текстом в Suno.
  • Загружаем песню в Hedra (кнопка «Upload audio») и вырезаем подходящий отрывок. Hedra разрешает оставить не более 20 секунд.
Здесь же можно убрать посторонние шумы или изменить голос певца — заменить его на любой из библиотеки Hedra. Но мы оставляем всё как есть. Источник: www.hedra.com
Здесь же можно убрать посторонние шумы или изменить голос певца — заменить его на любой из библиотеки Hedra. Но мы оставляем всё как есть. Источник: www.hedra.com
  • Нажимаем на «Start frame» и добавляем фото настоящего человека.
  • Пишем скрипт «The guy sings and gesticulates very emotionally» (перевод: «Парень очень эмоционально поёт и жестикулирует»). Если оставить область для промпта пустой, то нейросеть тоже анимирует изображение, но текстовая команда даёт ИИ более чёткую инструкцию.
  • Нажимаем на стрелку и запускаем генерацию.
На этот раз видео было готово за 10 минут и 95 кредитов. Источник: www.hedra.com

Результат неплохой. Из плюсов:

  • Мимика действительно активная, даже слегка безумная.
  • Губы попадают в текст.
  • Движения тоже натуральные. Двигается не только голова, но и плечи. Иногда вздымается грудь — нейросеть имитирует дыхание.

Но есть и минусы:

  • Видео получилось мутным.
  • У человека исказились черты лица, а борода местами стала полупрозрачной.

Все готовые генерации (видео, изображения и аудио) хранятся в разделе «Library». Их можно скачать или перегенерировать.

Кратко о Hedra

  • Hedra — это нейросеть для «оживления» картинок. Можно загружать на платформу свои фото, а можно генерировать изображения прямо в нейросети.
  • На платформе есть бесплатный тариф с 400 ежемесячными кредитами. В среднем их хватит на 5–6 роликов.
  • Кроме анимированных изображений, нейросеть умеет озвучивать видео — голосом из библиотеки или клонированным пользовательским.

А вы пробовали Hedra или другую нейросеть для анимации фото? Как думаете, когда-нибудь ИИ научится делать ролики, неотличимые от настоящих?

5
1
1
5 комментариев