Hailuo AI: как бесплатно генерировать видео, оживлять фотографии и клонировать голос
Подробный гайд по одной китайской нейросети, которая заменит их всех (почти).
Hailuo AI — китайская нейросеть компании MiniMax. В ноябре 2024 года MiniMax объединила несколько своих сервисов на одном сайте. Теперь можно закрыть 10 вкладок с разными ИИ: у компании есть и чат-бот, который не проигрывает ChatGPT, и генератор видео, и сервис для озвучки текста. О том, как во всём разобраться и использовать ИИ максимально эффективно, — в этом тексте.
Содержание:
Как зарегистрироваться и начать работу
Чтобы начать генерировать ролики, нужно зарегистрироваться. Для этого нажмите на кнопку «Sign in» в правом верхнем углу и авторизируйтесь через Google-аккаунт.
На главном экране есть несколько разделов:
- «Explore» — здесь публикуются работы других пользователей. Можно посмотреть, с помощью какого промпта сгенерировали понравившееся видео.
- «Create» — рабочая панель для генерации.
- «Chat» — чат-бот, который умеет искать информацию в интернете и анализировать прикреплённые файлы.
- «Audio» — раздел для генерации речи. Текст, который напечатает пользователь, переводится в аудиоформат.
Как генерировать видео
Переходим в раздел «Create» и выбираем способ генерации. Сейчас их три:
- «Image to video» — генерация видео по картинке. Необходимо загрузить изображение на рабочую панель, а затем прописать текстовый запрос. Как и с любой нейросетью, стоит описывать детали максимально подробно и начинать промпт с самых важных особенностей. Попробуем оживить это изображение, сгенерированное через Flux:
Промпт: «A polar bear sniffs a basketball, then starts tossing it with its paws and nose» («Белый медведь нюхает баскетбольный мяч, а затем подбрасывает его лапами и носом»).
Сам медведь в движении выглядит довольно реалистично, а вот мяч время от времени начинает «плыть».
Промпт: «Low-angle tracking shot following a shark swimming next to the diver underwater» («Съёмка с низкого ракурса акулы, плывущей рядом с дайвером под водой»).
- «Text to Video» — генерация видео по текстовому запросу. Ролики получаются не такими точными, как в случае с генерацией по изображению.
Промпт: «A cat in the kitchen jumps on the table, accidentally knocks over a cup» («Кошка запрыгивает на стол, случайно задевает и роняет чашку»).
Есть ощущение, что нарушен ход событий. Изначально кошка на столе, затем она падает и уносит за собой чашку.
- «Subject Reference» — генерация ролика с конкретным персонажем. Как и в первом режиме, нужно загрузить картинку-референс, но на ней обязательно должен быть человек. Нейросеть изучит черты лица и создаст видео, на котором этот человек будет что-то делать. А что именно — необходимо прописать в текстовом промпте.
В качестве референса — фотография американской певицы Тейлор Свифт.
Промпт: «A young blonde woman with bangs draws something in a notebook while talking on the phone» («Молодая блондинка с чёлкой рисует в блокноте и говорит по телефону»).
Сходство есть только в причёске и в глазах. Другой минус генерации — классическая ошибка нейросетей: проблемы с пальцами на руках.
Лучше всего с задачей справляется первый режим. Поэтому перед генерацией стоит создать подходящее изображение. С этим помогут другие нейросети. Например, Flux, Ideogram, Midjourney, Grok, Leonardo AI.
Что умеет чат-бот: задаём каверзные вопросы
Чтобы пообщаться с нейросетью, нажмите на кнопку «Chat» на главной странице. Откроется строка для ввода промпта, которая визуально не отличается от ChatGPT. Чтобы прикрепить файл для анализа, нажмите на скрепку. Ползунок «Search the web» регулирует доступ к интернету. Если этот режим включён, то нейросеть анализирует информацию в реальном времени из открытых источников. Проведём несколько тестов.
Со знанием русского языка у бота проблем нет, на вопросы отвечает без грамматических и речевых ошибок.
А вот к актуальности информации есть вопросы. Нейросеть знает номинантов на премию «Оскар» — их объявили 23 января 2025 года, то есть четыре дня назад (на момент написания статьи). В то же время курс доллара по данным ЦБ и актуальные новости, опубликованные сегодня, Hailuo назвать не может.
Следующий тест — анализ прикреплённого изображения. Возьмём карточку товара на русском языке и проверим, сможет ли бот проанализировать текст.
На вопросы ИИ ответил. Теперь проверим, сможет ли он правильно сказать время по аналоговым часам.
Этот тест нейросеть провалила. Впрочем, с задачей не справился и ChatGPT.
Озвучка текста и клонирование своего голоса
В разделе «Audio» есть внушительная библиотека из сгенерированных голосов. Текст может озвучить мудрая женщина, комик, ведущий новостей и не только.
Откройте рабочую панель и введите текст для озвучки. На панели справа указываем:
- Язык (сейчас есть 17 языков, в том числе русский).
- Акцент.
- Пол и возраст диктора.
- Эмоции.
- Скорость чтения.
- Громкость.
- Тональность.
Вот как нейросеть зачитала монолог актрисы Америки Ферреры из фильма «Барби». В настройках голоса уточнялось, что диктором должна быть взрослая женщина, которая говорит с британским акцентом. Эмоция — раздражение.
Голос не звучит раздражённым, со всем остальным нейросеть справилась. Выдать эту генерацию за реальную аудиозапись человеческого голоса всё же не получится, потому что интонационные паузы выдают неестественное происхождение. Но ошибок в произношении нет, так что такая озвучка отлично подойдёт для коротких роликов или, например, видеоинструкций.
Посмотрим, как справится нейросеть с текстом на русском языке. Задание: прочитать отрывок монолога Бараша из «Смешариков» грустным голосом мальчика-подростка.
Почти полное попадание! В паре мест диктор ошибся с ударением, но в остальном звучит вполне реалистично. Как правило, многие нейросети для озвучки текста справляются с русским немного хуже, чем с английским.
Как клонировать свой голос
- Нажать на «Voices» → «Create your voice clone».
- Загрузить аудиозапись, на которой вы громко и чётко говорите. Размер файла — до 50 Мб. Другой вариант — надиктовать аудиозапись до 60 секунд прямо на сайте.
- Убедиться, что на фоне нет лишних звуков, шумов и искажений.
- Выбрать язык, на котором говорите.
Готово! Теперь можно выбрать из библиотеки собственный голос и использовать его для озвучки. Такая опция выручит, если нужно наложить ролик на видео в блог или отредактировать подкаст.
Сколько это стоит
Бесплатный тарифный план пока очень щедрый. Всем новым пользователям начисляют тысячу кредитов, дальше — по сто кредитов в день. Кредит — внутренняя валюта, её списывают за каждую генерацию. На одно видео уходит 30 кредитов.
Платных тарифа три: Стандарт ($107,99 в год), Про ($377,99 в год), Безлимит ($1139,88 в год). Они позволяют скачивать ролики без водяного знака, предлагают от тысячи кредитов в месяц и более быстрые генерации.
Итоги: в чём хороша Hailuo AI
- С генерацией видео лучше всего справляется режим «Image to Video». Видео по текстовому запросу получаются либо нереалистичными, либо далёкими от промпта.
- Чат-бот хорошо понимает русский язык, без проблем анализирует прикреплённые файлы. Актуальная информация появляется с задержкой.
- Озвучивать текст можно на 17 языках, в том числе на русском. Отличить такую запись от настоящего голоса довольно просто, но с задачей нейросеть справляется.
- Бесплатный тариф предлагает тысячу токенов новым пользователям, этого хватит на генерацию около 33 роликов.
Пробовали ли вы Hailuo AI? Как думаете, китайские нейросети оставят конкурентов позади?