Китайский стартап MiniMax представил три новые ИИ-модели

Китайский стартап MiniMax представил три новые модели ИИ-модели для генерации текста, изображений и аудио. Как заявляет компания, по своей мощности они могут конкурировать с большинством популярных мировых моделей.

Изображение: Hugging Face
Изображение: Hugging Face

В число представленных новинок вошли:

  • MiniMax-Text-01 – генератор текста;
  • MiniMax-VL-01 – генератор текста и изображений;
  • T2A-01-HD – генератор аудио (человеческой речи).

Размер MiniMax-Text-01 составляет 456 миллиардов параметров. Компания утверждает, что модель обогнала Gemini 2.0 Flash от Google по бенчмаркам MMLU и SimpleQA, которые измеряют способность инструмента решать математические задачи и отвечать на вопросы с использованием фактов.

Модель отличается очень большим контекстным окном – то есть количеством входных данных, которые она рассматривает перед генерацией ответа. Здесь оно составляет 4 миллиона токенов, благодаря чему инструмент может анализировать около 3 миллионов слов за раз. Это примерно в 31 раз больше, чем у GPT-4o и Llama 3.1*.

MiniMax-VL-01, в свою очередь, конкурирует с Claude 3.5 Sonnet от Anthropic в решении вопросов, требующих мультимодального понимания – в частности, по бенчмарку ChartQA, который оценивает умение модели отвечать на запросы, связанные с графиками и диаграммами.

T2A-01-HD представляет собой аудиогенератор, оптимизированный для имитации человеческой речи. Эта модель может генерировать синтетический голос на 17 языках с возможностью отрегулировать интонацию, тембр, акцент, скорость речи и возраст говорящего, а также клонировать голос пользователя на основе 10-секундной аудиозаписи. Можно выбрать уже предварительно сгенерированный голос из более чем 300 вариантов.

Text-01 и VL-01 доступны на GitHub и Hugging Face. T2A-01-HD доступна только через API и ИИ-платформу компании. Использование новинок разрешено по ограничительной лицензии – в частности, запрещено применять их для улучшения конкурирующих ИИ-моделей.

Источник: TechCrunch

*ИИ-модель Llama принадлежит компании Meta, запрещенной на территории РФ.

Если вам понравилась статья, поделитесь ею в своем блоге или поставьте нам оценку, чтобы о проекте узнало как можно больше читателей!

Начать дискуссию