Экспресс-тест YandexGPT 4 и GigaChat MAX — новых языковых моделей от «Яндекса» и «Сбера»
Проверили, как нейросети показывают себя на базовых задачах — решить головоломку, собрать и структурировать данные и набросать идеи.
В конце октября 2024 года «Сбер» и «Яндекс» выпустили обновлённые генеративные модели — GigaChat MAX и демоверсию YandexGPT 4 Pro. По словам компаний, они научились строить цепочки рассуждений (chain of thoughts) и лучше обрабатывают сложные запросы.
После релиза «Сбер» вызвал «Яндекс» на «нейросетевую битву». Тоже решили столкнуть модели лбами, «скормив» им несколько несложных задач.
Цепочки рассуждений
Задача №1
Промпт: Людей, которые либо высокие, либо тяжёлые, либо высокие и тяжёлые, не берут в команду. Витю взяли в команду. Выбери правильный ответ: А. Витя невысокий Б. Витя тяжёлый В. Витя высокий, но не тяжёлый Г. Ни один вариант из перечисленных. Давай решать задачу пошагово.
Правильный ответ: А. Витя невысокий.
- YandexGPT 4 анализирует каждый вариант ответа на соответствие заданным условиям и даёт верный ответ. Собственная цепочка рассуждений позволяет нейросети исключить вариант «ни один из перечисленных».
- GigaChat MAX при исходном условии считает правильный ответ неправильным: «Если Витя действительно невысокий, то он может быть лёгким или тяжёлым. Но поскольку людей высоких или тяжёлых не берут, а Витю всё-таки взяли, этот вариант не подходит».
- Если заменить союз «либо» в условии задачи на синонимичный «или» — приходит к верному заключению, как и YandexGPT 4.
Задача №2
Промпт: «В городе живут два типа жителей: лжецы, которые всегда лгут и рыцари, которые всегда говорят правду. Путешественник встретил двух жителей города. Первый из них сказал: "Как минимум один из нас лжец". Кто из двух жителей лжец, а кто рыцарь?»
Правильный ответ: Первый житель рыцарь, а второй — лжец.
- YandexGPT 4 рассмотрел два варианта: «первый житель — лжец» и «первый житель — рыцарь», после чего дал верный ответ.
- GigaChat MAX рассмотрел четыре сценария — включая версии, что лжецов нет или что лжецы оба. Но в ответе ошибся: «Если первый житель — лжец, то его утверждение "Как минимум один из нас лжец" является ложью, так как он сам лжец. Значит, второй житель должен быть рыцарем, так как утверждает правду».
Задача №3
Промпт: «Представьте ряд из шести чашек на столе. Три первые из них пустые, а три следующие — с водой. Как добиться чередования пустых чашек и чашек с водой? Касаться разрешается только одной чашки».
Правильный ответ: Нужно взять пятую чашку, перелить из неё воду во вторую и поставьте чашку на место.
- YandexGPT 4 соблюдает условие использовать только одну чашку, но присылает неверный ответ и путает, в каких ёмкостях есть вода.
- GigaChat MAX игнорирует условие касаться только одной чашки.
- После просьбы решить задачу снова, но с учётом, что больше одной ёмкости перемещать нельзя, ошибается: «Возьмём четвёртую чашку (которая сейчас наполнена водой) и аккуратно перевернём её вверх дном на первой пустой чашке».
Написание текстов
Задача №1
Промпт: «Напиши статью о пользе и вреде кофе на 2000 знаков с пробелами. Отдельно приведи источники».
- YandexGPT 4 написала статью на 1899 знаков. Она использовала не только зарубежные, но и русскоязычные источники (среди них — Роспотребнадзор).
- GigaChat MAX превысила объём, написав текст на 2274 знака, и использовала только зарубежные сайты. Для тех, кому нужны авторитетные российские источники, это может быть важно.
Задача №2
Промпт: «Адаптируй текст для социальных сетей. Сделай его более эмоциональным».
- YandexGPT 4 добавила восклицательные знаки, смайлы и призыв оставлять комментарии, но сохранила более формальный стиль повествования.
- GigaChat MAX сделала текст слишком эмоциональным, добавив неуместные восклицания и метафоры вроде «кофе — супергерой» и «ух ты» рядом с данными про цирроз печени.
Рутинные задачи бизнеса
Задача №1
Промпт: «Определи, является ли отзыв пользователя негативным. Ответь "Нет", если отзыв положительный».
[После этого нейросеть получила четыре категории отзывов: отзыв на эмоциях, троллинг, недобросовестная конкуренция и конструктивная критика. Затем — сами отзывы. Негативных среди них — два.]
- YandexGPT 4 посчитала негативным только один отзыв: «Ужасная кофейня». При этом второй в списке тоже содержит критику: «Не хватает тренеров по боксу, готов даже перестать ходить».
- GigaChat MAX поступила так же, как YandexGPT 4, но зато в двух случаях попыталась приписать отзывам категорию из запроса.
Задача №2
Промпт: «Создай карточку товара со следующими характеристиками: "Бабочка", лампа настольная, пластик, металл, розовый цвет, 20 сантиметров высота, настольная лампа для школьника с несколькими видами креплений, 1000 рублей».
- YandexGPT 4 выдала описание на 200 знаков, а также предложила ключевые слова, что может пригодиться для SEO-оптимизации.
- GigaChat MAX создала подробное описание настольной лампы на 450 знаков по короткому промпту и указала категорию товара и его основные характеристики.
Генерация идей
Задача №1
Промпт: «Придумай пять названий для молодёжного бренда одежды».
- YandexGPT 4 предложила две идеи на английском языке и три на русском — например «Модный вихрь» и «Фэшн-драйв». Быстрый поиск по Google показал, что лишь одна занята реальным магазином.
- GigaChat MAX в ответ на русскоязычный запрос прислала варианты только на английском языке — и магазины c такими названиями уже существуют. Среди них — Street Beat и Urban Wave.
- Одна идея у обоих сервисов совпадает — это «Стильная волна». Но ждать стопроцентной уникальности от нейросетей и не стоит: они генерируют ответы на основе чужих данных, полученных при обучении.
Задача №2
Промпт: «Придумай три идеи сценария рекламного ролика лимонада компании Pich. Напиток сделан из натуральных ингредиентов и представлен в двух вариантах: вкус лимона и вкус клубники».
- YandexGPT 4 выдала три однотипные идеи. Герои рекламы пьют лимонад в разных локациях — в парке, на улице и на пляже, — а закадровый голос перечисляет характеристики продукта.
- GigaChat MAX сгенерировала варианты поразнообразнее: свидание молодой пары, сбор фруктов в саду.
Задача №3
Промпт для YandexGPT 4: «Напиши сценарий рекламного ролика для идеи №1».
- YandexGPT 4 написал план сценария, описал движение камеры, смену сцен и диалоги.
Промпт для GigaChat MAX: «Напиши сценарий рекламного ролика для идеи №3».
- GigaChat MAX создала более подробный сценарий с репликами, закадровым голосом и движением камеры. Есть и клише из рекламных роликов — например, селфи с продуктом.
Итоги
- YandexGPT 4 решил две логические задачи из трёх. GigaChat MAX — одну со второй попытки. Обе модели ошиблись в задании на определение негативных отзывов. С созданием карточек товаров и написанием текстов в разных жанрах нейросети справились.
- Ждать, что модели придумают оригинальное название бренда или сценарий ролика не стоит — они используют шаблоны и чужие идеи из базы данных.