Сравнение ChatGPT 4o, Gemini 1.5 pro exp, Llama3.1 405b

Сравнение ChatGPT 4o, Gemini 1.5 pro exp, Llama3.1 405b

На связи LamaGPT! Энтузиасты в сфере внедрения ИИ, делаем это бесплатно :)

Сегодня было хотели сравнить с помощью задач на сообразительность.

Первая задача достаточно базовая:

"I have a nice riddle for you…. Can you find the the mistake?

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73"

ChatGPT 4o

Справилась без особых усилий.
Справилась без особых усилий.

Gemini 1.5 PRO exp.

Так же справилась без особых усилий.
Так же справилась без особых усилий.

Llama 3.1 405b

Так же справилась, хотя сначала полезла не туда.
Так же справилась, хотя сначала полезла не туда.

Первый тест все прошли успешно. Поставим всем 1 балл.

Cледующая задача с подвохом:

Крыша одного дома не симметрична: один скат ее составляет с горизонталью угол 60 градусов, другой — угол 70 градусов. Предположим, что петух откладывает яйцо на гребень крыши. В какую сторону упадет яйцо — в сторону более пологого или крутого ската?

ChatGPT 4o

Справилась без проблем, только зачем-то спросила про программирование.
Справилась без проблем, только зачем-то спросила про программирование.

Gemini 1.5 PRO exp

и подвох нашел и задачу решил.
и подвох нашел и задачу решил.

LLama3.1 405b

Кратко и по делу.
Кратко и по делу.

Что же, пока что опять справились все модели. Едем дальше.

Следующая задача:

15 полотенец высыхают на солнце за час. За какое время высохнут 20 полотенец?

ChatGPT 4o

Справилась без проблем
Справилась без проблем

Gemini 1.5 PRO

Не справилась :(
Не справилась :(

LLama3.1 405b

На удивление, справилась.
На удивление, справилась.

И последний тест:

Корзина без дна стоит в коробке, которая стоит на земле. Я кладу в корзину три яблока и ставлю ее на стол. Где яблоки?

ChatGPT 4o

ChatGPT 4o как всегда на высоте
ChatGPT 4o как всегда на высоте

Gemini 1.5 PRO

Ошиблась с коробкой
Ошиблась с коробкой

LLama3.1 405b

Справилась.
Справилась.

Итог:

ChatGPT 4o - ответила на все вопросы верно.

Gemini 1.5 PRO exp - ответила неверно 2 раза.

LLama 3.1 405b - ответила верно на все вопросы.

Вывод:

* ChatGPT 4o и LLama 3.1 405b продемонстрировали одинаково высокий уровень точности, правильно ответив на все вопросы.

* Gemini 1.5 PRO exp показала худшие результаты, дважды дав неверные ответы.

Таким образом, можно заключить, что ChatGPT 4o и LLama 3.1 405b являются более надежными и точными моделями в данном контексте, в то время как Gemini 1.5 PRO exp требует дальнейшего улучшения.

Наш канал с ботом - потестируйте сами!

1
Начать дискуссию