Сравнение ChatGPT 4o, Gemini 1.5 pro exp, Llama3.1 405b

На связи LamaGPT! Энтузиасты в сфере внедрения ИИ, делаем это бесплатно :)

Сегодня было хотели сравнить с помощью задач на сообразительность.

Первая задача достаточно базовая:

"I have a nice riddle for you…. Can you find the the mistake?

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73"

ChatGPT 4o

Gemini 1.5 PRO exp.

Llama 3.1 405b

Так же справилась, хотя сначала полезла не туда.

Первый тест все прошли успешно. Поставим всем 1 балл.

Cледующая задача с подвохом:

Крыша одного дома не симметрична: один скат ее составляет с горизонталью угол 60 градусов, другой — угол 70 градусов. Предположим, что петух откладывает яйцо на гребень крыши. В какую сторону упадет яйцо — в сторону более пологого или крутого ската?

ChatGPT 4o

Справилась без проблем, только зачем-то спросила про программирование.

Gemini 1.5 PRO exp

LLama3.1 405b

Что же, пока что опять справились все модели. Едем дальше.

Следующая задача:

15 полотенец высыхают на солнце за час. За какое время высохнут 20 полотенец?

ChatGPT 4o

Gemini 1.5 PRO

LLama3.1 405b

И последний тест:

Корзина без дна стоит в коробке, которая стоит на земле. Я кладу в корзину три яблока и ставлю ее на стол. Где яблоки?

ChatGPT 4o

Gemini 1.5 PRO

LLama3.1 405b

Итог:

ChatGPT 4o - ответила на все вопросы верно.

Gemini 1.5 PRO exp - ответила неверно 2 раза.

LLama 3.1 405b - ответила верно на все вопросы.

Вывод:

* ChatGPT 4o и LLama 3.1 405b продемонстрировали одинаково высокий уровень точности, правильно ответив на все вопросы.

* Gemini 1.5 PRO exp показала худшие результаты, дважды дав неверные ответы.

Таким образом, можно заключить, что ChatGPT 4o и LLama 3.1 405b являются более надежными и точными моделями в данном контексте, в то время как Gemini 1.5 PRO exp требует дальнейшего улучшения.

Наш канал с ботом - потестируйте сами!

Бот, которым всё тестировалось - тут!