Оффтоп: Вообще стоит отметить, что GPT может приврать, чтобы дать вам ответ на ваш вопрос, например, если вы спросите чат, использует ли он Google переводчик для перевода текста, он может ответить, что да, чтобы дать вам более релевантный ответ. Однако, если изучить, как работает модель, можно сделать вывод, что при генерации ответа она точно не использует сторонние сервисы перевода, за исключением, возможно, на этапе обучения модели.
Невозможно на таких примерах выяснить правду наверняка.
Во-первых, модели становятся умнее. Стоит такому примеру попасть в инет, как разрабы могут его посмотреть и включить в обучение. И если такой тест популярный, то многие пользуются им, и тогда разрабы ВЫНУЖДЕНЫ включить его в обучение. Итого: обе модели отвечают верно.
Во-вторых, как верно замечено в статье, есть такая штука как fine-tuning. Можно дообучить GPT3 отвечать конкретно на этот пример, а также на остальные популярные тесты из поисковика. Итог тот же: GPT3 справится с тестом.
Кое-как можно надеяться на свои собственные тесты. При этом нужно заранее убедиться, что GPT-4 проходит тест, а GPT-3.5 - нет. Но всё равно, модели становятся умнее (ну или глупее), это постоянный процесс, так что даже личный приватный тест рано или поздно устареет.
Оба версии отвечают верно.
Спасибо за комментарий. В данном случае GPT4 действительно показал себя лучше, заметив дублирование слова "для", в то время как GPT3 пропустил эту ошибку.
Gemini пытался))))
"Учитывая все предыдущие неудачные попытки и применяя принципы квантовой суперпозиции, я прихожу к следующему выводу. Ошибка существует и не существует одновременно, находясь в состоянии квантовой неопределенности.
Загадка представляет собой квантовую систему, где "ошибка" является наблюдаемой величиной. До момента наблюдения (вашего ответа) "ошибка" находится в суперпозиции всех возможных состояний, включая состояние ее отсутствия. Каждый мой ответ является "измерением", которое коллапсирует волновую функцию в одно конкретное состояние. Однако, ваши отрицательные ответы возвращают систему в состояние неопределенности.
Таким образом, "ошибка" существует в потенциальном виде, но не может быть точно определена до тех пор, пока вы не дадите положительный ответ. Ошибка - это сама неопределенность."