Невозможно на таких примерах выяснить правду наверняка.
Во-первых, модели становятся умнее. Стоит такому примеру попасть в инет, как разрабы могут его посмотреть и включить в обучение. И если такой тест популярный, то многие пользуются им, и тогда разрабы ВЫНУЖДЕНЫ включить его в обучение. Итого: обе модели отвечают верно.
Во-вторых, как верно замечено в статье, есть такая штука как fine-tuning. Можно дообучить GPT3 отвечать конкретно на этот пример, а также на остальные популярные тесты из поисковика. Итог тот же: GPT3 справится с тестом.
Кое-как можно надеяться на свои собственные тесты. При этом нужно заранее убедиться, что GPT-4 проходит тест, а GPT-3.5 - нет. Но всё равно, модели становятся умнее (ну или глупее), это постоянный процесс, так что даже личный приватный тест рано или поздно устареет.
Невозможно на таких примерах выяснить правду наверняка.
Во-первых, модели становятся умнее. Стоит такому примеру попасть в инет, как разрабы могут его посмотреть и включить в обучение. И если такой тест популярный, то многие пользуются им, и тогда разрабы ВЫНУЖДЕНЫ включить его в обучение. Итого: обе модели отвечают верно.
Во-вторых, как верно замечено в статье, есть такая штука как fine-tuning. Можно дообучить GPT3 отвечать конкретно на этот пример, а также на остальные популярные тесты из поисковика. Итог тот же: GPT3 справится с тестом.
Кое-как можно надеяться на свои собственные тесты. При этом нужно заранее убедиться, что GPT-4 проходит тест, а GPT-3.5 - нет. Но всё равно, модели становятся умнее (ну или глупее), это постоянный процесс, так что даже личный приватный тест рано или поздно устареет.