Исследование: GPT-4.5 приняли за живого собеседника в 73% случаев во время слепого эксперимента

ИИ-модель прошла классический тест Тьюринга на способность имитировать человека.

Учёные из Калифорнийского университета в Сан-Диего провели тест Тьюринга для GPT-4.5, предыдущей модели GPT-4o, LLaMa-3.1-405B от Meta* и программы ELIZA 1960-х годов — чтобы оценить прогресс.
Участники эксперимента общались в чатах с живым человеком и ботом, а потом должны был предположить, кто из них кто. Групп было две: 126 студентов психфака и 158 более взрослых испытуемых — работников компании Prolific.
Всех ботов попросили убедительно притвориться людьми. У GPT-4.5 и LLaMa есть способность «примерять» на себя разные роли. С ними провели второй этап — например, давали команду общаться, как «интроверт, который разбирается в интернет-культуре». Именно в этом режиме GPT-4.5 прошла тест.

GPT-4.5 с заданной ролью посчитали человеком в среднем в 73% случаев. Студентов обмануть оказалось сложнее: среди них бота выбрали в 69% случаев, а среди выпускников — в 76% .
Персонализированную LLaMa посчитали человеком в среднем в 56% диалогов. GPT-4.5 и LLaMa без режима Persona — в 36% и 38% в среднем соответственно.

В июне 2024 года исследователи тестировали модель GPT-4, и она прошла тот же тест с результатом в 54%.

В 1950 году Алан Тьюринг предложил «игру в имитацию» для оценки того, «можно ли считать машину разумной». Считается, что программа прошла тест, если участники эксперимента не могут «достоверно» определить живого собеседника — то есть ошибаются более чем в 50% случаев.
Результаты эксперимента также показывают, насколько убедительно система врёт и дезинформирует, выдавая себя за человека, объясняют исследователи из Калифорнии.

OpenAI представила GPT-4.5 в конце февраля 2025 года. По заявлениям компании, модель общается «более естественно», лучше пишет художественные тексты и обладает «эмоциональным интеллектом». Она доступна владельцам подписки Pro за $200 в месяц и Plus — за $20 с ограничениями на использование.

GPT-4.5 — модель с «эмоциональным интеллектом» и «человечными» ответами: отзывы и критика

Собрали комментарии разработчиков, примеры использования и тесты.

*Meta признана в России экстремистской организацией и запрещена.

Что такое тест Тьюринга