Исследование: GPT-4.5 приняли за живого собеседника в 73% случаев во время слепого эксперимента

ИИ-модель прошла классический тест Тьюринга на способность имитировать человека.

  • Учёные из Калифорнийского университета в Сан-Диего провели тест Тьюринга для GPT-4.5, предыдущей модели GPT-4o, LLaMa-3.1-405B от Meta* и программы ELIZA 1960-х годов — чтобы оценить прогресс.
  • Участники эксперимента общались в чатах с живым человеком и ботом, а потом должны был предположить, кто из них кто. Групп было две: 126 студентов психфака и 158 более взрослых испытуемых — работников компании Prolific.
  • Всех ботов попросили убедительно притвориться людьми. У GPT-4.5 и LLaMa есть способность «примерять» на себя разные роли. С ними провели второй этап — например, давали команду общаться, как «интроверт, который разбирается в интернет-культуре». Именно в этом режиме GPT-4.5 прошла тест.
ChatGPT (собеседник В) обсудил с участником эксперимента книгу и мюзикл «Призрак Оперы» и тот подумал, что разговаривает с человеком. В анкете он указал, что был уверен в этом на 80%
ChatGPT (собеседник В) обсудил с участником эксперимента книгу и мюзикл «Призрак Оперы» и тот подумал, что разговаривает с человеком. В анкете он указал, что был уверен в этом на 80%
  • GPT-4.5 с заданной ролью посчитали человеком в среднем в 73% случаев. Студентов обмануть оказалось сложнее: среди них бота выбрали в 69% случаев, а среди выпускников — в 76% .
  • Персонализированную LLaMa посчитали человеком в среднем в 56% диалогов. GPT-4.5 и LLaMa без режима Persona — в 36% и 38% в среднем соответственно.
Процент «побед» ботов среди студентов и работников Prolific. Источник: <a href="https://api.vc.ru/v2.8/redirect?to=https%3A%2F%2Farxiv.org%2Fhtml%2F2503.23674v1&postId=1904344" rel="nofollow noreferrer noopener" target="_blank">arxiv</a>
Процент «побед» ботов среди студентов и работников Prolific. Источник: arxiv
  • В июне 2024 года исследователи тестировали модель GPT-4, и она прошла тот же тест с результатом в 54%.

Что такое тест Тьюринга

  • В 1950 году Алан Тьюринг предложил «игру в имитацию» для оценки того, «можно ли считать машину разумной». Считается, что программа прошла тест, если участники эксперимента не могут «достоверно» определить живого собеседника — то есть ошибаются более чем в 50% случаев.
  • Результаты эксперимента также показывают, насколько убедительно система врёт и дезинформирует, выдавая себя за человека, объясняют исследователи из Калифорнии.
  • OpenAI представила GPT-4.5 в конце февраля 2025 года. По заявлениям компании, модель общается «более естественно», лучше пишет художественные тексты и обладает «эмоциональным интеллектом». Она доступна владельцам подписки Pro за $200 в месяц и Plus — за $20 с ограничениями на использование.

*Meta признана в России экстремистской организацией и запрещена.

2
2
2
49 комментариев