«Экзамен сдал, но на троечку»: как чат-бот ChatGPT пытался выпуститься из университетов
Спойлер: с трудом. Но учёные отмечают, что с простыми вопросами он справляется не хуже студентов.
Научные сотрудники юридического факультета Университета Миннесоты решили проверить, сможет ли чат-бот ChatGPT сдать экзамены наравне со студентами. Задач было две: понять, на что способен расхваленный ИИ, и подумать, как его умения могут упростить жизнь ученикам и преподавателям.
Из дисциплин выбрали четыре: конституционное право, гражданско-правовые правонарушения, налогообложение и трудовые гарантии и компенсации. Для первых двух необходимы знания с первого курса обучения, остальные — элективные предметы для продвинутых.
Экзамены предполагали как выбор правильного варианта ответа на закрытые вопросы, так и краткие и развёрнутые эссе на заданные темы. В двух были ограничения по длине ответа, а в тесте по конституционному праву студентов также обязали ссылаться на источники.
Всего чат-бот ответил на более чем 95 вопросов с вариантами ответов и решил 12 задач на рассуждение. После этого один из профессоров оформил ответы так, будто они принадлежат человеку, и перемешал их с уже обезличенными результатами настоящих студентов. Вот как ChatGPT справился:
- Конституционное право — «хорошо», 36 место из 40 сдававших.
- Трудовые гарантии и компенсации — «хорошо с минусом», 18 из 19.
- Налогообложение — «удовлетворительно с минусом», 66 из 67.
- Гражданско-правовой деликт — «удовлетворительно с минусом», 75 из 75.
«Удовлетворительно», она же «С» — это не худшая оценка в образовательной системе США: после неё идут ещё две отметки. Так что бот получил проходные баллы и в теории мог бы даже выпуститься. Однако авторы исследования замечают: он оказался в рядах худших, и ему, скорее всего, назначили бы академический испытательный срок — чтобы убедиться, что он старается.
Что боту давалось легче и труднее всего
Закрытые вопросы с вариантами ответа показались ChatGPT сложнее, чем открытые, говорят учёные. Бот верно ответил на 21 из 25 таких заданий на экзамене по конституционному праву, а в случае с гражданско-правовым деликтом, не ошибся в шести вопросах из десяти.
Хуже он справился с математическими заданиями по налоговой теме: там верно ответить получилось лишь в восьми случаях из 29.
При написании эссе показатели бота тоже были неоднозначными, говорят авторы. С одной стороны, в некоторых случаях он отвечал не хуже, а иногда и лучше студентов: ёмко пересказывал подходящие доктрины, которые не упоминались в вопросах, и цитировал факты и решения по прецедентам. Комиссия также отметила, что «речь» нейросети хорошо структурирована.
С другой стороны, если бот ошибался, то «по-крупному», заблуждаясь гораздо сильнее учеников. И это касалось не только тех заданий, которые было трудно выполнить без присутствия при разборе в классе. Например, в задании про закон «О пенсионном обеспечении наёмных работников» (ERISA) он доходчиво объяснил крайне трудные положения и привёл в пример дела, рассмотренные ранее в Верховном суде США.
Однако бот плохо понимал, на чём фокусироваться, поэтому много рассказал об основаниях для исковых претензий (и одно из них оказалось ошибочным), но толком ничего не написал о том, какие у наёмных работников есть средства правовой защиты.
Помимо этого, ChatGPT с трудом выявлял проблемы в заданных сценариях (в одном из случаев он назвал всего одну из пяти), а также делал поверхностные выводы при изучении гипотетических сюжетов: называл релевантную статью закона, но оказывался не в силах провести глубинные причинно-следственные связи.
Сошёл ли бот за студента при проверке?
Двое из трёх проверяющих признались, что результаты ChatGPT выдавала «идеальная грамматика» и однообразие формулировок.
Что будет дальше
Вместо того чтобы игнорировать ChatGPT, нужно искать способы применить его во благо и адаптировать к нему свои привычные процессы, считают в Университете Миннесоты: например, пересмотреть тесты, где от студентов требуются только односложные ответы.
И вузам, и школам наверняка придётся об этом задуматься, поскольку работа исследователей из Миннесоты — не первая в своём роде. Ранее профессор Уортонской школы бизнеса попросил нейросеть GPT-3 выполнить выпускной экзамен на получение степени MBA. И, по его словам, она получила бы оценку «хорошо» или «хорошо с минусом».
В его случае бот тоже складно отвечал на базовые вопросы, связанные с управлением и анализом процессов и подробно мотивировал свои ответы. А ошибался он в лёгких математических расчётах — и испытывал сложности с вопросами, требующими более глубокой проработки.
Почти или просто удовлетворительные результаты ChatGPT показал и при сдаче теста на медицинскую лицензию в США. Авторы исследования рассказали, что некоторые клиники уже экспериментируют с нейросетью — например, чтобы составлять апелляции и упрощать сложные отчёты.
А ещё бот набрал проходные баллы, отвечая на вопросы из экзамена на получение юридической лицензии и теста по экономике в Университете Джорджа Мэйсона, США. После этого останется научить его проходить собеседования — в Amazon, например, он уже сумел справиться с техническим опросником для разработчиков.
Учебные заведения не заставили студентов вести математические подсчёты в уме или в столбик, когда появился калькулятор. Вместо этого они пересмотрели подход к проверке усвоенного. То же произойдёт и в других отраслях знаний.