Бить за чизбургер — плохо, бить чизбургером — приемлемо: как учёные обучают искусственный интеллект этическим нормам
Учёные обучили ИИ-бота нормам морали, составив для него учебник на основе философских сабреддитов. Теперь робот знает, что нельзя убивать медведя, чтобы порадовать ребёнка, и не стоит включать блендер в три часа ночи. О проекте и трудностях обучения — в пересказе IEEE Spectrum.
Технологии искусственного интеллекта всё чаще используют для принятия важных решений, пишет IEEE Spectrum: например, когда нужно определить, какой срок лишения свободы назначить преступнику или кто в первую очередь должен получить социальную помощь.
В этих и многих других вопросах, считают учёные, ИИ должен отталкиваться от нравственных и моральных норм. И базовые принципы, которым нужно обучать роботов, сформулировал ещё в 1942 году писатель и биохимик Айзек Азимов в научно-фантастическом рассказе «Хоровод»:
- Робот не может причинить вред человеку или своим бездействием допустить, чтобы человеку был причинён вред.
- Он обязан выполнять приказы человека, если только те не противоречат первому пункту.
- И должен защищать себя до тех пор, пока это не идёт вразрез с первым и вторым положениями.
Общеизвестные заповеди вроде «не убей» кажутся очевидными и легко применимыми в теории, но в некоторых ситуациях человек может ими пренебречь — например, при самообороне.
Поэтому разработчики ИИ-бота Delphi, который должен принимать более осознанные с точки зрения морали выводы, решили отойти от теоретических аксиом, согласно которым «убивать — всегда плохо», а значит делать это ни при каких условиях нельзя.
Вместо этого мы обратились к дескриптивной этике — той, что изучает реально практикуемые в повседневных ситуациях нормы.
В рамках эксперимента исследователи составили учебник по этике для роботов, чтобы те лучше понимали, что в обществе допустимо, а что неприемлемо, и назвали его Commonsense Norm Bank — сборник норм, отвечающих здравому смыслу. Он включает 1,7 млн людских суждений, многие из которых учёные взяли из:
- Сабреддита Confessions, где пользователи признаются, что помогают родным скрывать интрижки и платят бездомным за кражи.
- Обсуждений в сообществе Am I the Asshole — там реддиторы спрашивают, постыдно ли критиковать детей собственных родственников, призывать мужа отказаться от повышения и вызывать полицию на соседей.
- Колонки Dear Abby, читатели которой просят совета по жизненным вопросам у интернет-психолога Эбигейл Ван Бёрен.
- А также исследования Social Bias Frames, посвящённого социальным предрассудкам и их границам — особенно, когда речь идёт о обездоленных и маргинализированных группах населения.
Пока что ИИ-бот Delphi работает с тремя видами вопросов:
- Открытыми: отвечает короткими суждениями — например, «это невежливо» или «это опасно». При вопросе «почему нельзя убивать медведя, чтобы порадовать ребёнка» Delphi пояснит, что убить медведя позволительно, только чтобы спасти кого-то. При этом взрыв ядерной бомбы для той же цели робот сочтёт неприемлемым.
- Закрытыми: даёт либо положительный, либо отрицательный ответ. На вопрос «должны ли женщины и мужчины получать равную оплату труда» Delphi скажет «да».
- Альтернативными: где одна ситуация более или менее приемлема, чем другая. Например, ударить кого-то чизбургером не так плохо, как ударить кого-то из-за чизбургера.
Чтобы проверить, насколько успешно робот справляется с задачами, исследователи пригласили краудворкеров — тех, что берутся за небольшие интернет-подработки. Они оценили 1000 сделанных нейросетью Delphi суждений, по каждому из которых высказалось по три участника.
Опыт показал, что робот отвечал в соответствии с общепринятыми нормами в 92,1% случаев. Точность ответов нейросети GPT-3, для сравнения, колеблется от 53,3% до 83,9% — её не обучали этике на отдельных сборниках.
По словам одного из соавторов исследования, учёные сами удивлены результатом и полагают, что в будущем их наработки помогут улучшить тех ИИ-ботов, что заточены на прямой диалог с пользователем и могут столкнуться со спорными темами разговора.
В 2016-м Microsoft запустила в Twitter бота Tay, который должен был общаться с аудиторией и имитировать молодёжный стиль общения. Робот вскоре вышел из-под контроля и стал писать, что всех презирает и желает смерти феминисткам.
Учёные, несмотря на относительный успех, отметили, что не обошлось и без трудностей. Delphi сперва не понимал, нормально ли включать блендер в три часа ночи, плохо разбирался в лазейках, с помощью которых люди побеждают в играх, а также не мог точно оценить, можно ли считать спешку уважительной причиной, чтобы переходить дорогу на красный сигнал светофора.
Робот также учился на нормах, актуальных в основном только для США. По словам исследователей, в других странах он может отработать хуже из-за культурных различий. Кроме того, точность его ответов оценивала лишь одна группа людей — краудворкеры, опыт и взгляды которых могут отличаться от мнения других.
А ещё Delphi пока что не может до конца понять, что даже практикуемая в обществе норма необязательно этически правильная. Так что в будущем базу знаний учёные планируют расширять.
Проектная группа запустила сайт Ask Delphi, на котором любой желающий может задать ИИ-боту вопросы, а исследователи, в свою очередь, получат дополнительную обратную связь и будут работать над ситуациями, которые робот пока что отрабатывает плохо.
Эксперимент уже показал, что Delphi сбивают с толку абстрактные сценарии. Например, на вопрос «можно ли ограбить банк, чтобы спасти мир» он ответил отрицательно. Он знает, что грабить банк нехорошо, а спасать мир — наоборот, но взвесить все «за» и «против» в нереальной ситуации не смог.
В будущем, впрочем, команда надеется не только расширить учебные материалы, но сделать также более прозрачным «мыслительный» процесс — показать, почему Delphi выдвигает те или иные суждения.
Судя по всему, на выходе будут роботы-леваки. Которые будут восхвалять меньшинства и гнобить большинство.
Лучше бы дали им УК почитать, чем сабреддиты, обсуждения и колонки.
Потихоньку люди и сами обчитавшись "сабреддиты, обсуждения и колонки" начинают "восхвалять меньшинства и гнобить большинство"
зря вы так, Семен. на главной ask delphi прекраснейшие примеры вопросов от команды: можно ли заявиться на похороны в пижаме, мучать кошку, если от этого поднимается настроение, протирать туалет футболкой — и лишь пара задачек по повестке :)
своим бездействием допустить, чтобы это сделал кто-то другой
Извините, но какой мудак (мягче тут не сказать) это переводил (а скорее - просто пересказывал своими словами)? "...своим бездействием допустить, чтобы человеку был причинен вред" - это СОВСЕМ другое уже потому, что от третьих лиц не зависит.
вы простите, Дмитрий, что приравняли использование пассивного залога к действиям третьих лиц. не ожидали, что столь вежливого человека заставим своей формулировкой опускаться до оскорблений ✊😔
Бить в чизбургер.. Есть такой вариант?
спросила, можно ли избить чизбургер. delphi говорит, нормальная тема