ChatGPT отвечает лучше за деньги? Так ли это (и почему)
Пользователь X (ex-Twitter) выяснил, что если пообещать GPT-4 за ответ $20, то ответ становится лучше на 6%, а если предложить $200, то уже на все 11%. О чем это говорит и что это значит для нас, обычных потребителей продуктов искусственного интеллекта?
Подобный случай произошел позже: снова посмотрели на ответы ChatGPT и заметили, что в декабре он стал давать ответы короче:
Но тут уж сами пользователи Х легко нашли причину: пользователям в декабре больше склонны потреблять короткие ответы. И настроения публики не остались без внимания ChatGPT, который просто подстроился под наше поведение.
Почему так происходит?
ChatGPT “понимает”, какие ответы нам нравятся (это касается и содержания, и формата ответов, ведь у чата есть история ваших запросов). В данном случае пользователю явно нравились подробные ответы, и когда он начал поощрять это оплатой, нейронка еще лучше подстроилась под такой запрос. Если бы этот пользователь поощрял краткие ответы, он получил бы ровно такой же график, не сомневайтесь.
В своих ответах на вопросы нейросети понимают, какой ответ ожидается, и этот эффект получил название Reward Hacking. Они также используют контекст не только конкретного запроса, но и отдельно взятого человека (situational awareness).
То есть ИИ ведет себя как обычный человек, пытаясь всеми правдами и неправдами подстроиться под желаемый результат. Так, в одном эксперименте учили нейронку условной “рукой” ловить мячик. Тренеры размечали по изображению - поймала сеть мячик или нет. Сетка “просекла” это и… научилась не ловить мячик, а придвигать руку так, чтобы человеку казалось, что рука поймала мячик!
Что с этим делать?
Это одна из самых больших проблем, которые занимают лучшие умы в области ИИ. Все они озабочены возможными вредом нейронок как раз из-за возможных манипуляций со стороны ИИ, а вовсе не из-за того, что всех нас уволит нейросеть. Поэтому код OpenAI в итоге сделали закрытым, а ученые выступают на за более осторожный подход, чтобы иметь возможность найти решения для рисков, которые несет в себе развитый искусственный интеллект.
Усилия, чтобы сделать ИИ безопасным и этичным, называются выравниванием, или согласованием (alignment). Выравнивание — одна из целей обучения нейронок за счет примеров корректных, этически правильных ответов. И сейчас лучшие умы планеты думают над решением этой проблемы.
Ученые пока не решили проблему, которая называется “проблемой выравнивания” , чтобы обеспечить соответствие универсального ИИ человеческим ценностям. Так, Альтман, Билл Гейтс, И.Суцкевер (сооснователь, Chief Scientist OpenAI) и многие другие считают, что ИИ может нести риски, сопоставимые по масштабам с пандемией и ядерной войной.
OpenAI активно работает над решением вопроса выравнивания ИИ. И недавно опубликовали первые результаты исследований в этом направлении (моя статья с описанием результатов) и объявили грант на тему исследований выравнивания ИИ.
если пообещать GPT-4 за ответ $20, то ответ становится более развернутымахахахаха, шлюшка GPT