О проблеме выравнивания искусственного интеллекта на пальцах
Я интересуюсь новостями искусственного интеллекта, и расскажу простыми словами, что такое проблема выравнивания, почему она важна для развития самой технологии и нас с вами, потребителей сервисов искусственного интеллекта. А также о последних достижениях в решении этой головоломной задачи.
Что за выравнивание?
Есть серьезная научная проблема: как контролировать мощные модели нам, людям? Модели искусственного интеллекта (ИИ) прогрессируют очень быстро, и скоро "перерастут" наши возможности. Так, если GPT-1 мог только составлять слова, то GPT-3 - уже слагать поэмы, и ученые уверены, что создание сверх интеллекта - это вопрос буквально ближайшего десятилетия (подробнее тут и тут).
Проблема в том, что ИИ может создать тонны опасного кода или текста, который физически будет сложно проверить. Но даже если и задаться такой целью, то это вряд ли возможно: уже скоро ИИ сможет создавать то, в чем даже экспертам будет сложно разобраться (разработчики ИИ всерьез говорят о том, что вскоре ИИ сможет делать научные открытия).
Open AI приводит весьма доходчивую аналогию:
Почему эта проблема так важна для нас?
ИИ может быть не только полезным, но и разрушительным: с учетом всего того объема знаний и знания особенностей и уязвимостей конкретного человека-пользователя (а мы рассказываем ИИ о себе порой гораздо больше, чем близким). И если мы не найдем способ контролировать ИИ, то его развитие может стать еще большей проблемой, чем ядерная угроза.
Без решения этой проблемы не будет безопасного суперинтеллекта, а значит, ученые будут сдерживать его распространение для нас, обычных пользователей.
Поэтому проблема создания безопасного ИИ - одна из ключевых сейчас для его разработчиков, вот манифест OpenAI на тему безопасности ИИ. К слову, именно потому, что сейчас эта проблема не решена и потенциально очень опасна, OpenAI отказался от своей первоначальной идеи открытого кода ChatGPT, подробнее - тут). Летом 2023 года в OpenAI была сформирована целая команда “супервыравнивателей”, в числе которых сооснователь OpenAI Илья Суцкевер (статья о взглядах Ильи на ИИ).
Наша цель — решить основные технические вызовы согласования сверхразума за четыре года.
Лидеры команды выравнивания (И.Суцкевер, Я.Лейке - глава отдела выравнивания), признаются, что это чертовски амбициозная цель, и успех не гарантирован.
Обеспечение безопасного создания, внедрения и использования систем искусственного интеллекта имеет решающее значение для нашей миссии.
А существует ли вообще решение проблемы слабого учителя?
Изначально ИИ обучается почти как человек: на примерах (размеченных человеком данных). Этот метод называется “обучение с подкреплением на основе обратной связи с человеком” (reinforcement learning from human feedback, RLHF). Когда человеческих способностей для обучения будет недостаточно, можно использовать более ранние ИИ модели для обучения моделей следующего поколения.
А это вообще возможно? - спросите вы. Школьник может обучать студента университета? Да, может: ведь студент обладает большим объемом знаний и навыков, а значит, используя их, он может превзойти своего учителя. В конце концов, иначе человечество не прогрессировало бы, так что это вполне реально.
Сложность заключается в том, чтобы найти подход для обучения новых моделей на базе предыдущих. Как сделать так, чтобы новая модель в прямом смысле училась на ошибках предыдущей модели, но не совершала, а исправляла их, используя свои более совершенные возможности?
Именно этот подход используют в OpenAI для решения проблемы выравнивания (согласования) ИИ, который получил название “weak-to-strong generalization” (дословно - обобщение от слабого к сильному).
Как решают эту проблему в OpenAI
В OpenAI сравнили результаты четырех подходов к обучению:
1 - GPT-2 (базовый уровень)
2 - модель, улучшенная на основе стандартного подхода обратной связи от человека
3 - новый подход OpеnAI к обучению - обучение сильной модели с помощью слабой
4 - GPT-4 (как верхняя планка)
Вот результаты моделей:
Эксперимент показал следующее:
- Обучение с человеческим учителем (т.е. текущий метод обучения моделей) показывает самый слабый результат. И его использования недостаточно для создания суперинтеллекта.
- Сильная модель (GPT-4) существенно превосходит своих учителей.
- Решить проблему обучения сильной модели на основе слабой возможно. Модель, обученная с помощью нового подхода OpenAI, постоянно превосходила своего слабого учителя (GPT-2). Модель не достигла результатов GPT-4 (референс для всех моделей), но показала более высокие результаты по точности. В эксперименте OpenAI удалось избавиться от 80% ошибок, которые были у GPT-2.
Суть подхода OpеnAI к решению проблемы слабого учителя. Обучением модели можно управлять с помощью стимулов (совсем как людей). И модель можно поощрять не повторять ошибки слабого учителя. Исследователи поощряли модель выбирать собственный вариант ответа, в котором она “была уверена” в нем, если он расходился с ответом обучающей модели GPT-2. Результаты исследования изложены в 50-страничной научной публикации.
Что дальше?
В OpenAI находят результаты очень обнадеживающими и воодушевляющими. Во-первых, это демонстрирует саму возможность такого подхода к обучению моделей. Во-вторых, это показывает, что сделать это очень просто. А значит, можно использовать слабых учителей для получения знаний от мощных моделей - по крайней мере в тех областях, которые нам важны. Это позволит сделать суперинтеллект управляемым и безопасным.
Поэтому OpenAI:
- Открывает доступ к коду, облегчая проведение подобных экспериментов
- Запускает грант на $10 млн для желающих исследовать проблему выравнивания ИИ, особенно - проблему обучения сильных моделей на основе слабых.