Бывший исследователь OpenAI объясняет, что на самом деле происходит, когда вы «спрашиваете о чем-то» ИИ

Бывший исследователь OpenAI объясняет, что на самом деле происходит, когда вы «спрашиваете о чем-то» ИИ

Андрей Карпати, бывший исследователь OpenAI и руководитель направления ИИ в Tesla, объясняет, что когда люди «спрашивают ИИ», они на самом деле взаимодействуют с усредненными ответами от людей, размечающих данные, а не с волшебной системой ИИ.

Вы не спрашиваете ИИ, вы спрашиваете некий смешанный дух его среднестатистического маркировщика данных

Карпати

Чтобы проиллюстрировать свою точку зрения, Карпати использует типичный вопрос о туризме. Когда кто-то спрашивает о «топ-10 достопримечательностях Амстердама», ИИ генерирует ответ на основе того, как ранее отвечали на подобные вопросы маркировщики данных.

Для вопросов, отсутствующих в обучающих данных, система создает статистически схожие ответы на основе своего обучения, имитируя модели ответов человека.

В частности, Карпати предостерегает от обращения к системам ИИ по таким сложным вопросам политики, как оптимальное управление, отмечая, что вы получите те же ответы, если напрямую попросите команду по маркировке найти ответ в течение часа.

Суть в том, что спрашивать магистра права, как управлять правительством, это все равно, что спрашивать Мэри из Огайо за 10 долларов, 30 минут на исследование, и она должна будет соблюдать 100-страничную документацию, составленную компанией, выдающей степень магистра права, о том, как отвечать на подобные вопросы

Карпати

Как ИИ-помощники обретают свою «личность»

Создано в <a href="https://api.vc.ru/v2.8/redirect?to=https%3A%2F%2Fkolersky.com%2Fmj&postId=1686173" rel="nofollow noreferrer noopener" target="_blank">сервисе </a>с Midjourney
Создано в сервисе с Midjourney

Большие языковые модели проходят два этапа обучения. Сначала они обучаются на больших объемах интернет-контента и других данных. Затем, во время тонкой настройки, они обучаются на разговорах между ролями «человека» и «помощника», при этом человеческие аннотаторы определяют ответы помощника.

Карпати говорит, что когда модели ИИ отвечают на спорные темы фразами вроде «это спорный вопрос», это происходит потому, что людям, навешивающим ярлыки, поручено использовать такой язык для сохранения нейтралитета.

Процесс тонкой настройки учит ИИ действовать как полезный помощник, сохраняя свои базовые знания, но адаптируя свой стиль для соответствия данным тонкой настройки. Многие приписывают взрывной успех ChatGPT два года назад этому процессу тонкой настройки — он заставил пользователей почувствовать, что они разговаривают с реальным, понимающим существом, а не просто с продвинутой системой автозаполнения.

Экспертные знания исходят от экспертов-маркировщиков

Создано в сервисе с генератором видео Luma от  KolerskyAI "ai robot"

Для специализированных тем компании нанимают соответствующих экспертов в качестве маркировщиков данных. Карпати отмечает, что на медицинские вопросы отвечают профессиональные врачи, а ведущие математики, такие как Теренс Тао, помогают решать математические задачи .

Людям не нужны ответы на все возможные вопросы — системе просто нужно достаточно примеров, чтобы научиться имитировать профессиональные ответы.

Но это не гарантирует ответы экспертного уровня на все вопросы. ИИ может не хватать базовых знаний или навыков рассуждения , хотя его ответы обычно превосходят ответы среднестатистических пользователей Интернета, говорит Карпати. Поэтому LLM могут быть как очень ограниченными, так и очень полезными, в зависимости от варианта использования.

Известный исследователь ИИ ранее критиковал этот подход, известный как обучение с подкреплением на основе обратной связи с человеком (RLHF) . Он считает его временным решением, поскольку в нем отсутствуют объективные критерии успеха, в отличие от таких систем, как AlphaGo от DeepMind.

Карпати, который недавно покинул OpenAI вместе с несколькими другими старшими исследователями ИИ, основал собственную компанию по образованию в области ИИ .

Кратко

  • Бывший исследователь OpenAI Андрей Карпати объясняет, что когда пользователи «задают вопрос ИИ», они на самом деле взаимодействуют с усредненными ответами, предоставляемыми людьми, размечающими данные, а не с «волшебным ИИ» со своими собственными знаниями и способностями к рассуждению.
  • Обучение LLM проходит в два этапа: сначала он изучает большой массив интернет-документов, а затем обучается на диалогах между «человеком» и «помощником», где ответы помощника предоставляются людьми-аннотаторами, что позволяет LLM научиться имитировать эту роль.
  • В специализированных предметных областях привлекаются эксперты по разметке данных, но это не обязательно означает, что LLM могут ответить на все вопросы на уровне этих экспертов, поскольку базовые знания и навыки рассуждения могут быть не полностью отражены в обучающих данных модели.
1 комментарий

Странно, но я до этого и сам допер. Все и так было ясно. Наверное у Карпати просто бомбонуло уже.

1
Ответить