В новую эру искусственный интеллект будет обучаться на собственном опыте
И такое обучение станет доминирующим подходом, превосходящим обучение на основе созданных человеком данны��. Расскажу, что за странная (на первый взгляд) идея, кто ее высказал, и почему вообще начали думать о поиске новых источников данных.
🔥 Еще больше интересного в моем канале продуктовые штучки**
В статье лауреата премии Тьюринга 2024 Ричарда Саттона и Дэвида Сильвера утверждается, что традиционное обучение ИИ на данных, созданных человеком, достигло предела эффективности. А потому предлагается новая парадигма, где агенты учатся через непрерывное взаимодействие с окружающей средой, адаптируясь к реальным условиям
В чем проблема?
Хотя обучение на основе данных, созданных человеком, позволило достичь значительного прогресса, оно имеет свои пределы, особенно в областях, требующих сверхчеловеческого интеллекта. И мы это видим: разработчики ИИ продуктов все чаще говорят о том, что недостаток данных станет основным тормозом развития, поэтому разработчики использовали без разрешения чужую интеллектуальную собственность (суды и протесты идут во всех областях интеллектуальной деятельности, от медиа до кинематографа), и потому приветствуются появление всех легальных массивов новых данных.
Какой выход?
Один из вариантов – использовать данные, которые производит сам ИИ. Именно это уже сейчас позволяет ИИ создавать что-то новое, а не просто компилировать имеющиеся данные.
Ключевые элементы новой парадигмы:
– Потоки опыта: обработка непрерывных данных из среды в реальном времени
– Заземлённость действий: связь между сенсорными данными и ответными действиями
– Вознаграждения на основе опыта: автономное формирование целей через взаимодействие, а не предопределённые человеком критерии.
В статье также рассматриваются изменения в планировании и рассуждениях агентов.
Человеческий язык может быть не лучшим способом мышления, и предлагается, чтобы агенты изучали более эффективные механизмы мышления на основе опыта.
Авторы концепции подчеркивают важность заземления в реальных данных для преодоления ошибочных способов мышления и достижения новых принципов. Все вместе – сочетание алгоритмов и технологий – может привести к прорыву в создании сверхчеловеческих агентов ИИ, которые смогут учиться, адаптироваться и открывать новые знания посредством опыта.
Кто авторы?
Оба автора считаются пионерами и лидерами в области искусственного интеллекта, их идеи лежат в основе современных достижений в обучении агентов через опыт.
Дэвид Сильвер
Один из ведущих мировых специалистов по искусственному интеллекту и обучению с подкреплением. Главный научный сотрудник в DeepMind и профессор Университетского колледжа Лондона. Руководил проектами AlphaGo, AlphaZero и AlphaStar, которые совершили прорыв в области ИИ, научив машины играть на сверхчеловеческом уровне в го, шахматы, сёги и StarCraft. Сильвер внёс ключевой вклад в развитие алгоритмов обучения с подкреплением и их применение в сочетании с глубоким обучением.
Ричард Саттон
Один из основателей современной теории обучения с подкреплением. Профессор Университета Альберты и исследователь Keen Technologies. Автор фундаментальных идей и алгоритмов в области обучения с подкреплением, оказавшего огромное влияние на развитие ИИ. Его работы заложили теоретическую и практическую базу для создания интеллектуальных агентов, способных учиться через взаимодействие с окружающей средой