Конец больших данных или как будут обучаться нейромодели
Вы наверняка слышали, что для нейроне нужны большие данные, и этих данных постоянно нет: или недоступны по причине авторского права, или их тяжело добыть и обработать. А развиваться нужно. Так как быть? Лучше умы думают об этом, и И.Суцкевер (один из ведущих разработчиков искусственного интеллекта и со-основатель OpenAI) предлагает свой любопытный ответ.
Илья Суцкевер сделал на днях важное заявление на конференции по нейронным системам обработки информации NeurIPS 2024 — 2024: текущий подход к обучению ИИ подходит к своему пределу.
«Мы достигли пиковых данных, и больше их не будет. Нам придется иметь дело с теми данными, которые у нас есть. Интернет только один».
Соучредитель OpenAI и бывший главный научный сотрудник Илья Суцкевер в начале этого года попал в медиа после того, как ушел, чтобы открыть собственную ИИ лабораторию Safe Superintelligence Inc.
О том, какое влияние имеет Илья внутри сообщества ИИ разработчиков, говорит простой факт: его выступление меньше чем за неделю посмотрели свыше 130 тыс. раз. Для узкоотраслевого события это гигантсткие цифры.
В чем проблема?
Для построения нейро моделей требуются огромные объемы данных. Языковая модель изучает закономерности из огромных объемов немаркированных данных — обычно текстов из интернета, книг и других источников. И в некоторых областях знаний ИИ не развивается ровно потому, что нет достаточного объема данных.
Да, наши возможности растут:
- появляется более мощное оборудование
- алгоритмы улучшаются
- строятся более крупные вычислительные системы
И данных в интернете с каждым днем все больше, и все же Интернет как источник данных не бесконечен. К тому же многие компании и производители контента ограничивают доступ к нему, регулярно появляется информация о судебных исках из-за использования данных без разрешения.
Недавняя новость, что Harvard и Google открывают доступ к архивам — это хорошо, но явно недостаточно.
Как быть?
Будущие агентные системы ИИ по мнению Суцкевера, будут принципиально отличаться от текущих. В частности, они будут хорошо обучаться учиться на небольшом количестве данных.
Он провел сравнение между масштабированием систем ИИ и эволюционной биологией, сославшись на исследование, которое показывает связь между массой мозга и тела у разных видов.
В то время как большинство млекопитающих следуют одному шаблону масштабирования, гоминиды (предки человека) демонстрируют совершенно другое соотношение массы мозга к массе тела.
Он предположил, что подобно тому, как эволюция нашла новый шаблон масштабирования для мозга гоминидов, ИИ может аналогичным образом открыть новые подходы к масштабированию, выходящие за рамки того, как работает предварительная тренировка сегодня.