Как обучают нейросети и что делать, когда данные закончатся

Илон Маск и Илья Суцкевер заявляют: мы сделаем свои данные. И возьмём ваши.

Как обучают нейросети и что делать, когда данные закончатся

Чтобы обучить нейросети, специалисты собирают огромные объёмы информации — на их основе они учат модели распознавать сложные паттерны, создавать контент и даже рассуждать. Но данные не бесконечны и скоро могут закончиться. О том, как разработчики обучают нейросети и что будут делать, если их станет нечем «кормить», — в этом тексте.

Содержание:

Как обучают нейросети

Обучение с учителем (Supervised Learning)

Этот метод напоминает обучение в школе, где ребёнок — это нейросеть, а учитель — это человек. Нейросети получают набор данных (например, изображения с рукописным шрифтом), каждому входному примеру соответствует правильный ответ (на картинке — рукописная буква). В процессе обучения сеть анализирует примеры, метки к ним, ошибки, а затем — корректирует свои веса (параметры, которые определяют логику её работы), чтобы чаще давать правильные ответы в будущем.

Пример — распознавание рукописных цифр. Если искусственному интеллекту показывают тысячи изображений цифры «5», уже подписанных человеком, то он анализирует их особенности (форму, изгибы, толщину линий) и учится правильно определять цифру на новых изображениях.

Обучение без учителя (Unsupervised Learning)

Этот метод напоминает самостоятельное изучение окружающего мира. Нейросеть получает неразмеченные данные (без структуры, подписей, тегов, пояснений, оставленных человеком) и ищет в них скрытые закономерности, выявляет группы похожих объектов и выделяет ключевые характеристики.

Пример — анализ потребительских предпочтений. Сеть анализирует покупки людей в интернет-магазине и, не зная категории товаров, группирует их. Так, покупатели смартфонов часто покупают наушники и чехлы, а те, кто приобретает книги, часто выбирают закладки или блокноты. В первом случае ИИ определит товары как аксессуары для смартфонов, во втором — как канцелярские.

Обучение с подкреплением (Reinforcement Learning)

Это метод проб и ошибок, в котором нейросеть получает награды за правильные действия и штрафы за неправильные. Награда в машинном понимании — это присвоение переменной значения «1», штраф — значения «−1». Задача модели — получать как можно больше «единичек». Со временем нейросеть учится выбирать стратегии, которые приносят наилучшие результаты.

Пример — беспилотные автомобили. Во время обучения ИИ управляет виртуальным авто в симуляции и получает награды (то есть подкрепление) за безопасную езду и соблюдение правил, но штрафуется за столкновения или превышение скорости. Постепенно машина учится хорошо водить.

Гибридные методы (Semi-Supervised Learning, Self-Supervised Learning)

Такие методы объединяют обучение с учителем и без него. Например, если размеченных данных у разработчиков совсем немного, то их можно компенсировать большим объёмом неразмеченных данных.

Пример — нейросетевой переводчик. На вход он получает тысячи предложений с их переводами, но в запросах поступают и миллионы без них. ИИ сначала обучается на размеченных данных, а затем анализирует похожие по структуре неразмеченные тексты и самостоятельно «додумывает», дополняет знания.

Что нужно для обучения ИИ

Вычислительные мощности

Ранее основным ограничением в развитии ИИ были недостаточные вычислительные мощности. Сама по себе технология, которая лежит в основе нейросетей, появилась ещё в середине 20-го века. В 1943 году Уоррен Мак-Каллок и Уолтер Питтс предложили понятие искусственной нейронной сети, а в 1960-м Фрэнк Розенблатт представил первый в мире нейрокомпьютер «Марк-1», который распознавал буквы латинского алфавита.

Однако до конца 2000-х технология не получала должного развития — из-за ограничений в мощности процессоров. Только в последние десять лет аппаратура достигла необходимых скоростей и объёмов обработки данных. Так, GPU (графические ускорители, их архитектура позволяет эффективно проводить параллельные вычисления, необходимые для машинного обучения) за 2010-е годы стали производительнее в 1000 раз.

Данные

Сегодня ключевым фактором в развитии ИИ становится доступность и качество данных.

Модели обучаются на big data, или больших данных. Эффективность нейросети напрямую зависит от их объёма и разнообразия. Например, для обучения модели GPT-3 использовалось, по разным подсчётам, от 570 Гб до 45 Тб текста — этого хватит, чтобы сохранить все четыре тома «Войны и мира» весом примерно 3,2 Мб минимум 200 тысяч раз.

Чтобы дать нейросетям доступ к свежим данным, университеты открывают библиотеки и архивы для к��мпаний-разработчиков. Так, Гарвард предоставляет нейросетям доступ примерно к миллиону книг в своей библиотеке.

По тому же пути идут крупные интернет-игроки. Например, форум Reddit также предоставил OpenAI данные для обучения — чтобы позволить моделям ИИ лучше воспринимать и генерировать понятный человеческий язык.

Проблема исчерпания данных для обучения

Всё чаще ведущие эксперты в области ��скусственного интеллекта выражают обеспокоенность: доступные источники данных для обучения нейросетей заканчиваются. Сооснователь OpenAI Илья Суцкевер в декабре 2024 года на конференции NeurIPS заявил, что индустрия достигла «пика данных» и объём доступной информации для обучения ИИ практически исчерпан. Американский предприниматель Илон Маск в январе 2025 года подтвердил эти опасения, отметив, что «мы фактически исчерпали общую сумму человеческих знаний для обучения ИИ».

Помимо того, что большинство общедоступных данных уже использовано для обучения существующих моделей ИИ, возникают также юридические и этические ограничения. В начале 2024 года компания OpenAI признала, что создать чат-бота уровня ChatGPT невозможно без обучения на материалах, защищённых авторским правом. Возникает дилемма: с одной стороны, использование конфиденциальных и личных данных вызывает правовые споры, с другой — без них модели будут отставать на десятки лет.

Итого: что будет со сбором данных

В ответ на проблему сбора данных и этики использования данных исследователи рассматривают несколько перспективных направлений:

  • Использование синтетических данных — искусственно созданной информации, которая имитируют реальные датасеты. Иногда получается так, что одна нейросеть генерирует синтетические данные для обучения другой. Их применение позволяет расширить объём доступных данных для обучения моделей ИИ. Nvidia, Google и OpenAI уже активно используют синтетические данные для обучения своих генеративных моделей.
  • Изменение структуры нейросетей. Примером здесь можно считать DeepSeek — в компании используют архитектуру MoE (Mixture of Experts). Простыми словами, вместо обучения одной «очень умной» нейросети создатели обучили 256 небольших — каждая из них отвечает за решение узкопрофильных задач. В итоге стоимость обучения снизилась с сотен до шести миллионов долларов. Не все согласны с такой суммой, но представители индустрии всё равно отмечают достижения компании.
  • Использование предварительно обученных моделей — чтобы их адаптировать под новую задачу, нужно минимум переобучения. Модели используют уже имеющиеся данные, а значит, нет необходимости в новых массивных датасетах.

А вы бы согласились поделиться своими личными переписками или фотографиями, чтобы помочь развивать нейросети?

5
1
7 комментариев