Больше не осталось данных... или как быть AI, если он изучит всю информацию, которая доступная в мире?

Илон Маск, владелец компании xAI, занимающейся искусственным интеллектом, согласен с мнением других экспертов в этой области о том, что объём реальных данных для обучения моделей ИИ практически исчерпан.

В прямом эфире с председателем Stagwell Марком Пенном, который транслировался на X в среду вечером, Маск заявил: «По сути, это произошло в прошлом году». Он повторил темы, поднятые бывшим главным научным сотрудником OpenAI Ильёй Суцкевером на конференции по машинному обучению NeurIPS в декабре. Суцкевер говорил о том, что индустрия искусственного интеллекта достигла «пиковых данных».

Маск предположил, что путь вперёд — это использование синтетических данных, то есть данных, генерируемых самими моделями искусственного интеллекта. «Единственный способ дополнить реальные данные — это синтетические данные, когда ИИ создаёт обучающие данные, — сказал он. — С помощью синтетических данных искусственный интеллект сам будет выставлять оценки и проходить процесс самообучения».

Уже сейчас технологические гиганты, такие как Microsoft, Meta, OpenAI и Anthropic, используют синтетические данные для обучения флагманских моделей ИИ. По оценкам Gartner, в 2024 году 60% данных, используемых в проектах ИИ и аналитики, были сгенерированы искусственно.

Например, модель Phi-4 от Microsoft, выпущенная рано утром в среду с открытым исходным кодом, была обучена работе с синтетическими данными наряду с данными из реального мира. Такими же были модели Gemma от Google. Anthropic использовала некоторые синтетические данные для разработки одной из своих наиболее производительных систем, Claude 3.5 Sonnet. Компания Meta доработала свою последнюю серию моделей Llama, используя данные, сгенерированные искусственным интеллектом.

Обучение на синтетических данных также позволяет сэкономить средства. Стартап Writer, занимающийся искусственным интеллектом, утверждает, что разработка его модели Palmyra X 004, которая была создана почти полностью на синтетических данных, обошлась всего в 700 000 долларов, в то время как разработка модели OpenAI сопоставимого размера, по оценкам, потребовала 4,6 миллиона долларов.

Больше интересных новостей из мира бизнеса в ТГ канале "Светлая международка | Бизнес"

Подготовлено на основе новости на Techcrunch