Новый виток в развитии генеративного ИИ: перспективы для стартапов и инвесторов

Рынок генеративного ИИ переживает очередной значимый этап, отмеченный появлением модели o1 от OpenAI. Ключевое отличие этой модели – способность к "мышлению" непосредственно в ходе генерации ответа. В отличие от предшествующих поколений, такие модели демонстрируют потенциал в решении более сложных задач в сферах науки, программирования и математики.

В данной статье эксперты из Sequoia Capital рассматривают влияние этих фундаментальных изменений в архитектуре моделей генеративного ИИ на рынок, а также их значение для стартапов и инвесторов. Команда GoPractice адаптировала этот материал для русскоязычной аудитории.

Генеративный ИИ учится "мыслить" в процессе работы

Спустя два года после начала революции в сфере генеративного ИИ, его развитие постепенно смещается от концепции "быстрого мышления" (оперативных ответов, основанных на предварительном обучении) к "медленному мышлению", реализуемому непосредственно в процессе генерации ответа. Данная эволюция открывает двери для нового класса приложений – ИИ-агентов.

На вторую годовщину публикации нашего эссе "Generative AI: A Creative New World", экосистема ИИ претерпела кардинальные изменения, и мы готовы поделиться своим видением будущего.

Sequoia Capital – венчурная компания из США, специализирующаяся на инвестициях в технологический сектор. Основана в 1972 году. По состоянию на 2022 год, под управлением компании находятся активы на сумму $85 млрд.

В разные периоды Sequoia Capital инвестировала в такие компании, как Apple, Cisco, Google, Airbnb, Instagram и многие другие успешные проекты.

Базовый уровень рынка генеративного ИИ стабилизируется, формируя баланс сил между основными крупными игроками и альянсами, такими как Microsoft/OpenAI, AWS/Anthropic, Meta и Google/DeepMind. На рынке остаются только крупные участники, обладающие мощной экономической базой и доступом к значительному капиталу. Хотя конкурентная борьба далека от завершения (и продолжает обостряться), структура рынка становится более устойчивой. Очевидно, что использование больших языковых моделей будет становиться все более доступным и экономически выгодным.

Для больших языковых моделей (LLM) открывается новый горизонт. Центр внимания смещается на разработку и масштабирование "мышления" (reasoning – технических компонентов, выполняющих функцию, аналогичную мышлению естественного интеллекта), где приоритетом становится "мышление системы 2". Вдохновленные такими моделями, как AlphaGo, эти решения призваны наделить ИИ-системы способностью к осознанному рассуждению, решению задач и когнитивным операциям в процессе генерации ответа.

Какие последствия это несет для основателей стартапов в сфере ИИ? Какие выводы могут сделать из этого состоявшиеся софтверные компании? И где мы, как инвесторы, видим наибольший потенциал для извлечения прибыли из генеративного ИИ?

Мы рассмотрим, как консолидация базовых моделей создала предпосылки для гонки по масштабированию возможностей сложного "мышления" и ИИ-агентов, а также обсудим новое поколение революционных приложений.

Важнейшее обновление среди моделей 2024 года представила OpenAI. Компания выпустила модель o1, также известную как Q* и Strawberry. Это не просто очередное подтверждение лидерства OpenAI в рейтингах качества, но и существенное изменение устоявшейся архитектуры. Более того, это первый пример модели, демонстрирующей возможности "мышления", реализуемые за счет вычислений в процессе генерации ответа.

Что это означает? Предварительно обученные модели прогнозируют следующий токен, опираясь на огромные массивы данных. Они используют вычисления, произведенные во время обучения ("training-time compute"). Масштаб моделей обуславливает появление базовых способностей к "мышлению", однако эти способности весьма ограничены. Но что, если обучить модель самому процессу рассуждения? Именно это и реализовано в Strawberry. Когда мы говорим о мышлении в процессе генерации ответа ("inference-time compute"), мы подразумеваем, что модель "делает паузу и обдумывает" свой ответ перед тем, как его предоставить. Это требует большего объема вычислений на этапе генерации. Эта фаза "паузы и обдумывания" и является аналогом процесса мышления.

Что делает модель, когда она "делает паузу и думает"?

Для начала перенесемся в март 2016 года в Сеул. Там произошло одно из наиболее знаковых событий в истории глубокого обучения: матч AlphaGo против легендарного мастера игры в го Ли Седоля. Это был не просто матч "ИИ против человека". В тот момент мир увидел, что ИИ способен на большее, чем простое воспроизведение примеров, на которых он обучался.

В чем заключалось отличие AlphaGo от предшествующих игровых ИИ-систем, таких как Deep Blue? Как и большие языковые модели (LLM), AlphaGo сначала проходил предварительное обучение на данных, имитируя действия экспертов-людей, используя базу из приблизительно 30 миллионов ходов из предыдущих игр и собственных партий. Но вместо мгновенной выдачи ответа, полученного из предварительно обученной модели, AlphaGo останавливался и обдумывал. На этапе вывода модель запускала поиск или симуляцию широкого спектра потенциальных будущих сценариев, оценивая их и выбирая тот, который обладал наивысшим ожидаемым значением. Чем больше времени на размышления предоставлялось AlphaGo, тем выше был уровень его игры. Без "обдумывания" модель не смогла бы одержать победу над лучшими игроками. Но по мере увеличения времени на генерацию ответа AlphaGo становился все сильнее, пока не превзошел даже лучших гроссмейстеров.

Теперь вернемся к LLM. Почему нельзя просто перенести подход AlphaGo в контекст LLM? Сложность заключается в построении целевой функции – функции, на основе которой оцениваются ответы модели. В игре го все довольно очевидно: можно смоделировать игру до конца, определить победителя и вычислить ожидаемую оценку следующего хода. В программировании это тоже относительно просто: можно протестировать код и понять, работает он или нет. Но как оценить первый черновик эссе? Или маршрут путешествия? Или краткое изложение основных пунктов длинного документа? Это делает рассуждения сложными для текущих методов и объясняет, почему Strawberry демонстрирует высокие результаты в областях, близких к логике (например, программирование, математика, науки), но менее эффективна в более открытых и неструктурированных задачах (например, написание текстов).

Хотя технические детали реализации Strawberry держатся в секрете, основные идеи включают обучение с подкреплением на основе цепочек рассуждений, создаваемых моделью. Анализ этих цепочек показывает, что происходит нечто фундаментальное и захватывающее – нечто, действительно напоминающее человеческое мышление и рассуждение. Например, o1 демонстрирует способность возвращаться назад, если "застревает". Эта особенность проявляется при увеличении времени на генерацию ответа. Модель также способна подходить к проблемам "по-человечески" (например, визуализировать точки на сфере для решения задачи по геометрии) и находить новые способы решения задач (например, решать задачи из соревнований по программированию способами, которые не используются людьми).

Кроме того, появляются новые идеи для дальнейшего совершенствования вычислений на этапе генерации ответа. Исследовательские группы активно работают над улучшением способностей модели к "мышлению". Иными словами, deep reinforcement learning (глубокое обучение с подкреплением) снова в тренде.

Переход от предварительно обученных "инстинктивных" ответов ("Система 1") к более глубокому, обдуманному рассуждению ("Система 2") – это следующий рубеж для ИИ. Моделям недостаточно просто обладать знаниями: они должны уметь делать паузы, оценивать ситуацию и "рассуждать" в режиме реального времени.

Представьте, что предварительное обучение – это уровень Системы 1. Независимо от того, обучена ли модель на миллионах ходов в го (как AlphaGo) или на петабайтах текстов из интернета (как большие языковые модели, LLM), ее задача – воспроизводить примеры из своего обучающего датасета, будь то игра или язык. Но подражание, каким бы мощным оно ни было, не является истинным рассуждением. Оно не может справиться с новыми сложными ситуациями, особенно с теми, которые выходят за пределы обучающей выборки.

Именно здесь в игру вступает мышление Системы 2, которое стало основным направлением последних исследований в области ИИ. Когда модель "делает паузу, чтобы подумать", она не просто воспроизводит заученные шаблоны или выдает прогнозы на основе прошлых данных. Она генерирует спектр возможных решений, оценивает потенциальные результаты и принимает решение на основе проведенного анализа.

Для многих задач Система 1 более чем достаточна. Как отметил Ноам Браун в последнем эпизоде подкаста Training Data, долго размышлять над вопросом о столице Бутана не имеет смысла: вы либо знаете ответ, либо нет. Здесь идеально подходит быстрый, шаблонный ответ.

Но когда речь заходит о более сложных проблемах, таких как прорывы в математике или биологии, быстрые, интуитивные ответы не работают. Эти проблемы требуют глубокого анализа, творческого подхода к решению и, что самое главное, времени. То же самое справедливо и для ИИ. Чтобы справляться с наиболее сложными и значимыми задачами, ИИ должен выйти за пределы быстрых, шаблонных ответов и научиться тратить время на формирование обдуманных рассуждений.

Главный вывод из материалов OpenAI об o1 заключается в том, что существует еще один закон масштабирования (scaling law).

Предварительное обучение больших языковых моделей (LLM) подчиняется хорошо известному закону масштабирования: чем больше вычислительных ресурсов и данных используется для предварительного обучения модели, тем выше ее производительность.

Статья OpenAI об o1 открывает совершенно новую плоскость масштабирования вычислений: чем больше вычислительных ресурсов предоставляется модели на этапе генерации ответа (inference-time, test-time), тем эффективнее она рассуждает.

Что произойдет, если модель получит возможность размышлять часами? Днями? Десятилетиями? Сможем ли мы решить гипотезу Римана? Найти ответ на последний вопрос Азимова?

Этот сдвиг перенесет нас из мира массивных кластеров для предварительного обучения в облака генерации ответа — среды, способные динамически масштабировать вычислительные ресурсы в зависимости от сложности задачи.

Что произойдет, если OpenAI, Anthropic, Google и Meta продолжат масштабировать свои слои мышления моделей и разрабатывать все более мощные модели для логического мышления? Сможем ли мы получить одну «модель, которая будет править всеми»?

Одна из гипотез на заре рынка генеративного ИИ заключалась в том, что одна компания, создающая модель, станет настолько могущественной и универсальной, что вытеснит все другие аналогичные продукты. Однако на данный момент это предсказание оказалось неверным по двум причинам.

Во-первых, на уровне моделей наблюдается значительная конкуренция, и участники рынка постоянно обгоняют друг друга в достижении передового уровня возможностей (SOTA). Возможно, кто-то сумеет разработать механизм непрерывного самоулучшения с использованием широкого спектра самостоятельных симуляций и добиться «взлета», но пока мы не видим этому подтверждений. Наоборот, уровень конкуренции на уровне моделей остается высоким: цена за токен в GPT-4 снизилась на 98% с последнего OpenAI developer day.

Во-вторых, модели в основном не смогли закрепиться на уровне приложений как революционные продукты, за исключением ChatGPT. Реальный мир слишком многогранен. Исследователи обычно не стремятся вникать в детали и разрабатывать сквозные рабочие процессы для каждой функции в каждой возможной отрасли. Экономически оправданно, что они останавливаются на уровне API, оставляя разработчикам задачу решать сложные проблемы реального мира. Это хорошие новости для уровня приложений.

Подход к планированию и выполнению действий для достижения целей ученого сильно отличается от работы инженера-программиста. Более того, даже среди инженеров-программистов подходы могут различаться в зависимости от компании.

В то время как исследовательские лаборатории продолжают работу над фундаментальными моделями, бизнесам необходимы специализированные прикладные решения для создания полезных ИИ-агентов. Сложный реальный мир требует использования значительного количества доменно-ориентированной логики, которую пока невозможно эффективно встроить в универсальную модель.

Когнитивная архитектура — это способ, которым система обрабатывает входные данные пользователя, взаимодействует с кодом и моделями, чтобы выполнить действия или сгенерировать ответ.

Например, в случае Factory каждый из их продуктов, называемых «дроидами», имеет индивидуальную когнитивную архитектуру, которая имитирует человеческий подход к выполнению определенной задачи — например, ревью кода или написание и выполнение плана миграции для обновления сервиса с одного бэкенда на другой.

Дроид Factory разбивает все зависимости, предлагает соответствующие изменения в коде, добавляет юнит-тесты и привлекает человека для проверки. Затем, после одобрения, он применяет изменения ко всем файлам в тестовой среде и делает merge кода, если все тесты успешно проходят. Точно так же, как это сделал бы человек — выполняя серию отдельных задач, а не предоставляя одно обобщенное решение в виде «черного ящика».

Представьте, что вы хотите создать бизнес в области ИИ. На каком уровне стека вы сосредоточитесь? Конкурировать в инфраструктуре? Удачи вам обойти NVIDIA и иных ведущих провайдеров. Конкурировать на уровне моделей? Удачи догнать OpenAI и Марка Цукерберга. А как насчет приложений? Удачи в борьбе с корпоративным IT и глобальными системными интеграторами. Ой. Подождите. А это действительно звучит выполнимо!

Фундаментальные модели — это магия, но они также полны сложностей. Большие компании не могут работать с «черными ящиками», галлюцинациями и неуклюжими рабочими процессами. Обычные пользователи, глядя на пустую строку ввода, не знают, что спросить. Все это открывает возможности для уровня приложений.

Еще два года назад многие компании, работающие на уровне приложений, высмеивались как «просто обертки под GPT-3». Сегодня оказывается, что эти «обертки» — один из немногих надежных способов создавать устойчивую ценность. То, что начиналось как «обертки», превратилось в «когнитивные архитектуры».

Компании, создающие ИИ на уровне приложений, — это не просто UI, работающий поверх фундаментальной модели. Далеко не так. Они используют сложные когнитивные архитектуры, которые, как правило, включают:

несколько фундаментальных моделей с механизмом маршрутизации;
векторные и/или графовые базы данных для RAG (retrieval-augmented generation);
защитные механизмы для соблюдения норм и правил;
логику приложения, которая имитирует человеческий подход к обдумыванию рабочего процесса.

Переход в облачные технологии стал эрой software-as-a-service. Компании-производители ПО превратились в поставщиков облачных услуг, что создало рынок стоимостью в $350 миллиардов.

Благодаря созданию ИИ-агентов начинается переход к модели service-as-a-software. Производители ПО превращают труд в программное обеспечение. Это означает, что их рынок — это не рынок программного обеспечения, а рынок услуг, оцениваемый в триллионы долларов.

Что значит продавать работу? Хороший пример — Sierra. B2C-компании размещают Sierra на своих сайтах, чтобы взаимодействовать с клиентами. Задача — решить проблему клиента. Sierra получает оплату за каждое решение. Никаких «мест» или подписок не существует. У вас есть задача — Sierra ее выполняет и получает оплату соответственно.

Для многих компаний в сфере ИИ это и есть главная цель. Sierra выигрывает благодаря возможности переадресовать задачу к агенту-человеку, если ИИ не справился. Не всем компаниям так везет. Появляется новая схема: сначала система внедряется как copilot first (human-in-the-loop) и накапливает опыт, чтобы заслужить право работать как autopilot (без участия человека). Примером может служить GitHub Copilot.

С развитием возможностей рассуждения генеративного ИИ появляется новый класс приложений, построенных на базе ИИ-агентов.

Интересно, что эти компании отличаются от своих предшественников в облачной сфере:

Облачные компании нацеливались на прибыль от программного обеспечения. ИИ-компании нацеливаются на прибыль от услуг.
Облачные компании продавали программное обеспечение (оплата за место). ИИ-компании продают работу (оплата за результат).
Облачные компании предпочитали стратегию дистрибуции снизу вверх (bottom-up). ИИ-компании все чаще выбирают стратегию сверху вниз (top-down) с моделью дистрибуции, основанной на доверии.

Мы видим, как новый класс приложений появляется в различных секторах экономики знаний. Вот несколько примеров:

Harvey: ИИ-юрист
Glean: ИИ-ассистент по работе
Factory: ИИ-программист
Abridge: ИИ-агент для ведения медицинских записей
XBOW: ИИ-пентестер
Sierra: ИИ-агент по поддержке клиентов

Снижая предельные затраты на предоставление этих услуг — в соответствии с падающей стоимостью генерации ответа — эти ИИ-приложения расширяются и создают новые рынки.

Возьмем, например, XBOW. XBOW разрабатывает ИИ-пентестера. Пентест (или тест на проникновение) — это имитация кибератаки на компьютерную систему, которую компании проводят для оценки своих систем безопасности. До появления генеративного ИИ компании нанимали пентестеров только в ограниченных случаях (например, когда этого требовалось стандартами и регуляторами), потому что человеческий пентест — это дорогая услуга: это ручная работа, выполняемая высококвалифицированным специалистом. Однако теперь XBOW демонстрирует автоматизированные пентесты, построенные на новейших моделях ИИ, которые сопоставимы с производительностью самых высококвалифицированных пентестеров. Это умножает рынок пентестинга и открывает возможность для постоянного пентестинга для компаний любого размера.

Ранее в этом году мы встретились с партнерами нашего фонда. Их главный вопрос был: «Уничтожит ли переход к ИИ существующие облачные компании?»

Мы начали с уверенного ответа «нет». Классическая битва между стартапами и действующими игроками — это скачки, где стартапы строят дистрибуцию, а действующие компании — продукт. Могут ли молодые компании с крутыми продуктами добиться большого числа клиентов до того, как действующие компании, у которых уже есть пул клиентов, предложат крутые продукты? Учитывая, что большая часть магии ИИ приходит от фундаментальных моделей, наше исходное предположение было таковым: нет — действующим компаниям не о чем переживать, потому что фундаментальные модели доступны им так же, как и стартапам, а у них уже есть преимущества в виде данных и дистрибуции. Основная возможность для стартапов — это не замена существующих программных компаний, а нацеленность на автоматизируемые области работы.

Сейчас мы уже не так уверены. Для того чтобы превратить исходные возможности модели в убедительное, надежное, комплексное бизнес-решение, требуется огромное количество инженерных усилий. А что если мы просто сильно недооценили, что значит быть “AI native”?

Двадцать лет назад компании, разрабатывающие on-premises программное обеспечение, насмешливо относились к идее SaaS. «В чем проблема? Мы можем запускать свои серверы и так же доставлять это через интернет!» Конечно, концептуально это было просто. Но за этим последовало полноценное переизобретение бизнеса.

А что если ИИ — это аналогичный сдвиг? Может быть, возможность для ИИ заключается не только в продаже работы, но и в замене ПО?

Стартап Day.ai уже позволил взглянуть в будущее. Day — это CRM, построенная с использованием ИИ. Системные интеграторы зарабатывают миллиарды долларов, настраивая Salesforce под ваши нужды. С доступом только к вашей электронной почте и календарю, а также ответами на одностраничный опрос, Day автоматически генерирует CRM, идеально подстроенную под ваш бизнес. У нее еще нет всех привычных фичей (пока), но магия автогенерируемой CRM, которая остается актуальной без участия человека, уже подталкивает людей к переключению.

Куда мы направляем наши усилия как инвесторы? Во что мы инвестируем? Ниже — наше краткое саммари.

Инфраструктура: Это область компаний-hyperscalers (стремительно растущие компании с сотнями миллионов пользователей). Ею движет поведение, основанное на теории игр, а не микроэкономике. Это неподходящее место для венчурного капитала.
Модели: Это также область компаний-hyperscalers и финансовых инвесторов. Они инвестируют деньги в компании-потребителей своих услуг/продуктов, инвестиции в итоге возвращаются обратно в виде доходов от облачных вычислений. Финансовые инвесторы слишком «ослеплены наукой». «Эти модели супер, а команды — просто невероятные. Микроэкономика? Да черт с ней!»
Инструменты для разработчиков и программное обеспечение для инфраструктуры: Менее интересно для стратегических инвесторов и более интересно для венчурных капиталистов. Примерно 15 компаний с доходом более $1 млрд было создано в этом сегменте во время перехода в облака, и мы предполагаем, что то же самое может произойти и с ИИ.
Приложения: Самый интересный сегмент для венчурного капитала. Примерно 20 компаний в этом сегменте с доходом более $1 млрд были созданы во время перехода в облака, еще около 20 — во время перехода на мобильные технологии, и мы предполагаем, что то же самое будет верно и для ИИ.

В следующем акте развития генеративного ИИ мы ожидаем, что влияние исследований в области «мышления» начнет ощущаться на уровне приложений. Эти изменения будут быстрыми и глубокими. Когда возможности «мышления» станут глубже встроенными в модели, мы ожидаем, что ИИ-агенты станут гораздо более сложными и устойчивыми — и это произойдет быстро.

В исследовательских лабораториях рассуждения и вычисления на этапе генерации ответа будут продолжать оставаться важной темой в обозримом будущем. Теперь, когда у нас есть новый закон масштабирования, начинается следующая гонка. Но для любой конкретной области все еще сложно собирать данные из реального мира и разрабатывать когнитивные архитектуры, специфичные для этой области и продукта. И вновь приложения «последней мили» могут получить преимущество в решении разнообразных проблем в реальном мире.

Заглядывая в будущее, мультиагентные системы, такие как «дроиды» Factory, могут начать распространяться как способы моделирования процессов мышления и обучения внутри социума.

Мы все с нетерпением ожидаем «Хода 37» генеративного ИИ — того момента, когда, как в игре AlphaGo против Ли Седоля, ИИ-система удивит нас чем-то сверхчеловеческим. Чем-то, что будет ощущаться как независимая мысль. Это не значит, что ИИ «проснется» (AlphaGo этого не сделал), а что мы сможем смоделировать процессы восприятия, рассуждения и действий, которые ИИ сможет исследовать новыми и полезными способами. Возможно, это и будет сильный искусственный интеллект (AGI), и если это так, то это не будет неким единичным событием, а станет просто следующей фазой развития технологий.

Новый виток в развитии генеративного ИИ: перспективы для стартапов и инвесторов

Strawberry Fields Forever

AlphaGo и большие языковые модели (LLM)

Мышление Системы 1 vs мышление Системы 2

Гонка за мышлением на этапе генерации ответа началась

Одна модель, чтобы править всеми?

Сложности реального мира: когнитивные архитектуры

Что происходит с приложениями?

Service-as-a-Software

ИИ-агенты — новый класс приложений

Что это значит для вселенной SaaS?

Инвестиционная вселенная

Заключительные мысли