Исследование исследовательского проекта Sakana AI

Sakana AI — токийский стартап в области исследований искусственного интеллекта, основанный в середине 2023 года бывшим ученым Google Brain Дэвидом Ха и соавтором архитектуры Transformer Ллионом Джонсом, совместно с бывшим директором по операциям Stability AI Реном Ито. При поддержке ведущих венчурных фондов Кремниевой долины и японских корпоративных гигантов, Sakana привлекла начальный раунд в 30 млн долларов и около 200 млн долларов в рамках серии А менее чем за год — достигнув оценки в 1,5 млрд долларов [https://sakana.ai/seed-round – 16 Jan 2024] [https://finance.yahoo.com/news/nvidia-corporation-nvda-sakana-ai-072820030.html – 17 Sep 2024].

Видение лаборатории заключается в создании "природно-вдохновленного" ИИ: вместо одной гигантской модели, рои меньших моделей сотрудничают подобно стае рыб. Команда Sakana разработала и опубликовала в открытом доступе новые эволюционные алгоритмы, которые объединяют существующие открытые модели для создания новых с минимальным обучением.

Они выпустили современные японские модели ИИ (EvoLLM-JP, EvoVLM-JP, EvoSDXL-JP), созданные с помощью этих методов, и даже систему "ИИ-ученый", которая автономно генерирует идеи, проводит эксперименты и пишет научные статьи — одна статья, сгенерированная ИИ, прошла рецензирование на семинаре ICLR 2025 [https://sakana.ai/ai-scientist-first-publication – 12 Mar 2025].

При существенной поддержке NVIDIA, NTT и японского правительства, Sakana создает мощную инфраструктуру GPU в Японии и продвигает принципы открытых исследований на GitHub/Hugging Face. Сотрудничество приносит большие награды и связано с некоторыми рисками: прорывы стартапа в адаптивном ИИ и автоматизированных исследованиях привлекают глобальное внимание, но они сталкиваются с жесткой конкуренцией (например, Mistral AI в Европе) и должны ориентироваться в правовых неопределенностях вокруг объединения моделей с открытым исходным кодом.

История основания: новая школа ИИ в Японии

В июле 2023 года Sakana AI возникла благодаря объединению ведущих умов в области ИИ, покинувших крупные технологические компании для прокладывания нового пути. Название "Sakana" — означающее "рыба" на японском — воплощает ключевую идею: множество простых агентов, действующих вместе. Логотип изображает стаю рыб, объединяющихся в более крупную форму, с одной красной рыбой, выбивающейся из общего строя, символизирующей как сотрудничество моделей Sakana, так и их способность идти против течения.

Соучредитель Дэвид Ха, известный исследователь ИИ, был пионером в области творческих нейронных сетей в Google Brain и кратковременно занимал должность руководителя исследований в Stability AI, прежде чем уйти в середине 2023 года. Его разочарование в традиционных подходах "гигантских моделей" и смятение в Stability AI создали предпосылки для более эволюционного, природно-вдохновленного видения ИИ.

К нему присоединился в качестве соучредителя Ллион Джонс, один из оригинальных авторов статьи 2017 года "Attention Is All You Need", которая представила архитектуру Transformer. Джонс привносит глубокие знания в области крупномасштабных языковых моделей и репутацию пионера Transformer.

Тройку основателей дополняет Рен Ито, бывший дипломат, ставший технологическим руководителем, который возглавлял европейскую экспансию Mercari и работал директором по операциям в Stability AI в 2022-23 годах. Ито обеспечивает деловую хватку и правительственные связи — ранее он работал в Министерстве иностранных дел Японии — делая его мостом между Sakana и корпоративным/правительственным миром Японии.

Эти трое "дальновидных лидеров" официально основали Sakana AI в Токио в 2023 году, задумав научно-исследовательскую лабораторию, сочетающую академическое любопытство с гибкостью стартапа. Обосновавшись в Японии, они стремились использовать богатый пул исследовательских талантов страны и уникальную культуру.

На вопрос "Почему Токио?" Дэвид Ха отметил, что индустрия творческого контента и инженерная экспертиза Японии создают плодородную почву для инноваций в области ИИ. При этом Японии не хватало высокопрофильной лаборатории ИИ, сопоставимой с OpenAI или DeepMind. Миссия Sakana заключалась в том, чтобы "поставить Токио на карту ИИ", подобно тому как OpenAI сделала для Сан-Франциско, а DeepMind для Лондона [https://www.reuters.com/technology/top-ex-google-researchers-raise-30-mln-tokyo-based-ai-lab-2024-01-16 – 16 Jan 2024].

Создание звездной команды

С самого начала Sakana собрала команду мирового класса, охватывающую исследования ИИ, инженерию и промышленность. Наряду с Ха (CEO) и Джонсом (CTO), основная команда Sakana включает ветеранов из Google, DeepMind, Preferred Networks и других компаний. Например, Такуя Акиба — известный разработкой Chainer в Preferred Networks и последующей работой в Stability AI — привносит экспертизу в фреймворки глубокого обучения.

Юджин Танг и Тарин Клануват, оба с опытом в Google Brain/DeepMind, вносят вклад в области обучения с подкреплением и компьютерного зрения. Из японской стартап-сцены пришли Макото Шинг (бывший руководитель ИИ в Rinna и Stability AI) и Кхи Сан (исследователь из LAION). Эта смесь талантов отражает философию Sakana по объединению глобальной и местной экспертизы.

Действительно, партнеры Lux Capital отметили, что способность Дэвида и Ллиона "привлечь ведущие таланты мира в области ИИ за такое короткое время" была "ошеломляющей". За 9 месяцев Sakana выросла с соучредителей до примерно 20 исследователей и инженеров — быстрое расширение, подпитываемое большими амбициями и ранними вливаниями финансирования [https://www.bloomberg.com/news/articles/2024-09-17/ai-startup-sakana-hits-1-5-billion-value-as-japan-inc-piles-in – 17 Sep 2024].

Важно отметить, что команда Sakana также преодолевает культурные и дисциплинарные границы. Наличие японских сотрудников, таких как Шинг и Сан, помогает лаборатории адаптировать ИИ к японскому языку и социальному контексту. А присутствие Джеффа Дина (руководителя ИИ в Google) и Клемана Делангу (CEO Hugging Face) в качестве ангелов-советников подчеркивает глубокие связи Sakana с более широким сообществом ИИ.

История финансирования: от посева до единорога стоимостью $1,5 млрд

Запуск лаборатории ИИ с такими высокими целями требует значительного капитала — и Sakana AI не теряла времени на его привлечение. Траектория финансирования компании была крутой и стремительной. В январе 2024 года, всего через шесть месяцев после основания, Sakana объявила о привлечении посевного раунда в размере $30 млн под руководством Lux Capital и Khosla Ventures [https://sakana.ai/seed-round – 16 Jan 2024]. Это необычно крупный посевной раунд по любым стандартам, отражающий уверенность инвесторов в послужном списке основателей.

Как отметил основатель Khosla Винод Хосла, "Таланты в области ИИ распределены глобально... и Sakana AI готова использовать региональные таланты" в Японии. В посевном раунде также приняли участие японские корпорации, такие как NTT, KDDI и Sony, что стало одним из первых случаев, когда ведущие венчурные фонды Кремниевой долины объединились с технологическими гигантами Японии на столь ранней стадии.

Особо стоит отметить, что Джефф Дин (Google) и Алекс Ван (Scale AI) также вложились в качестве ангелов-инвесторов, что стало сильной поддержкой от инсайдеров отрасли ИИ. Первоначальные $30 млн финансировали найм основной команды и ранние исследования и разработки, но взгляды Sakana были направлены выше.

К середине 2024 года прогресс стартапа и растущий интерес Японии к суверенному ИИ привели к огромному раунду серии А. В сентябре 2024 года Sakana AI закрыла раунд серии А на сумму $214 млн, подняв свою оценку до $1,5 млрд всего через ~14 месяцев после основания [https://financialpost.com/technology/ai-startup-sakana-1-5-billion-value-japan – 17 Sep 2024]. Это сделало Sakana одним из самых быстрых единорогов Японии за всю историю.

Раунд был совместно возглавлен тяжеловесными американскими инвесторами New Enterprise Associates (NEA) и Khosla Ventures, при продолжающейся поддержке от Lux Capital. Но настоящая история заключалась в массовом участии Японии: все три японских мегабанка — MUFG, SMBC и Mizuho — плюс корпоративные титаны, такие как NEC, Fujitsu, KDDI, Itochu, Nomura, ANA и Tokio Marine, присоединились в качестве стратегических инвесторов.

Даже Dai-ichi Life Insurance и крупные венчурные фонды, такие как JAFCO и Global Brain, приняли участие. Короче говоря, целый ряд японских финансовых, телекоммуникационных и промышленных игроков инвестировал в видение Sakana как домашнего чемпиона ИИ.

Эта беспрецедентная коалиция фондов Кремниевой долины и японских конгломератов дала Sakana не только деньги, но и рычаги партнерства (подробнее об этом позже). Участие корпорации NVIDIA в серии A особенно примечательно — NVIDIA не только инвестировала, но и сформировала сотрудничество для предоставления Sakana передовых GPU и исследовательской поддержки.

Согласно источникам Bloomberg, поддержка NVIDIA и приток японского корпоративного капитала подняли оценку Sakana до $1,5 млрд в этом раунде — экстраординарная цифра для компании, у которой еще нет продукта на рынке [https://financialpost.com/technology/ai-startup-sakana-1-5-billion-value-japan – 17 Sep 2024]. Действительно, серия A была крупнейшей венчурной сделкой Японии в третьем квартале 2024 года, превзошедшей даже отечественные финтех и дрон-компании (Venture Pulse Q3 2024).

Почему инвесторы делают большие ставки

Что объясняет такое восторженное финансирование? Стратегические соображения имели большое значение. Правительство и промышленность Японии все больше беспокоились об отставании в области ИИ и увидели в Sakana катализатор для наверстывания в генеративном ИИ.

Джош Вольф из Lux Capital заметил, что "все в ИИ гоняются за вчерашним трансформером... мы нашли ответ в новых базовых моделях, вдохновленных эволюцией", которые строятся в Японии. Другими словами, инвесторов привлек смелый, природно-вдохновленный подход Sakana, который обещал обойти затратную гонку по просто масштабированию моделей трансформеров.

Кроме того, существует мотив "суверенного ИИ": партнер NEA отметил, что страны хотят свои собственные отечественные модели ИИ для безопасности и культурной релевантности. Поддержка Sakana могла позиционировать Японию как лидера с системами ИИ, адаптированными к японскому языку и ценностям.

Глобальная авторитетность основателей была еще одним магнитом — наличие соавтора Transformer и бывшего руководителя Google Brain во главе сигнализировало о том, что Sakana могла произвести фундаментальные исследования, а не только приложения. К концу 2024 года казна Sakana в размере более $240 млн общего финансирования позволила ей агрессивно нанимать таланты и инвестировать в вычислительную инфраструктуру.

Стартап расширился до ~30 членов команды (согласно его профилю на Hugging Face) и начал масштабировать эксперименты, которые могут проводить только хорошо финансируемые лаборатории. Грейс Исфорд из Lux заметила, что Sakana стремилась сделать для Токио то, что OpenAI сделала для Сан-Франциско, а DeepMind для Лондона — по сути, создать центр притяжения для исследований ИИ в Азии.

Природно-вдохновленная философия ИИ

С самого начала Sakana AI отличилась биологически вдохновленной философией. Основатели часто ссылаются на экологию и эволюцию как на руководящие метафоры для построения ИИ. Это преднамеренный контраст с основным подходом ИИ, предполагающим одну гигантскую модель, поглощающую всё (подход, олицетворяемый GPT-4 или PaLM от Google).

Дэвид Ха и команда верят, что будущее лежит в "коллективном интеллекте" — множестве специализированных моделей, взаимодействующих друг с другом — как организмы в экосистеме. Само название компании и логотип (рыбы, образующие стаю) воплощают эту веру в то, что простые правила на локальном уровне могут привести к сложному, разумному поведению на уровне группы.

Как говорит Дэвид Ха: "мы хотим использовать идеи из природы, такие как эволюция и коллективный интеллект, в наших исследованиях". Основная идея в том, что рой меньших ИИ может решать проблемы более гибко, чем монолитный ИИ. Подобно тому, как колония муравьев или стая птиц может выполнять задачи посредством распределенного сотрудничества, модели Sakana разработаны для общения и дополнения навыков друг друга.

Этот подход иногда называют "ИИ-созвездиями" (термин, используемый в соглашении о НИОКР Sakana с NTT) — архитектура, где множество моделей ИИ связаны в общую структуру.

На практике Sakana предусматривает разбиение сложных задач на части, обрабатываемые различными специализированными моделями. Например, вместо одной модели, которая пытается делать математику, зрение и язык, Sakana могла бы развивать отдельные экспертные модели (одна превосходит в математическом рассуждении, другая в визуальном понимании и т.д.), которые могут сотрудничать или объединяться при необходимости.

Технический директор NTT описал это как "малые и разнообразные модели ИИ сотрудничают... для решения сложных социальных проблем", подчеркивая устойчивость и эффективность, а не грубомасштабное масштабирование.

Эта философия также соответствует мультиагентным системам и идее модульности в ИИ. Исследователи Sakana часто отмечают, что естественная эволюция производит высокоспециализированные организмы для ниш (например, колибри против кита), которые коллективно делают экосистему устойчивой.

По аналогии, они утверждают, что ИИ должен состоять из множества нишевых моделей, каждая из которых превосходна в определенной области, а не одной модели, обученной всему. Это отчасти является ответом на пределы масштабирования современного ИИ — обучение одной гигантской модели с триллионами параметров чрезвычайно дорого и энергоемко.

Sakana предполагает, что более устойчивый путь — это развивать ИИ "горизонтально" через популяции моделей, которые эволюционируют и сотрудничают, во многом как экосистема диверсифицируется. Sakana AI явно проводит параллели с дарвиновской эволюцией и сложными адаптивными системами.

В своих работах команда упоминает "сложность из простых правил", как видно в стаях птиц или нейронных цепях в мозге (Transformer²: самоадаптивные языковые модели). Одним из краеугольных камней их философии является использование эволюционных алгоритмов (ЭА) в разработке ИИ, что мы подробно рассмотрим вскоре.

Они рассматривают эволюцию как алгоритм природы для поиска и оптимизации — она может открывать творческие решения, которые могут упустить инженеры-люди. Вместо одного только градиентного спуска, Sakana использует эволюционные "мутации" и операции "кроссовера" на нейронных сетях, подобно смешиванию генов и мутациям.

"Наша цель не просто обучить одну модель. Мы хотим создать механизм для автоматического генерирования моделей для нас", — написала Sakana, подчеркивая долгосрочную цель автоматизировать саму разработку ИИ.

Эволюционное слияние моделей: выращивание новых видов ИИ

Одним из первых крупных исследовательских направлений Sakana AI было то, что они называют Эволюционным слиянием моделей — техника, которая применяет эволюционные алгоритмы для объединения существующих моделей в новые.

Этот подход является прямым проявлением их природно-вдохновленного этоса — он рассматривает предварительно обученные модели из сообщества ИИ как "генофонд", который можно рекомбинировать для получения моделей-потомков с новыми возможностями.

В начале 2024 года Sakana опубликовала отчет под названием "Эволюционная оптимизация рецептов слияния моделей" (выпущенный как открытая статья и блог-пост). Проблема, которую он решает, заключается в том, как эффективно создавать специализированные модели ИИ без обучения с нуля, вместо этого объединяя веса нескольких моделей с открытым исходным кодом умными способами.

Слияние моделей уже набрало популярность в сообществе крупных языковых моделей (LLM) как дешевый способ смешивать сильные стороны разных моделей (иногда называемый "моделью-супом"). Однако это было больше искусством, чем наукой — практики вручную пытались объединить две контрольные точки модели (например, английскую LLM и математическую LLM) посредством взвешенного усреднения и смотрели, наследует ли результат оба навыка.

Вклад Sakana заключался в автоматизации этого процесса с использованием эволюционного поиска. Их система трактует каждую возможную стратегию слияния (какие модели комбинировать, на каком слое, с какими весовыми коэффициентами и т.д.) как особь в популяции. Затем она определяет функцию пригодности, основанную на желаемых возможностях, и использует эволюционные циклы (отбор, кроссовер, мутация) для развития все лучших и лучших объединенных моделей.

Ключевым моментом является то, что этот метод исследует комбинации, о которых люди могли бы не подумать. "Наш подход действует как в пространстве параметров, так и в пространстве потока данных", — написала команда, имея в виду, что они не просто интерполируют веса, но также могут маршрутизировать выходные данные между моделями, подобно соединению различных нейронных модулей.

Через многие поколения случайных возмущений и отборов алгоритм обнаруживает эффективные "рецепты" для объединения моделей из "обширного океана моделей с открытым исходным кодом", которые доступны. Масштаб этого океана огромен — как они отмечают, Hugging Face Hub размещает более 500 000 моделей для разных задач.

Одним из поразительных результатов было то, что Sakana обнаружила: эволюция могла объединять модели из совершенно разных доменов (например, японскую языковую модель и модель решения математических задач) в единую модель, которая освоила оба навыка, "нетривиальными способами, которые могло бы быть сложно обнаружить экспертам-людям".

Это автоматизированное слияние дало несколько удивительно мощных гибридов. Например, взяв японскую LLM и специализированную математическую LLM и развив их слияние, они создали японскую математическую LLM, которая превзошла даже некоторые японские модели, в 10 раз большие по размеру, в общих языковых способностях.

Исследователи признают, что "к нашему удивлению", эта объединенная модель с 7 млрд параметров не только превосходно справлялась с математическими текстовыми задачами, но и достигла передовых результатов по многим японским языковым тестам, даже превзойдя предыдущие модели с 70 млрд параметров. Другими словами, эволюционный процесс нашел оптимальное сочетание, которое дало 7-миллиардной модели исключительное понимание японского языка, по сути, трансферное обучение через слияние.

Аналогично, они объединили японоязычную модель с моделью понимания изображений для создания японской мультимодальной модели (VLM). Эта EvoVLM-JP была протестирована на описании изображений с культурно-специфическим содержанием и достигла высоких показателей в японском тесте на подписывание изображений. Она превосходно справлялась с японским культурным контекстом — предположительно потому, что японская текстовая модель принесла культурные знания, а визуальная модель — визуальную основу.

Sakana не ос��ановилась на языке и зрении. Они также применили эволюционное слияние к моделям генерации изображений. Путем комбинирования диффузионных моделей новыми способами и даже мутации их параметров, они создали модель изображений, которую назвали EvoSDXL-JP. Эта модель основана на SDXL от Stability AI (генератор изображений по тексту), но эволюционировала, чтобы стать "японоспособной" и чрезвычайно быстрой — она может генерировать изображения всего за 4 шага диффузии, при этом сохраняя высокое качество.

На практике это примерно в 10 раз более быстрая генерация изображений, чем у стандартной Stable Diffusion, как сообщила Sakana в апреле 2024 года. Они назвали EvoSDXL-JP "японской DALL-E 3" за ее способность создавать изображения в японском стиле и обрабатывать японские текстовые запросы, что немногие генеративные модели могли делать на тот момент.

К середине 2024 года Sakana AI представила триаду моделей для японского рынка, все рожденные из эволюционного слияния моделей:

  • EvoLLM-JP — японская языковая модель с 7 млрд параметров с сильным логическим/математическим мышлением. Она была создана путем слияния экспертной математической модели с базовой японской LLM.
  • EvoVLM-JP — мультимодальная модель, которая может понимать изображения и текст на японском языке. Она эволюционировала путем комбинирования визуальной модели с японской текстовой моделью.
  • EvoSDXL-JP — диффузионная модель генерации изображений, настроенная для японских запросов и стилей. Вместо обучения совершенно нового генератора изображений для японского контента, Sakana "вырастила" его путем слияния существующих диффузионных моделей.

Sakana опубликовала в открытом доступе EvoLLM-JP и EvoVLM-JP в начале 2024 года (EvoSDXL-JP появилась чуть позже), чтобы позволить сообществу и предприятиям в Японии экспериментировать. Тем самым они внесли новые передовые японские модели обратно в мир открытого исходного кода, выполняя свое обещание демократизировать разработку ИИ.

Одним из самых интригующих аспектов эволюционного слияния моделей является его вычислительная эффективность. Команда Sakana подчеркнула, что их метод требует "относительно мало вычислительных ресурсов", поскольку избегает длительного обучения на основе градиентов. По сути, они используют вычислительную мощь, уже вложенную в обучение исходных моделей.

ИИ-ученый: ИИ, создающий исследования ИИ

Если слияние открытых моделей — это одна часть плана Sakana по автоматизации разработки ИИ, то другая — создание систем ИИ, которые могут проводить исследования автономно. Вот и появился "ИИ-ученый" — амбициозная система Sakana, направленная на полностью автоматизированное открытое научное открытие.

Представленная в конце 2024 года, система "ИИ-ученый" (v1) по сути является управляемым ИИ исследовательским конвейером, который может генерировать новые гипотезы, проводить эксперименты (в коде), анализировать результаты и писать научные статьи с минимальным участием человека или вообще без него. Это попытка Sakana ответить на давний научно-фантастический вопрос: может ли ИИ выполнять работу исследователя-докторанта?

Система ИИ-ученый v1 была описана в декабрьском отчете Sakana, написанном в соавторстве с академическими сотрудниками из Оксфордского университета и Университета Британской Колумбии. Она действует как мета-исследователь, состоящий из множества компонентов (которые, подходящим образом, похожи на специализированных агентов): генератор идей, исполнитель экспериментов, анализатор данных, инструмент визуализации и составитель научных статей.

В типичном цикле ИИ-ученый генерирует исследовательские идеи (например, предлагает новый метод улучшения обучения трансформеров). Затем он разбивает идею на серию экспериментов — написание кода на Python или симуляций для проверки гипотезы. Используя интегрированные возможности ИИ-кодирования, он пишет необходимый код и выполняет его, предположительно в предоставленной вычислительной песочнице.

После получения результатов (данные, метрики, графики) ИИ-ученый анализирует итоги, ищет закономерности или подтверждает, была ли поддержана гипотеза. Он даже генерирует графики и диаграммы для визуализации результатов эксперимента. Наконец — и что примечательно — он пишет все исследование в виде полноценной научной статьи в формате LaTeX, с введением, методологией, результатами и заключением.

Этот комплексный процесс по сути автоматизирует то, что человеческая исследовательская команда делала бы в течение недель или месяцев, сжимая это, возможно, до часов и стоимостью всего лишь нескольких долларов облачных вычислений. Sakana сообщила, что создание полной статьи с помощью ИИ-ученого v1 стоит только около $15 в AWS. Эта цифра удивительно низкая — предполагающая, что система могла бы итерировать сотни раз за цену одной поездки исследователя на конференцию.

Чтобы продемонстрировать качество контента, Sakana также встроила автоматизированного рецензента в цикл. По сути, другой ИИ-агент будет читать написанную ИИ статью, предоставлять обратную связь и критику, и предлагать улучшения. Это имитирует академический процесс рецензирования, заставляя ИИ-ученого улучшать свою работу.

Sakana не остановилась на внутренних демонстрациях. В начале 2025 года они сделали смелый шаг: подали исследования, сгенерированные ИИ, в реальную академическую конференцию. Они улучшили свою систему до ИИ-ученого v2, с улучшениями в надежности и стратегии. Затем они нацелились на Международную конференцию по представлению обучения (ICLR 2025) — топовую конференцию по ИИ — конкретно на один из ее семинаров.

Результат: одна из статей, сгенерированных ИИ-ученым v2, была принята на семинар ICLR 2025 после рецензирования, что, вероятно, стало первым случаем, когда полностью написанная ИИ статья преодолела этот барьер. Статья под названием "Композиционная регуляризация: неожиданные препятствия в улучшении обобщения нейронных сетей" описывала отрицательный результат, который ИИ обнаружил при попытке применить новые методы регуляризации.

Она получила средние оценки рецензентов 6,33 из 10, что было выше порога приема и на уровне многих статей, написанных людьми. Фактически, она получила одну рецензию с оценкой "Хорошая статья, принять" (7) и две "Немного выше порога" (6) — достойный результат. Sakana отмечает, что эти оценки поставили статью примерно на 45-й процентиль среди поданных работ, что означает, что она была сильнее примерно половины статей — впечатляющее достижение для автора-ИИ.

Важно прояснить этический контекст: Sakana получила согласие и сотрудничество руководства ICLR для этого эксперимента. Рецензенты были проинформированы о том, что некоторые поданные работы могли быть сгенерированы ИИ, но им не сказали, какие именно. Это сохраняло процесс рецензирования в некотором смысле двойным слепым — рецензенты должны были судить статью исключительно по заслугам.

Из трех статей, написанных ИИ, которые подала Sakana, две были оценены слишком низко и отклонены, но третья прошла отбор. Sakana затем отозвала статью после принятия (согласно их протоколу, чтобы избежать фактического внесения контента ИИ в академический архив пока).

В сумме, проект ИИ-ученый Sakana демонстрирует готовность лаборатории раздвигать границы автономности ИИ. Они не просто довольствуются разработкой моделей; они хотят, чтобы ИИ стал участником научного процесса. В случае совершенствования такие системы ИИ могли бы резко ускорить инновации — представьте тысячи "ученых" ИИ, параллельно исследующих идеи.

Transformer-Squared: самоадаптивные мозги ИИ

Еще одним заметным исследовательским результатом от Sakana AI является Transformer² (Transformer-Squared), статья, опубликованная в январе 2025 года, которая предлагает новый способ для моделей ИИ адаптировать себя в реальном времени. Transformer² решает одну из самых больших проблем с современными моделями ИИ: однажды обученная, веса модели фиксируются, и она работает статически, даже когда сталкивается с новыми задачами или контекстами.

Люди, напротив, могут адаптироваться на лету — мы корректируем наши стратегии при решении новой головоломки или можем очень быстро выучить новое правило. Transformer² стремится дать моделям ИИ часть этой способности, позволяя им модифицировать собственные веса во время вывода, чтобы лучше справляться с любой задачей, которая стоит перед ними.

Основная идея Transformer² — это двухэтапный процесс каждый раз, когда модель видит новый ввод или запрос. Сначала модель запускает быстрый аналитический проход для определения того, какой тип задачи представляет входной запрос (например, это математическая проблема? запрос на кодирование? визуальный вопрос?). На основе этого диагноза модель затем активирует набор задаче-специфичных "экспертных" весов и модифицирует свои собственные весовые матрицы с помощью этих экспертов перед выдачей окончательного ответа.

По сути, Трансформер становится Трансформером в квадрате — Трансформер, который включает в себя еще одно преобразование своих весов внутренне. Как он модифицирует свои веса? Исследователи Sakana использовали сингулярное разложение (SVD) для разбиения весовых матриц модели на компоненты. Они обнаружили, что, регулируя определенные сингулярные значения или векторы (главные компоненты весовой матрицы), они могли значительно изменить поведение модели контролируемым образом.

Они обучили маленькие "экспертные" векторы, соответствующие различным типам задач, используя обучение с подкреплением, так что когда эти векторы применяются, модель специализируется для этой задачи. Во время вывода, первый проход модели (диспетчерская сеть) решает, как смешать эти экспертные векторы и соответственно настроить веса основной модели.

Это похоже на наличие ИИ, который учится учиться: мета-уровень, который может настроить базовую модель соответствующим образом для каждого запроса. Это контрастирует с дообучением, где после того, как вы дообучаете на новой задаче, модель перманентно изменяется (часто теряя часть своей предыдущей универсальности). Transformer² вместо этого делает адаптацию на ходу, обратимую — после ответа он может вернуться к своему базовому состоянию для следующего запроса или адаптироваться иначе для другой задачи.

Эволюционные рои и CycleQD

Продолжая природно-вдохновленную траекторию, Sakana AI исследовала обучение на основе популяций помимо попарного слияния моделей. Заметным проектом является CycleQD, что означает Cyclic Quality-Diversity (Циклическое Качественное Разнообразие), представленный в конце 2024 года. CycleQD — это фреймворк для обучения роя специализированных языковых моделей, которые коллективно охватывают широкий набор навыков, используя эволюционные принципы оптимизации качества-разнообразия.

Проблема, которую Sakana решала с помощью CycleQD, заключается в том, как эффективно создавать множество компактных моделей, каждая из которых превосходна в конкретной нише (например, кодирование, арифметика, перевод и т. д.), при этом сохраняя некоторые общие возможности. Традиционное дообучение могло бы создать отдельные модели для каждого навыка, но эти модели могли бы забыть общие языковые способности или быть избыточными.

CycleQD вместо этого запускает алгоритм на основе популяций: начиная с некоторых экспертных моделей (скажем, модель кода, математическая модель и т. д.), он использует слияние моделей как операцию кроссовера и мутацию на основе SVD для генерации новых кандидатских моделей, которые комбинируют навыки. Затем он оценивает каждую модель по нескольким поведенческим характеристикам (разнообразным задачам) и выбирает разнообразный набор высокопроизводительных моделей.

За множество циклов популяция "заполняет" сетку особенностей (представьте оси для разных навыков) по крайней мере одной моделью, которая превосходна в каждой комбинации навыков. Аналогия, приведенная в документации, — это сбор множества типов волшебных бобов: вместо одного лучшего боба, вы хотите коллекцию первоклассных бобов каждого цвета и вкуса.

В терминах ИИ, вы получаете набор моделей, каждая из которых потенциально меньше (Sakana использовала 8 млрд параметров для каждого агента в экспериментах), но каждая освоила подмножество задач чрезвычайно хорошо. Важно отметить, что они также пытались обеспечить, чтобы каждая модель сохраняла базовый уровень общих языковых способностей, так что ни одна из них не является полностью узким специалистом.

CycleQD показал свою мощь на агентских задачах, которые относятся к многошаговому принятию решений и использованию инструментов языковыми моделями. Sakana конкретно целилась на комплексные тесты решения проблем по информатике, где одна большая модель может испытывать трудности.

Эволюционный рой, произведенный CycleQD, включал модели, которые "чрезвычайно способны в различных сложных агентских тестах, особенно в задачах по информатике", при этом оставаясь размером всего 8 млрд параметров каждая. Примечательно, что подход распространился и на неязыковые домены; они упоминают эволюцию моделей для сегментации изображений с использованием той же идеи, подчеркивая универсальность метода.

Инфраструктура и партнерства

Для достижения всей этой передовой работы Sakana AI активно выстраивала свою инфраструктуру и партнерства. Небольшой стартап не может напрямую конкурировать с вычислительной мощью Big Tech, поэтому Sakana использовала сотрудничество, чтобы бить выше своего веса, особенно в Японии, где поддержка правительства и корпораций для ИИ усилилась.

Одним из наиболее важных партнеров Sakana является NVIDIA — доминирующая компания в аппаратном обеспечении для ИИ. В рамках сделки серии A в сентябре 2024 года, NVIDIA не только инвестировала капитал, но и вступила в стратегическое сотрудничество. Это сотрудничество опирается на три столпа, которые обозначила Sakana: Исследования, Инфраструктура и Сообщество.

В исследованиях Sakana получает ранний доступ к GPU-технологиям NVIDIA и может работать вместе над оптимизацией алгоритмов. Для инфраструктуры NVIDIA поддерживает Sakana в создании дата-центров в Японии, оснащенных самыми передовыми GPU. На практике это может означать предоставление серверов DGX или помощь Sakana в настройке облачного кластера, оптимизированного для обучения моделей.

К 2025 году Sakana намекнула, что они "наконец-то имеют свой собственный GPU-кластер" онлайн — переход от "GPU-бедности" к обильным вычислениям, в значительной степени благодаря NVIDIA и вливанию финансирования. Этот кластер жизненно важен для тренировочных экспериментов, таких как популяции CycleQD или запуск сотен испытаний ИИ-ученого параллельно.

Партнерство также фокусируется на построении ИИ-сообщества Японии: Sakana, с поддержкой NVIDIA, планирует проводить мероприятия, хакатоны и учебные программы для развития местных талантов. Сам CEO NVIDIA Дженсен Хуанг одобрил миссию Sakana, сказав, что они помогают "стимулировать демократизацию ИИ в Японии" путем разработки базовых моделей на платформе NVIDIA.

От самого начала Sakana искала японскую правительственную поддержку и была весьма успешна. В конце 2023 года, когда METI Японии запустило программы для укрепления отечественного ИИ, Sakana подала заявку и выиграла грант NEDO GENIAC на суперкомпьютерные вычисления. Объявленный в феврале 2024 года, он сделал Sakana одной из 7 институций (и примечательно, единственным стартапом среди в основном университетов), получивших доступ к продвинутым суперкомпьютерным кластерам правительства для НИОКР базовых моделей.

Программа GENIAC конкретно нацелена на разработку базовых моделей после ChatGPT, что свидетельствует о решимости Японии развивать местные модели ИИ. Через этот грант Sakana получила возможность использовать кластер с новейшими GPU на несколько месяцев в 2024 году. Они, вероятно, использовали это время для запуска крупномасштабных тренировок или эволюционных прогонов, которые иначе были бы слишком дорогостоящими.

Посевной раунд Sakana включал NTT, KDDI и Sony в качестве инвесторов, и они пришли с соглашениями о партнерстве. Наиболее заметно, NTT (Nippon Telegraph & Telephone) — одна из крупнейших технологических компаний Японии — подписала соглашение о НИОКР с Sakana в ноябре 2023 года. Цель: разработать "ИИ-созвездия" малых моделей для устойчивого генеративного ИИ.

NTT привнесла свою длинную историю в обработке естественного языка и новую фотонную вычислительную инфраструктуру (инициатива IOWN), в то время как Sakana внесла свой опыт в мульти-модельной архитектуре. Это предполагает, что Sakana может получить доступ к проприетарным технологиям NTT, таким как языковая модель "tsuzumi" (сжатая японская LLM, о которой NTT объявила), и в обмен помочь NTT построить системы, где tsuzumi и другие малые модели работают согласованно.

Этос открытого исходного кода и релизы

Несмотря на венчурное финансирование и стремление к коммерческому воздействию, Sakana AI приняла заметно открытый подход к своим исследовательским результатам. Это соответствует их позиционированию как НИОКР-лаборатории (подобно тому, как DeepMind или OpenAI изначально публиковали статьи открыто). Это также стратегично: открывая исходный код моделей и кода, они быстро создают репутацию и использование сообществом, что в свою очередь привлекает таланты и партнеров в экосистеме ИИ.

Sakana очень активна на Hugging Face, где у них есть верифицированный организационный аккаунт с десятками моделей и даже "коллекциями" проектов. Они выпустили ключевые модели, обсужденные ранее: EvoLLM-JP и EvoVLM-JP были сделаны свободно доступными для исследований на Hugging Face весной 2024 года. Это означает, что любой может загрузить 7-миллиардную японскую LLM или мультимодальную модель и протестировать их.

Вероятная лицензия — некоммерческая, потому что эти модели включают другие открытые модели, которые могут иметь ограничения. Действительно, отчет Analytics India отметил, что EvoSDXL-JP была на Hugging Face "только для исследовательских и образовательных целей". Тем самым Sakana избегает нарушения любых лицензий исходных моделей (многие академические проекты делают подобное). Это также немного защищает их — компании могут экспериментировать, но не могут напрямую монетизировать эти точные веса без разрешения.

Kod ИИ-ученого был опубликован в открытом доступе на GitHub (репозиторий SakanaAI/AI-Scientist). После их эксперимента с ICLR они выпустили технический отчет и полный код для ИИ-ученого v2, включая агентский фреймворк и примеры сгенерированных ИИ статей/результатов. Эта прозрачность была отчасти для того, чтобы адресовать скептицизм — изучая код, другие могут подтвердить, что никакой человек не был тайно в цикле. Это также приглашает вклады от исследовательского сообщества для улучшения системы.

Kod Transformer² также был выпущен (SakanaAI/self-adaptive-llms на GitHub). Это, вероятно, включает скрипты обучения для экспертных векторов и код вывода для запуска двухпроходной адаптации. Наличие этого в открытом домене означает, что другие могут воспроизвести подход на разных базовых моделях или задачах, возможно, приводя к последующим исследованиям, цитирующим работу Sakana.

CycleQD и связанный эволюционный код CycleQD и связанный эволюционный код также доступны. Их GitHub показывает репозитории, такие как "evolutionary-model-merge" (с кодом EvoLLM) ([2403.13187] Эволюционная оптимизация рецептов слияния моделей) и, предположительно, "cycle-llm" или что-то подобное для CycleQD. Они также выпустили некоторые дистиллированные модели, такие как TinySwallow-1.5B (компактная японская модель, дистиллированная с помощью их методов).

Выпуская эти активы, Sakana завоевывает расположение сообщества и долю внимания. Японские разработчики ИИ, в частности, теперь имеют локально релевантные модели для использования в качестве основы (например, стартапы могут использовать EvoLLM-JP как основу для чат-ботов без опоры на англоцентричный GPT). Это также помогает Sakana устанавливать стандарты — например, если EvoLLM-JP становится основной японской LLM в бенчмарках, любой конкурент должен соответствовать этой планке, установленной Sakana.

Балансирование открытости и коммерциализации

Конечно, Sakana также должна определить, как монетизировать или защищать свою интеллектуальную собственность при необходимости. Модели, выпущенные до сих пор, вероятно, лишь первые версии (v1). Возможно, Sakana сохраняет более продвинутые версии приватными или предлагает их по коммерческой лицензии. Например, EvoLLM-JP-v2 может быть в разработке с проприетарными данными, которые они могли бы предлагать как API или настраиваемое решение для предприятий.

Этот подход "открытого ядра" — открыть базовые модели, продавать улучшенные — является обычным для компаний с открытым исходным кодом. Другой аспект: открытые публикации Sakana (как результаты ИИ-ученого) могли бы привлекать корпоративные услуги. Компания может обратиться к Sakana для внедрения "ИИ-ученого" для своей внутренней базы данных НИОКР или для эволюции моделей для их конкретной области. Sakana могла бы взимать консультационные или лицензионные сборы за такие индивидуальные решения, используя свои открытые исследования в качестве витрины.

Стоит отметить, что все открытые релизы Sakana цитируют источники и признают комбинирование других моделей, что юридически важно. Они тщательно избегают смешивания несовместимых лицензий таким образом, который вынудил бы их открывать коммерческие секреты. Сохраняя это только для исследовательских целей, они ориентируются в сложной территории производных моделей.

Конкурентные и юридические риски

Никакая оценка Sakana AI не была бы полной без рассмотрения вызовов и рисков, с которыми она сталкивается. Хотя компания имеет инерцию, она работает в чрезвычайно конкурентной и быстро меняющейся области, с техническими и стратегическими подводными камнями для навигации.

Sakana может быть большой рыбой в относительно малом пруду японской ИИ-сцены, но глобально она противостоит китам. Компании вроде OpenAI, DeepMind, Anthropic и даже открытые коллективы (например, EleutherAI) все соревнуются в улучшении моделей ИИ. Примечательно, что Mistral AI, французский стартап, основанный примерно в то же время (середина 2023 года), привлек огромный посев ($113 млн) и быстро выпустил 7-миллиардную модель с открытым исходным кодом.

Mistral позиционирует себя как европейский чемпион, фокусирующийся на меньших, эффективных моделях — в некотором смысле аналог миссии Sakana для Японии. К концу 2024 года Mistral, по сообщениям, работал над мультимодальными моделями и также подчеркивал открытый выпуск высококачественных LLM. Это представляет прямую конкуренцию в пространстве "суверенного ИИ".

Более того, гиганты вроде Meta (с Llama 2 и т.д.) и Google открывают исходный код или, по крайней мере, широко распространяют сильные модели. Meta's Llama 2 (выпущенная в середине 2023 года) установила прецедент предоставления топовой 70-миллиардной модели разработчикам бесплатно (с некоторыми ограничениями использования).

EvoLLM-JP от Sakana, хотя и является современной для японского языка, в конечном итоге может столкнуться с конкуренцией от японоязычной версии Llama или другой модели, если кто-то инвестирует в это. OpenAI не фокусировалась на японоспецифичных моделях, но они постоянно улучшают свои многоязычные возможности; GPT-4 уже довольно хорошо справляется с японским языком для многих задач.

Одно конкурентное преимущество, на которое надеется Sakana, — это ее целостный, автоматизированный подход (как ИИ-ученый). Но и здесь другие идут по следу: различные стартапы и исследовательские лаборатории работают над автономией ИИ. Если хорошо обеспеченная лаборатория создаст систему "ИИ-исследователя" с большей надежностью, претензии Sakana на новизну могут уменьшиться.

Опора Sakana на модели с открытым исходным кодом поднимает вопросы интеллектуальной собственности. Когда вы объединяете или развиваете модели, которые изначально были созданы другими, вы должны соблюдать их лицензии. Некоторые открытые модели лицензированы свободно (Apache, MIT), что не создает проблем для повторного использования. Но другие, особенно высокопроизводительные, могут быть под некоммерческими или только исследовательскими лицензиями.

Если Sakana случайно или преднамеренно включила такие модели в результат эволюции, этот результат унаследовал бы ограничения лицензии. Это могло бы ограничить способность Sakana коммерциализировать развитую модель. Например, если EvoLLM-JP использовала веса от математической модели, которая была некоммерческой, тогда сама EvoLLM-JP не может использоваться в платном продукте, если не перелицензирована с разрешения.

Другая серая зона — лицензирование данных и происхождение. Если какая-то модель с открытым исходным кодом, которую объединила Sakana, была обучена на данных, включающих защищенный авторским правом текст или код (что обычно), несет ли объединенная модель какую-либо ответственность за это? В целом, объединенные веса крайне абстрактны и вряд ли нарушают конкретные авторские права на содержание, но это не проверено в судах.

Рекомендации по сотрудничеству

Рекомендуется:

Не рекомендуется:

  • Недоказанный коммерческий путь. Sakana сфокусирована на НИОКР без коммерческих продуктов на рынке пока (Ведущие экс-исследователи Google привлекли $30 млн для токийской лаборатории ИИ | Reuters). Если ваш приоритет — немедленно развертываемое решение, технология может нуждаться в дальнейшем созревании и интеграционной работе.
  • Сложность подхода. Мульти-модельная "роевая" философия Sakana может внести операционную сложность. Интеграция многих малых моделей или ИИ, который пишет свой собственный код, может быть избыточной для некоторых приложений. Более простая модель из коробки может быть достаточной без накладных расходов экспериментальных систем Sakana.
  • Риск IP и лицензий. Модели Sakana включают компоненты с открытым исходным кодом, которые могут нести ограничения использования (некоммерческие лицензии и т.д.) (Sakana AI выпускает японскую DALL-E 3, называет ее EvoSDXL-JP). В зависимости от объема сотрудничества, существует юридический риск, если производные выходные данные используются коммерчески.
  • Жесткая конкуренция. Области, в которых работает Sakana (LLM, генеративный ИИ), чрезвычайно конкурентны, с Big Tech и другими стартапами, опережающими всех. Существует шанс, что сопоставимые открытые модели (например, от Meta или Mistral) станут доступными, уменьшая эксклюзивность предложений Sakana.

В заключение, Sakana AI представляет собой инновационный, природно-вдохновленный подход к ИИ, который контрастирует с доминирующей парадигмой "один большой мозг". Вместо грубого масштабирования, они развивают сообщество моделей, которые эволюционируют, объединяются и адаптируются, подобно экосистеме. С командой мирового класса, сильной японской поддержкой и быстрыми техническими результатами, они имеют впечатляющую траекторию.

Однако потенциальные партнеры должны взвесить их молодость как коммерческого предприятия и риски, связанные с их подходом, против очевидных преимуществ инновационных методик и локализованной экспертизы. Наиболее подходящими для партнерства могут быть организации, нуждающиеся в специализированных японскоцентричных решениях ИИ или те, кто ценит открытые исследования и эволюционные подходы к разработке модели.

Начать дискуссию