Объединенные модели для разных задач

В 2021 году Google анонсировала создание новой модели для поиска – MUM (Multitask Unified Model). Пост с анонсом на редкость неинформативен и сообщает только, что

  • в основе MUM лежит архитектура T5 (это трансформер с кодировщиком и декодировщиком, он умеет генерировать текст);
  • MUM в тысячу раз мощнее, чем ранее использовавшийся BERT;
  • MUM понимает 75 языков.

Автор анонса обещает, что поиск будет проще и интуитивнее, но деталей внутреннего устройства новой модели не приводит.
Предположительно, речь идет о модели из группы Unified Model («объединенная модель») – это модель, которая умеет выполнять много разных задач в рамках одной архитектуры. Поговорим сегодня о них и о том, как они меняют не только поиск в Интернете, но и область ИИ в целом.

Теория объединенных моделей

«Мы и так уже пользуемся моделями, которые выполняют много разных задач,» – можете сказать вы. Это правда: многие современные модели умеют и отвечать на вопросы, и писать эссе, и описывать изображения. Такие модели называются мультимодальными. Между мультимодальными и объединенными моделями есть разница, но здесь легко запутаться, так что следите за руками.
Как работают мультимодальные модели? Возьмем для примера CLIP – одну из первых моделей, в которой объединили способности работать с текстом и изображениями. У нее есть два входа: один для текста, другой для изображений. Текст и изображения трансформируются в векторы по собственным правилам, потом объединяются, и полученная матрица значений далее обрабатывается нейросетью.

<i>Архитектура CLIP из статьи</i>
Архитектура CLIP из статьи

Эта модель вышла в 2021 году, и с тех пор подход к мультимодальности принципиально не менялся. Механизмы объединения данных разных типов совершенствуются, но данные все равно обрабатываются по отдельности. Грубо говоря, две модели – одну для работы с изображениями и одну для работы с текстом – объединили в одну. В процессе обучения мультимодальная модель «запоминает» связи между изображениями и текстом.
У объединенных моделей вход один. Данные разного типа сначала преобразуются и приводятся к общему виду и только потом передаются на обработку. Вот хорошая аналогия: мультимодальные модели составляют словарь, который переводит язык текста на язык изображений и наоборот (как англо-русский и русско-английский словарь). Объединенные модели переводят все в унифицированный символический язык и работает с ним. В жизни мы можем записать условие задачи текстом или нарисовать в виде схемы. А потом перевести и то, и другое в набор математических формул и символов – это будет универсальный язык.
Чтобы разобраться поглубже, возьмем в качестве примера модель Unified-IO из статьи «Unified-IO: A unified model for vision, language, and multi-modal tasks» («Unified-IO: объединенная модель для зрения, языка и мультимодальных задач»). Вот ее архитектура.

<i>Схема из статьи</i>
Схема из статьи

Зеленым цветом я выделила то место, которое как раз отличает объединенные модели от мультимодальных – перевод всех типов данных в новый единый формат.
Благодаря этому нововведению объединенные модели могут обрабатывать любые типы данных, их не нужно каждый раз видоизменять. Мультимодальные же модели могут работать только с теми данными, на которые были обучены. Чтобы добавить новый тип данных (например, аудио), нужно будет модель переучивать, чтобы она выявила связи между аудио, текстом и изображениями.
В основе Unified IO лежит архитектура T5 с некоторыми усовершенствованиями для работы с разными типами входных данных. Обсуждая трансформеры, мы говорили, что их можно разделить на части и использовать кодировщик и декодировщик по отдельности, а можно использовать их вместе. Т5 – это тот случай, когда мы используем все вместе. Чтобы освежить в памяти знания о трансформерах, советую просмотреть этот пост.
В экспериментах Unified IO показала себя хорошо вне зависимости от предлагаемых заданий и типов данных.

Зачем нам мультимодальные модели, если объединенные такие замечательные?

Вообще накопать информацию об объединенных моделях оказалось непростой задачей. Вот несколько наблюдений, которые я отметила в процессе их исследования:

  • есть терминологическая путаница: «мультимодальными» часто называют все модели, которые умеют работать с разными типами данных, в том числе объединенные модели;
  • термин «объединенный» (unified) часто используется, когда речь идет об обработке данных из разных источников: локальных и из облачного хранилища, из разных приложений и пр. Поэтому каждую объединенную модель нужно внимательно изучать, чтобы понять, что именно там объединенное;
  • похоже, что объединенные модели более эффективны с точки зрения вычислительных затрат, однако результаты их работы не так точны по сравнению с мультимодальными моделями. Лидеры ИИ делают выбор в пользу мультимодальности;
  • есть некоторые модели, например, Flamingo, которые можно назвать гибридными. Они обрабатывают разные типы данных по отдельности, потом объединяют их (как объединенные модели), но на выход могут давать только один тип данных (как мультимодальные).

Заключение

Команда Google не потрудилась объяснить, что у них там за объединенная модель. Однако, по всей видимости, это интересное направление исследований, которое будет продолжать совершенствовать работу ИИ с разными типами данных, так что будем наблюдать и за этим тоже.
Чтобы не пропустить все веселье, подписывайтесь на мой телеграм, там много разного.

Начать дискуссию