«В рекомендательных системах мы моделируем человека, его желания и предпочтения»

Николай Савушкин о технологической революции в отрасли рексистем, её влиянии на бизнес и месте «Яндекса» в новой гонке.

«В рекомендательных системах мы моделируем человека, его желания и предпочтения»

В область рекомендательных систем наконец пришли генеративные нейросети, и это привело к технологической революции в целой отрасли. Яндекс одним из первых в мире внедрил их в свои сервисы, например в Яндекс Музыку и Алису.

Николай Савушкин, руководитель направления рекомендательных технологий Яндекса, рассказал о том, почему это важный шаг для роста качества рекомендаций и какой эффект это оказывает на бизнес. А ещё объяснил, как вообще нейросети могут генерировать рекомендации, и как они повлияют на будущее и наши привычки потреблять контент.

Что такое рекомендательные системы простыми словами?

К рекомендательным системам можно отнести и поисковики, и «Мою волну», и разные ленты в соцсетях — от видео до постов. Всё это системы, которые помогают пользователям сделать выбор из большого количества чего-либо: товаров, треков, сайтов.

Как рекомендации влияют на наши потребительские привычки? Теряют ли люди какую-то свою индивидуальность из-за них?

Это вообще хороший вопрос в духе «что появилось первым — курица или яйцо». Рекомендательная система адаптируется под наши желания или диктует нам, чего желать?

Люди всегда искали подтверждение своих слов, чувств, догадок, а не их опровержение. И рекомендательная система работает по тому же принципу: она пытается угадать, что человеку понравится. Это может быть что-то новое, но всё равно в уже знакомой ему области — например, молодой неизвестный артист, но исполняющий в любимом жанре пользователя.

Вообще мы хотели бы предлагать человеку что-то, что пока вне фронта его желаний. Но технологически это пока очень сложная задача. Поэтому на сегодняшний день, конечно, поведение рексистем намного сильнее продиктовано желаниями людей, а не наоборот.

Ты можешь объяснить этот феномен, когда человек поговорил о чём-то с друзьями и ему тут же рекомендательная система показывает рекламу их предмета разговора?

Мне приходится по десять раз в неделю это повторять, но я не устаю это делать. Извините, если сейчас кого-то разочарую. Рекомендательные системы не подслушивают. Только сервисами Яндекса пользуются десятки миллионов человек в день — это такой огромный массив информации, причём агрегированной и обезличенной, что из неё невозможно вычленить что-либо про конкретного пользователя.

Обоснование этого эффекта самое простое — это то, о чём я раньше говорил. Люди ищут подтверждение своим догадкам и мыслям. Вы могли о чём-то сотни раз разговаривать и не было никаких рекомендаций, но один раз чисто по теории вероятности это совпало, и ощущение закрепилось.

Как рекомендательные системы менялись со временем? Расскажи про их эволюцию.

Рексистемы очень сильно эволюционировали «под капотом», но про это я расскажу чуть позже. Сейчас рассмотрим, как они менялись с точки зрения того, как это видит пользователь.

Вообще первыми рексистемами можно считать подборки. Например, статьи «выбор редакции» и музыкальные топ-чарты — я их называю рекомендациями в эпоху «до машинного обучения». За пользователей уже изучили большой массив какой-то информации и предлагают им несколько позиций, которые могут их заинтересовать. Самое важное отличие таких ранних рексистем — они не были персонализированы под конкретного человека.

С внедрением машинного обучения в рекомендательных системах появились каталоги, например, главные страницы с блоками «Что посмотреть». Такие были, да и есть, у YouTube, Кинопоиска и много кого ещё. Глобально это всё ещё подборка, но она уже персонализирована под конкретного человека и предлагает именно то, что может быть интересно ему.

Следующим этапом стали ленты рекомендаций. Сначала Instagram (признан экстремистской организацией на территории РФ), Pinterest, а за ними и TikTok. Пользователи постепенно перешли на формат, где они потребляют контент последовательно, один за одним.

А как развивались рексистемы с алгоритмами машинного обучения?

На самом деле алгоритмы машинного обучения пришли в рекомендательные системы довольно давно, более 20 лет назад. Однако с тех пор они вышли на некоторое плато. То есть они вышли на стабильное качество, и их развитие в какой-то момент значительно замедлилось. И уже давно не было какого-то «бума», резкого изменения, заметного всем.

Здесь можно провести аналогию с поисковиками. На заре своего появления поисковым системам было тяжело справляться с запросами юзеров. Пользователям приходилось чётко формулировать запрос, следить за опечатками, словоформами, падежами и так далее. Я хорошо помню, сколько времени тратил сам на то, чтобы система поняла запрос.

Сейчас это уже кажется далёким прошлым. Система поймёт меня, с каким бы количеством ошибок я ни написал. Наш Нейро — яркий тому пример. Можно буквально сфотографировать машину на улице и вбить запрос «скок стоит» — и ведь он поймёт и найдёт.

«В рекомендательных системах мы моделируем человека, его желания и предпочтения»

И с технической точки зрения история развития поисковиков и рексистем похожа. Сначала разработчики описывали всё алгоритмически, потом внедрили машинное обучение, а потом наступило плато. Нельзя сказать, что развития не было. Регулярно появлялись новые алгоритмы ML, качество стабильно росло на какие-то процентные пункты. Но едва ли эти изменения бросались в глаза обычным людям. А потом широкой общественности стали доступны генеративные нейросети, и это полностью изменило наше представление о том, как можно искать информацию.

Объясни, как это работает?

Я уже говорил, что рексистемы раньше напоминали каталог. Интернет — это огромная база статей, видео, фото и другого контента. И поисковая система — это умная система каталогизации. Из всей базы она составляла каталог — выбирала самый релевантный запросу контент и располагала его в определённой последовательности.

А генеративные нейросети меняют эту парадигму. Теперь система не «бегает» по всей базе, пытаясь что-то отобрать, а получает запрос и последовательно генерирует ответ. И это «прокачало» поиск.

То же самое происходит теперь и с рекомендательными системами. Зарождающийся глобальный тренд — перевод рексистем на генеративные нейросети, и некоторым компаниям это уже удалось.

Как рекомендательные системы могут что-то генерировать? Они же не создают ничего сами, а только предлагают.

В рекомендательной системе человек — это набор обезличенных действий. Историю взаимодействия человека с сервисом можно написать в виде такой последовательности, где каждое слово — это одно действие. И тогда история человека станет текстом. Нейросети, когда генерируют ответ, предсказывают слова последовательно, одно за одним, исходя из наибольшей вероятности. И механизм схож как для генерации какого-нибудь письма, так и для предсказания треков, которые захочет послушать пользователь, или товаров, которые захочет купить.

Ты упоминал, что компании уже внедряют генеративные нейросети в рексистемы. Расскажи, что происходит на глобальном рынке рекомендательных систем?

На самом деле, здесь ландшафт такой же, как и в разработке генеративных нейросетей в целом. Есть два больших лагеря в мире — западные компании, в первую очередь американские, и китайские. И третий игрок — небольшое количество организаций из Восточной Европы, в основном из России. А вот компании из Западной Европы, наоборот, пока в отстающих.

Если американцы много изобретают сами, то китайцы хороши в улучшении и адаптации технологий под свои потребности. Яркий пример — DeepSeek. Он не делает какой-то научный прорыв, но хорошо комбинирует известные подходы в одну мощную систему. Поэтому можно сказать, что американцы — теоретики, а китайцы — мощные практики.

Буквально меньше месяца назад одна китайская компания опубликовала работу, в которой рассказала, что заменила рекомендательную систему своей главной страницы с короткими видео на генеративную нейросеть с миллиардом параметров.

Это много или мало?

В других областях, например, в больших языковых моделях, миллиард параметров уже кажется мелочью. Чем модель больше — тем она умнее. Поэтому масштабирование — это глобальный тренд.

Только вот в области рекомендательных систем масштабирования не происходило долгое время. Поэтому, пока другие области уже во всю развивались с генеративными нейросетями, а модели становились всё больше, рексистемы немного топтались на месте.

Но значимые открытия часто совершаются параллельно. И решения, как добиться этого масштабирования, уже появились во всех трёх «лагерях» — и у нас, и у американских и китайских коллег.

А какое место Яндекс занимает в этой гонке?

Точно могу сказать, что сейчас мы находимся на уровне других мировых лидеров. Мы сейчас готовим к публикации научные работы, и результаты, представленные в них, находятся на равных с работами иностранных коллег.

Последние несколько лет мы занимались тем, что активно внедряли «предвестников» генеративных технологий. Нейросети-трансформеры для рексистем были маленькие в сравнении с большими языковыми моделями, но на самом деле довольно большие по мировым стандартам.

Коля на Yandex ML Dacha
Коля на Yandex ML Dacha

Раз уж ты упомянул исследования. Что сейчас происходит с научной стороной рекомендательных систем?

Наука в рекомендательных системах — это моя персональная боль. Мне кажется, что это одна из причин отставания области. Сейчас мало академических исследователей, которые занимаются рексистемами.

Проводить исследования сложно по двум причинам. Во-первых, рексистемы имеют слишком практическое применение. Если ты напишешь код с помощью нейросети, тебе не нужно показывать его 10 людям, чтобы оценить его качество. А как можно измерить качество работы рексистемы, с которой не взаимодействуют реальные люди? Поэтому, чтобы тестировать любые гипотезы, нужен доступ к достаточно большой аудитории.

Во-вторых, открытых датасетов для обучения моделей очень мало. Например, мы собираем агрегированные обезличенные данные о том, как пользователи потребляют контент. Но мы не можем выложить данные об этом в открытый доступ. Сбор «очищенной» и анонимизированной информации — кропотливый и долгий процесс, им далеко не все готовы заниматься.

Когда происходит такая ситуация и приходится буквально по крупицам собирать сведения, помогает консолидация разных компаний из разных стран. Внутри компании заниматься исследованиями легче. Во-первых, у нас есть два научных отдела. Yandex Research — научная команда всего Яндекса, и мы можем переиспользовать многие их наработки. Кроме того, есть отдельное ресерч-направление в моей команде.

Сейчас мы планируем дополнительно инвестировать во взаимодействие с научным сообществом. Например, мы думаем о том, чтобы открыть студентам и аспирантам доступ к нашим базам данных и моделям, чтобы они могли писать на их основе дипломные и кандидатские работы.

Я верю, что с приходом в область генеративных нейросетей рексистемы станут ещё более интересны для науки.

Как рекомендательные системы влияют на бизнес Яндекса?

У каждого бизнеса в Яндексе свои рекомендательные системы. Они могут быть похожи технологически, но целеполагания весьма разные.

Есть бизнесы, где всё построено вокруг одной мощной рексистемы. У нас это, например, Реклама. Рекомендательные системы позволяют показывать рекламу релевантной аудитории. От этого в плюсе и рекламодатели, и сами пользователи, так как такие предложения могут быть им полезны.

Есть сервисы, которые могут существовать без рексистем, но с ними они становятся удобнее. Например, Яндекс Лавка — это каталог товаров. Ты и так там найдёшь нужное молоко, просто вбив в поиск. Но с рексистемой всё же удобнее — с ней быстрее ищутся любимые товары, а ещё она может напомнить что-то купить.

Что будет происходить с рексистемами в будущем?

С адаптацией генеративных технологий рекомендательные системы резко поумнеют. До сих пор они промахиваются — предлагают то, что нам не очень интересно, и нам приходится листать до релевантного контента. В будущем они будут так хорошо попадать, что даже кнопка «пропустить» может исчезнуть.

Ещё мы сможем задавать им желаемое поведение и, скорее всего, обычным текстовым промтом.

Рексистемы станут мультимодальными персональными ассистентами. Например, можно будет сфотографировать джинсы и написать: «Подбери мне футболку». И эта нейросеть поймёт визуальную и текстовую информацию и при этом подберёт футболку, подходящую к джинсам, но персонально мне: чтобы она подошла по вкусу, размеру, цене, условиям доставки.

Всё идёт к тому, чтобы все рексистемы и нейросети объединились в одну технологию, один мозг. Чтобы одни алгоритмы могли рекомендовать самые разные вещи: и музыку, и фильм на вечер, и одежду.

Что нужно, чтобы к этому прийти?

В текстовых нейросетях мы моделируем тексты, в картиночных — визуальную информацию. В рекомендательных системах мы моделируем человека, его желания и предпочтения.

Человеческие чувства — это такая субстанция, которую люди задолго до греческих философов пытались как-то описать и понять. И мы ещё бесконечно далеки от того, чтобы понять себя. Когда я прихожу в ресторан, открываю меню и понимаю, что сегодня не хочу рыбу. Я не знаю почему. Вообще-то я её люблю, а сегодня просто не хочется. И даже не факт, что моё желание можно как-то описать естественным языком. А в рекомендательных системах мы не просто пытаемся описать такие чувства текстом, а вообще доверяем эту задачу нейросетям.

Но это философия. С технологической точки зрения нам ещё предстоит научить мультимодальную нейросеть понимать объекты реального мира и желания людей взаимодействовать с объектами реального мира. И для этого потребуются фундаментальные открытия, касаемые природы нейросетей.

21
1
12 комментариев