Как Яндекс защищает пользователей от мошеннической и запрещённой рекламы с помощью новых ML-моделей

Спойлер: на 33% лучше. Рассказываем, как нам это удаётся.

Как Яндекс защищает пользователей от мошеннической и запрещённой рекламы с помощью новых ML-моделей

Несмотря на то, что реклама в интернете призвана помочь пользователю найти то, что он ищет, ежегодно в интернете появляется всё больше объявлений, которые создаются с одной целью — обмануть пользователей.

Кроме того, некоторые категории товаров и услуг рекламировать или вовсе запрещено, или допускается только с соблюдением определённых требований. Например, в рекламе БАД должно быть предупреждение о том, что средство не является лекарством.

Поэтому одна из важнейших задач Яндекса — точно и быстро выявлять различные категории рекламы и блокировать мошенников, чтобы пользователи могли безопасно совершать покупки, а компании — растить число довольных клиентов.

Алексей Гончаров, заместитель коммерческого директора по качеству, рассказывает, как мы внедряем и совершенствуем инструменты на базе машинного обучения для контроля рекламы.

ML-модели для защиты от мошенников

Поймать мошенника — на самом деле не так просто. Во-первых, их достаточно мало в общей массе рекламодателей. Так, на миллион обычных баннеров приходится примерно сотня мошеннических. Во-вторых, злоумышленники используют разнообразные методы обхода модерации. Например, фишинговые страницы, сайты-двойники, подмену контента, обфускацию (когда текст намеренно искажается для обхода алгоритмов) и так далее.

Поэтому в борьбе с мошенниками нам помогают ML-модели, которые учатся на больших объёмах данных, для того чтобы анализировать информацию и принимать решение без прямого участия человека. Их мы обучаем исходя из анализа поведения мошенников, с которым сталкиваемся.

Качество этих моделей зависит от нескольких важных факторов:

  • Полнота базы данных видов мошенничества. Мы используем YandexGPT для выявления подозрительных текстов, генерируем синтетические примеры для известных, но редких способов обхода модерации (например, обфускации, которую уже упоминали выше). В поиске новых видов мошенничества нам помогает ручная разметка и десятки различных эвристик (упрощённых стратегий угадывания решений).

  • Полнота признаков, по которым модель сможет отличить мошенника от добросовестного рекламодателя. Наши ML-модели учитывают более тысячи различных признаков, собранных на основе того, как рекламодатели размещают свои объявления в Яндекс Директе.

  • Частота обновлений моделей. Чтобы вовремя адаптироваться к новым угрозам, мы регулярно дообучаем модели на новых данных.

Сейчас мы применяем около десятка различных ML-моделей для обнаружения мошенников. У каждой из них — своя специализация и частота обучения. Например, одна обучена под выявление фишинга, другая — может охватить широкий спектр подозрительной рекламы в целом.

Как Яндекс защищает пользователей от мошеннической и запрещённой рекламы с помощью новых ML-моделей

Благодаря дообучению уже существующих моделей и обучению новых, скорость обнаружения мошенников увеличилась в восемь раз. В первом полугодии 2024 года мы заблокировали 197 тысяч аккаунтов недобросовестных рекламодателей, что на 33% больше в сравнении со вторым полугодием 2023 года.

ML-модели для классификации рекламы

Машинное обучение помогает нам не только в обнаружении мошенников, но и в классификации объявлений по темам. Например, для выявления рекламы алкоголя (она запрещена) или медицинских услуг (необходимо проверить наличие лицензии у рекламодателя и добавить предупреждение).

Для этого мы используем нейросеть на основе архитектуры DSSM (Deep Semantic Similarity Model переводится как «модель глубокого семантического сходства»). С её помощью можно быстро определять смысл текстов. Для этого собираем выборку объявлений по конкретной тематике, после ручной проверки модераторами обучаем на ней нейросеть распознавать контекст объявления и присваивать ему нужную категорию.

Этот инструмент мы используем для классификации как новых баннеров, так и уже размещённых. На данный момент нейросеть уже умеет определять категории ряда тематик. Например:

  • лекарства,

  • БАД,

  • табак,

  • алкоголь,

  • другие.

Благодаря внедрению нейросети нам удалось увеличить количество корректно классифицированных по обученным тематикам баннеров на 31%.

Новые инструменты на основе машинного обучения помогают нам защищать пользователей от опасной или запрещённой рекламы. Внести свой вклад в совершенствование этой технологии может каждый — достаточно пожаловаться на плохое объявление с помощью пульта управления рекламой.

6
20 комментариев