Как Яндекс защищает пользователей от мошеннической и запрещённой рекламы с помощью новых ML-моделей
Спойлер: на 33% лучше. Рассказываем, как нам это удаётся.
Несмотря на то, что реклама в интернете призвана помочь пользователю найти то, что он ищет, ежегодно в интернете появляется всё больше объявлений, которые создаются с одной целью — обмануть пользователей.
Кроме того, некоторые категории товаров и услуг рекламировать или вовсе запрещено, или допускается только с соблюдением определённых требований. Например, в рекламе БАД должно быть предупреждение о том, что средство не является лекарством.
Поэтому одна из важнейших задач Яндекса — точно и быстро выявлять различные категории рекламы и блокировать мошенников, чтобы пользователи могли безопасно совершать покупки, а компании — растить число довольных клиентов.
Алексей Гончаров, заместитель коммерческого директора по качеству, рассказывает, как мы внедряем и совершенствуем инструменты на базе машинного обучения для контроля рекламы.
ML-модели для защиты от мошенников
Поймать мошенника — на самом деле не так просто. Во-первых, их достаточно мало в общей массе рекламодателей. Так, на миллион обычных баннеров приходится примерно сотня мошеннических. Во-вторых, злоумышленники используют разнообразные методы обхода модерации. Например, фишинговые страницы, сайты-двойники, подмену контента, обфускацию (когда текст намеренно искажается для обхода алгоритмов) и так далее.
Поэтому в борьбе с мошенниками нам помогают ML-модели, которые учатся на больших объёмах данных, для того чтобы анализировать информацию и принимать решение без прямого участия человека. Их мы обучаем исходя из анализа поведения мошенников, с которым сталкиваемся.
Качество этих моделей зависит от нескольких важных факторов:
Полнота базы данных видов мошенничества. Мы используем YandexGPT для выявления подозрительных текстов, генерируем синтетические примеры для известных, но редких способов обхода модерации (например, обфускации, которую уже упоминали выше). В поиске новых видов мошенничества нам помогает ручная разметка и десятки различных эвристик (упрощённых стратегий угадывания решений).
Полнота признаков, по которым модель сможет отличить мошенника от добросовестного рекламодателя. Наши ML-модели учитывают более тысячи различных признаков, собранных на основе того, как рекламодатели размещают свои объявления в Яндекс Директе.
Частота обновлений моделей. Чтобы вовремя адаптироваться к новым угрозам, мы регулярно дообучаем модели на новых данных.
Сейчас мы применяем около десятка различных ML-моделей для обнаружения мошенников. У каждой из них — своя специализация и частота обучения. Например, одна обучена под выявление фишинга, другая — может охватить широкий спектр подозрительной рекламы в целом.
Благодаря дообучению уже существующих моделей и обучению новых, скорость обнаружения мошенников увеличилась в восемь раз. В первом полугодии 2024 года мы заблокировали 197 тысяч аккаунтов недобросовестных рекламодателей, что на 33% больше в сравнении со вторым полугодием 2023 года.
ML-модели для классификации рекламы
Машинное обучение помогает нам не только в обнаружении мошенников, но и в классификации объявлений по темам. Например, для выявления рекламы алкоголя (она запрещена) или медицинских услуг (необходимо проверить наличие лицензии у рекламодателя и добавить предупреждение).
Для этого мы используем нейросеть на основе архитектуры DSSM (Deep Semantic Similarity Model переводится как «модель глубокого семантического сходства»). С её помощью можно быстро определять смысл текстов. Для этого собираем выборку объявлений по конкретной тематике, после ручной проверки модераторами обучаем на ней нейросеть распознавать контекст объявления и присваивать ему нужную категорию.
Этот инструмент мы используем для классификации как новых баннеров, так и уже размещённых. На данный момент нейросеть уже умеет определять категории ряда тематик. Например:
лекарства,
БАД,
табак,
алкоголь,
другие.
Благодаря внедрению нейросети нам удалось увеличить количество корректно классифицированных по обученным тематикам баннеров на 31%.
Новые инструменты на основе машинного обучения помогают нам защищать пользователей от опасной или запрещённой рекламы. Внести свой вклад в совершенствование этой технологии может каждый — достаточно пожаловаться на плохое объявление с помощью пульта управления рекламой.