Расчет релевантности запроса к тексту с помощью BERT

Определение релевантности статей и поисковой выдачи с использованием нейронных сетей. Python-скрипт вычисляет текстовую релевантность с применением LaBSE (Language-agnostic BERT Sentence Embedding) на основе косинусного сходства.
Этот метод считается наиболее точным, поскольку разработчики BERT не рекомендуют использовать его в чистом виде для таких задач.

Установка скрипта

  • Если вы никогда не работали с Python, посмотрите короткое 4-минутное видео по установке Python и среды разработки PyCharm — этого достаточно для начала.
  • Скачайте код с GitHub.
  • Запустите скрипт. При первом запуске он автоматически загрузит модель LaBSE (около 2 ГБ), что может занять время. В дальнейшем модель кешируется, и обработка становится значительно быстрее.

Скрипт работает на CPU и в среднем выполняет около 2 запросов в секунду (на моем ноутбуке). При наличии мощной видеокарты можно адаптировать проект для работы на GPU.

Расчет текстовой релевантности запроса и статьи

Скрипт позволяет определить релевантность статьи или любого текста (например, от конкурентов) заданному запросу. Анализ выполняется на уровне абзацев, что удобно для:

  • Оценки релевантности контента в PBN (повышение позиций за счет ссылок из рел контента).
  • Генерации максимально релевантного текста для ссылок, заголовков и метатегов (title, description).
Расчет релевантности запроса к тексту с помощью BERT

Как использовать:

  • Запускаем скрипт, выбираем режим «Анализ текста».
  • Вводим запрос.
  • Вставляем текст статьи, релевантность которой нужно проверить.
  • Нажимаем «Рассчитать».

Оценка результата:

  • До 0.30 – средний уровень релевантности.
  • 0.40-0.60 – хороший показатель.
  • Выше 0.60 – отличный результат.

LaBSE поддерживает 110 языков, включая русский и украинский. Подробнее о модели и примерах ее использования можно узнать в научных работах.

Расчет релевантности запроса и сайтов

Можно анализировать релевантность запроса не только для отдельных текстов, но и для страниц сайтов, например, из топ-10 поисковой выдачи.

Расчет релевантности запроса к тексту с помощью BERT

Как использовать:

  • Включаем режим «Анализ URL».
  • Вводим запрос.
  • Добавляем список URL-адресов из топ-10.

Список можно получить с помощью расширения Meta Tags SEO Extractor. Для анализа поисковой выдачи по регионам (Google, Яндекс) используйте бесплатный инструмент PR-CY (10 запросов в сутки, требуется регистрация).
Полный алгоритм работы с скриптом описан тут.
Понравился скрипт для python ? Подписывайся на мой телеграм канал ChatGPT, AI, Python для SEO.

4
1
9 комментариев