Связь между Ahrefs DR и Majestic TF/CF: исследование на 100 000 доменов
Делимся результатами собственного исследования, в котором обнаружили корреляцию между метриками популярных инструментов для оценки ссылочного профиля Ahrefs и Majestic. Эта информация поможет SEO-специалистам использовать метрики совместно, более эффективно оценивать домены и принимать решения на основе комплексных данных.
Анализ ссылочного профиля сайта — один из ключевых аспектов, влияющих на успех в поисковой оптимизации. Чтобы оценить авторитетность доменов, SEO-специалисты чаще всего используют два популярных инструмента: Ahrefs и Majestic.
Наша команда сначала пользовалась только Ahrefs, но однажды мы обратили внимание на проблему: данные, которые мы получали по API, часто не совпадали с теми, которые были доступны из веб-интерфейса. Плюс возникали сомнения в качестве показателей Ahrefs. Мы решили найти дополнительный инструмент аналитики, исследовали рынок и остановились на Majestic.
В процессе работы с обоими сервисами столкнулись с тем, что базы данных Ahrefs и Majestic не всегда совпадали: ссылки, которые учитывал один сервис, отсутствовали в другом. К тому же было не совсем понятно, как сопоставить показатели Domain Rating Ahrefs (DR) с Trust Flow (TF) и Citation Flow (CF) от Majestic для одного и того же домена.
Мы решили разобраться в этом вопросе и провели исследование по сотне тысяч доменов с тем, чтобы выявить корреляцию между DR и метриками Majestic и предложить способ оценки DR на основе CF и TF.
Что такое Ahrefs DR?
Domain Rating (DR) — это метрика от Ahrefs, оценивающая силу ссылочного профиля домена по шкале от 0 до 100. Чем выше DR, тем более авторитетным считается домен в контексте его ссылочной массы. DR рассчитывается на основе:
- количества уникальных доменов, ссылающихся на сайт;
- авторитета этих ссылающихся доменов.
DR широко используется в SEO для оценки потенциальной способности сайта ранжироваться в поисковых системах. Однако на DR можно влиять искусственно, например, покупая много низкокачественных ссылок. То есть можно сказать, что оценка авторитетности доменов у Ahrefs устарела и подвержена манипуляциям и накруткам.
Что такое Majestic TF и CF?
Majestic предоставляет две основные метрики для оценки ссылочного профиля:
- Citation Flow (CF) — говорит о количестве ссылок, ведущих на сайт, независимо от их качества. Высокий CF может свидетельствовать о большом объеме ссылочной массы, однако это ничего не говорит о том, являются ли эти ссылки авторитетными или спамными.
- Trust Flow (TF) — показатель качества ссылок. Основан на степени «доверия» к ссылкам от авторитетных и проверенных сайтов. Как объясняет сам Majestic, существуют так называемые seed-сайты, которые являются наиболее доверенными и отбираются вручную. На основе ссылок с этих сайтов — их количества и расстоянии до целевого сайта — автоматически оценивается качество ссылок.
Высокий TF указывает на то, что сайт получает ссылки от надежных ресурсов и сам ссылается на качественные сайты.
TF считается более устойчивым к манипуляциям по сравнению с CF и DR.
Идеальный баланс между Trust Flow и Citation Flow — это когда домен имеет много ссылок и все эти ссылки качественные.
Как мы столкнулись с проблемой несоответствия метрик
Ранее уже упоминали, что долгое время опирались на Domain Rating (DR) от Ahrefs для оценки качества доменов. Однако со временем стали очевидными несколько проблем:
- Данные, полученные по API Ahrefs, сильно разнятся с теми, которые доступны в веб-интерфейсе.
- Ahrefs DR можно искусственно завысить.
- Актуальность данных базы ссылок Ahrefs. Ссылки могут «отваливаться», но в инструменте это изменение может быть учтено не сразу.
В поисках более надежного и устойчивого критерия мы обратились к Trust Flow (TF) от Majestic, который показал себя менее подверженным манипуляциям. Об этом говорят коллеги по рынку, и мы сами в этом убедились, работая с обоими инструментами.
Имеющийся опыт говорит, что высокий показатель TF чаще отражает качество ресурса и его ссылочной массы. Например, если взять две группы ресурсов с высокими показателями Ahrefs DR и высоким TF, то действительно качественных в группе с высоким TF будет больше.
В процессе работы с метриками обратили внимание на разницу в данных от Ahrefs и Majestic для одного и того же домена. Сайт может иметь высокий DR, но низкий TF, и наоборот. Такое несоответствие усложняет оценку домена, вызывает сомнения в качестве его ссылочного профиля и мешает принятию решений в стратегии SEO.
К примеру, раньше мы опирались на показатель Ahrefs DR — производили первоначальную фильтрацию при отборе доменов-дропов для построения ПБН-сетей по этому показателю (не брали в работу домены с DR менее 10). А для показателей Majestic было непонятно, какие значения TF и CF установить в качестве эквивалента Ahrefs DR, равного 10.
Где искали ответы и почему решили провести собственное исследование
Мы решили изучить, что по этому поводу говорит рынок, официальные ресурсы и SEO-сообщество. Однако почти ничего не нашли.
Большинство исследований посвящено анализу отдельных метрик различных сервисов, будь то Ahrefs, Semrush, MOZ или Majestic. Однако работ, которые бы сравнивали и находили корреляции между их показателями, мало. Официальные ресурсы — блоги Ahrefs и Majestic — предлагают подробные разъяснения своих собственных метрик. Эти материалы хороши для понимания принципов работы каждого показателя, но не дают представления о том, как они соотносятся между собой.
Дополнительные статьи на авторитетных SEO-ресурсах зачастую фокусируются на сравнении функциональности инструментов Ahrefs и Majestic, обсуждая их преимущества и недостатки в общем контексте. Однако глубокого сравнительного анализа их метрик, основанного на статистических данных, в этих материалах мы также не обнаружили.
В профессиональных сообществах и форумах, таких как Reddit, или на специализированных SEO-форумах люди обсуждают использование метрик DR, TF и CF, делятся своими наблюдениями и случаями несоответствия между показателями. Однако эти дискуссии, как правило, носят субъективный характер: не подкреплены масштабными исследованиями или эмпирическими данными, так что выводы из них не сделаешь.
То есть, ресурсов по отдельным метрикам и инструментам много, но они не затрагивают ни их прямого сравнения, ни того, как они соотносятся между собой. Мы решили восполнить этот пробел и провели собственное исследование.
Какие цели ставили:
- Понять, существует ли взаимосвязь между DR, TF и CF. Если да — оценить ее количественно.
- Выявить, можно ли оценить DR на основе метрик Majestic.
- Предоставить SEO-специалистам инструмент для более точной оценки доменов.
Как проводили исследование
Мы собрали данные по 100 000+ доменам верхнего уровня (точное число 132 363 домена), случайно выбранных из нашей собственной базы данных. (Размер нашей БД насчитывает десятки миллионов доменов.) В ней мы агрегируем информацию для внутренних исследований SEO и ПБН-сетей. Для каждого домена в один и тот же день зафиксировали значения DR, CF и TF, чтобы обеспечить сопоставимость данных. Учли все домены, включая те, у которых одна или несколько метрик равнялись нулю. Для анализа использовали библиотеки pandas, scipy и statsmodels.
Приступив к анализу, сразу обратили внимание на распределение этих метрик. Оказалось, что у существенного числа доменов значение TF равно нулю, тогда как DR и особенно CF чаще имеют ненулевые значения. Это можно объяснить тем, что TF более чувствителен к качеству ссылок, в то время как CF отражает их количество.
Чтобы понять степень взаимосвязи между метриками, вычислили коэффициенты корреляции Пирсона и Спирмена. Оба метода показали высокую положительную корреляцию между всеми тремя показателями. Причем связь между TF и DR была наиболее сильной. Так мы предположили, что TF является хорошим предиктором для DR, а между метриками существует линейная зависимость.
Мы решили проверить это предположение с помощью регрессионного анализа. Используя CF и TF в качестве независимых переменных, а DR — в качестве зависимой, построили линейную модель. Результаты были обнадеживающими: модель объясняла более 70% дисперсии DR, что свидетельствует о ее высокой эффективности.
В результате получили следующую формулу для расчета DR:
DR = 0,86 × TF + 0,6 × CF + 0,7
Эта формула позволяет оценивать значение DR на основе известных CF и TF. Например, если у домена CF равен 10, а TF — 5, то его ожидаемый DR будет:
DR = 0,86 × 5 + 0,6 × 10 + 0,7 = 4,3 + 6 + 0,7 = 11
Делаем оговорку — реальный DR, как правило, может не соответствовать рассчитанному, особенно в случае, если у домена мало ссылок. Как мы уже упоминали ранее, у сервисов разные базы ссылок и они могут не пересекаться. Другими словами, у одного и того же домена в базе Ahrefs могут быть совершенно другие ссылки, нежели в базе Majestic. Поэтому этот показатель следует использовать только в качестве ориентира, чтобы оценить приблизительный эквивалент Ahrefs DR на основе ссылочного профиля, имеющегося в базе Majestic.
Также понимая, что линейная модель может не учитывать всех особенностей данных, мы решили проверить, можно ли улучшить точность предсказаний с помощью методов машинного обучения. Протестировали несколько моделей, включая Ridge и Lasso-регрессии, деревья решений, случайные леса и градиентный бустинг. Эти методы позволяют учесть возможные нелинейности и взаимодействия между переменными.
Результаты показали, что нелинейные модели лишь незначительно улучшили качество предсказаний, увеличив объясняемую дисперсию DR примерно до 73%. Это подтвердило наше первоначальное предположение о том, что связь между метриками в основном линейная и использование более сложных моделей не приносит существенного преимущества.
Важно отметить, что Trust Flow (TF) постоянно оказывался наиболее значимым фактором при предсказании DR во всех моделях. Это указывает на то, что качество ссылок, отражаемое TF, играет ключевую роль в оценке домена по версии Ahrefs.
Наше исследование показало, что, несмотря на разные методологии и базы данных у Ahrefs и Majestic, их метрики тесно связаны между собой. Это знание может быть полезно для специалистов в области SEO и цифрового маркетинга, позволяя им лучше понимать, как использовать эти инструменты совместно и как интерпретировать их показатели.
К каким выводам пришли
- Высокая корреляция между метриками. Мы обнаружили значительную корреляцию между всеми тремя метриками: DR, CF и TF. Коэффициенты корреляции Пирсона (до 0.8 между DR и TF) указывают на сильную линейную связь, особенно между DR и TF. Спирменовская корреляция также показала сильную зависимость, хотя и несколько менее выраженную, что говорит о частичной нелинейности данных.
- TF как главный предиктор. Trust Flow оказался более значимым предиктором для DR по сравнению с Citation Flow. Это соответствует концепции, что TF отражает качество ссылок, тогда как CF ориентируется на их количество. В ходе регрессионного анализа мы получили формулу предсказания DR, в которой вес TF был заметно выше, чем у CF, что подтверждает большую значимость TF при оценке авторитетности домена.
- Модель предсказания DR. Построенная линейная регрессионная модель показала, что с помощью CF и TF можно предсказать DR с точностью, объясняющей около 70% его дисперсии. Это хороший показатель. Однако остается около 30% дисперсии, которые могут быть связаны с другими факторами, не учтенными в модели. Тем не менее, полученная формула является полезным инструментом для предварительной оценки DR на основе данных Majestic.
- Ограничения предсказаний. Одним из важных моментов является различие в базах данных Ahrefs и Majestic. Эти сервисы могут собирать данные о разных ссылках, и домен с высоким TF и CF в Majestic не обязательно будет иметь аналогично высокий DR в Ahrefs. Это ограничение следует учитывать при использовании модели оценки, особенно для доменов с низким уровнем ссылочной массы.
- Нелинейные модели не дали явных преимуществ. Мы протестировали несколько методов машинного обучения, включая полиномиальные регрессии и деревья решений, но существенного улучшения качества предсказаний по сравнению с линейной моделью не было. Это указывает на то, что зависимости между DR, CF и TF преимущественно линейные, хотя и содержат небольшие отклонения от этого предположения.
- Практическое применение. Модель может быть полезна для SEO-специалистов, когда нужно быстро оценить домен, но отсутствуют данные по DR от Ahrefs. Формула, основанная на CF и TF, может служить ориентиром при оценке доменов в рамках стратегий продвижения и работы с PBN-сетями. Однако важно помнить, что точность предсказаний не идеальна и может варьироваться в зависимости от базы данных, используемой сервисами.
Как применять результаты исследования
Построение ссылочного профиля
К примеру, вы планируете кампанию по построению ссылок для своего клиента. Используя Ahrefs DR, находите два потенциальных сайта для размещения гостевых постов: сайт A с DR 80 и сайт B с DR 75. По старой метрике сайт A кажется более привлекательным. Однако, применяя новую метрику, вы обнаружите, что у сайта B более качественный и релевантный ссылочный профиль, меньший уровень спама и активная аудитория.
Идентификация токсичных ссылок
Вы замечаете падение позиций в поисковой выдаче и решаете провести аудит сайта. Используя Ahrefs DR, не находит явных проблем, так как большинство обратных ссылок идут с доменов с высоким DR.
Однако новая метрика, рассчитанная на данных Majestic, показывает, что многие из этих доменов имеют высокий уровень спама и низкое качество контента. Благодаря этому вы своевременно отклоняете токсичные ссылки и улучшаете позиции сайта в поисковой выдаче.
Более точный анализ конкурентов
Вы хотите понять, почему конкурент получает больше органического трафика, чем интернет-магазин вашего клиента, хотя их DR по Ahrefs почти одинаков. Применив новую метрику, вы обнаруживаете, что у конкурента более качественные обратные ссылки с тематически релевантных сайтов и внутренняя оптимизация получше. Учитывая эти данные, вы можете разработать более эффективную SEO-стратегию.
Заключение
Наше исследование показало, что метрики Ahrefs DR и Majestic TF/CF тесно взаимосвязаны, и оценка DR на основе данных Majestic возможна с высокой степенью точности. Trust Flow оказался основным показателем, влияющим на DR, что логично, учитывая его фокус на качестве ссылок. Несмотря на это, исследование также выявило некоторые ограничения — как в точности оценки для экстремальных значений, так и в возможных расхождениях в данных между Ahrefs и Majestic.
Результаты исследования уже применили на практике. Используя расчетный показатель DR по показателям Majestic для фильтрации доменов, мы смогли добиться увеличения процента отбора качественных доменов с 15-20% до 25-30%, что позволило нам сэкономить время наших сотрудников и увеличить количество поднимаемых ПБН-сайтов.
Надеемся, что наше исследование приведет к более осознанному использованию метрик в SEO и откроет возможности для дальнейших исследований в этом направлении.
Автор: Иван Алешин — data-инженер в Ant-Team.ru.
Подписывайтесь на наш телеграм-канал, чтобы первыми узнавать о выходе новых материалов. И смотрите наши бесплатные обучающие видео на YouTube, VK и Rutube.