Рейтинг SEO анализаторов текста или какой ТА лучше использовать для SEO оптимизации.
- Работает ли вообще текстовый анализ в эпоху накрутки ПФ?
- Приницип работы текстовых анализаторов (ТА)
- Классические методы (tf/idf): динозавры, которые всё ещё живы
- ТА в Доколумбову эпоху: смотрим ТОП, считаем вхождения
- Векторное представление слов
- Как трансформеры BERT и GPT поменяли текстовое ранжирование
- Эксперимент, важны ли LSI слова?
- Какой ТА лучше, JustMagic, RushAnalytics, GAR Антона Маркина, Megaindex или может Chat GPT?
- Небольшая сенсация, или выкиньте ваши ТА! Шутка)
- Подводим итоги
Казалось бы, текстовый анализ в SEO - дело привычное. Но не спешите с выводами! С появлением нейросетей вроде BERT и GPT мир поисковой оптимизации перевернулся с ног на голову. Возникает вопрос: насколько актуальны старые добрые методы в новых реалиях? Запасайтесь попкорном, статья будет длинной, с картинками, графиками и кодом.
Работает ли вообще текстовый анализ (ТА) в эпоху накрутки ПФ?
Отвечу двумя доводами, сначала на языке фактов. То, что вы видите на рисунке - это схема обучения YATI - нейросети от Яндекса которая сейчас используется на поиске. Обратите внимание, что при обучении, использовались, как ни странно, тексты.
Ну и второе, допустим, крутите вы ПФ сайту, а он зараза такая не лезет в ТОП, пишет создателю чудо софта "Уважаемый, ваш софт не работает", а в ответ вам приходит "Ваш сайт плохо оптимизирован, добавьте вхождений ключевых фраз и LSI слов, поработайте с метатегами. Как-то так)
Все ТА по принципу действия можно разделить на 3 большие группы:
- Используют количественные метрики: https://tools.pixelplus.ru, https://miratext.ru/seo_analiz_text, https://www.rush-analytics.ru
- Используют формулу tf-idf: https://artur2k.ru/, https://gar.pro/, https://seolemma.ru, https://ru.megaindex.com/a/textanalysis
- Используют нейросети: https://neuronwriter.com, https://t.me/vector_keywords_bot, https://chatgpt.com, https://arsenkin.ru/tools/ai-seo/
- Используют магические методы ) https://justmagic.org
Классические методы (tf/idf): динозавры, которые всё ещё живы
Помните времена, когда SEO было простым, как дважды два? Раскидал ключи по тексту, купил ссылок — и ты в топе! 😅 Так вот, метод tf/idf — это как раз из той эпохи. Яндекс использовал его до 2016 года. Да-да, вы не ослышались — 2016!
Как это работает:
1. TF (term frequency) - считаем, сколько раз слово встречается в тексте.
2. IDF (обратная частота документа) — смотрим, насколько это слово редкое в целом.
3. Умножаем одно на другое - вуаля, важность слова готова!
Пример для гиков: допустим, слово «SEO» встречается 5 раз в тексте из 100 слов. TF = 5/100 = 0,05 В интернете 1 000 000 документов, «SEO» встречается в 1000 из них. IDF = log(1 000 000/1 000) = 3 TF-IDF = 0,05 * 3 = 0,15
Звучит просто? Так и есть! Но у этого подхода есть свои подводные камни:
- Игнорирует контекст (а он важен, поверьте!)
- Не учитывает порядок слов (а это иногда критично)
- Как и кто его посчитал внутри своего текстового анализатора – одному богу известно.
- Как давно и насколько корректно собиралась база idf тоже непонятно.
Но не спешите хоронить tf/idf! Некоторые ТА до сих пор его используют:
Анализаторы на основе количественных метрик: или Доколумбова эпоха
Как они работают? Берут ключевое слово, смотрят на сайты в топе и считают всё, что можно посчитать, желательно ещё в разных зонах документов. Например:
- "Пластиковое окно" встречается 40 раз
- "Окна" - 50 раз
- "Подоконник" - 15 раз
На основе этих данных они создают «идеальный» текст для SEO.
Cтоп! А что, если сайты в топе — не лучший пример? 🤔 Может, они там из-за накрутки ПФ или ссылок?
Ограничения этого подхода:
- Контекст? Не, не слышали (опять!)
- Неясно на какие сайты из ТОПа ориентироваться
- Качество контента? А это ещё что такое?
Нейросетевые анализаторы: будущее уже наступило!
А теперь держитесь крепче, потому что мы вступаем в мир искусственного интеллекта! 🤖
Простые нейросети (2013-2018): слова становятся векторами
Представьте, что каждое слово — это точка в многомерном пространстве. Близкие по смыслу слова находятся рядом. Например, «кот» и «кошка» будут соседями, а «автомобиль» — где-то далеко.
Как это работает на практике? Используется косинусная близость - мера сходства между векторами. Значения от 0,2 до 1, где 1 - полное совпадение.
Пример для гиков: A = [1, 2, 3] ("кошка") B = [2, 3, 4] ("кот")
Проводим расчеты: (A • B) / (||A|| * ||B||) = 0.9925
Итого, косинусная близость = 0.9925 (очень похожи!)
Но и у этого подхода есть проблемы:
- Не учитывает контекст (опять двадцать пять!)
- Каждое слово имеет только одно значение (а как же многозначные слова?)
- Вопрос «свежести» базы, неологизмы появляются каждый день, кто знал про квадробоберов года назад?
Трансформеры (с 2018 года): революция в мире NLP
В 2018 году появился BERT, и мир NLP перевернулся! Теперь нейросети могут понимать контекст и даже улавливать нюансы языка.
Как это работает?
1. Энкодер (BERT) "сжимает" текст, сохраняя ключевую информацию.
2. Декодер (GPT) может "разжать" это представление (промпт) и создать новый текст.
Ключевая фишка - механизм внимания (attention). Представьте, что вы читаете предложение и обращаете внимание на разные слова, чтобы понять смысл. Трансформеры делают то же самое!
Что это дает для SEO?
- Лучшее понимание намерения пользователя
- Более точный анализ релевантности страницы
- Возможность создавать тексты, которые реально отвечают на запросы пользователей
В следующей части мы сравним все эти инструменты и посмотрим, кто же победит в битве анализаторов! Готовы к самому интересному? 🏆
Какой ТА лучше, JustMagic, RushAnalytics, GAR Антона Маркина, Megaindex или может Chat GPT?
Ну что, готовы к самому сочному? 🍖 Сейчас мы устроим настоящий батл между текстовыми анализаторами!
Будем сравнивать по ряду критериев, основной из которых - наличие семантически связанных SRW (LSI) слов. О влиянии этих слов на релевантность текста я провел мини эксперимент и выложил результаты у себя в телеграм канале. Спойлер - влияют!
Как мы это делали:
1. Выбрали ключевую фразу «окна ПВХ» (классика жанра, ничего не скажешь 😅)
2. Прогнали её через каждый анализатор, выгрузили LSI слова.
3. Взяли первые 50 фраз, которые выдал каждый инструмент
4. Измерили косинусную близость между нашим ключом и полученными SRW(LSI) словами
5. Посчитали среднее значение косинусной близости пар ключ/SRW слово
6. За нулевую точку (максимально нерелевантный текст) мы взяли текст про Большой театр.
А ещё мы оценили удобство использования, полноту анализа и стоимость. Потому что, знаете ли, не косинусной близостью единой жив SEO-шник!
Результаты
Не буду утомлять вас всеми цифрами (если интересно, загляните в таблицу), но вот самые сочные выводы:
1. Эффективность алгоритмов:
Нейросетевые анализаторы (vector_keywords_bot, ChatGPT-4o) показали релевантность - 97-100%! Да да! ChatGPT-4o вытащил LSI слова чуть ли не лучше остальных! Ссылка на секретный промпт в конце статьи!
Классические tf/idf (artur2k, SEO-лемма, GAR) — 87-97%
Анализаторы на основе количественных показателей — 73-93%
2. Полнота анализа:
Большинство инструментов дают достаточно полный набор слов (4-5 из 5)
Арсенкин немного подкачал (3 из 5). Видимо, решил не переусердствовать 😉
3. Удобство использования:
GAR получил высший балл (5 из 5). Видимо, создатели думали не только о функционале, но и о пользователях!
Остальные инструменты получили 3-4 балла. Неплохо, но есть куда расти
4. Стоимость и доступность:
Большинство анализаторов платные. Ну а вы чего хотели? Качество стоит денег!
Miratext, vector_keywords_bot и ChatGPT 4o1-mini предлагают бесплатный доступ. Отличный вариант для начинающих или тех, кто на мели 💸
5. Наличие вхождений:
Большинство анализаторов показывают наличие вхождений ключевых слов.
6. Дополнительный фактор "Faith":
GAR и JustMagic получили дополнительный балл за "веру" в инструмент. Сами знаете, "сделал, посмотрел, помолился" 😄
Общие выводы:
1. Нейросетевые анализаторы рулят по релевантности, но пока проигрывают по юзабилити тому же GAR
2. Классические tf/idf всё ещё в игре и могут дать фору молодым
3. Выбор инструмента зависит от ваших потребностей, бюджета и любви к интерфейсам
4. Комбинирование разных типов анализаторов может дать самый сок
Рекомендации:
1. Хотите точности? Берите нейросетевые анализаторы типа vector_keywords_bot или ChatGPT 4o
2. Нужен комплексный анализ и удобство? GAR - ваш выбор
3. Начинающим или экономным - Miratext или vector_keywords_bot
4. Работаете с нестандартными текстами? Комбинируйте несколько анализаторов
Помните, что выбор анализатора — это как выбор инструмента для ремонта. Молоток может и гвоздь забить, и стену разрушить. Главное — знать, когда и как его использовать!
В следующей части мы поговорим о том, как применить все эти знания на практике. Готовы оптимизировать тексты по-новому?
Секретный промпт
PS Ну и обещанный секретный промпт от ChatGPT, который соверешеннонеожиданно показал один из лучших результатов тут!
Спасибо за внимание!
Подписывайтесь на мой канал Python SEO 2 Нейрона в котором я, доступным языком, на примерах объясняю как работают нейросети и как это использовать в SEO.