Рейтинг SEO анализаторов текста или какой ТА лучше использовать для SEO оптимизации.

Работает ли вообще текстовый анализ в эпоху накрутки ПФ?
Приницип работы текстовых анализаторов (ТА)
Классические методы (tf/idf): динозавры, которые всё ещё живы
ТА в Доколумбову эпоху: смотрим ТОП, считаем вхождения
Векторное представление слов
Как трансформеры BERT и GPT поменяли текстовое ранжирование
Эксперимент, важны ли LSI слова?
Какой ТА лучше, JustMagic, RushAnalytics, GAR Антона Маркина, Megaindex или может Chat GPT?
Небольшая сенсация, или выкиньте ваши ТА! Шутка)
Подводим итоги

Казалось бы, текстовый анализ в SEO - дело привычное. Но не спешите с выводами! С появлением нейросетей вроде BERT и GPT мир поисковой оптимизации перевернулся с ног на голову. Возникает вопрос: насколько актуальны старые добрые методы в новых реалиях? Запасайтесь попкорном, статья будет длинной, с картинками, графиками и кодом.

Отвечу двумя доводами, сначала на языке фактов. То, что вы видите на рисунке - это схема обучения YATI - нейросети от Яндекса которая сейчас используется на поиске. Обратите внимание, что при обучении, использовались, как ни странно, тексты.

Рейтинг SEO анализаторов текста или какой ТА лучше использовать для SEO оптимизации.

Ну и второе, допустим, крутите вы ПФ сайту, а он зараза такая не лезет в ТОП, пишет создателю чудо софта "Уважаемый, ваш софт не работает", а в ответ вам приходит "Ваш сайт плохо оптимизирован, добавьте вхождений ключевых фраз и LSI слов, поработайте с метатегами. Как-то так)

Любой SEO Текстовый анализатор работает работает по принципу, взял текст, оцифровал, что-то посчитал, с чем-то сравнил и выдал некие цифры, графики. таблицы либо ТЗ на копирайтинг.

Все ТА по принципу действия можно разделить на 3 большие группы:

Используют количественные метрики: https://tools.pixelplus.ru, https://miratext.ru/seo_analiz_text, https://www.rush-analytics.ru
Используют формулу tf-idf: https://artur2k.ru/, https://gar.pro/, https://seolemma.ru, https://ru.megaindex.com/a/textanalysis
Используют нейросети: https://neuronwriter.com, https://t.me/vector_keywords_bot, https://chatgpt.com, https://arsenkin.ru/tools/ai-seo/
Используют магические методы ) https://justmagic.org

Помните времена, когда SEO было простым, как дважды два? Раскидал ключи по тексту, купил ссылок — и ты в топе! 😅 Так вот, метод tf/idf — это как раз из той эпохи. Яндекс использовал его до 2016 года. Да-да, вы не ослышались — 2016!

Как это работает:

1. TF (term frequency) - считаем, сколько раз слово встречается в тексте.

2. IDF (обратная частота документа) — смотрим, насколько это слово редкое в целом.

3. Умножаем одно на другое - вуаля, важность слова готова!

Пример для гиков: допустим, слово «SEO» встречается 5 раз в тексте из 100 слов. TF = 5/100 = 0,05 В интернете 1 000 000 документов, «SEO» встречается в 1000 из них. IDF = log(1 000 000/1 000) = 3 TF-IDF = 0,05 * 3 = 0,15

Звучит просто? Так и есть! Но у этого подхода есть свои подводные камни:

Игнорирует контекст (а он важен, поверьте!)
Не учитывает порядок слов (а это иногда критично)
Как и кто его посчитал внутри своего текстового анализатора – одному богу известно.
Как давно и насколько корректно собиралась база idf тоже непонятно.

Но не спешите хоронить tf/idf! Некоторые ТА до сих пор его используют:

Как они работают? Берут ключевое слово, смотрят на сайты в топе и считают всё, что можно посчитать, желательно ещё в разных зонах документов. Например:

"Пластиковое окно" встречается 40 раз
"Окна" - 50 раз
"Подоконник" - 15 раз

На основе этих данных они создают «идеальный» текст для SEO.

Cтоп! А что, если сайты в топе — не лучший пример? 🤔 Может, они там из-за накрутки ПФ или ссылок?

Ограничения этого подхода:

Контекст? Не, не слышали (опять!)
Неясно на какие сайты из ТОПа ориентироваться
Качество контента? А это ещё что такое?

А теперь держитесь крепче, потому что мы вступаем в мир искусственного интеллекта! 🤖

Простые нейросети (2013-2018): слова становятся векторами

Представьте, что каждое слово — это точка в многомерном пространстве. Близкие по смыслу слова находятся рядом. Например, «кот» и «кошка» будут соседями, а «автомобиль» — где-то далеко.

Как это работает на практике? Используется косинусная близость - мера сходства между векторами. Значения от 0,2 до 1, где 1 - полное совпадение.

Пример для гиков: A = [1, 2, 3] ("кошка") B = [2, 3, 4] ("кот")

Проводим расчеты: (A • B) / (||A|| * ||B||) = 0.9925

Итого, косинусная близость = 0.9925 (очень похожи!)

Но и у этого подхода есть проблемы:

Не учитывает контекст (опять двадцать пять!)
Каждое слово имеет только одно значение (а как же многозначные слова?)
Вопрос «свежести» базы, неологизмы появляются каждый день, кто знал про квадробоберов года назад?

В 2018 году появился BERT, и мир NLP перевернулся! Теперь нейросети могут понимать контекст и даже улавливать нюансы языка.

Как это работает?

1. Энкодер (BERT) "сжимает" текст, сохраняя ключевую информацию.

2. Декодер (GPT) может "разжать" это представление (промпт) и создать новый текст.

Ключевая фишка - механизм внимания (attention). Представьте, что вы читаете предложение и обращаете внимание на разные слова, чтобы понять смысл. Трансформеры делают то же самое!

Что это дает для SEO?

Лучшее понимание намерения пользователя
Более точный анализ релевантности страницы
Возможность создавать тексты, которые реально отвечают на запросы пользователей

В следующей части мы сравним все эти инструменты и посмотрим, кто же победит в битве анализаторов! Готовы к самому интересному? 🏆

Ну что, готовы к самому сочному? 🍖 Сейчас мы устроим настоящий батл между текстовыми анализаторами!

Будем сравнивать по ряду критериев, основной из которых - наличие семантически связанных SRW (LSI) слов. О влиянии этих слов на релевантность текста я провел мини эксперимент и выложил результаты у себя в телеграм канале. Спойлер - влияют!

Как мы это делали:

1. Выбрали ключевую фразу «окна ПВХ» (классика жанра, ничего не скажешь 😅)

2. Прогнали её через каждый анализатор, выгрузили LSI слова.

3. Взяли первые 50 фраз, которые выдал каждый инструмент

4. Измерили косинусную близость между нашим ключом и полученными SRW(LSI) словами

5. Посчитали среднее значение косинусной близости пар ключ/SRW слово

6. За нулевую точку (максимально нерелевантный текст) мы взяли текст про Большой театр.

А ещё мы оценили удобство использования, полноту анализа и стоимость. Потому что, знаете ли, не косинусной близостью единой жив SEO-шник!

Не буду утомлять вас всеми цифрами (если интересно, загляните в таблицу), но вот самые сочные выводы:

1. Эффективность алгоритмов:

Нейросетевые анализаторы (vector_keywords_bot, ChatGPT-4o) показали релевантность - 97-100%! Да да! ChatGPT-4o вытащил LSI слова чуть ли не лучше остальных! Ссылка на секретный промпт в конце статьи!

Классические tf/idf (artur2k, SEO-лемма, GAR) — 87-97%

Анализаторы на основе количественных показателей — 73-93%

2. Полнота анализа:

Большинство инструментов дают достаточно полный набор слов (4-5 из 5)

Арсенкин немного подкачал (3 из 5). Видимо, решил не переусердствовать 😉

3. Удобство использования:

GAR получил высший балл (5 из 5). Видимо, создатели думали не только о функционале, но и о пользователях!

Остальные инструменты получили 3-4 балла. Неплохо, но есть куда расти

4. Стоимость и доступность:

Большинство анализаторов платные. Ну а вы чего хотели? Качество стоит денег!

Miratext, vector_keywords_bot и ChatGPT 4o1-mini предлагают бесплатный доступ. Отличный вариант для начинающих или тех, кто на мели 💸

5. Наличие вхождений:

Большинство анализаторов показывают наличие вхождений ключевых слов.

6. Дополнительный фактор "Faith":

GAR и JustMagic получили дополнительный балл за "веру" в инструмент. Сами знаете, "сделал, посмотрел, помолился" 😄

1. Нейросетевые анализаторы рулят по релевантности, но пока проигрывают по юзабилити тому же GAR

2. Классические tf/idf всё ещё в игре и могут дать фору молодым

3. Выбор инструмента зависит от ваших потребностей, бюджета и любви к интерфейсам

4. Комбинирование разных типов анализаторов может дать самый сок

1. Хотите точности? Берите нейросетевые анализаторы типа vector_keywords_bot или ChatGPT 4o

2. Нужен комплексный анализ и удобство? GAR - ваш выбор

3. Начинающим или экономным - Miratext или vector_keywords_bot

4. Работаете с нестандартными текстами? Комбинируйте несколько анализаторов

Помните, что выбор анализатора — это как выбор инструмента для ремонта. Молоток может и гвоздь забить, и стену разрушить. Главное — знать, когда и как его использовать!

В следующей части мы поговорим о том, как применить все эти знания на практике. Готовы оптимизировать тексты по-новому?

PS Ну и обещанный секретный промпт от ChatGPT, который соверешеннонеожиданно показал один из лучших результатов тут!

Подписывайтесь на мой канал Python SEO 2 Нейрона в котором я, доступным языком, на примерах объясняю как работают нейросети и как это использовать в SEO.

Рейтинг SEO анализаторов текста или какой ТА лучше использовать для SEO оптимизации.

Работает ли вообще текстовый анализ (ТА) в эпоху накрутки ПФ?

Классические методы (tf/idf): динозавры, которые всё ещё живы

Анализаторы на основе количественных метрик: или Доколумбова эпоха

Нейросетевые анализаторы: будущее уже наступило!

Трансформеры (с 2018 года): революция в мире NLP

Какой ТА лучше, JustMagic, RushAnalytics, GAR Антона Маркина, Megaindex или может Chat GPT?

Результаты

Общие выводы:

Рекомендации:

Секретный промпт

Спасибо за внимание!