Семантическое SEO: от слов к смыслу с помощью LLM

Поисковые алгоритмы развиваются, а оптимизаторы продолжают обсуждать, куда надо вставлять ключевые слова. Разберем, что давно пора внедрять в работу, чтобы оптимизация для поиска не превратилась в профанацию.

Капитан LLM преследует последний выживший тег Keywords. Свершится ли правосудие на этот раз?
Капитан LLM преследует последний выживший тег Keywords. Свершится ли правосудие на этот раз?

Исходные тезисы

  • Ключевые слова, описывающие контент страницы и сайта в целом, должны реально соответствовать контенту и иметь соответствующий контекст.

  • Системы статистики, используемые для проработки семантики, недостаточны для полноценной работы над ней.

  • Изначальное деление запросов на коммерческие и информационные не должно использоваться для работы над контентом.

  • Даже лучшие сайты в топе выдачи чаще всего имеют значительные недочёты в семантике.

  • В рамках SEO LLM стоит использовать для получения общего каркаса и оценки релевантности, но не целостного контента: LLM не понимает человеческой логики и задач, которые пытается решить человек.

Ключевые слова – это не про семантику

Времена, когда поисковые алгоритмы опирались только и исключительно на список слов, чтобы предположить, о чём идёт речь на странице, безвозвратно прошли. Это были хорошие времена:

  • Пишешь в keywords «секс, крэк, реферат» – и к тебе на сайт идут озабоченные школьники в поиске вареза. А у тебя ничего такого нету, у тебя рекламный блок с оплатой за показ.

  • Добавляешь в тайтл «купить дешево цены в москве» – и вот ты уже серьёзный коммерческий ресурс, который могут показать выше какой-нибудь большой торговой сети по частотному коммерческому запросу.

  • Анализируешь конкурентов? – Достаточно посмотреть ссылочный профиль, подсчитать вхождения на страницах в топе, объём контента и воспроизвести всё то же самое, чтобы получить сравнимый результат.

И поисковые системы всё это кушали.

Мы парсили поисковые запросы из «Вордстата», и для оценок хватало лишь частотностей и оценки коммерческого потенциала на базе данных Яндекс-Директа. Вот у нас список запросов из пары сотен ключевиков, а страничка не резиновая? – Это используем на странице, а это – в анкор-листах, которые «толкнём» с помощью всемогущей «Сапы».

Представители поисковых систем рапортовали о внедрении новых алгоритмов, но по факту ничего не менялось всерьёз. Текстовая оптимизация означала подробную проработку запросного индекса и ключевых слов: оцениваем топ выдачи по интересующим кластерам, готовим ТЗ для биржевых копирайтеров, которые понятия не имеют, о чём пишут и для кого, при необходимости – раздуваем каталог, чтобы алгоритм, оценивающий коммерческий потенциал сайта только на текстово-структурных данных, сделал нужные выводы. Оставалось только полить сайт трафиком и ссылками, чтобы закрепить и усилить результаты, и будет хорошо. И ведь было.

А что изменилось?

Правила меняются

  • Изменились поисковые системы. Вернее, системы информационного поиска превратились в рекламно-информационные площадки, чья оценка сайтов теперь в большей мере основана не на принципах информационного поиска, а на совсем других критериях. Теперь они оценивают бизнес, его потенциал, офлайн-метрики, репутацию, а не абстрактный контент на абстрактном сайте.

  • Поисковые системы научились работать с аудиторией, накопив колоссальные объёмы данных как по всему поисковому рынку, так и по вполне определенным пользователям. Алгоритм пытается понять, что показать конкретному пользователю, использовав имеющуюся информацию по конкретному профилю и похожих на него. Чем точнее будет попадание – тем больший профит для всех.

  • Изменилась сама манера искать. Отбросим тех, у кого есть смартфон, а всё нужное для них – в «Тик-ток» и «Спотифай». Увеличилась доля витальных запросов, когда сам запрос изначально подразумевает, где именно люди хотят найти нужную информацию. Увеличилась доля запросов, обращенных к голосовым помощникам, – и эти запросы в принципе редко попадают в системы статистики, поскольку используют естественный язык, а не ритуальные «пластиковые окна купить недорого».

  • Важность ключевых слов и их вхождений была основана на алгоритмах уровня TF-IDF и BM25. Важность синтаксических метрик со временем нивелировалась до уровня базовой оценки на этапе первичного ранжирования.

  • Поисковые алгоритмы научились работать со смыслом. Теперь ПС действительно могут оценить реальное содержание текста, понять, на какие вопросы он отвечает, а на какие – нет. Они знают, на какие вопросы целевая аудитория ищет ответы на самом деле. А значит, привычные методы текстового спама ключевыми словами становятся как минимум бесполезными. Вы либо даёте ответы на незаданные, но подразумевающиеся вопросы, либо нет.

Всё это делает SEO занятием не только более затратным, менее предсказуемым, а во многих случаях – и совершенно неэффективным. Для того, чтобы получать целевой трафик из поисковой выдачи, ваша компания должна быть реально заметным игроком в своей нише, сайт должен быть полноценной презентацией вашего бизнеса, а его контент представлять какую-то ценность для потенциальных посетителей – и поисковых систем. Если в этой формуле чего-то не хватает – продвижение будет напоминать гальванизацию лягушачьего трупика: лапки дёргаются, но называть это «динамикой» не совсем правильно.

SEO-специалист никак не может повлиять на суть компании: из «Конторы Никанора» не сделать «Амазон». Однако если речь идёт о конкурентоспособной компании, чей сайт пока просто не дотягивает до ожидаемых стандартов, SEO всё ещё может стать весомым фактором продвижения бизнеса в поиске и получения лидов.

Оценим, как использовать для этой задачи работу с семантикой и современный инструментарий. Но для начала разберем понятия, от которых давно пора отказаться.

Устаревшие понятия и концепции

  • SEO-контент. Задачей такого контента было размещение заданных ключевых слов, на которые ориентировались поисковики в поиске веб-документов, соответствующих запросу. Да, SEO-тексты могли быть даже полезными, но в целом – это лишь имитация смысла, зачастую противоречащая реальному содержанию. «Купить мебель недорого можно в нашем интернет-магазине» – но ценник тут явно дороже, чем у актуальных конкурентов, а то, что тут можно купить, понятно и без этого текста, если речь о странице каталога.

  • Оценка конкуренции только на базе сайта. Конкурируют не сайты, конкурируют презентации реальных бизнесов. Оценивая нишу, выбирая приоритетные запросы, выстраивая стратегии, вы должны сопоставлять реальный потенциал конкурентов. Занять место в топе вы можете только по тем запросам, по которым можете представить действительно хорошее предложение. Альтернатива – короткий всплеск на квартал-другой с закономерным вываливанием на дно, и тяжёлое недоумение («За что меня наказали, Яндекс?» – Да ни за что, просто ты прошёл без билета, по ошибке).

  • Оценка конкуренции только на базе одной страницы. Один, даже отлично проработанный документ, не может конкурировать с целым хостом, кластером, доменом знаний, каталогом. Сопоставлять можно только структуры.

  • Лонгриды и «вечнозеленый контент». Расчёт на то, что объёмный контент сам по себе получит преимущества только за счёт этого объёма, больше себя не оправдывает. В счёт идут только качественные характеристики.

  • LSI и тематические слова. Это всё ещё те же самые ключевые слова, имитирующие смысл за счёт статистики совместного использования с продвигаемыми ключевиками. Их присутствие в тексте может никак не влиять ни на смысл текста, ни даже на проработку контекста: рядом – не значит вместе.

  • Имитация полезности для посетителей. Вы знаете эту схему: аудитор открывает десяток сайтов в топе и кропотливо вносит в табличку, что размещено у конкурентов: видео – у пяти, галерея из десятка картинок – у трёх, какая-то табличка – у десятка. Это – карго-культ, если за ним не стоит понимание, зачем именно размещён какой-то контент и какие задачи он закрывает. Нет, там важно не видео само по себе: пользователь хочет увидеть, как именно нажимается эта штуковина, чтобы не сломалась та фитюлька. Только это.

Реальная история: владелец сайта компании, оказывающей услуги по алмазному бурению, по совету оптимизатора разместил на главной странице пару десятков видео, в которых какой-то пролетарий задумчиво бурил стену. Совершенно одинаково на всех роликах. Там, где достаточно минутного ролика, где показано, что алмазный бур работает быстро, точно, тихо и не оставляет грязи. Но мы же знаем, что чем дольше посетитель смотрит видео, тем выше позиции? (Это мрачная шутка).

А теперь разберем то, на что действительно стоит обратить внимание.

УТП или добавочная ценность контента

Представление о поисковых интентах, ограничиваемых информационным и коммерческим, перестало быть полезным. Алгоритмы, основанные на нейросетях, оценивают комплекс представленной информации, который лучше всего визуализировать в виде древа или графа. Малополезно оценивать «коммерческость» запроса в процентах на базе того, какой контент поисковая система показывает в поиске. Поиск пытается «закрыть» все известные ему возможные интенты и задачи пользователей. Ваша задача – стать тем ресурсом, где представлена вся необходимая для пользователей информация в заданной теме, с акцентом на тех запросах, где пересекаются интересы ваших потенциальных клиентов и интересы вашего бизнеса.

Нет причины высоко ранжировать сайт компании, которая ровно ничем не отличается от десятков таких же. Если вы хотите получить преимущество перед другими – вам нужно что-то, выгодно отличающее вас от всех прочих.

Уникальное торговое предложение (УТП) касается не только коммерческих запросов. Под УТП можно понимать вообще любую добавочную ценность вашего ресурса, выражаемую в качественных метриках. Если вы никак не можете дополнить информационные базы поиска – вы просто разместили контент «чтобы был», для технического объёма страницы.

Полнота информации и тематическая авторитетность

Если вы рассчитываете получить трафик за счёт низкочастотных и малопопулярных запросов с «длинным хвостом» – оставьте эту идею. Поисковые системы склонны обобщать запрос до общей темы, а для ранжирования выбирают сайты, где эта тема представлена максимально полно. Кроме того, для оценки документов под заданный запрос используются исторические данные: подобные люди искали ответы на похожие вопросы и находили их вон там.

Логично: если вы пришли в библиотеку в поиске материалов по какому-то математическому вопросу, библиотекарь отправит вас в раздел математики, но не станет искать единственную книгу в разделе кулинарных рецептов, где пара абзацев максимально точно отвечает на ваш запрос. В конце концов, зарплата библиотекаря не настолько велика, чтобы он держал в голове предельно точные данные на каждый чих, а вы – не единственный посетитель этой библиотеки.

Проработанный контекст особенно важен для ключевых слов с «длинным хвостом», которые представляют собой конкретные, нишевые фразы, которые ищут реже. Поскольку векторное вложение слов фиксирует связи между словами, оно может помочь поисковым системам понять значение ключевого слова с длинным хвостом, даже если оно не совпадает со словом в поисковом запросе.

Ключевое слово должно иметь контекст

Если вы используете на странице какие-то слова, которые могут быть восприняты поисковыми алгоритмами как ключевые, они должны быть связаны с соответствующим контекстом. Нет контекста – нет ключевого слова, выше риск попадания под фильтр за спам.

Традиционные методы представления слов, такие как «мешок слов» или one-hot encoding из word2vec, не учитывают контекст, в котором используется слово, или связи между словами. Это может привести к менее точным результатам, поскольку слово может иметь разные значения в зависимости от контекста, в котором оно используется.

Не любые слова могут быть учтены

Если выбранное ключевое слово не может выступать как именованная сущность, термин и в принципе слишком многозначно, можно рассматривать его как стоп-слово. Да, сервисы наподобие «Акварель-генератора» могут показывать, что это слово имеет высокий показатель связи с продвигаемым ключевым словом, потому что каждый второй сайт в топе по заданному запросу его использует. Но это вовсе не значит, что это слово может быть частью семантического графа и частью базы знаний.

Не все тематические слова добавят осмысленности и ценности вашему контенту
Не все тематические слова добавят осмысленности и ценности вашему контенту

Незачем добавлять в текст биграммы типа «изумительный отдых» и «красивые фотографии» для оптимизации страницы под запрос «туры на яхте»: да, их, вероятно, использовал каждый второй копирайтер, но веса они не имеют, поскольку не являются частью семантического графа и не имеют единого для всех смысла. Это просто семантический шум. Но совершенно понятно, что люди, которые хотят красиво отдохнуть на яхте, хотели бы получить и фотографии на память – поэтому добавьте соответствующий контент про услуги фотографа и вообще возможность сделать снимки на память.

Тематическая классификация и ключевые слова

Любой сайт может быть отнесен к вполне определенной тематике. Любой общий поисковый запрос может фактически относиться к нескольким тематикам и выполнять совершенно разные задачи. Пример – «таможенное оформление»: по этому запросу продвигаются таможенные брокеры, логисты, юристы, а ещё – чисто информационные ресурсы, куда ходят студенты в поиске информации для рефератов и курсовых работ. Соответственно, семантическая структура всех этих сайтов будет отличаться, и нет общего набора ключевых слов, которые позволяют сайту из одной тематики получить релевантный контент сайту из другой.

Хуже того: если вы используете лексику, относящуюся к теме, в которой у вас точно нет экспертизы, а на сайте нет соответствующего контекста – вы снижаете релевантность своего контента. Это серьёзный недочёт, если речь идёт о тематиках уровня YMYL, имеющих отношение к финансовой, юридической или медицинской сфере.

Используйте тематические классификаторы, чтобы определить принадлежность запроса, чтобы исключить несоответствие. Классификаторы Яндекса и Google отличаются, поэтому ориентируйтесь на целевой поисковик либо попробуйте обобщить данные.

Экспертность

С момента появления термина E-E-A-T сложилось несколько искаженное представление о термине «экспертность». Её стали применять исключительно к человеку – автору статьи. Сложилась целая индустрия по выращиванию «экспертов»: создаётся виртуальная «личность», для неё формируются учётные записи в соцсетях, её пытаются вносить в какие-то базы данных и даже в «Википедию». И всё это – в расчёте на то, что поисковые системы (Google прежде всего) сочтёт материал, подписанный «экспертом», действительно качественным.

Применительно к SEO экспертиза – это комплексная оценка сайта, определяющая уровень доверия к нему с точки зрения поисковой системы. Да, она подразумевает ряд таких метрик, как возраст сайта, его репутацию, цитируемость, связь с авторитетными источниками. Но в данном случае есть не менее важная группа метрик, относящихся к контенту.

Сайт должен быть признан относящимся к заданной тематике, предоставлять развернутую и достоверную информацию, соответствующую существующему домену знаний, максимально полно представлять граф тем и подтем из соответствующего кластера. Для оценки используются статус издателя, социальные сигналы, исторические данные, соответствие предметной информации, шаблоны поиска и многое другое. Поисковая система должна знать: этот сайт посвящён данной теме, здесь представлена вся необходимая информация, её предоставляют и проверяют специалисты, а посетители находили здесь то, что искали.

В практическом применении это означает, что продавец кухонной утвари может размещать обзоры сковородок, но для него нет никакого смысла публиковать статьи на тему «Как жарить картошку». Эти домены знаний близки, но для кулинарных рецептов сайту явно не хватит экспертизы.

Семантический анализ отличается от синтаксического

Один документ (страница сайта) с точки зрения семантики может относиться к нескольким кластерам (отдельным группам ключевых слов). Нет никакого «маркерного ключевого слова» (какого-то общего запроса, объединяющего все остальные ключевые слова страницы). Например, Sentence-BERT, используемый Google, делит контент на чанки – контентные блоки, ограничиваемые каким-то объёмом знаков (сейчас – 700). Векторизация и дальнейшее сопоставление векторных вложений идёт на этом уровне. А это значит:

  • Нет смысла оценивать семантическую релевантность на уровне n-грамм (однословников и двухсловников). Оценивать нужно отдельные текстовые фрагменты. Усредненные данные, которые можно получить, например, средствами Screaming Frog SEO Spider с выгрузкой векторных вложений выбранной LLM – полезный инструмент, но слишком грубый, и полученные результаты можно рассматривать как очень приблизительные.

  • Одна страница может содержать контент, релевантный разным поисковым запросам, в том числе и не относящимся к одному кластеру. Это же означает, что часть страницы может вообще не соответствовать целевым поисковым запросам, а также то, что поисковая система может ранжировать по запросу не весь документ, а один абзац. Например, единственный комментарий к какому-то тексту.

Что это означает на практике? – Можно сделать несколько выводов.

  • Стоит реализовать техническую возможность ранжировать отдельные чанки. Поисковик может отказаться держать в индексе большую бестолковую в основном страницу ради единственного качественного абзаца. Посмотрите, как это сделано на vc.ru: каждый комментарий имеет собственный URL и метаданные, что позволяет поисковым системам ранжировать именно их, а не весь контент.

  • Сквозной или автоматически выводимый контент может серьёзно снижать соответствие страницы запросу, если реально выпадает из кластера, хотя и кажется похожим или даже относящимся к этому кластеру. То же самое касается и оценки отдельных фрагментов страницы: если основной целевой контент мал по объёму и сильно уступает в этом смысле коммерческим блокам, высоких оценок текстового контента вы, вероятно, не получите.

  • Серьёзный анализ контента должен подразумевать оценку фрагментов (чанков, шинглов), а не всего контента целиком. Не стоит ждать, что поисковые системы самостоятельно определят, где у вас сквозной контент (навигация, коммерческие блоки) и сделают соответствующие выводы.

А теперь перейдём к практике. В качестве примера используем запрос «Чем кормить старую кошку» для подготовки статьи или ТЗ для копирайтера.

Соберите поисковые запросы по ключевым словам

Здесь всё стандартно: идём в «Вордстат» или любой другой аналогичный сервис и выгружаем данные по основному ключевому слову и его синонимам. Можно почистить от явного мусора, запросов «не о том», «накрученных» искусственно, витальных – с подстановкой бренда и т.п. Надо только понимать, что в данном случае нас интересует лексика, словарный состав, используемый аудиторией, а не поисковая статистика и коммерческий потенциал.

Старый добрый KeyCollector
Старый добрый KeyCollector

Полученные запросы кластеризуем по привычной схеме. Разделять запросы на «коммерческие» (транзакционные) и «информационные» на этой стадии не нужно, достаточно проверить группировку по реальной выдаче. Запрос, который кажется информационным, может быть важной частью конверсионной цепочки, и вам необходимо дать на него ответ на странице.

Поскольку общие системы статистики не покажут, по каким ещё запросам ранжируются страницы из топа выдачи, на следующем шаге надо использовать сторонние сервисы наподобие keys.so. Выбираем 5-10 сайтов из топа выдачи, отсекая те, что получили высокие позиции явно не за счёт релевантности контента, и выгружаем статистику запросов по конкретным URL: так можно обнаружить запросы, не содержащие изначальные ключевые слова, найти неожиданные формулировки или получить инсайты о поисковых намерениях аудитории.

keys.so покажет, по каким запросам заметил страницу в поиске
keys.so покажет, по каким запросам заметил страницу в поиске

Избавляемся от явного мусора, находим повторяющиеся запросы и явно целевые новые. Дополняем свой список.

Проверяем кластеризацию

Алгоритмы кластеризации по топу поисковой выдачи не отличаются высокой точностью, поскольку речь идёт о самых простых статистических методах. С учётом того, что все так или иначе смотрят на конкурентов и пытаются соответствовать каким-то медианным данным (от количества вхождений ключевиков до воспроизведения “LSI” и буквального копирования информации) группировка запросов может быть неточной даже после ручных правок. Особенно это касается инфо-контента.

Чтобы максимально устранить случайные ключевые слова и увеличить релевантность запросу, оценим готовый кластер запросов с помощью косинусной близости векторных вложений запросов, входящих в кластер. Порог соответствия можно определить опытным путём. Для себя я использую такую схему:

  • Для коротких текстовых фрагментов (уровня поисковых запросов) нижний порог соответствует 0,9

  • Для достаточно больших фрагментов (от чанков до всего контента страницы) – 0,86

Разумеется, это условные цифры, которые будут отличаться в зависимости от используемой модели, объёма текста и т.п. Общий принцип: чем больший объём контекста – тем ниже порог соответствия (в пределах от 0 до 1). Например, многие сервисы такого рода признают релевантным контент с релевантностью от 0,6, сопоставляя запрос с фрагментом текста.

Загружаем полученный кластер, выгружаем эмбеддинги для каждого запроса, и сопоставляем их с эмбеддингом основного запроса. Неплохо, все запросы укладываются в заданные пределы, кластер можно считать цельным.

Все запросы в списке явно относятся к одной группе запросов 
Все запросы в списке явно относятся к одной группе запросов 

Для проверки возьмём из «Вордстата» запросы, связанные с ключевым словом «старая кошка», заведомо исключая те, что имеют отношение к корму. Повторяем операцию. Как видим, явно несоответствующие запросы порожек не проходят, хотя запросы «старая кошка что делать» и «купить старую кошку» явно близки к анализируемому кластеру, что вполне укладывается в общую логику.

Не знаю, как бы это кластеризовал KeyCollector по топам, но минимум половина запросов в группу явно не вписывается
Не знаю, как бы это кластеризовал KeyCollector по топам, но минимум половина запросов в группу явно не вписывается

Собираем связанные запросы

Как утверждают системы статистики, примерно половина всех обращений к Google не продолжается переходами на сайты в выдаче, а половина из этих запросов продолжается другим переформулированным запросом. Это означает, что либо пользователь уже получил ответ на свой запрос, либо результаты выдачи его не устроили, и он решил уточнить.

Нам необходимы эти запросы, чтобы воссоздать логику пользователя, найти действительно важные подтемы и выстроить эффективную структуру страницы, отвечающую на максимум реальных вопросов, относящихся к продвигаемому целевому запросу.

Блок связанных запросов из выдачи Google
Блок связанных запросов из выдачи Google

Поисковые системы выводят эти запросы в блоке «Вопросы по теме» и «Люди также спрашивают» (PAA). Эти блоки имеют неочевидную на первый взгляд структуру: вы видите список запросов верхнего уровня, но раскрыв любой пункт, обнаружите, что подгружаются новые пункты, имеющие прямую связь с раскрытым. Таким образом поисковая система пытается дополнительно конкретизировать ответы и предоставить более детальную информацию по целому поисковому кластеру.

Ваша задача – выгрузить соответствующие PAA, возможно – с выводимыми ответами, хотя при доступе к современным LLM эти ответы можно проигнорировать. Можно воспользоваться одним из доступных сторонних сервисов, выгружающих PAA по API.

PAA в структурированном виде
PAA в структурированном виде

Составляем список вопросов

В данном случае речь идёт именно о вопросах, которые интересуют потенциальную аудиторию, а не поисковые запросы, обращённые к поисковой системе не на естественном языке. Мы фиксируем вероятные намерения, а не ключевики.

У нас есть достаточно детальный список поисковых запросов, относящихся к одной группе, и объединенных общими поисковыми намерениями. По-хорошему – стоит дополнить этот список данными от представителей отдела продаж клиента: они намного лучше знают, что именно спрашивает потенциальный лид и что его интересует конкретно. К сожалению, такую информацию может предоставить далеко не каждый клиент, а в ряде случаев её и попросту не существует.

Готовый список может быть очень объёмным – до нескольких сотен строк. Чтобы не тратить время, можно поручить процесс фильтрации LLM:

  • Через чат-бота, загрузив список полученных запросов, с промптом, подразумевающим объединение дублируемых по смыслу

  • Выгрузив векторные вложения (эмбеддинги) с дальнейшей фильтрацией по близости

Я поступил ещё проще: использовал сопоставление векторных вложений запросов кластера и связанных запросов с вложением основного запроса «чем кормить старую кошку» по косинусной близости. Таким образом стали очевидны не только дублирующиеся по смыслу запросы, но и обнаружились запросы, слишком слабо связанные с основным. Их мы отсеем.

Оставшиеся запросы могут выступать в качестве подзаголовков для будущей статьи или в качестве важных контентных блоков, если речь идёт о странице услуг или товарных описаний.

Оценка на поисковые сущности

Соответствие пользовательским вопросам – это ещё не всё. Многие тематики подразумевают информацию, основанную на поисковых сущностях, способных повлиять на оценку релевантности, экспертизы, принадлежности к заданной тематике и т.п. Вы должны понимать, какие поисковые сущности должны присутствовать в контенте на заданную тему, а какие могут стать проблемой, если ваш сайт будет признан не обладающим соответствующей экспертизой, чтобы размещать контент на эту тему и тем более – ранжироваться по таким ключам.

Самый простой способ быстро решить эту задачу – спарсить контент 5-10 страниц из топа поисковой выдачи и обработать их с помощью инструментария, способного выявлять именованные сущности. Те, что устойчиво повторяются от документа к документу, требуют пристального внимания. В случае контента на тему «Чем кормить старую кошку» речь идёт о таких сущностях, как «кошка», «пищеварение», «болезнь», «десны», «запор», «обезвоживание организма» и т.п.

Каждой обнаруженной сущности присваивается оценка релевантности от 0 до 1. Используя эти данные, вы можете отсечь случайные сущности или решить, можете ли вы проигнорировать явно проблемные. Например, сущность «дёсны», встретившаяся у сайтов-конкурентов, получает балл релевантности 0,12 – а это слишком малое соответствие теме, и сущность можно с чистой совестью игнорировать. А вот «обезвоживание организма» получает балл 0,609, что означает его высокую важность в теме, где сущность «кошка» получает оценку релевантности в 0,69.

Именованные сущности интернациональны: у них есть идентификатор, всё остальное - это псевдонимы на разных языках
Именованные сущности интернациональны: у них есть идентификатор, всё остальное - это псевдонимы на разных языках

Помимо того, что важнейшие сущности в принципе должны присутствовать в тексте, им стоит дать достаточно развернутое определение, а некоторые должны получить ссылки на вспомогательные материалы, если связаны с проблемными категориями и требуют особой экспертизы (здоровье, финансы и т.п.).

Анализ контента конкурентов

У нас есть готовый список поисковых запросов. На его базе мы сформулировали основные интересы людей, которые обращаются к поиску с этой группой запросов. Мы выяснили, какие сущности и термины должны присутствовать в контенте. Пора убедиться, чего в тексте быть не должно.

Для этого опять воспользуемся контентом конкурентов из топа. Не всё, что попадает в топ, отличается высокой релевантностью. Список запросов также может не давать всей реальной картины по семантике. Если вы хотите получить контент, превосходящий сайты из топа, стоит потратить время на более подробный анализ их контента.

Разбиваем на чанки, извлекаем вложения, сопоставляем с вложением запросов
Разбиваем на чанки, извлекаем вложения, сопоставляем с вложением запросов

Схема та же: парсим, исключая сквозные элементы, разбиваем на чанки (фрагменты), извлекаем векторные вложения, сопоставляем как с общим запросом, так и с более конкретным (темой подзаголовка). Выявляем лишние, с низкой релевантностью, а также высоко-релевантные, не попавшие в наш предварительный список.

Marketbrew.ai обнаруживает суб-кластеры и думает, а зачем всё это
Marketbrew.ai обнаруживает суб-кластеры и думает, а зачем всё это

Можно сократить время на извлечение и обработку данных, если воспользоваться специальными сервисами, например, marketbrew.ai. Такие сервисы способны не только оценить релевантность существующего контента заданным запросам, но и дать развернутые рекомендации по корректировкам.

Составляем промпт для чат-бота

Предварительные работы закончены, время переходить к подготовке статьи. Вы можете воспользоваться любой моделью, которую считаете достаточно способной справиться с задачей. Лично я чаще всего использую либо Claude 3.5 Opus, либо Gemini 1.5 Pro.

У вас есть готовый список тем, которые должны быть отображены в статье, важнейшие сущности и термины, которые должны быть раскрыты в тексте, понимание, какой контент соответствует семантическому кластеру, а какой – не нужен. Объедините всю эту информацию в единый промпт, и запросите чат-бота сформировать либо структуру текста для передачи технического задания копирайтерам, либо для дальнейшей подготовки текста с помощью самого чат-бота.

Я предпочитаю использовать чат-бота: в большинстве случаев контент, подготовленный им, превосходит контент, подготовленный техническим писателем. Кроме того, этот вариант снимает проблему подготовки списка тематических слов (тех самых, которые любят называть LSI) и лишних слов, которые любят рассматривать как «продающие», «эмоциональные», «креативные» и т.п. LLM, как великий усреднитель, в состоянии самостоятельно справиться с отсевом мусора и выбором правильных слов.

Почему не стоит позволять чат-ботам писать тексты без контроля

Чтобы получить с помощью любой генеративной модели внятный и эффективный контент, надо понимать её особенности, преимущества и недостатки.

  • Прежде всего, любая языковая модель на нынешнем этапе – не «искусственный интеллект». Она не способна думать, принимать решения, в неё не заложена информация о клиенте. Её функция – усреднять. Иными словами, вы можете получить с её помощью идеальную выжимку из терабайтов данных, суммировать какие-то документы, но не более того.

  • Чем более специфична тема, тем больше вероятность того, что ChatGPT или другая модель выдаст чушь или сообщит, что понятия не имеет, что вы имеете в виду.

  • Контекстное окно современных моделей всё ещё слишком мало, чтобы подготовить серьёзную статью от и до.

Лично я предпочитаю создавать с помощью LLM фрагменты текста, которые потом ещё нужно редактировать и сшивать в единую статью. Таким образом можно сохранять контекст, логику и связь между разделами. И разумеется, ваш текст по итогам не будет шаблоном, состоящим из банальностей и трюизмов.

Сейчас поисковые системы очень хорошо принимают сгенерированный контент. Однако неизбежно время, когда заказчики сгенерированных текстов столкнутся с проблемой семантических дублей и потеряют возможность получать преимущество за счёт высокорелевантных текстов – просто потому, что такие тексты будут и у их конкурентов.

Заключение

Описываемые в статье методы могут быть использованы не только для подготовки ТЗ для технических писателей и копирайтеров. С их помощью вы можете анализировать существующий контент, его соответствие продвигаемым запросам и ожиданиям целевой аудитории, находить и устранять семантические дубли на сайте, устранять суб-кластеры, мешающие продвижению целевого кластера, более эффективно структурировать как отдельные страницы, так и сайт в целом, оптимизировать внутреннюю и внешнюю перелинковку.

Несмотря на кажущуюся сложность, использование упомянутого инструментария позволяет сократить процессы сбора, обработки и анализа необходимых данных, при этом получив более весомый и эффективный результат.

1414
19 комментариев

Очень полезный контент, спасибо!

Получение эмбеддингов, расчет косинусных расстояний и списков сущностей на основе текстов конкурентов - все через python?

3
Ответить

Извлечь вложения можно через js или python - был бы доступ по API к модельке. Там скрипт короткий, готовый идёт вместе со Screaming Frog начиная с версии 20 - там просто свой ключ указать в шаблон и можно выдёргивать. Можно и напрямую, без "Фрога", сразу в гуглотаблицы.
Косинусы потом отдельно считать надо, примерно теми же средствами. Можно тоже через Гуглотаблицы, просто скрипт прицепить. Можно через Python с выгрузкой в csv.

3
Ответить

Получила большое эстетическое удовольствие.

3
Ответить

Да, все так. Но можно же и ПФ накрутить...

1
Ответить

ПФ семантике не помеха, это добро хорошо в комплексе использовать. Нету трафика и пользовательских сигналов - всё остальное Яша может счесть не слишком важным, особенно если в теме крутят или у конкурентов естесственного трафа много.

4
Ответить

В начале опечатка? Имелось в виду "информационные" наверное.

"Изначальное деление запросов на коммерческие и транзакционные не должно использоваться для работы над контентом."

1
Ответить

Вообще не надо делить запросы по типам на старте, потому что цель — изучить тему и структурировать её по смыслам/интентам. К сожалению, такой подход требует глубокой проработки ядра, от чего часть сообщества отвалилась — в угоду скорости, конкурентоспособности и лени.

4
Ответить