Кейс Preply.com: рост индексации сайта с 20% до 60% за год

Как в Preply.com добились роста индексируемых страниц на 300%, улучшив внутреннюю перелинковку? Кейс от JetOctopus.

Когда разговор заходит о внутренней оптимизации сайтов (техничке), то первое, что приходит на ум, — это перелинковка. Сложно подсчитать, сколько написано материалов, как её анализировать, проектировать и строить. Каждый уважающий себя эксперт должен написать как минимум пару статей по этому поводу (я вот вебинар провёл).

Кейс Preply.com: рост индексации сайта с 20% до 60% за год

Но главная проблема таких материалов — какой эффект конкретно мне дадут эти рекомендации? Какие результаты я смогу получить, поработав со своей перелинковкой: «вроде стало лучше» или измеримый рост?

С другой стороны, написать статью — это X усилий, а сделать кейс с разбором — это как минимум 5Х. И я рад поделиться с вами кейсом от наших клиентов — сайты онлайн-образования Preply.com.

Preply — это образовательная онлайн-платформа, которая объединяет студентов и репетиторов для изучения иностранных языков и других предметов. На 2017 год на сайте было зарегистрировано 4000 активных преподавателей, которые обучили более 100 тысяч студентов.

Обычно чтобы уговорить клиентов поделиться своими внутренними данными для публичного кейса, с этими клиентами нужно как минимум поддерживать дружеские отношения. Но в моём случае наше знакомство с техническим SEO-специалистом Preply.com Игорем Баньковским имеет длинную историю.

Я уже рассказывал о том, как мы пришли к написанию собственного краулера и какие выводы сделали о работе поискового бота Google и «Яндекса», когда проанализировали первые 6 млрд лог-строк клиентских сайтов.

Так вот, с самых первых дней Игорь Баньковский был нашим экспертом и наставником. Он занимается глубоким техническим SEO в течение восьми лет и специализируется именно на внутренней оптимизации, а не покупке ссылок. Игорь работал с такими сайтами, как nur.kz, rabota.ua, depositphotos.com, а также он читает собственный курс по глубокому SEO.

Именно ему мы показывали наши первые интерфейсы, обсуждали дальнейшее развитие краулера и прямым текстом спрашивали: «Каких ещё инструментов тебе не хватает для анализа? Что мы ещё можем сделать?».

Разумеется, для меня лично работа над Preply.com была очень ответственной.

Этот кейс — результат кропотливого педантичного труда в течение года. Благодаря полученной информации и внесённым изменениям Preply.com увеличил количество проиндексированных страниц с 20% до 60%.

Что делали

В этом разделе я передаю слово Игорю Баньковскому, который расскажет, как именно он пользовался нашим сервисом, как выстраивал свою аналитику и какие гипотезы строил.

Суть любой SEO оптимизации сводится к тому, чтобы как можно больше нужных страниц попали в индекс Google и «Яндекса», а ненужные страницы — не попадали совсем. Тогда поисковые системы будут показывать пользователям «правильные» страницы в ответ на их запросы, и пользователи, заходя на них, будут находить именно то, что искали. Мы будем увеличивать трафик и, соответственно, продажи, а пользователи — получать свою ценность.

Однако, если на нашем сайте больше миллиона страниц, мы просто не можем отправить в индекс их все — поисковики просто не готовы тратить на нас столько ресурсов. Так вот, здесь начинается одна из главных битв сайтов-миллионников вроде Preply.com — это битва за краулинговый бюджет.

Краулинговый бюджет — это определённое количество ресурсов, которое Googlebot тратит на сканирование вашего сайта. Он необходим, чтобы приоритезировать, что и когда сканировать и сколько ресурсов для сканирования может выделить хостинг, размещающий ваш сайт.

Размер бюджета зависит от различных факторов: размера сайта, скорости генерации страниц, структурных факторов, объёма запросов, по которым ранжируется сайт, их частотности и других.

Логически понятно, что если бюджет ограничен, то нужно потратить его на самое лучшее и самое «правильное». В SEO самое лучшее и «правильное» — это страницы, которые приводят много трафика, хорошо перелинкованы, содержат много текста и так далее.

Для этого нужно понять, что у вас на сайте самое лучшее, что и так приносит много трафика и сделать его ещё лучше: добавить больше текста, сократить расстояние до главной страницы, причесать то, что есть.

Но с большими сайтами часто бывает так, что бот всё равно тратит драгоценный краулинговый бюджет и ходит на страницы, где его быть не должно.

Страницы c тегом noindex

На сайте есть страницы, которые не должны быть проиндексированы. Скрыть такие страницы от поискового бота можно, если на них поставить метатег noindex. Но механизм работы этого тега состоит в том, что бот должен скраулить страницу, разобрать её (распарсить), обнаружить, что там стоит запрет на индексацию, и отбросить эту страницу.

Ситуация осложняется тем, что официальное руководство позиционирует meta = noindex как самый действенный метод запрета на индексацию. При этом умалчивая, что это может добавить проблем с краулинговым бюджетом.

Второй момент, про который нужно всегда помнить, — боту нужно периодически заходить на такие страницы, чтобы удостовериться, что вы не убрали с них запрет на индексацию. Таким образом бот вынужден тратить свои ресурсы на заведомо не ценностные страницы для него.

Поэтому первая задача, которую я перед собой поставил, это избавиться от ссылок, отправляющих бота на страницы с тегом noindex. Для этого нужно было понять, с каких именно страниц приходит бот.

Технически мы выполнили следующие действия (здесь и далее мы пользовались сервисом JetOctopus, но вы можете делать кросс-анализ другим удобным способом):

  • В DataTable Pages мы добавили колонку со страницами, на которые ссылаются страницы, открытые к индексации (datatable –> in links from indexable pages).
  • Настроили фильтр на это поле так, чтобы он показал страницы, у которых одна и больше таких ссылок.
  • Добавили сегмент non indexable pages (неиндексируемые страницы).

У нас получилась таблица со страницами, которые не индексируются, и сразу с адресами страниц, которые на них ссылаются. Мы убрали эти ссылки, и по логам стало видно, как бот увеличил посещения на другие страницы, в частности, которые не посещал ранее вовсе. Как итог — рост количества страниц в индексе.

Снижение непроиндексированных страниц в динамике по месяцам Аналитика Preply.com​
Снижение непроиндексированных страниц в динамике по месяцам Аналитика Preply.com​

Зависимость показов от количества внутренних ссылок

Далее я хотел проверить гипотезу: зависит ли количество показов страницы по НЧ-, СЧ-запросам от количества внутренних ссылок на эту страницу. То есть если внутри сайта мы часто ссылаемся на одну и ту же страницу, правда ли, что эту страницу Google будет чаще показывать пользователям?

Если гипотеза подтвердится, то мы могли бы улучшить показатели, увеличив количество внутренних ссылок на «правильные» страницы и таким образом ещё увеличить их важность и, соответственно, убрать внутреннюю перелинковку на неважные страницы.

Чтобы проверить гипотезу, мы сделали следующее:

  • К упомянутой выше таблице мы добавили новый слой данных из Google Search Console, где были все страницы, у которых был хотя бы один показ (>0). У нас получилось определённое количество страниц с показами, которое я, к сожалению, не могу разглашать.
  • Затем мы подсчитали среднее количество внутренних ссылок на эти страницы с показами.
  • После этого мы посчитали, сколько внутренних ссылок стоит на страницы, у которых совсем нет показов (=0).
  • Сравнили эти данные и поняли, куда нужно больше поставить ссылок.

Это позволило нам пересмотреть внутреннюю перелинковку для отдельных типов страниц. Мы нарастили количество ссылок на наиболее перспективные страницы с точки зрения трафика, и те в свою очередь начали получать показы и клики.

Динамика роста от перелинковки

И наконец мы хотели понять, как меняется динамика роста от перелинковки. Для этого мы сделали один краулинг сайта до выливки перелинковки. И затем ещё один краулинг после. И сравнили два результата сканирования.

Это позволило увидеть, что количество страниц, которые открыты к индексации, выросло с 20% до 60% от общего количества. А также это сравнение показало динамику по исправлению ошибок и дополнительные ошибки в перелинковке. Кроме того, мы нашли страницы совсем без ссылок.

Динамика страниц в индексе Google Аналитика Preply.com
Динамика страниц в индексе Google Аналитика Preply.com

Выводы

Работа с сайтом — это постоянный и непрерывный процесс, а работа с большим сайтом ещё добавляет сложностей из-за объёмов данных.

Какая бы ни была опытная команда сеошников, разработчиков, менеджеров, но с первого раза вряд ли получится сделать всё правильно и без ошибок.

То, что сработало на прошлом проекте два года назад, не означает, что сработает сейчас. Поэтому мы постоянно экспериментируем на сайте и стараемся увеличить органический трафик всеми доступными методами.

Очень важно в такой работе постоянно держать руку на пульсе и иметь возможность быстро проверять результаты внедрения изменений. В этом нам сильно помогает JetOctopus. Меня очень радует, что сервис постоянно развивается, а ценность от русскоязычной поддержки сложно описать словами.

Если у вас сайт от 100 тысяч страниц, советую постоянно работать с перелинковкой, структурой, отслеживать индексацию, смотреть логи и не забывать перекрауливать сайт после очередного деплоя на сервера.

12
28 комментариев