Лайфхак: как быстро найти дубли страниц
Я расскажу, как быстро найти дубли страниц и обезопасить себя от негативных последствий, к которым они могут привести.
Материал в первую очередь будет полезен как практикующим SEO-специалистам, так и владельцам сайтов. Но для начала давайте совсем быстро пробежимся по теории.
Немного теории
Наверняка многие слышали, что дубли страниц — это плохо. Подробно останавливаться на данном вопросе не буду, так как тема популярная, и качественной информации в интернете, даже появившейся в последнее время, много. Отмечу только неприятности, которые могут появиться у сайта при наличии дублей:
- проблемы с индексацией (особенно актуально для крупных сайтов);
- размытие релевантности и ранжирование нецелевых страниц;
- потеря естественных ссылок, которые могут появляться на страницах дублей;
- общая пессимизация проекта и санкции поисковых систем.
Поэтому в процессе продвижения проектов этому вопросу должно уделяться особое внимание.
Также стоит вкратце остановится на двух разновидностях дублей:
- Полные дубли — это когда один и тот же контент доступен по разным URL. Например: http://www.foxtrot.com.ua/ и https://www.foxtrot.com.ua/.
- Частичные дубли — когда страницы имеют общую семантику, решают одни и те же задачи пользователей и имеют похожий контент, но не являются полными дублями. Да, получилось достаточно запутанно, поэтому предлагаю рассмотреть пример: https://vc.ru/category/телеграм и https://vc.ru/category/telegram.
Обе страницы имеют общую семантику, похожий контент и решают одни и те же задачи пользователей, но при этом не являются полными дублями, так как содержимое страниц разное.
Выявить полные дубли намного проще, да и проблем они могут привести куда больше из-за своей массовости, а вот с неполными дублями нужно работать точечно и избавляться от них при формировании правильной структуры сайта. Далее в этой статье под дублями будут подразумеваться полные дубли.
Итак, мы определились, что проект не должен содержать дубли. Точка. Особенно критично, когда дубли начинают индексироваться поисковыми системами. И чтобы этого не случилось, а также для предотвращения других негативных последствий, их нужно выявлять и устранять. О том, как с ними бороться, можно найти много материалов, но если в комментариях будут просьбы рассказать подробнее, то я обязательно это сделаю в одной из следующих статей.
Чтобы никого не запутать, сейчас опустим момент с формированием нужных дублей (например, страниц с UTM-метками).
Выявление полных дублей
Обычно специалисты проверяют у продвигаемого проекта наличие следующих дублей:
1. Дубли страниц с разными протоколами: http и https.
Выше уже был указан пример такого дубля: http://www.foxtrot.com.ua/ и https://www.foxtrot.com.ua/.
2. С www и без www.
Например: http://oknadeshevo.ru/ и http://www.oknadeshevo.ru/.
3. Со слешем на конце URL и без него.
Например: https://www.1tv.ru/live и https://www.1tv.ru/live/.
При этом каждая страница содержит canonical на себя.
4. Строчные и прописные буквы во вложенностях URL.
При том, что страница https://www.mosokna.ru/PLASTIKOVYE-OKNA/ отдаёт 404-й код ответа сервера:
Это пример того, как на разных типах страниц один и тот же принцип формирования дублей обрабатывается по-разному.
5. Добавления в конце URL:
index.php
home.php
index.html
home.html
index.htm
home.htm
Как видно, оба URL проиндексированы в «Яндексе»:
А разве это все возможные дубли?
В своей практике я сталкивался с огромным количеством примеров формирования дублей, и самые популярные, которые встречались не единожды, я укажу ниже:
6. Множественное добавление ////////////////// в конце URL.
Например, http://www.banki.ru/ и http://www.banki.ru////////.
7. Множественное добавление ////////////////// между вложенностями.
Очень часто встречающаяся ошибка.
8. Добавление произвольных символов в конец URL, формируя новую вложенность.
9. Добавление произвольных символов в существующую вложенность.
10. Добавление вложенности с произвольными символами.
Не совсем дубль, но страница отдаёт 200-й код ответа сервера, что позволит ей попасть в индекс.
11. Добавление * в конце URL.
12. Замена нижнего подчеркивания на тире и наоборот.
13. Добавление произвольных цифр в конце URL, формируя новую вложенность.
Такие дубли часто формируются со страниц публикаций на WordPress.
14. Замена вложенностей местами.
15. Отсутствие внутренней вложенности.
Пункты 14 и 15 опять же не являются полными дублями, но аналогично пункту 10 отдают 200 код ответа сервера.
16. Копирование первой вложенности и добавление её в конец URL.
17. Дубли .html, .htm или .php для страниц, которые заканчиваются на один из этих расширений.
Например:
Все приведённые выше типы дублей были выявлены в индексе поисковых систем более чем у нескольких проектов. Хотите ли вы рисковать появлением такого огромного количества дублей? Думаю, нет. Поэтому и важно выявить те дубли, которые формируются и обезопасить себя от попадания их в индекс поисковых систем. А практика показывает, что рано или поздно они находят и индексируют такие страницы, хотя ни внутренних, ни внешних ссылок на данные страницы нет.
Проверять вручную все эти дубли очень долго. К тому же важно проверять каждый тип страниц на наличие дублей. Почему? Да потому, что страницы категории товаров и страница определённого товара могут иметь разные дубли. Пример уже был ранее рассмотрен.
Также в большинстве сайтов могут использоваться разные CMS для разного типа контента. Нормальная практика, когда, например, интернет-магазин на OpenCart подключает блог на WordPress. Соответственно и дубли страниц этих CMS будут кардинально отличаться.
Поэтому мы и разработали сервис, который формирует все возможные страницы дублей и указывает их ответ сервера. В первую очередь сервис делали для своих нужд, ведь он экономит огромное количество времени специалистов, но с радостью готовы с ним поделиться.
Как с ним работать и как читать его результаты — сейчас будем разбираться.
Онлайн-сервис поиска дублей страниц
1. Для начала перейдите по ссылке.
2. Подготовьте разные типы страниц сайта, у которого хотите выявить возможные дубли.
Давайте рассмотрим на примере интернет-магазина http://www.foxtrot.com.ua/.
Рекомендуемые к анализу типы страниц и их примеры:
- главная страница: http://www.foxtrot.com.ua/;
- страница категории: http://www.foxtrot.com.ua/ru/shop/noutbuki.html;
- целевая страница: http://www.foxtrot.com.ua/ru/shop/noutbuki_asus.html;
- страница товаров: http://www.foxtrot.com.ua/ru/shop/noutbuki_asus_f541nc-go054t.html;
- служебная страница: http://www.foxtrot.com.ua/ru/stores.
Для новостных и информационных ресурсов это могут быть:
- главная страница: https://www.maximonline.ru/;
- страница раздела: https://www.maximonline.ru/skills/lifehacking/;
- страница публикации или новости: https://www.maximonline.ru/guide/maximir/_article/myi-byili-v-55-sekundah-ot-strashnogo-pozora-ne-o/;
- страница тегов: https://www.maximonline.ru/tags/luchshie-lajfxaki-nedeli/;
- служебная страница: https://www.maximonline.ru/zhurnal/reklamnyj-otdel/_article/reklama-vmaxim/.
3. Вбиваем данные страницы в форму ввода и нажимаем кнопку «Отправить запрос»:
4. Запускается процесс обработки скрипта:
Немного ожидаем и получаем результат его работы по всем внедрённым страницам:
5. Анализируем результаты и подготавливаем рекомендации веб-программисту по устранению дублей.
Например, из вышеуказанного примера можно сделать следующие выводы:
- наличие дублей страниц с протоколами http и https;
- редирект со страницы без www на www происходит с помощью 302 редиректа (временный редирект);
- наличие дублей с добавление множественных слешей.
Соответственно, необходимо подготовить следующие рекомендации веб-разработчику:
1. Определиться, какой протокол всё же основной, и на страницы с этим протоколом настроить 301 редирект.
Например, если основной протокол https, то страница http://www.foxtrot.com.ua/ должна перенаправлять с помощью 301-го редиректа на https://www.foxtrot.com.ua/.
2. Изменить 302 редирект на 301 при перенаправлении страниц без www на аналогичные с www.
3. Настроить 301 редирект страниц со множественным добавлением слешей в конце URL на целевые страницы.
Например, страница http://www.foxtrot.com.ua//////// должна с помощью 301 редиректа перенаправлять на http://www.foxtrot.com.ua/.
Важно понимать, что помимо шаблонных формирований дублей, указанных в данной статье, у вашего проекта могут формироваться уникальные дубли. Поэтому не забывайте мониторить страницы, которые попадают в индекс поисковых систем. Помогут в этом «Яндекс.Вебмастер» и Google Search Console.
Update
Сервис будет дорабатываться и дополняться полезными функциями. Так, выкатили обновление, позволяющее перед публикацией статьи определить изменения URL от исходного значения:
Если материал вам был полезен, прошу оценить его стрелкой вверх.
До скорых встреч и берегите ваши проекты.
Давно отлично справляются в облаках такие поиски, https://sonar.network
Искал там дубли и отсутсвующие канонические ссылки. Так же проверяет с www и без www.
Да вообще много что проверяет. Без танцев с бубном
Ничего хорошего на этом сервисе не нашел. Они явно пытались скопировать отличный seoto.me, но получилось плохо. Часть ошибок – вообще вода и ни к чему, какая-то муть :) Сеото в этом плане более понятный, структурированный, гораздо больше функционала и полезной информации без всякой дичи вроде "отсутствует keywords" или "пустые или не содержащие параметра href ссылки".
Зачем готовить типы страниц, если те же нетпик спайдер и скриминг фрог могут найти дубли без таких плясок?
а если на сайте есть какой-то тип страниц о котором я не знаю?
Почитайте внимательно статью. Там четко указано: что на практике очень часто встречается ситуация, когда ни внутренних, ни внешних ссылок на сайте на страницы дублей нет, а вот поисковые системы их индексируют. И тут никакой паук вам не поможет.
Да и просто проверить внедрение рекомендаций, как ведут себя несуществущие страницы и страницы дублей с помощью сервиса намного проще. Для пауков нужно генерить данные страницы ручками. Есть время - генерьте.
1) В результатах не хватает колонки с наличием и значением rel=canonical.
2) Также неплохо было проверять robots.txt на закрытие "дубля" к индексации.
3) Стоит визуально выделять найденные дубли в результатах хоть как-то.
4) С index.php в конце иногда отрабатывает некорректно. Показывает сразу 200, хотя в Хроме(!) сначала видно 301, а потом уже 200 у конечной страницы без index.php.
Хотя посмотр другими тулзами тоже показывает только 200 у страницы с index.php. :)
Спасибо за коммент.
1. 2. В планах есть реализовать данные пункты + забыли про meta robots) Вообще много планов по его развитию. Так как реально сервис за небольшой период времени уже позволил сэкономить уйму времени.
3. Уточните, не совсем понятно о чем речь.
4. Да, есть такой момент. Думаем как его решить.
По поводу ламоды.
Недавно выкатили изменения с багами.
Но под ботами вы не зайдёте на страницу без последнего слеша)