Лайфхак: как быстро найти дубли страниц

Я расскажу, как быстро найти дубли страниц и обезопасить себя от негативных последствий, к которым они могут привести.

7272

Давно отлично справляются в облаках такие поиски, https://sonar.network
Искал там дубли и отсутсвующие канонические ссылки. Так же проверяет с www и без www.
Да вообще много что проверяет. Без танцев с бубном

29

Ничего хорошего на этом сервисе не нашел. Они явно пытались скопировать отличный seoto.me, но получилось плохо. Часть ошибок – вообще вода и ни к чему, какая-то муть :) Сеото в этом плане более понятный, структурированный, гораздо больше функционала и полезной информации без всякой дичи вроде "отсутствует keywords" или "пустые или не содержащие параметра href ссылки".

5

Зачем готовить типы страниц, если те же нетпик спайдер и скриминг фрог могут найти дубли без таких плясок?
а если на сайте есть какой-то тип страниц о котором я не знаю?

10

Почитайте внимательно статью. Там четко указано: что на практике очень часто встречается ситуация, когда ни внутренних, ни внешних ссылок на сайте на страницы дублей нет, а вот поисковые системы их индексируют. И тут никакой паук вам не поможет.

Да и просто проверить внедрение рекомендаций, как ведут себя несуществущие страницы и страницы дублей с помощью сервиса намного проще. Для пауков нужно генерить данные страницы ручками. Есть время - генерьте.

6

1) В результатах не хватает колонки с наличием и значением rel=canonical.

2) Также неплохо было проверять robots.txt на закрытие "дубля" к индексации.

3) Стоит визуально выделять найденные дубли в результатах хоть как-то.

4) С index.php в конце иногда отрабатывает некорректно. Показывает сразу 200, хотя в Хроме(!) сначала видно 301, а потом уже 200 у конечной страницы без index.php.
Хотя посмотр другими тулзами тоже показывает только 200 у страницы с index.php. :)

1

Спасибо за коммент.

1. 2. В планах есть реализовать данные пункты + забыли про meta robots) Вообще много планов по его развитию. Так как реально сервис за небольшой период времени уже позволил сэкономить уйму времени.

3. Уточните, не совсем понятно о чем речь.

4. Да, есть такой момент. Думаем как его решить.

По поводу ламоды.
Недавно выкатили изменения с багами.
Но под ботами вы не зайдёте на страницу без последнего слеша)

1

Надо было сразу и регэкспы дать по каждому пункту на удаление

1

Материал серьезный, правда остается непонятным - где именно создаются все эти варианты полных или частичных дублей - в какой конкретно CMS и как.
К тому же, есть проект в котором .html дублей (статики) предостаточно, и первые шаги по устранению, выявили необходимость писать и переписывать объемный php скрипт, анализирующий _контент_ - с кучей, как выше замечено, regexp и попутно исправлением ошибок в html коде ... дошли где-то до середины и сдались (на время), т.к. утонули в лабиринте ветвлений условий - вот приблизительно как у Вас с кучей пунктов и подпунктов.

1

остается непонятным - где именно создаются все эти варианты полных или частичных дублей

Все эти страницы в итоге могут появляться в индексе, если они отдают 200 код. Как их находят поисковые системы? Это другой вопрос. Как вариант проанализируйте проиндексированные страницы в Яндекс Вебмастере и Google Search Console - увидете много интересно. Почти у каждого проекта находятся дубли, указанные в статье. Поэтому на начальном этапе продвижения проекта лучше обезопасить себя от их индексирования.

Комментарий удалён модератором

Когда 5 топовых CMS в рунете решат свои seo проблемы, 99% сеошников лишаться работы.

rel=canonical решает все проблемы, хоть //// хоть /index.php хоть с www или без. Если правильно прописан canonical то дело в шляпе!

Еще robots txt в котором можно clean param у указывать для фильтров и сортировки

Т.е достаточно прописать canonical для товара или статьи + clean param для категории где есть сортировка и всё

Ну и тут активное движение, много всего полезного по мимо дублей страниц.
Свой вклад и я внесу (может кому будет полезно), тут ребят читал, очень много полезного в управлению интернет-магазина, много лайфхаков: https://neoseo.com.ua/developing-e-shop

Вот это лайфхак! (нет). Как будто в 2008 вернулся