Новое правило оформления Robots.txt - ошибка в вебмастере дубли по Get параметрам
Всем привет, в этом посте хочу рассказать о проблеме с которой столкнулся:
В Яндекс-вебмастере вылезла ошибка о том что контент дублируется по Get параметрам.
Первым делом я решил скрыть от индексации страницы вида: /?utm&параметр&параметр через Disallow: /*?* , но ошибка в Яндекс вебмастере так и продолжала висеть в вебмастере, сколько бы я не отправлял на перепроверку.
Помог уход в сторону clean param
Таким образом, я удалил скрытие от индексации через Disallow: /*?* и прописал следующую структуру:
Clean-param: utm_source&&p&rr и т.д.
Суть использования этой диррективы в кратце - сокращение параметров в url до начальной ссылки и передача веса всех страниц с параметрами на основную страницу в моём случае.
Давайте покажу пример:
У меня были в поиске урлы вида:
/page?utm_source=4899&code=GJ3jVnX6j2lkbtXFCoM4hJyttU4dzxkYQm5UXm09TwQX&pid=7939
Следовательно в роботс добавляем:
Clean-param: utm_source&code
После обработки страницы /page?utm_source=4899&code=GJ3jVnX6j2lkbtXFCoM4hJyttU4dzxkYQm5UXm09TwQX&pid=7939 в robots.txt для поискового робота Яндекс страница будет иметь вид: /page
А весь вес страницы с параметрами передастся также /page
Параметров в одном Clean-param рекомендую указывать до 15 штук, иначе может возникнуть ситтуация что поисковой робот не сможет обработать длинную строку из 100 параметров.
Теперь ошибка из Яндекс-вебмастера ушла, все страницы с параметрами исключены и роботы индексируют сайт хорошо. Позиции выросли в 2 раза примерно.
Для Google ботов можно оставить Disallow: /*?*
Всем спасибо, надеюсь будет кому-то полезно.