404 Not Found – значение для SEO, причины, поиск, устранение
История
Коды состояния (Status Codes) определяются стандартом протокола HTTP RFC9110 HTTP Semantics принятым в июне 2022 года. Впервые коды состояния попали в стандарт еще в 1996 году RFC1945 HTTP/1.0 всего их было 15 штук и одним из них был код 404.
В предыдущей версии стандарта HTTP/0.9 от 1990 года коды состояния не упоминаются. На данный момент только 4хх кодов в стандарте описано 22 штуки.
Терминология
Согласно актуальной версии стандарта RFC9110:
Код состояния (status code) - это техзначное число от 100 до 599, которое описывет результат запроса от клиента к серверу.
Первая цифра кода состояния определяет класс ответа, таким образом, всего существует пять классов.
404 принадлежит к классу 4хх (Client Error) – запрос содержит неверный синтаксис или не может быть выполнен и указывает на то, что клиент, скорее всего ошибся.
Значение для SEO
Google прямо заявляет, что 404 не влияет на индексацию и ранжирование сайта. В справке Яндекса так же не говорится про вред 404 для SEO. Если резюмировать официальную информацию поисковиков и данные от представителей Google, то картина такая:
- Наличие на сайте страниц с кодом ответа 404 – это нормально и в большинстве случаев не влияет на ранжирование сайта.
- На сайте должна быть оформленная специальным образом страница «404», которую увидит посетитель сайта.
- Из индекса Google страница исчезнет сама приблизительно через месяц. Яндекс тоже удалит, но не известно когда.
- Google советует:
- Не блокировать недействительные URL в файле robots.txt;
- Не создавать на этих адресах бесполезный контент;
- Не настраивать переадресацию на главную или другой страницу сайта;
- Не менять код состояния на 410 (Gone);
- Не выводить посетителю сообщение об ошибке 404, в то время как браузер получит код 200 - так называемая ошибка soft 404. Этому посвящен раздел справки Google, также, здесь, на VC выходила хорошая обзорная статья по этой проблеме.
Наиболее свежая позиция Google по 404 ошибке была озвучена в июне 2024 года Гэрри Иллисом (Gary Illyes) – представителем Google.
Unconventional as it may be, you don't need to fix all 404 errors: fix those that actually will help users.
Также есть мнение SEO сообщества о влиянии 404 на ранжирование:
- Поисковые боты потратят краулинговый бюджет (лимит на сканирование страниц одного сайта) на несуществующие страницы и не проиндексируют полезные страницы. В случае с Google, даже 100 тысяч URL будет не достаточно, чтобы повлиять на краулинговый бюджет. У Яндекса нет подобных заявлений, но и у них речь пойдет о десятках тысяч регулярно обновляемых страниц. Таким образом эта угроза актуальна только для очень больших сайтов.
- Страдают поведенческие факторы – посетитель, как правило, уходит с сайта получив сообщение об ошибке. Я это мнение также разделяю.
Таким образом, если все стандартные настройки сайта корректны и Soft 404 отсутствует, то на продвижении сайта наличие ответа 404 никак не сказывается. И это логично, так как в ином случае, нечестные конкуренты могли бы влиять на выдачу массой битых ссылок на чужие сайты. Однако, есть случаи, когда Google советует разобраться в причинах появления 404:
- Если страница была случайно удалена;
- Если страница может быть полезна посетителям;
- Если в существующем URL адресе часто делают опечатки.
Можно резюмировать, что если следовать рекомендациям Яндекс и Google, то 404 ошибка не станет проблемой в продвижении сайта. Но причины появления 404 ошибки различны и некоторые из них могут влиять на поведенческие факторы, а это, в свою очередь, будет влиять на ранжирование, и такие причины нужно выявлять и вовремя устранять.
От теории к практике
Был у меня один сайт. Старый, относительно большой (5000 – 6000 страниц), постоянно пополняемый магазин. Когда-то переехал на CMS будучи изначально самописным. Пережил попытку внедрения мультиязычности, но откатился. Пострадал от попытки внедрения региональности – откатился, вторая попытка была удачна и в этом состоянии я его и застал. После переезда, внедрений и откатов, установки и удаления различных модулей с ним активно работали, но про 404 забыли.
Экономическое обоснование
Сбор данных из Яндекс Метрики дал такие цифры:
- 2,45% посетителей получали 404;
- Ни один из получивших 404 не совершил покупку;
- Глубина просмотра и Отказы в 2 раза хуже средних;
- Время на сайте в 9 раз хуже средних.
Поскольку на сайте была настроена сквозная аналитика и электронная коммерция, было можно посчитать среднюю конверсию в покупку, средний чек и среднюю наценку (в терминологии Метрики «Прибыль») и сделать вывод о целесообразности дальнейших работ.
Причины 404 ошибки
Главное - выявить причины появления 404, чтобы устранить текущие ошибки и не допустить ошибок в будущем:
- При переезде были потеряны некоторые папки с файлами инструкций к продаваемому оборудованию;
- При внедрении региональности некорректно настроили модуль управляющий информационными статьями и разделом новостей;
- При проведении региональных акций и распродаж некорректно генерировались ссылки на страницы сайта;
- Ошибка в скрипте генерирующем ссылку при оформлении заказа, которая появлялась от случая к случаю;
- Некорректное удаление товаров из некоторых разделов и товарных сетов.
В работе по устранению причин потребовалось активное участие контентщика и программиста - ребята понимающие и инициативные. Все было сделано быстро и процент 404 упал до 0,1%. После чего остановились и решили заняться этим как-нибудь потом, ибо были и другие задачи.
Было посчитано затраченное рабочее время специалистов и сделан вывод – работы окупятся за 3-4 месяца.
В рамках борьбы за поведенческие была также переработана, по мере возможности, сама страница 404 ошибки. Изменен дизайн, добавлен блок «Рекомендуемые товары», блок «Акции» и выделено небольшое пространство под последнюю актуальную новость. Вообще, различных дизайнерских вариантов оформления 404 страницы найти можно много.
Поиск 404 ошибок на сайте
Существует несколько способов нахождения ошибки 404 на сайте. В общем-то не хитрые настройки в Яндекс Метрике или Google Tag Manager.
- С помощью одного из стандартных отчетов Метрики с использованием фильтра по параметру Заголовок страницы - «Страница не найдена». Если добавить в отчет параметры «Адрес страницы» и «Рефер», то можно увидеть адреса отсутствующих страниц и иногда узнать откуда пришли посетители.
- Второй вариант, не исключающий первый, это настройка цели JS-событие, этот способ описан в блоге Яндекса, и хотя статья уже в архиве, но способ все еще рабочий. Нужно будет добавить небольшой скрипт и в Метрику будет уходить информация об адресах таких страниц и их источниках.
- Третий вариант через Google Tag Manager, также не исключает первых двух. Вот обширная инструкция со скриншотами. В связи с неопределенной судьбой Google в России - использовать этот вариант факультативно.
В идеале использовать все варианты, чтобы сравнивать данные между собой.
Заключение
- 404 ошибка не так опасна, как её часто выставляют SEO-ресурсы, за исключением "soft 404";
- Нужно настроить хотя бы один способ отслеживания 404 ошибки и регулярно следить за этим параметром сайта;
- Саму страницу 404 ошибки нужно хорошо проработать, чтобы не терять посетителей.
Источники для ознакомления:
- Актуальный стандарт протокола HTTP RFC9110 HTTP Semantics
- Справка Google «Ошибка 404»
- Справка Google «Ошибки soft 404»
- Справка Google про краулинговый бюджет
- Справка Яндекс «Корректное оформление страницы с ошибкой 404»
- Обзорная статья «Как оптимизировать краулинговый бюджет»
- VC, Виктор Петров, «Soft 404: что это и как влияет на SEO»
- Интервью Гэрри Иллиса «Google: When You Should Fix Pages 404 Status Codes»
- Дизайн страницы 404 «Как оформить страницу 404, чтобы не терять пользователей»
- Способ отслеживания 404 через отчет Метрики «Отслеживание 404 ошибок в Яндекс.Метрике»
- Способ отслеживания 404 через настройку в Метрике цели JS-событие «Гид по Метрике: отслеживание 404 страниц и их источников»
- Способ отслеживания 404 с помощью Google Tag Manager «Find 404 Pages in Google Analytics»