Таки-здрасьте!Пишу тут пост впервые, так что пинайте как можно сильнее и сопровождайте пинки как можно более сильными криками.В данном посте я расскажу о том, как robots.txt, который на первый взгляд составлен правильно, полностью выбил сайт из поисковой системы Google.Дано.Сайт по велотуризму. Клиент у нас совсем недавно, поэтому на сайте пока что всё плохо. Клиент пожаловался, что сайт полностью вылетел из поисковой выдачи Google. Также заказчик сказал, что кто-то из его программистов что-то делал с robots.txt. ОК, будем посмотреть.Задача.Вернуть сайт обратно в Google. Не обязательно в ТОП, достаточно чтобы он просто индексировался.Что было сделано.Самое первое, что я сделал - глянул текущий robots. На момент вмешательства он выглядел вот так (версия от 11 августа):User-agent: *Disallow: /cgi-binDisallow: /?Disallow: /wp-Disallow: /wp/Disallow: *?s=Disallow: *&s=Disallow: /search/Disallow: /author/Disallow: /users/Disallow: */trackbackDisallow: */feedDisallow: */rssDisallow: */embedDisallow: */wlwmanifest.xmlDisallow: /xmlrpc.phpDisallow: *utm*=Disallow: *openstat=Allow: */uploadsAllow: /*/*.jsAllow: /*/*.cssAllow: /wp-*.pngAllow: /wp-*.jpgAllow: /wp-*.jpegAllow: /wp-*.gifAllow: /wp-admin/admin-ajax.phpSitemap: https://velotour-asia.ru/sitemap_index.xmlКак видите, никаких правил, которые запрещают индексирвание всего сайта ( или, скажем, главной страницы) тут нету. Подозрительно, однако!OK, Google, расскажи же, что не так! Идём в Search Console и пытаемся разобраться. И "от оно чо, Михалыч!" Противоречие однако!Обратите внимание, что попытка сканирования была 19го числа, т.е. спустя несколько дней после последнего редактирования robots'а. Эй, какого яруса?! Роботс, вроде, в порядке, но Google на него ругается. Как так-то?В коде страницы я никаких noindex'ов тоже не нашел, т.е. вариант с тегами отпадает.Далее я просканировал сайт Screaming Frog'ом, предварительно выставив в настройках смартфонный гуглбот (именно смартфонный, т.к. Николай Васильевич Гуголь сканировал сайт именно им). Также в настройках было выставлено Respect robots, чтобы содержимое robots.txt не игнорировалось.Как видите, все строки (кроме первой) отдают код 200 ОК и имеют статус Indexable. Т.е. со сканированием Фрог проблем не выявил. Странно. ОК, тогда воспользуемся штатным инструментом Google для проверки robots.txt. Самое первое, что бросилось в глаза - все строки были помечены как ошибочные.Всё страннее и страннее... Томить не буду. Проблему я, кстати, заметил далеко не сразу. Всё внимание на первую строку роботса:Что это за символ - не понятно. Удаляем и...... и все 26 ошибок исчезли. Далее я напрямую из Консоли скачал исправленный роботс, затем скачал с сайта исходный и стал сравнивать.Если их просто открыть в блокноте, то они выглядят абсолютно идентично. Как говорится, "найдите 10 отличий". Если вместо Блокнота открывать через Notepad++ - будет то же самое.Однако, размер файлов отличается, пусть даже всего на 3 байта:Вот блин просто охренеть! Всего 1 символ, который не отображается ни в браузере, ни в блокноте, ни в Notepad++, и сайт вылетел из индекса Google! Как тебе такое, Илон Маск?
Мой любимый utf bom bom?
скриншот из HEX-редактора выше))
ага :)
Это был копипаст текста файла со статьи с рекомендациями как его настраивать 🤣💪
кстати, может быть и так
Не, скорее предыдущий программист просто стал редактировать этот файл в стандартном Блокноте, который этот BOM и добавил.
Также заказчик сказал, что кто-то из его программистов что-то делал с robots.txtВидать не заплатили челику