Чтобы парсинг не мешал основной работе я использую сервер, собранный из китайских запчастей. Моя конфигурация не самая удачная (много жрёт электричества, сильно греется), но с задачей краулинга справляется отлично - два 8 ядерных процессора E5-2689, 1080 (другой не было), 48 GB RAM (REG ECC), ну и Windows Server на борту, поскольку бесплатная на полгода и не перегружена всякой шелухой от майкрософта. Нужен ли такой монстр? Разумеется нет, для объективности, установил в BIOS 2 ядра по 3.5 ггц и запустил те же самые настройки. Скорость парсинга не упала, но загрузка процессоров была 80-90%. Краулить реально без выполнения других задач.
Тема полезная, но мало, душа больше требует.
Я всё это использую, но парсинг интернет-магазина среднего объёма всё равно занимает от суток. Ключ, конечно, в рендере HTML и во включенных правилах для UA, но никакие серверные ресурсы ускорить процессы мне не позволяют.
А парсить надо, и не по разу, с эмуляцией хотя бы основных поисковых ботов, иначе можно прохлопать пачку важных ошибок.
А сейчас вот с появлением рендера JS и вовсе боюсь экспериментировать. А надо.
Про исключение проблемных страниц и разделов не понял. Зачем? Если это именно те места, где боты ломают ноги и шеи - нужно как минимум понять, в чём там трабл.
Очень помогает команда \? в Exclude, которая отсекает страницы с параметрами.
Также помогает просканировать 10%, выявить то, что можно добавить в Exclude, а потом выключить парсер и перенастроить с отсечением выявленного мусора+пагинацию тоже выключить исключением (если настройка и \? не помогли, может генерироваться иначе).
+ перечисленное в статье.
Сутки - вполне неплохое достижение.
Тема полезная, но мало, душа больше требует.Каждый случай индивидуален, поэтому общие рекомендации, которые подойдут для любого проекта
Я всё это использую, но парсинг интернет-магазина среднего объёма всё равно занимает от суток. Сколько страниц на сайте? Какая цель регулярного парсинга?
Про исключение проблемных страниц и разделов не понял. Зачем? Тут речь вот про что, начиная парсинг нового проекта еще не знаешь его структуры, велика вероятность наличия проблемных разделов. Под проблемными я понимаю страницы, которые не должны быть в индексе и в структуре, но они там есть по разным причинам. К проблемным легко можно отнести ссылки с параметрами, распространенная ситуация с календарем записей, где краулер до бесконечности может перебирать даты и так далее. Понятно, что тратить ресурсы на перебор такого типа страниц нет смысла, понятна маска урла и как это исправить, поэтому при повторном парсинге, такие разделы исключаю и уже ищу действительно неочевидный мусор.
Берем зену, катаем шаблон, зацикливаем его на повторы и в 5 потоков юзаем демку бесконечно...
Этот пост не про то, зачем вам парсить сайт, вы наверняка знаетеА тем, кто наверняка в 1-й раз об этом слышит (хотя и имеет представление о SEO), объясните, зачем?
Парсинг сайта для последующего анализа позволяет провести почти полный технический аудит: обнаружить дубли, проблемы сервера, битые ссылки, пустые страницы, проверить возможность доступа поисковых ботов к каким-то страницам и разделам и т.п.
Классический пример: у вас целый раздел с товарами не ранжируется и не сканируется. В панелях вебмастеров об этом практически никакой полезной информации нету. Смотрим скан - и видим кольцевое перенаправление. То есть робот фактически не может дойти до целевой страницы.
Ну или у вас полсайта отдаёт 404 из-за битых внутренних ссылок, и роботу просто не хватает ресурсов, чтобы ходить не по битым ссылкам, а по реальным и важным для вас.
Задач у парсинга много, начиная от поиска ссылок и их местонахождения на 301, 404 страницы, страниц с дублями метатегов (тайтлы, дескрипшены) и анализом структуры сайта, заканчивая выгрузкой URL страниц для сравнения с анализом логов сервера, опять же с целью найти, например:
- страницы, которые есть на сайте, но на которые не заходят боты;
- страницы, на которые заходят боты, но нет в структуре (нет ссылок на них с сайта);
- страницы, которые есть в индексе, но на которые нет ссылок и на которые не заходят боты
Вариантов множество, но инструмент маст хев, особенно для больших ресурсов.