Обход капчи продвинутым способом — рекомендации для SEO-специалистов с примерами кода

Каждый SEO-специалист, который занимается парсингом данных, знает, что капча — это непростой барьер, ограничивающий доступ к нужной информации. Но стоит ли избегать её вовсе, или лучше научиться обходить? Давайте разберёмся, что такое капча, почему она так популярна, и как SEO-специалисты могут её обходить, опираясь на реальные примеры и работающие методы.

Любой профессионал в SEO сталкивался с капчей — а если нет, то он либо не профессионал, либо некорректно понимает аббревиатуру SEO (может путает её с SMM или СЕО), либо только начал заниматься этим нелегким делом.

CAPTCHA (“Completely Automated Public Turing Test To Tell Computers and Humans Apart”) — это способ защитить сайт от автоматических действий, таких как парсинг данных или атаки ботов. CAPTCHA переводится как "Полностью автоматизированный публичный тест Тьюринга для различения компьютеров и людей".

Можно долго отрицать и доказывать, что CAPTCHA переоценена и не нужно тратить на неё значительные ресурсы. Но все эти доказывания заканчиваются ровно в тот момент, когда появляется задача получить данные из поисковой выдачи, например, Яндекс, а ты понятия не имеешь, что такое XML запросы... Или, например, клиент хочет спарсить весь Амазон и платит хорошо... Тогда никаких вопросов не возникает: "Ни слова больше..."

Обход капчи продвинутым способом — рекомендации для SEO-специалистов с примерами кода

На самом деле ситуация не так однозначна, как может показаться. Защитить сайт от парсинга данных может быть сложно, особенно если это некоммерческий проект или какой-то сайт-хомячок. Времени и, самое главное, желания тратить ресурсы на капчу не всегда хочется. Другое дело — если ты владелец крупного портала и этот портал приносит тебе многомиллионную прибыль. Тогда есть смысл задуматься о полноценной защите, в том числе для предотвращения DDoS-атак или нечестных конкурентов.

Например, Amazon применяет сразу три вида капчи, каждая из которых появляется в различных ситуациях, а также рандомно меняет дизайн, чтобы автоматизаторы и парсеры не могли использовать старые методы. Это делает обход защиты сложным и затратным.

Если мы говорим о более мелких вебмастерах, то они тоже понимают, что сложная капча может отпугнуть реальных пользователей, особенно если на сайте слишком высокие барьеры. В то же время оставлять сайт без защиты тоже глупо — так как туда начнут ломиться совсем уж тупые боты, которые не умеют обходить капчу, но умеют совершать массовые действия.

Современные владельцы сайтов стараются найти баланс, используя универсальные решения, такие как reCAPTCHA или hCaptcha. Это защищает сайт от простых ботов, но при этом не создаёт серьёзных неудобств для пользователей. К более сложным капчам прибегают только тогда, когда сайт сталкивается с массированной атакой ботов.

Теперь рассмотрим вопрос с точки зрения SEO-специалиста: зачем и для чего ему обходить капчу?

Обход капчи может понадобиться при решении самой банальной задачи — анализе позиций в поисковых системах. Да, это реализовано в сторонних сервисах, которые берут деньги за ежедневный мониторинг этих позиций, и помимо этого вам нужно ещё и платить стороннему сервису распознавания капчи.

Также капча может быть актуальна при исследовании сайтов конкурентов. Обход капчи на сайте конкурента чаще всего легче, чем сбор позиций, так как уровень защиты различается.

Автоматизация рутинных задач — это более нишевая история. Не все её используют, но для вовлеченных SEO-специалистов это может быть полезным инструментом для экономии времени и усилий.

В общем, важно посчитать экономику — что дешевле: платить сервису мониторинга позиций и сервису распознавания капчи или создать своё решение и сократить расходы? Конечно, если проект один-два и клиент платит, второй вариант звучит излишне трудоёмко. Но если вы владелец нескольких проектов и платите за всё сами... Стоит подумать.

Рассмотрим способы, которые требуют чуть больше усилий, чем простое подключение API-ключа в Кей Коллектор. Тут потребуются более глубокие знания, чем умение находить ключ API на главной странице сервиса и вставлять его в нужное поле.

Самый популярный способ — отправка капчи на специализированный сервис (например, 2Captcha или RuCaptcha), который возвращает готовое решение. Эти сервисы требуют оплаты за решённые капчи.

Вот пример стандартного кода для решения reCAPTCHA V2 на Python:

import requests import time API_KEY = 'ВАШ_КЛЮЧ_2CAPTCHA' SITE_KEY = 'ВАШ_SITE_KEY' PAGE_URL = 'https://example.com' def get_captcha_solution(): captcha_id_response = requests.post("http://2captcha.com/in.php", data={ 'key': API_KEY, 'method': 'userrecaptcha', 'googlekey': SITE_KEY, 'pageurl': PAGE_URL, 'json': 1 }).json() if captcha_id_response['status'] != 1: print(f"Ошибка: {captcha_id_response['request']}") return None captcha_id = captcha_id_response['request'] print(f"Капча отправлена. ID: {captcha_id}") for attempt in range(30): time.sleep(5) result = requests.get("http://2captcha.com/res.php", params={ 'key': API_KEY, 'action': 'get', 'id': captcha_id, 'json': 1 }).json() if result['status'] == 1: print(f"Капча решена: {result['request']}") return result['request'] elif result['request'] == 'CAPCHA_NOT_READY': print(f"Ожидание решения... попытка {attempt + 1}/30") else: print(f"Ошибка: {result['request']}") return None return None captcha_solution = get_captcha_solution() if captcha_solution: print('Решение капчи:', captcha_solution) else: print('Решение не удалось.')

Этот код поможет вам автоматически отправлять капчу на решение и получать токен, необходимый для обхода защиты.

Второй метод — ротация IP-адресов с использованием резидентных прокси-серверов. Это позволяет обращаться к сайту с каждого нового прокси как с новой личности, снижая вероятность срабатывания капчи.

Пример кода с ротацией прокси на Python:

import requests from itertools import cycle import time import urllib.parse # Список прокси с индивидуальными логинами и паролями proxies_list = [ {"proxy": "2captcha_proxy_1:port", "username": "user1", "password": "pass1"}, {"proxy": "2captcha_proxy_2:port", "username": "user2", "password": "pass2"}, {"proxy": "2captcha_proxy_3:port", "username": "user3", "password": "pass3"}, # Добавьте остальные прокси по аналогии ] proxy_pool = cycle(proxies_list) url = "https://example.com" headers = { "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:129.0) Gecko/20100101 Firefox/129.0" } for i in range(5): proxy_info = next(proxy_pool) proxy = proxy_info["proxy"] username = urllib.parse.quote(proxy_info["username"]) password = urllib.parse.quote(proxy_info["password"]) proxy_with_auth = f"http://{username}:{password}@{proxy}" try: response = requests.get( url, headers=headers, proxies={"http": proxy_with_auth, "https": proxy_with_auth}, timeout=10 ) if response.status_code == 200: print(f"Запрос {i + 1} через прокси {proxy} успешен.") else: print(f"Запрос {i + 1} завершился с кодом {response.status_code}") except requests.exceptions.RequestException as e: print(f"Ошибка на прокси {proxy}: {e}") time.sleep(2)

Этот пример показывает, как использовать прокси с ротацией, чтобы делать запросы к целевому сайту, минимизируя риск блокировки.

Третий метод — применение headless-браузеров, таких как Selenium, для имитации действий реального пользователя. Этот подход может быть более трудоёмким, но также более эффективным.

from selenium import webdriver from selenium.webdriver.chrome.options import Options from selenium.webdriver.common.by import By import time import random from itertools import cycle # Список прокси с логином и паролем proxies_list = [ {"proxy": "proxy1.example.com:8080", "username": "user1", "password": "pass1"}, {"proxy": "proxy2.example.com:8080", "username": "user2", "password": "pass2"}, {"proxy": "proxy3.example.com:8080", "username": "user3", "password": "pass3"}, # Добавьте дополнительные прокси по аналогии ] proxy_pool = cycle(proxies_list) # Настройки для Headless-браузера def create_browser(proxy=None): chrome_options = Options() chrome_options.headless = True chrome_options.add_argument("--disable-blink-features=AutomationControlled") if proxy: chrome_options.add_argument(f'--proxy-server=http://{proxy["proxy"]}') chrome_options.add_argument("start-maximized") chrome_options.add_argument("disable-infobars") chrome_options.add_experimental_option("excludeSwitches", ["enable-automation"]) chrome_options.add_experimental_option("useAutomationExtension", False) browser = webdriver.Chrome(options=chrome_options) browser.execute_cdp_cmd("Page.addScriptToEvaluateOnNewDocument", { "source": """ Object.defineProperty(navigator, 'webdriver', { get: () => undefined }) """ }) return browser # Основная функция для обхода капчи url = "https://example.com" def bypass_captcha(url, num_attempts=5): for i in range(num_attempts): proxy_info = next(proxy_pool) browser = create_browser(proxy_info) try: browser.get(url) print(f"Попытка {i + 1} через прокси {proxy_info['proxy']} успешна") except Exception as e: print(f"Ошибка с прокси {proxy_info['proxy']}: {e}") finally: browser.quit() time.sleep(random.uniform(2, 5)) bypass_captcha(url)

Этот пример показывает, как с помощью Selenium можно создавать видимость реального пользователя, скролля страницы и взаимодействуя с элементами на сайте.

Таким образом, если у вас есть немного времени и желание покопаться в коде, совмещение методов с ротацией прокси и использованием headless-браузеров может дать отличные результаты. Если же хотите всё упростить — используйте сервисы, которые уже предоставляют инструменты для работы. Но для каждой задачи стоит тщательно подбирать наиболее подходящий инструмент.

Безкапчевого вам доступа!

Обход капчи продвинутым способом — рекомендации для SEO-специалистов с примерами кода

Обход капчи в SEO: что это и не преувеличено ли значение?

Почему капча используется, несмотря на доступные методы обхода?

Уровень защиты сайта

Зачем SEO-специалисту обходить капчу?

Основные методы обхода капчи

1. Сторонние сервисы распознавания капчи

2. Обход капчи с использованием прокси и ротации IP-адресов

3. Обход капчи с использованием Headless-браузеров

Заключение