Сравнение сервисов для сбора данных с Google: XMLRiver и XMLstock

Поисковую выдачу используют SEO-специалисты и веб-мастера для мониторинга позиций, сбора данных для кластеризации семантического ядра и другой аналитики, чтобы применить собранные данные для построения стратегии продвижения сайта.

Если у Яндекса есть свой API, который называется Yandex.XML, где каждому владельцу сайта Яндекс даёт возможность получать данные выдачи, без санкций за автоматический сбор в виде капчи и бана ip, то у Google такого сервиса нет. А учитывая, что Google последнее время уверенно обгоняет Яндекс в рунете (по данным LiveInternet), то потребность очевидна.

Скриншот c LiveInternet​, показывающий долю поисковых систем по сайтам, на которых установлен счётчик LI.
Скриншот c LiveInternet​, показывающий долю поисковых систем по сайтам, на которых установлен счётчик LI.

Первым сервисом на рынке предоставления данных выдачи Google через API появился XMLRiver.com , который работает уже давно (возможно около года), и только сейчас у него появился конкурент – XMLstock.com. Мы в студии сравнили оба сервиса и в этой статье распишем их преимущества и недостатки на предмет удобства использования, скорости работы, точности и полноты результатов выдачи. Поехали!

Удобство использования

Оба сервиса предоставляют данные выдачи Google и Yandex, XMLRiver – данные прямой выдачи по обеим поисковым системам, XMLstock даёт собирать прямую выдачу только у Google, для Яндекса у него есть биржа XML лимитов. Однако в рамках этой статьи мы будем рассматривать исключительно интересующий нас сбор гугла.

Настройки выдачи

Первым рассмотрим XMLRiver. В кабинете пользователя доступны такие настройки:

  • Выбор топа (от топ10 до топ100)

  • Настройки региональности

  • Устройство (desktop, mobile, tablet)
  • Дополнительные параметры выдачи

Данные настройки можно как указать в кабинете, так и передать с GET параметром в запросе.

Скриншот кабинета XMLRiver​
Скриншот кабинета XMLRiver​

Настройки выдачи XMLstock содержат:

  • Выбор топ (топ10-100)

  • Настройки региональности

  • Устройство (только desktop)

Настройки можно указать как в кабинете, так и передавать GET- параметром.

Скриншот кабинета XMLstock​
Скриншот кабинета XMLstock​

Здесь явное преимущество за XMLRiver за присутствие мобильной выдачи, показ нулевой позиции и других дополнительных параметров.

Взаимодействие с софтом

Оба сервиса предоставляют данные в формате, похожем на Yandex.XML, что удобно, т.к. большинство SEO инструментов уже работают с этим форматом и в любом из них можно добавить URL для запросов и собирать данные.

Плюсом для XMLRiver есть явная интеграция с программами KeyAssort, Key Collector (4 версия), TopSite, Majento PositionMeter и SerpParser.

Техподдержка

В обоих сервисах она есть, и в обоих она достаточно быстрая, ответы мы получили менее чем за 20 минут. Тут паритет.

Документация для разработчиков

API у сервисов сделаны по образу и подобию XML.Yandex. Казалось бы, что тут расписывать? Однако этот пункт мы решили включить в статью, т.к. описание API у XMLRiver очень наглядно, мы не встречали ранее настолько наглядных примеров описания.

Скриншот блока ответов органической выдачи XMLRiver​
Скриншот блока ответов органической выдачи XMLRiver​

Скорость работы

К этому пункту мы подошли ответственно … с секундомером. Сервис XMLstock пишет об ограничении в 100 ежеминутных запросов, можно сделать ориентировочные выводы о скорости, а XMLRiver об эфемерных 10 потоках.

Что мы сделали - взяли скрипт для обращения к интерфейсу xml.yandex и поочерёдно запускали сбор на 1 минуту, выставив 20 потоков сбора для XMLstock и 10 потоков для XMLRiver (за большее кол-во надо договариваться с техподдержкой, мы не стали). У XMLstock нет ограничения на количество потоков, поэтому поставили больше. Сделали 3 замера, результаты в табличке:

Сравнение сервисов для сбора данных с Google: XMLRiver и XMLstock

Вывод: Скорость у сервисов на дефолтном аккаунте приблизительно равна. Подтверждается указанная сервисом XMLstock скорость сбора в 100 запросов в минуту. У XMLRiver она не так стабильна, видимо зависит от текущей нагрузки на сервис.

Точность данных выдачи

На написание данной статьи вдохновил Антон Шабан, который проверял точность выдачи XMLRiver, мы решили повторить эксперимент, но уже для двух сервисов и сравнить какой точнее. Как известно, точность выдачи – это самой важный аспект работы подобного сервиса, поэтому тут мы подошли ещё более скрупулёзно. Взяли 3 ip адреса: Россия (Москва), Украина (Киев) и США (New York). Взяли по 50 частотных коммерческих геозависимых запросов, связанных с продажей и услугой товаров (50 для России и Украины на русском языке, 50 для США на английском).

По этим запросам проверили топ10 живой выдачи (KeyCollector 3 с соответствующим IP), параллельно собирая выдачу с XMLRiver и XMLstock. Предварительно спросили у техподдержки XMLstock, какие правильные настройки должны быть.

Ответ XMLstock
Ответ XMLstock

На скриншоте ссылка от техподдержки XMLstock выглядит так, это правильные настройки для Москвы:

Сравнение сервисов для сбора данных с Google: XMLRiver и XMLstock

По другим регионам мы вывели настройки таким же образом.

Как работать с XMLRiver мы знали раньше и дополнительно убедились в правильности настроек из статьи Антона Шабана.

Данные получили по 3-м регионам, по каждому региону получили до 500 урлов («до» потому что на некоторых страницах у гугла уже давно не топ10, а иногда бывает и топ 6).

Москва

По этому региону мы проверили точные совпадения как URL страницы, так и позиции этой страницы

XMLRiver – несовпадение 41 из 500 URL . 92% урлов были на тех же местах, что и на прямой выдаче.
XMLStock – несовпадение 110 из 500 URL. 78% урлов были на тех же местах, что и на прямой выдаче.

По этому региону выдача значительно точнее у XMLRiver.

Киев

XMLRiver – несовпадение 144 из 500 URL . 71% урлов были на тех же местах, что и на прямой выдаче.

XMLStock – несовпадение 405 из 500 URL. 19% урлов были на тех же местах, что и на прямой выдаче.
Точность у XMLRiver тут значительно хуже, чем в предыдущем регионе, а у XMLstock вообще катастрофа.

Когда отмечали несовпадающие URL у этого региона, заметили что в большом количестве случаев 2 URL просто заменены местами. Поэтому тут мы решили проверить не только точные совпадения URL и позиции документа, а и совпадения страниц топа. Будут ли в топ 10 у сервисов ссылки на те же документы, что и на прямой выдаче.

XMLRiver – В прямой выдаче есть 11 URL, которых нет в данных, собранных с сервиса. Т.е. XMLRiver показал в топ10 97,8% урлов.

XMLStock – В прямой выдаче есть 55 URL, которых нет в данных, собранных с сервиса. Т.е. точность 89%.

Нью-Йорк

XMLRiver – несовпадение 96 из 500 URL. 81% урлов были на тех же местах, что и на прямой выдаче.

XMLstock - несовпадение 313 из 500 URL. 37% урлов были на тех же местах, что и на прямой выдаче.

Вывод

Сервис XMLRiver показал гораздо более точные результаты, которые коррелируют с исследованием Антона Шабана (ссылка выше). Мы получили точность 97,8%, Антон получил 96%. И только можем повторить, что с целью анализа конкурентов, группировки запросов, примерного анализа позиций и видимости сервис можно использовать.

А XMLstock откровенно расстроил, хотя и его данные по совпадению топа достаточны (89%), чтобы делать кластеризацию и другие операции, где высокая точность не требуется. Сводные данные приводим в таблице:

Сравнение сервисов для сбора данных с Google: XMLRiver и XMLstock

По совпадению топа мы посчитали только один (худший для обоих сервисов) регион. Если у кого-то будет желание, может посчитать и для двух других. Файлы с результатами.

33
6 комментариев

Спасибо!

LiveInternet?

1
Ответить

Да, есть такой динозавр

Ответить

Я бы не cоветовал доверять результатам данного теста, т.к. очевидно что настройки в xmlstock отличались от настроек в xmlriver. Поэтому получились такие сильные отличия для международной выдачи. 

1
Ответить

Вы наверное пост не читали. Настройки использовались РЕКОМЕНДОВАННЫЕ техподдержкой сервисов.

Ответить

Не увидел в вашей статье РЕКОМЕНДОВАННЫЕ настройки для Украины и США, также как и настройки в XMLriver.

Ответить

Пользовался раньше сервисом XmlRiver, очень тормозил сильно.
Специально заморочился и сравнил результаты отдаваемые сервисами.

С учетом динамической выдачи гугла, результаты обоих сервисов практически идентичные. Почему практически? Потому что выдача динамическая. Даже если два раза подряд спарсить живую выдачу гугла через кейколлектор, то даже тогда результаты будут отличаться.

В итоге решил перейти на XMLstock, т.к. у них в 2 раза дешевле и скорость заметно выше.
Не знаю как там по Ньюйорку, а по России и Украине результаты релевантные.

Ответить