Утечка исходного кода поиска Яндекса - теперь нам достоверно известны все факторы ранжирования сайтов
Приветствую! Давеча пользователи форума Hacker News сообщили о великолепной находке - исходные коды сервисов Яндекса почти на 45 GB.
Представители Яндекса уже подтвердили слив данных, так что это не фейк и не розыгрыш. Все папки внутри архива датируются 24.02.2022, но некоторые логи созданы в мае. Видимо, кто-то решил прихватить с собой флешку с ценной информацией перед увольнением :)
В скаченном архиве много папок, но меня заинтересовали следующие: antirobot, captcha, extsearch, kernel, metrika, robot, search, wmconsole.
Бегло проанализировав содержимое можно констатировать факт, что был слит полный репозиторий Search Engine and Indexing Bot.
В папке kernel.tar\web_factors_info\ лежит файл с 1923 факторами ранжирования Яндекса, включая TG_DEPRECATED (устаревшие, некоторые из них ссылаются на обновленную версию). Вот несколько интересные из них:
Как видно, есть описание алгоритмов рандомизации в коммерческой выдаче, а также много алгоритмов по поведенческим факторам ранжирования.
На самом деле, я ожидал увидеть код типа:
В некоторых случаях оно так и есть :)
Кроме того, был обнаружен файл с 318 факторами того, как Яндекс делает аналитику по запросам и затем по полученным данным ранжирует сайты, например:
Скачать полный файл с факторами ранжирования можно в моем GitHub.
Скачать полный архив с исходным кодом можно по magnet-ссылке:
Теперь нас ждет множество часов изучения данных, как на самом деле работают сервисы Яндекса, развенчание множества заблуждений, мифов и легенд, связанных с SEO, и корректировка стратегии продвижения проектов.
Помимо факторов ранжирования занятно посмотреть как технически настроено цензурирование контента в новостях и поиске, какой код отвечает за увеличение цены в Маркете, если заходишь с устройства Apple, почему в такси у тебя постоянно «Повышенный спрос», что записывает «Умная колонка Яндекса», и еще много чего.
Погнали изучать! :)
Другие статьи:
- Деньги из воздуха: растим SEO-трафик до 200к и делаем 1,8 млн рублей в месяц в контентном проекте
- «Конкуренты даже не поняли, что произошло»: выводим в лидеры региональный медицинский центр и делаем 90 млн рублей в год
- Накрутка ПФ: новые фичи и большой апдейт Яндекса
- Воскрешаем интернет-магазин автозапчастей и делаем 20 млн рублей на SEO-трафике
- Нулевой результат за год, а потом пришли мы и увеличить трафик в 10 раз: спасаем интернет-магазин автозапчастей
- Практическое руководство: создаём ссылочный профиль для сайта и обгоняем конкурентов в поиске
- Спасаем SEO-трафик: кейсы и антикейсы
- SEO для интернет-магазина автозапчастей: выводим в лидеры на федеральном уровне
- Простая фишка с контентом, которая повышает CTR и делает ТОП
- Практическое руководство: делаем сем. ядро для одной страницы и получаем ТОП в поиске
Как про ПФ чего-нить ценного накопаешь, разбуди.
Сам не копал, но из того что пишут: долгосрочные интересы рулят, канвас и пасивные принты не учитываются.
Так и предчувствую скоро новые курсы по SEO на основе слитых данных из Яндекса.
:)
Есть ли там что-то принципиально новое?
Трактовка может быть разной, поэтому курсы вероятны.
актуальность факторов конечно под вопросом, особенно это отчетливо понимаешь под упоминаниями о народ.ру, Яндекс-Каталог, DMOZ... последние 2 сервиса закрылись в 2017 году...
За магнет ссылку просто ❤❤❤