Объяснение: что случилось с Facebook, почему долго чинили и может ли это повториться

Разбор от бывшего директора по распространению технологий «Яндекса» Григория Бакунова.

196

 Пролистал большую статью от Cloudflare про сегодняшнее падение Facebook и решил написать свою — сильно более простую.

Не надо ни читать статью CF, ни писать на ее основе свои предположения. CF просто описали то, что они видели. А что было на самом деле расскажет FB, ну либо знакомых попросите. Может быть в личной беседе расскажут. В целом забавная ситуация получилась.

Недоступные все внутренние ресурсы компании, включая мессенджеры и корпоративные адресные книги. Нельзя зайти в офис (часть офисов пускали только по бейджикам, которые привязаны к интернет-авторизации). Потеряны почти любые привычные способы коммуникации.

Это все булшит и предположения людей, которые не связаны с FB. Самое смешное, что люди зачем-то шли в офис чинить проблемы и их там не пускали. Это самый смешной бред. Если вы работает/работали настолько большой компании, то знали бы, что есть дежурные. У дежурных есть VPN в том или ином виде. Как только срабатывают алерты человек не бежит в офис за компухтер, чтобы сеточку починить. У него уже сразу все есть на его рабочем ноутбуке. Проблемы могут возникнуть при доступе к управляющей сети маршрутизаторов и при откате конфигурации. Это все так не очень похоже на фильмы про кулхацкеров, где двумя командами кладут Пентагон.

 Вдобавок ко всему, большую часть проблем можно было решить только при физическом доступе к серверам, который существенно осложнён привычной расслабленностью удалённой работы. Первые признаки восстановления систем можно было заметить уже после 12 ночи, то есть через три часа глухого молчания.

Какая ночь? У FB дата-центры по всему миру стоят. Команды дежурят везде. Это не Сбербанк, который может уходить на обед. Люди дежурят 24/7.  Опять же, в ДЦ тоже есть дежурные, но они не очень квалифицированные, конечно BGP они сами не поднимут, они только подготавливают оборудование, чтобы дежурный удаленно все поднял.

 Сильно пострадали все публичные DNS-сервера — мобильные клиенты Facebook и все сайты, где была авторизация через Facebook или кнопка like, безостановочно DDoS-или свои DNS запросами к несуществующему Facebook. Трафик некоторых мобильных приложений вырос в 30-50 раз. Впечатляет?

Тоже булшит. UDP по которому работает DNS в обычном режиме сильно дешевле TCP. Ядро не тратит ресурсы на поддержание стейта, а просто шлет ответ, ну либо клиент ждет таймаута. Проблемы могут начать если только DNS'ы криво настроены.

 За прошедшие годы человечество построило интернет таким, какой он есть сейчас — централизованным, уязвимым и потому неустойчивым. Последние выключения Cloudflare, Amazon, Facebook и других крупных интернетообразующих сервисов показали, насколько хрупкая конструкция этот наш интернет. И кажется это то, что срочно пора исправить.

Это вообще смешно. Диванные исправители вообще не имеют представления о том, что они хотят исправлять и сколько это будет стоить, если получится исправить то, что они решат исправлять. На самом деле BGP отличное решение. Ломается редко. Я ни разу не слышал, чтобы ломалось из-за самого BGP, а не из-за кривой настройки. 

18

У дежурных есть VPN в том или ином виде. Как только срабатывают алерты человек не бежит в офис за компухтер, чтобы сеточку починить.

Я почти уверен, что VPN там был куда-то в духе vpn.facebook.com а DNS лёг. И начался тот цирк, который мы наблюдаем.

Проблемы могут возникнуть при доступе к управляющей сети маршрутизаторов и при откате конфигурации.

Так если читать оригинал наблюдений от Cloudflare - там как раз и возникли проблемы с BGP и маршрутизацией.

Не понял почти ничего, но за подробность плюс.