Amazon объяснила массовую недоступность своих «облачных» сервисов сбоем из-за опечатки
28 февраля 2017 года команда Amazon S3 занималась отладкой системы выставления счетов и для этого ей понадобилось перевести несколько серверов в автономный режим. «К сожалению, команда была введена неправильно и под отключение попало больше серверов, чем предполагалось. Среди них были серверы, которые поддерживали работу подсистем S3», — сказали в компании.
В частности, была выведена из строя система, которая управляла метаданными и информацией о расположении всех объектов S3 в регионе. Без неё многие сервисы не могли выполнять задачи по поиску и хранению данных. Тогда же оказался недоступен сервис Amazon Elastic Compute Cloud (EC2), который используется для доступа к вычислительным мощностям.
Представители компании добавили, что для возвращения к работе нужно было перезапустить некоторые системы и провести их проверку, что заняло довольно много времени. По их словам, S3 может продолжить работу при потере нескольких серверов, однако массовая перезагрузка стала проблемой.
Сейчас Amazon уже внесла изменения в S3, которые позволят восстанавливать системы быстрее. Кроме того, инженеры не смогут отключать серверы, которые задействованы в системах «определённого уровня». Также компания пообещала исправить работу панели информации AWS Service Health Dashboard, которая не показывала информацию о сбоях, так как сама зависит от S3.
Amazon предоставляет услуги одного из крупнейших «облачных» сервисов в мире, которым пользуются многие интернет-компании для хранения данных и ускорения работы проектов. Основные конкуренты компании в этой сфере — Google и Microsoft.