Amazon объяснила массовую недоступность своих «облачных» сервисов сбоем из-за опечатки

Массовый сбой в работе «облачных» сервисов Amazon, из-за которого 28 февраля 2017 года появились проблемы в работе Trello, Coursera, IFTTT, Quora и других сайтов, был вызван опечаткой одного из сотрудников компании. Об этом говорится в сообщении Amazon.

28 февраля 2017 года команда Amazon S3 занималась отладкой системы выставления счетов и для этого ей понадобилось перевести несколько серверов в автономный режим. «К сожалению, команда была введена неправильно и под отключение попало больше серверов, чем предполагалось. Среди них были серверы, которые поддерживали работу подсистем S3», — сказали в компании.

В частности, была выведена из строя система, которая управляла метаданными и информацией о расположении всех объектов S3 в регионе. Без неё многие сервисы не могли выполнять задачи по поиску и хранению данных. Тогда же оказался недоступен сервис Amazon Elastic Compute Cloud (EC2), который используется для доступа к вычислительным мощностям.

Представители компании добавили, что для возвращения к работе нужно было перезапустить некоторые системы и провести их проверку, что заняло довольно много времени. По их словам, S3 может продолжить работу при потере нескольких серверов, однако массовая перезагрузка стала проблемой.

Сейчас Amazon уже внесла изменения в S3, которые позволят восстанавливать системы быстрее. Кроме того, инженеры не смогут отключать серверы, которые задействованы в системах «определённого уровня». Также компания пообещала исправить работу панели информации AWS Service Health Dashboard, которая не показывала информацию о сбоях, так как сама зависит от S3.

Amazon предоставляет услуги одного из крупнейших «облачных» сервисов в мире, которым пользуются многие интернет-компании для хранения данных и ускорения работы проектов. Основные конкуренты компании в этой сфере — Google и Microsoft.

#новость #amazon #облачные_сервисы