Как научить инженеров ЦОД работать с инцидентами и быть готовыми ко всем внештатным ситуациям?
Лучший способ отработки внештатных ситуаций с инженерной инфраструктурой дата-центра — превентивный подход к проблеме. Готовых отраслевых методик здесь не существует, поэтому каждый провайдер создает свою систем. В статье делимся нашим опытом на примере ЦОДа в Петербурге.
Мотивация: кадровый приоритет
Обучение сотрудников может являться для компании как важным бизнес-процессом, так и данью моде на постоянное развитие и повышение эффективности персонала.
В дата-центрах же этот процесс – один из основных. Более того, сегодня это обязательное условие эффективной и качественной работы всей компании, основа реализации бизнес-модели ЦОДа как провайдера безотказной ИТ-инфраструктуры.
Почему?
Базовая парадигма подготовки технического персонала дата-центра к работе с внештатными и аварийными ситуациями формулируется в отраслевом стандарте Management & Operations экспертного института Uptime Institute.
Стандарт оценивает качество управления инженерных служб дата-центров и направлен на снижение количества отказов из-за человеческого фактора. А именно ошибки и неготовность персонала являются основной причиной инфраструктурных аварий в ИТ-отрасли.
Более 75% всех сбоев в работе сайтов, приложений и базовых ИТ-систем, развернутых на ресурсах дата-центров, происходят по причине прямых ошибок операторов площадки, неверных управленческих решений на уровне комплектования команды инженеров, при выстраивании процессов обслуживания и обучения ответственных специалистов.
Между тем, качественно поставленное обучение персонала, грамотные инструкции по действиям в различных ситуациях и добросовестное регламентное обслуживание оборудования сокращают количество отказов минимум в 3 раза.
Столпы антропоцентричного ЦОДа
В центре стандарта – человек. Качество работы дата-центра зависит как от достаточного количества квалифицированных сотрудников, так и от правильной организации их труда. Причем чем выше уровень дата-центра по классификации Tier, тем строже требования к организации работы, которую выполняет персонал.
Для подготовки кадров стандарт предлагает программу обучения, цель которой сформулирована следующим образом: «Весь персонал должен понимать политики, процедуры и уникальные требования к работе в ЦОД, чтобы избежать незапланированных простоев и реагировать на ожидаемые события».
Это и стало отправной точкой при создании системы аттестации сотрудников Linxdacenter. Опираясь на требования стандарта и собственный опыт эксплуатации ЦОД, мы разработали для сотрудников нашей инженерной службы обязательную программу проверки знания инструкций, сценариев реагирования на чрезвычайные и штатные ситуации, распределения ролей и зон ответственности между участниками дежурной смены.
Цели, формат и процедура
Без аттестации, конечно, можно работать – без нее мы обходились ранее, до сих пор ее не задействует множество отраслевых компаний.
Однако современный дата-центр представляет собой инженерный объект, состоящий из множества подсистем, управление которыми требует высочайшей квалификации, ответственности и внимания.
На своем опыте мы неоднократно убеждались, что методики контроля качества работы инженерных служб приносят хороший практический результат только тогда, когда они формализованы и применяются регулярно.
Аттестация помогает стимулировать рост эффективности и качества труда, точно определять как необходимость повышения квалификации, так и конкретные области знаний конкретных специалистов, требующих коррекции.
Наконец, такие «экзамены» помогают оптимально расставлять специалистов по иерархии позиций с учетом актуального уровня профессиональных знаний и навыков.
Аттестации носят плановый характер. За две недели персоналу сообщаются критерии аттестации, вопросы для экзамена, проходят разъяснительные консультации.
Аттестация проводится на внутреннем портале, разработанном для автоматизации процесса и отслеживаемости результатов в исторической перспективе в электронном виде.
Все вопросы в рамках подготовки разбираются со ссылками на нормативные документы и инструкции. Аттестацию проводит комиссия в составе не менее трех человек, процедура состоит из двух этапов.
На первом этапе проводится тестирование в рамках опросников и тестов. Общее количество вопросов – 60-70 в зависимости от специализации. Во время аттестации случайным образом выбираются 15.
Около 80% вопросов касаются непосредственно профессии аттестуемого, остальные 20% – смежных областей знаний и компетенций коллег по ЦОДу.
Пример опросника
Механики
Раздел «Maintenance» (Обслуживание)
1. Когда запланировано следующее ТО систем, за которые вы отвечаете?
2. Сколько сотрудников указано в списке на доступ от подрядчика, который будет проводить следующее ТО?
3. Какая текущая версия и дата утверждения документа с контактами и SLA поставщиков?
4. Что такое «предупредительное обслуживание»? Дайте ссылку на инструкцию по предупредительному обслуживанию и график его проведения.
5. Какие виды технического обслуживания проводятся в ЦОД? Чем они отличаются? Где можно увидеть списки такого обслуживания?
Раздел EOP (Emergency Operations Procedures – процедуры аварийной эксплуатации)
1. При какой температуре в помещениях ИБП нужно начинать выполнение EOP?
2. При каком давлении в системе ХС нужно начинать выполнение EOP?
3. Укажите действия при неисправности фанкойла «Water loss alarm».
Инженеры-электрики
Раздел «Общие инструкции, Приказы (Common Instructions, Orders)»
1. Укажите ваши действия при пожаре в ЦОД и при пожаре в ДГУ.
2. Укажите ваши действия при появлении неисправностей на пожарной панели ЦОД или ДГУ.
3. Укажите ваши действия при ложном срабатывании систем пожаротушения ЦОД или ДГУ.
4. Каким документом регламентируются работы в действующих электроустановках?
5. Что должен сделать контролирующий системы мониторинга при появлении аварийных и предупредительных сообщений (за исключением периода перехода между источниками энергии)?
6. Где располагается мастер-ключ для экстренного доступа в стойки клиентов?
7. В каких инструкциях указаны меры по работе во время пандемии и какие они?
ИТ-инженеры
Раздел «Оборудование»
1. Укажите ближайшую дату поверки средства измерения (и его тип) по вашим системам.
2. Приложите ссылку на папку с документацией к любому оборудованию, относящемуся к вашим системам.
3. Приложите ссылку на исполнительную документацию по любой из обслуживаемых вами систем.
4. Приложите ссылку на папку с альбомом последних версий схем по обслуживаемым вами системам.
Раздел «Работа в системе инцидент-менеджмента»
1. Как определить, какой приоритет нужно поставить обращению?
2. Если для решения проблемы нужна дополнительная информация от клиента, какой статус нужно выставить в тикете?
3. Ваши действия при поступлении высокоприоритетных обращений в нерабочее время.
4. Как правильно запросить дополнительную информацию от клиента?
5. В чем разница в статусах On Hold и Waiting? Учитываются ли эти статусы при расчете времени решения обращения?
Второй этап процедуры аттестации состоит из личного собеседования комиссии со специалистом. В работе аттестационной комиссии обязательное участие принимает непосредственный руководитель аттестуемого работника. Компетенции работника оцениваются, в первую очередь, по уровню его подготовки, в том числе навыкам, итогам работы за определенный период времени, а также соответствию требованиям к занимаемой должности. Решение принимается открытым голосованием большинством голосов.
Возможные вердикты комиссии
По результатам аттестации выносится заключение, возможны три основных варианта:
- занимаемой должности соответствует;
- соответствует, но не полностью (рекомендуется повторная аттестация);
- не соответствует занимаемой должности.
В первом случае сотрудника могут включить в резерв на повышение на вышестоящую должность.
Неполное соответствие (второй вариант) предполагает либо перевод (с согласия сотрудника) на другую работу, либо направление на дополнительное обучение и повторную аттестацию.
В третьем случае рассматривается вопрос либо о переводе на другую работу, требующую более низкой квалификации, либо о расторжении трудового договора по п. 3 ч. 1 ст. 81 ТК РФ.
Выводы
Непрерывность работы – критическая характеристика для ЦОДа, определяющая в том числе SLA для его клиентов. Непрерывность опирается на комплекс тесно связанных между собой составляющих: специалистов, политик, процессов и организационной структуры компании. Люди в этом перечне – на первом месте, и именно их профессионализм и уровень подготовки являются ключевыми факторами для качества работы ЦОДа.
Формализация работы персонала и проверка уровня актуальных знаний и навыков помогают отслеживать динамику и обеспечивать объективность оценок. Внедренная система аттестации позволила нам реализовать комплексный подход к обучению и проверке уровня знаний персонала ЦОДа.
Больше полезного контента об ИТ-рынке, облачной индустрии и дата-центрах в нашем телеграм-канале "Сейф для данных". Подписывайтесь!
Как сотрудники относятся к такому подходу? Готовы к постоянному обучению?
Сотрудники относятся к такому подходу с пониманием и постоянно повышают свой профессиональный уровень.
Можно прикинуть перспективы автоматизации мониторинга работы ЦОДа в этом свете? Они сокращают потенциальное влияние человеческого фактора или просто переводят его возможное влияние на работу площадки на новый уровень, т.е. все равно итоговое решение принимает человек, и завалить работу он может точно также, как и раньше?
Если вы имеете в виду, требование TIER4 о “способности инфраструктуры самостоятельно реагировать на аварии” то да, наличие автоматизации систем ЦОД переводит площадку на новый уровень, уменьшая влияние человеческого фактора, но не исключает его, поэтому роль аттестации и тренировок по прежнему велика.
А вы даже в таком формальном вопросе, как аттестация, с сотрудниками на "ты" общаетесь?
Да.