Нет предела совершенству: как мы обновили сертификацию ЦОДа по стандарту Uptime M&O
ЦОД Linxdatacenter в Санкт-Петербурге подтвердил свое соответствие стандартам Uptime Institute в области операционного управления. Мы обновили действие сертификата Management & Operations Stamp of Approval, заметно улучшив свои показатели по сравнению с первым аудитом. Рассказываем, как нам это удалось и к чему мы будем стремиться в своем развитии далее.
Что это и как работает
Uptime Institute, согласно определению на сайте самой организации, — это «неангажированная консалтинговая организация, чья деятельность направлена на улучшение производительности, эффективности и надежности ключевой инфраструктуры бизнеса посредством инноваций, сотрудничества и независимой сертификации производительности».
За официальной формулировкой скрывается простая бизнес-модель. Эксперты института обладают огромным опытом работы в сфере оценки инженерной инфраструктуры дата-центров и качества их операционных процессов и применяют свои знания и отраслевые стандарты к практикам конкретных ЦОДов. Площадки проходят сертификацию, получая по ее итогам определенный балл – оценку уровня соответствия.
Сертификация Uptime Institute признана во всем мире. Организация создала и занимается развитием отраслевых стандартов Tier для проектирования, строительства и эксплуатации ЦОДов, а также Management & Operations Stamp of Approval. Он используется для оценки процессов управления и эксплуатации ЦОДов в перспективе обеспечения отказоустойчивости инфраструктуры.
Сертификация по уровням Tier I и Tier II– это базовый уровень требований к надежности и отказоустойчивости инженерных систем объекта. В России практически все сертифицированные Uptime дата-центры – это Tier III.
Management & Operations Stamp of Approval нацелен на решение проблем эксплуатации инфраструктуры коллективом ЦОДа.
M&O как защита от человеческого фактора
Согласно статистике, около 40% компаний, которые пережили масштабный сбой на уровне ИТ-инфраструктуры, уходят из бизнеса в течение 2-х лет. По мере цифровой трансформации простои и сбои в работе по вине ИТ-составляющей бизнеса будут бить по репутации и конкурентоспособности все больнее с каждым годом, если не месяцем.
Можно сказать, что сегодня вряд ли кто-то знает лучше, чем Uptime Institute, что и как чаще всего выходит из строя в типичном ЦОДе. И если стандарт инженерного обеспечения Tier раскрывает эту тему со стороны «железа», то сертификация Management & Operations помогает улучшить работу дата-центров по другому направлению.
Этот стандарт стал итогом разбора специалистами Uptime Institute 6000 кейсов по отказам дата-центров, собранных ими за 20 лет наблюдений. Выяснилось, что более 75% сбоев обусловлено человеческим фактором.
Человеческий фактор включает в себя ошибки оператора, но, что более важно, также говорит о принятии неверных управленческих решений в отношении комплектования штата, выстраивания процессов обслуживания, обучения и общей тщательности выполнения работы. Независимо от топологии инфраструктуры дата-центра, человеческий фактор представляет наибольший риск для его работоспособности.
Эксперты Uptime Institute считают, что правильно управляемый дата-центр может достигать уровня доступности, превышающего уровень, ожидаемый от имеющейся инфраструктуры, за счет надлежащего количества и качества квалифицированного персонала, использующего в своей практике соответствующие процессы и процедуры.
Для минимизации ошибок персонала и руководства дата-центров и был разработан стандарт, включающий в себя перечень категорий с требованиями Uptime по стандартизации процессов эксплуатации и управления персоналом дата-центра. Список категорий составлен в соответствии со значимостью вклада в общую статистику отказов: кадровые ресурсы и организация штата (35 баллов), техническое обслуживание (30 баллов), обучение (20 баллов), планирование, координация и управление (10 баллов), условия труда (5 баллов).
Как показала практика членов профессионального сообщества, систематический подход к организации труда в дата-центре, будь то обучение персонала, наличие инструкций, регламентное обслуживание или описание действий в чрезвычайных ситуациях, сокращает количество отказов минимум в 3 раза.
Три кита
Институт внедрил метод измерения эффективности сотрудников ЦОДа, основанный на трех принципах операционной устойчивости - проактивность, практичность и информированность. Для того чтобы профессиональное поведение считалось эффективным, необходимо соблюдение всех трех принципов.
Проактивный подход заключается в том, чтобы спрогнозировать наступление события и проработать все соответствующие процессы и процедуры его отработки, при этом постоянно совершенствуя действия.
Практичность состоит в способности постоянного соблюдения на площадке всех установленных процессов и процедур. Когда определенная задача или процедура всегда выполняется одинаково, независимо от конкретного исполнителя, это свидетельствует о должной реализации этого принципа.
Информированность определяется тем, все ли сотрудники дата-центра осведомлены об установленных процессах и процедурах, имеют ли они доступ к полной информации о своих задачах на площадке. Также сотрудники обязаны знать, где, в случае наступления внештатной ситуации, можно найти все необходимые инструкции и требования по каждому вмененному в их обязанности процессу.
Россия ЦОДовая – держава мировая
По данным Uptime Institute, в нашей стране работает примерно 2,5% всего объема эксплуатируемых серверов в мире. При этом, на РФ приходится 5% всех выданных сертификатов Uptime. Можно сказать, что Россия по этому показателю как минимум находится на среднемировом уровне, или даже немного превышает его.
Главная аудитория организации в РФ – крупные ЦОДы, что связано чисто с экономическими причинами. Ценообразование на сертификацию зависит от размеров объекта, пусть и нелинейно. Например, сертификация крупного корпоративного ЦОДа обходится в 0,01% от стоимости площадки, что при тщательности и глубине тестирования окупится довольно быстро и многократно.
Процедуры сертификации позволяют глубже понять особенности работы площадки на всех уровнях: от собственников и высшего руководства дата-центра до тех, кто управляет работой отдельных систем на каждом конкретном участке.
Маркетинговая ценность сертификации – огромна: даже те руководители потенциальных клиентов ЦОДа, кто далек от детального понимания сути процесса, знают, что сертификат Uptime означает «этой площадке можно доверять». На потребительском уровне она ассоциируется с понятием «качество».
M&O и мы
Первый аудит Uptime Institute с оценкой квалификации персонала ЦОДа Linxdatacenter в Санкт-Петербурге, а также аттестацией процессов эксплуатации оборудования и политик, регламентирующих функционирование объекта, был проведен в 2018 году. Если по итогам первой аттестации Linxdatacenter набрал 84 балла из 100 возможных, то в 2020 году мы получили оценку в 95,1.
Это не только серьезный прогресс в соревновании с самими собой, но и значительное превышение средних показателей дата-центров, регулярно проходящих сертификацию Uptime Institute. Средний показатель повторной аттестации, когда ЦОД провел работу над ошибками – 93,7.
Данный результат свидетельствует о том, что эксплуатация дата-центра по-прежнему осуществляется с высокой эффективностью, а внедренные методы позволяют минимизировать риск сбоев по вине человеческого фактора.
Что порекомендовали
Совершенство недостижимо – поэтому мы получили от специалистов Uptime несколько рекомендаций по дальнейшим улучшениям.
Так, деятельность по техобслуживанию осуществляется с использованием чек-листов и процедурных методик. Чек-листы для оперативных групп очень подробны, но в них нет полей для отметки выполненных шагов.
Выполненные шаги отмечаются только в чек-листах для поставщиков. Институт рекомендовал, чтобы мы добавили дополнительные поля в существующие чек-листы для обеспечения более строгого контроля за профилактическим обслуживанием, гарантируя выполнение всех шагов в соответствии с методиками для гарантии последовательности и уменьшения вероятности человеческих ошибок.
Процедура контроля качества должна быть формализована и осуществляться на регулярной основе.
Второй момент: большинство операционных процессов у нас описаны в различных письменных документах. Для их регулирования Uptime рекомендует создать матрицу или блок-схемы ответственных и подотчетных лиц, а также информированного выполнения для всех процессов, связанных с эксплуатацией, поддержкой и обеспечением безопасности в дата-центре.
Возможно, для удовлетворения обеих рекомендаций нужно будет разработать электронный формат контроля за выполнением различных процедур, чтобы ответственный специалист проставлял отметки о выполнении в чек-боксах цифрового документа.
За что похвалили
Цитата из заключения комиссии Uptime Institute: «Компания добилась в своей практике эффективного сочетания компетенций технических специалистов по эксплуатации объектов Linxdatacenter и аутсорсинговых поставщиков, которые безупречно взаимодействуют друг с другом для обеспечения успешной эксплуатации и обслуживания дата-центра.
Качество укомплектованности штата компании позволяет выполнять любые задачи на площадке в случае экстренного или незапланированного отсутствия определенных специалистов».
За 10 лет работы ЦОДа Linxdatacenter, сталкиваясь с потенциальными угрозами и аварийными ситуациями, команда приобрела ценный опыт по координации действий в стрессовых условиях. Комиссия отметила, что этот опыт нашел отражение в документации по процедурам аварийной эксплуатации (EOP – Emergency Operations Procedures).
Высокую оценку также получили наши проекты по апгрейду инженерных систем дата-центра.
Мы последовательно совершенствовали целый комплекс подсистем и групп процессов управления ЦОДом, от профилактического ухода за дизель-генераторными установками и анализа качества поставляемого топлива для них, контроля уровня давления и «подпора» воздуха в серверных в помещениях и предотвращения загрязнения воздуха, до серьезной модернизации и повышения точности системы управления зданием (BMS), а также внедрения в эксплуатацию широкого спектра компонентов системы LOTO.
Также были реализованы дополнительные программы диагностического обслуживания. Контроль подачи питания системе резервных батарей позволяет своевременно выявлять дефектные юниты и производить их замену с тем, чтобы предотвратить перезарядку или недозарядку цепочек ИБП.
Регулярные измерения и отслеживание изменений уровней вибраций оборудования поддерживают износ критических компонентов систем охлаждения и вентиляции под единым контролем и повышают доступность ресурсов площадки.
Работа на опережение
Некоторые практики Linxdatacenter – в частности, методика контроля качества топлива, система регулярной проверки знаний у дежурных инженеров – были особо отмечены экспертной комиссией и включены в состав обучающих курсов Uptime Institute по эксплуатации ЦОД в качестве best practices.
Также, на настоящий момент ЦОД Linxdatacenter в Санкт-Петербурге остается единственным коммерческим дата-центром в России с действующим сертификатом Management & Operations Stamp of Approval. Главный итог прохождения сторонних аудитов, особенно в соответствии с требованиями Uptime Institute – процесс подготовки к аттестации позволяет мобилизовать ресурсы команды настолько, что наш ЦОД стал в значительной мере опережать запросы со стороны проверяющих эксплуатацию.
Тарас Чирков, руководитель ЦОДа Linxdatacenter в Санкт-Петербурге