Нет предела совершенству: как мы обновили сертификацию ЦОДа по стандарту Uptime M&O

Linxdatacenter.com
Linxdatacenter.com

ЦОД Linxdatacenter в Санкт-Петербурге подтвердил свое соответствие стандартам Uptime Institute в области операционного управления. Мы обновили действие сертификата Management & Operations Stamp of Approval, заметно улучшив свои показатели по сравнению с первым аудитом. Рассказываем, как нам это удалось и к чему мы будем стремиться в своем развитии далее.

Что это и как работает

Uptime Institute, согласно определению на сайте самой организации, — это «неангажированная консалтинговая организация, чья деятельность направлена на улучшение производительности, эффективности и надежности ключевой инфраструктуры бизнеса посредством инноваций, сотрудничества и независимой сертификации производительности».

www.uptimeinstitute.com
www.uptimeinstitute.com

За официальной формулировкой скрывается простая бизнес-модель. Эксперты института обладают огромным опытом работы в сфере оценки инженерной инфраструктуры дата-центров и качества их операционных процессов и применяют свои знания и отраслевые стандарты к практикам конкретных ЦОДов. Площадки проходят сертификацию, получая по ее итогам определенный балл – оценку уровня соответствия.

Сертификация Uptime Institute признана во всем мире. Организация создала и занимается развитием отраслевых стандартов Tier для проектирования, строительства и эксплуатации ЦОДов, а также Management & Operations Stamp of Approval. Он используется для оценки процессов управления и эксплуатации ЦОДов в перспективе обеспечения отказоустойчивости инфраструктуры.

Сертификация по уровням Tier I и Tier II– это базовый уровень требований к надежности и отказоустойчивости инженерных систем объекта. В России практически все сертифицированные Uptime дата-центры – это Tier III.

Management & Operations Stamp of Approval нацелен на решение проблем эксплуатации инфраструктуры коллективом ЦОДа.

M&O как защита от человеческого фактора

Согласно статистике, около 40% компаний, которые пережили масштабный сбой на уровне ИТ-инфраструктуры, уходят из бизнеса в течение 2-х лет. По мере цифровой трансформации простои и сбои в работе по вине ИТ-составляющей бизнеса будут бить по репутации и конкурентоспособности все больнее с каждым годом, если не месяцем.

Можно сказать, что сегодня вряд ли кто-то знает лучше, чем Uptime Institute, что и как чаще всего выходит из строя в типичном ЦОДе. И если стандарт инженерного обеспечения Tier раскрывает эту тему со стороны «железа», то сертификация Management & Operations помогает улучшить работу дата-центров по другому направлению.

Этот стандарт стал итогом разбора специалистами Uptime Institute 6000 кейсов по отказам дата-центров, собранных ими за 20 лет наблюдений. Выяснилось, что более 75% сбоев обусловлено человеческим фактором.

Unplash.com
Unplash.com

Человеческий фактор включает в себя ошибки оператора, но, что более важно, также говорит о принятии неверных управленческих решений в отношении комплектования штата, выстраивания процессов обслуживания, обучения и общей тщательности выполнения работы. Независимо от топологии инфраструктуры дата-центра, человеческий фактор представляет наибольший риск для его работоспособности.

Эксперты Uptime Institute считают, что правильно управляемый дата-центр может достигать уровня доступности, превышающего уровень, ожидаемый от имеющейся инфраструктуры, за счет надлежащего количества и качества квалифицированного персонала, использующего в своей практике соответствующие процессы и процедуры.

Для минимизации ошибок персонала и руководства дата-центров и был разработан стандарт, включающий в себя перечень категорий с требованиями Uptime по стандартизации процессов эксплуатации и управления персоналом дата-центра. Список категорий составлен в соответствии со значимостью вклада в общую статистику отказов: кадровые ресурсы и организация штата (35 баллов), техническое обслуживание (30 баллов), обучение (20 баллов), планирование, координация и управление (10 баллов), условия труда (5 баллов).

Как показала практика членов профессионального сообщества, систематический подход к организации труда в дата-центре, будь то обучение персонала, наличие инструкций, регламентное обслуживание или описание действий в чрезвычайных ситуациях, сокращает количество отказов минимум в 3 раза.

Три кита

Институт внедрил метод измерения эффективности сотрудников ЦОДа, основанный на трех принципах операционной устойчивости - проактивность, практичность и информированность. Для того чтобы профессиональное поведение считалось эффективным, необходимо соблюдение всех трех принципов.

Проактивный подход заключается в том, чтобы спрогнозировать наступление события и проработать все соответствующие процессы и процедуры его отработки, при этом постоянно совершенствуя действия.

Практичность состоит в способности постоянного соблюдения на площадке всех установленных процессов и процедур. Когда определенная задача или процедура всегда выполняется одинаково, независимо от конкретного исполнителя, это свидетельствует о должной реализации этого принципа.

Информированность определяется тем, все ли сотрудники дата-центра осведомлены об установленных процессах и процедурах, имеют ли они доступ к полной информации о своих задачах на площадке. Также сотрудники обязаны знать, где, в случае наступления внештатной ситуации, можно найти все необходимые инструкции и требования по каждому вмененному в их обязанности процессу.

Россия ЦОДовая – держава мировая

По данным Uptime Institute, в нашей стране работает примерно 2,5% всего объема эксплуатируемых серверов в мире. При этом, на РФ приходится 5% всех выданных сертификатов Uptime. Можно сказать, что Россия по этому показателю как минимум находится на среднемировом уровне, или даже немного превышает его.

Главная аудитория организации в РФ – крупные ЦОДы, что связано чисто с экономическими причинами. Ценообразование на сертификацию зависит от размеров объекта, пусть и нелинейно. Например, сертификация крупного корпоративного ЦОДа обходится в 0,01% от стоимости площадки, что при тщательности и глубине тестирования окупится довольно быстро и многократно.

Linxdatacenter.com
Linxdatacenter.com

Процедуры сертификации позволяют глубже понять особенности работы площадки на всех уровнях: от собственников и высшего руководства дата-центра до тех, кто управляет работой отдельных систем на каждом конкретном участке.

Маркетинговая ценность сертификации – огромна: даже те руководители потенциальных клиентов ЦОДа, кто далек от детального понимания сути процесса, знают, что сертификат Uptime означает «этой площадке можно доверять». На потребительском уровне она ассоциируется с понятием «качество».

M&O и мы

Первый аудит Uptime Institute с оценкой квалификации персонала ЦОДа Linxdatacenter в Санкт-Петербурге, а также аттестацией процессов эксплуатации оборудования и политик, регламентирующих функционирование объекта, был проведен в 2018 году. Если по итогам первой аттестации Linxdatacenter набрал 84 балла из 100 возможных, то в 2020 году мы получили оценку в 95,1.

Linxdatacenter.com
Linxdatacenter.com

Это не только серьезный прогресс в соревновании с самими собой, но и значительное превышение средних показателей дата-центров, регулярно проходящих сертификацию Uptime Institute. Средний показатель повторной аттестации, когда ЦОД провел работу над ошибками – 93,7.

Данный результат свидетельствует о том, что эксплуатация дата-центра по-прежнему осуществляется с высокой эффективностью, а внедренные методы позволяют минимизировать риск сбоев по вине человеческого фактора.

Что порекомендовали

Совершенство недостижимо – поэтому мы получили от специалистов Uptime несколько рекомендаций по дальнейшим улучшениям.

Так, деятельность по техобслуживанию осуществляется с использованием чек-листов и процедурных методик. Чек-листы для оперативных групп очень подробны, но в них нет полей для отметки выполненных шагов.

Выполненные шаги отмечаются только в чек-листах для поставщиков. Институт рекомендовал, чтобы мы добавили дополнительные поля в существующие чек-листы для обеспечения более строгого контроля за профилактическим обслуживанием, гарантируя выполнение всех шагов в соответствии с методиками для гарантии последовательности и уменьшения вероятности человеческих ошибок.

Unsplash.com
Unsplash.com

Процедура контроля качества должна быть формализована и осуществляться на регулярной основе.

Второй момент: большинство операционных процессов у нас описаны в различных письменных документах. Для их регулирования Uptime рекомендует создать матрицу или блок-схемы ответственных и подотчетных лиц, а также информированного выполнения для всех процессов, связанных с эксплуатацией, поддержкой и обеспечением безопасности в дата-центре.

Возможно, для удовлетворения обеих рекомендаций нужно будет разработать электронный формат контроля за выполнением различных процедур, чтобы ответственный специалист проставлял отметки о выполнении в чек-боксах цифрового документа.

За что похвалили

Цитата из заключения комиссии Uptime Institute: «Компания добилась в своей практике эффективного сочетания компетенций технических специалистов по эксплуатации объектов Linxdatacenter и аутсорсинговых поставщиков, которые безупречно взаимодействуют друг с другом для обеспечения успешной эксплуатации и обслуживания дата-центра.

Качество укомплектованности штата компании позволяет выполнять любые задачи на площадке в случае экстренного или незапланированного отсутствия определенных специалистов».

За 10 лет работы ЦОДа Linxdatacenter, сталкиваясь с потенциальными угрозами и аварийными ситуациями, команда приобрела ценный опыт по координации действий в стрессовых условиях. Комиссия отметила, что этот опыт нашел отражение в документации по процедурам аварийной эксплуатации (EOP – Emergency Operations Procedures).

Высокую оценку также получили наши проекты по апгрейду инженерных систем дата-центра.

Мы последовательно совершенствовали целый комплекс подсистем и групп процессов управления ЦОДом, от профилактического ухода за дизель-генераторными установками и анализа качества поставляемого топлива для них, контроля уровня давления и «подпора» воздуха в серверных в помещениях и предотвращения загрязнения воздуха, до серьезной модернизации и повышения точности системы управления зданием (BMS), а также внедрения в эксплуатацию широкого спектра компонентов системы LOTO.

Linxdatacenter.com
Linxdatacenter.com

Также были реализованы дополнительные программы диагностического обслуживания. Контроль подачи питания системе резервных батарей позволяет своевременно выявлять дефектные юниты и производить их замену с тем, чтобы предотвратить перезарядку или недозарядку цепочек ИБП.

Регулярные измерения и отслеживание изменений уровней вибраций оборудования поддерживают износ критических компонентов систем охлаждения и вентиляции под единым контролем и повышают доступность ресурсов площадки.

Работа на опережение

Некоторые практики Linxdatacenter – в частности, методика контроля качества топлива, система регулярной проверки знаний у дежурных инженеров – были особо отмечены экспертной комиссией и включены в состав обучающих курсов Uptime Institute по эксплуатации ЦОД в качестве best practices.

Также, на настоящий момент ЦОД Linxdatacenter в Санкт-Петербурге остается единственным коммерческим дата-центром в России с действующим сертификатом Management & Operations Stamp of Approval. Главный итог прохождения сторонних аудитов, особенно в соответствии с требованиями Uptime Institute – процесс подготовки к аттестации позволяет мобилизовать ресурсы команды настолько, что наш ЦОД стал в значительной мере опережать запросы со стороны проверяющих эксплуатацию.

Тарас Чирков, руководитель ЦОДа Linxdatacenter в Санкт-Петербурге

1414
1 комментарий

Чисто, красиво, кофе дают попить. Молодцы)

Ответить