Инженерные системы ЦОД

Инженерные системы ЦОДОрганизация системы управления эксплуатацией

центра обработки данных.

Когда нужно начинать думать об эксплуатации ЦОД (дата центра)?

С технического задания на создание ЦОД.

Именно заказчик, он же пользователь, первым должен задумываться об эксплуатации и закладывать соответствующие требования в техническое задание. Для этого обычно привлекаются либо собственная служба эксплуатации, если объект данного типа у заказчика не первый и есть реальный опыт эксплуатации, либо внешние консультанты. Можно пойти и третьим путем, довериться генподрядчику, который, основываясь на своем опыте, разработает технические и эксплуатационные решения и воплотит их в жизнь, после чего примет объект в эксплуатацию. К сожалению, в России еще мало организаций, обладающих таким опытом, чтобы наряду с проектной документацией разработать алгоритмы и регламенты системы эксплуатации.

Какие причины могут привести к падению дата-центра?

Есть анекдот: «существует только две неисправности в электронике и электротехнике: «ТОК ТЕЧЕТ ТАМ, ГДЕ НЕ ДОЛЖЕН И ТОК НЕ ТЕЧЕТ ТАМ, ГДЕ ДОЛЖЕН». По аналогии — когда ЦОД «падает», может быть только три виновника: люди, оборудование и природа.

Выход из строя системы электроснабжения.

Стоял жаркий летний день. Произошло отключение магистральной энергии. Дата-центр работал при полной нагрузке 7,2 МВт. Площадка была оборудована четырьмя генераторами по 2,5 МВт с резервированием N +1. Один из генераторов не завелся, но площадка продолжила работать на трех генераторах. Спустя 30 минут вышел из строя еще один генератор. [1]

Дата-центр работал на источнике 5 МВт с нагрузкой 7,2 МВт. Два оставшихся генератора не справились, и система охлаждения оказалась обесточенной. ИТ-оборудование из-за перегрева начало отключаться. Дата-центр работал еще 30 минут на ИБП (2 N по 15 минут каждый). Общее отключение дата-центра произошло еще через полчаса. [2]

На восстановление магистрального энергоснабжения ушло шесть часов, но дата-центр полностью вернулся к работе лишь спустя восемь часов.

Переключения.

Неправильно номинированные или несогласованные автоматы могут привести к существенным повреждениям систем, длительному простою и даже вызвать травмы персонала. Несогласованная защита цепи ― это, прежде всего, проблема проектирования и сдачи в эксплуатацию.

Обычно ошибки при переключении вызваны человеческим фактором. Они являются третьими по частоте среди причин аварий в дата-центрах (51 %).

Ослабление контактов на устройствах переключения могут также стать причиной ухода дата-центра в офлайн.

Отказ аккумуляторов ИБП.

Исследования показывают, что отказ аккумуляторов бесперебойников ― самая частая причина отключения энергии (с этим столкнулись 55% опрошенных).

ИБП обеспечивают непрерывную и регулируемую подачу чистой энергии на ИТ-оборудование: с помощью аккумуляторов закрывается брешь между прекращением подачи магистральной энергии и началом подачи энергии от генераторов. [ 3] [4]

Утечки воды.

Вода и ИТ остаются несовместимыми вещами, но при этом именно вода становится причиной немалой доли ухода дата-центров в офлайн. Утечка воды и повышение влажности могут быть вызваны разными причинами: погодными условиями, прохудившимися трубами, протечками кондиционеров и так далее. Такого рода происшествия можно предотвратить, если обеспечить герметизацию критических частей ИТ-систем и установить системы мониторинга, позволяющие обнаружить утечку воды.

Ненадлежащая эксплуатация.

Неправильная эксплуатация дата-центра (на примере ошибок в эксплуатации таких простых вещей, как аккумуляторные батареи или система ИБП) может иметь и более серьезные последствия.

Природные катаклизмы.

Стихийные бедствия случаются вне зависимости от человека. «Это действие высших сил».

Как же если не устранить возможность аварии, то хотя бы снизить вероятность её возникновения. Начнем по порядку. Итак, ЦОД зачат – есть инвестор, выделены деньги… Начинается проектирование…

Как исключить аварии?

Первое, и пожалуй, самое эффективное — это резервирование оборудования, закладываемое еще на стадии проектирования. [5 ]

В 96-м году появился первый документ, описывающий требования к инженерной инфраструктуре вычислительных центров по методологии Uptime Institute. Основные четыре уровня были введены на основе статистики отказов и опыта организации. Уровень отказоустойчивости указывал возможный аптайм.

Уровни выглядят так: первый работает и может отказать, второй в целом нормально работает и выдерживает часть самых распространённых отказов, третий выживает в любых некритичных условиях, четвёртый пригоден для работы в военных условиях.

Вот классификация по их стандарту:

Tier II — резервирование критических узлов.

Tier III — резервирование критических узлов, путей получения электроэнергии и трасс доставки топлива, холодоносителя и т, п. При этом есть возможность вывода любого узла из эксплуатации для его обслуживания с сохранением полной функциональности объекта в целом.

Как пример: если мы делаем систему с доставкой жидкого теплоносителя по трубам, в Tier III надо делать двойное кольцо, а в Tier II можно обойтись одним. При этом уровень резервирования чиллеров и фанкойлов может быть одинаковым. То же самое касается электропитания и других систем. На уровне IV ИБП и трассы питания должны быть не просто задублированы, но ещё и разнесены в разные помещения: если первый блок взорвётся (аварийный случай, а не плановая остановка), то второй не должен пострадать. Если прорывает трубопровод в каком-то месте, это никак не влияет на дублирующую электронику — есть физическое разделение систем.

Ошибки проектирования

При проектировании ЦОД следует руководствоваться принципами эргономичности: простотой, удобством и безопасностью, а также ориентированностью на человека.

Простота. В данном случае простота – это понимание системы обслуживающим персоналом, исключающее допущение ошибок.

Удобство и безопасность. Речь идет о возможности для человека любой комплекции и физической формы обслуживать систему без травм и других критических последствий.

Ориентированность на человека. На всех этапах создания ЦОД необходимо помнить, что человек – его неотъемлемая часть.

Приведем несколько примеров того, на что необходимо обращать внимание при разработке инженерной системы дата-центра.

Цветовая маркировка.

Сквозная маркировка оборудования. Этот подход упрощает идентификацию оборудования, как на стадии проектирования, так и при эксплуатации. Также он значительно сокращает время поиска необходимого элемента и снижает риск ошибочного выбора другого элемента. При создании единой системы маркировки в нее заносится каждый предварительно промаркированный элемент. Указывается его положение в системе, модель и производитель, наличие на складе ЗИП, а также аналоги для замены. Это позволит значительно уменьшить время локализации и устранения проблем. [7]

Унификация оборудования. Применение типового оборудования и типовых узлов также позволяет упростить обслуживание систем ЦОД.

Во-первых, чем больше однотипного оборудования в системе, тем меньше оборудования на складе ЗИП.

Во-вторых, при использовании типового оборудования проще обучить персонал качественно его обслуживать.

Ограничение размера компонентов. Следует еще на этапе проектирования ограничивать габариты оборудования. Не говоря уже о логистических преимуществах, смонтировать, обслужить и демонтировать такое оборудование смогут один-два человека за короткий промежуток времени без применения специальных механизмов.

Зонирование технологических помещений. Маркировка сильно упрощает поиск необходимого элемента, но риск ошибки все же остается. Для его минимизации применяют метод зонирования. Обеспечение беспрепятственной транспортировки ЗИП. Ко всем элементам ЦОД необходим свободный доступ.

Но все-таки конечная оценка проектных решений будет сделана на стадии эксплуатации. Уже при монтаже инженерных систем необходимо начинать выстраивать систему управления эксплуатацией. А к моменту перехода от опытной эксплуатации к производственной она должна быть окончательно сформирована.

Проектирование… Как оно ведется. [8]

Формирование требований.

Цель этого этапа заключается в формировании требований к инженерным системам со стороны будущей IT — инфраструктуры ЦОД. Проводится сбор данных о характеристиках комплексов технических средств ИТ-инфраструктуры, планируемых к размещению в проектируемом центре обработки данных, сбор данных о потребностях комплексов технических средств.

Разработка технической концепции.

На этом этапе проводятся обследования зданий, сооружений и площадок, на которых предполагается создание ЦОД. На этом этапе проводят сбор и изучение документов и информации о площадке (площадках), необходимых для подготовки заключения о пригодности исследуемых площадок для размещения ЦОД с заданными параметрами.

При необходимости в состав работ по этапу могут быть включены и другие виды обследований и изысканий, включая инженерные изыскания, результаты которых используются при подготовке отчета об обследовании и заключения по площадке. Также результаты проведенных на этапе инженерных изысканий могут быть использованы при разработке проектных решений.

Цель этого этапа заключается в подготовке предварительных технических решений, должны быть определены состав ИС ЦОД, их функции. Разрабатывается укрупненная структура ИС ЦОД, основные принципы взаимодействия между их частями и системами, делается предварительные оценка стоимости оборудования, материалов и работ по созданию ИС ЦОД. На этом этапе формируется разработке техническое задание.

Разработка проектных решений.

Ведется уточнение технического задания на создание ИС ЦОД в части требований к инженерному оборудованию ЦОД в целом, ее частям и системам, разработка общих решений по размещению оборудования. Разрабатываются решения по взаимодействию смежных систем, проводится согласование проектных решений (при необходимости — разработка, оформление, согласование и утверждение частных технических заданий на части (системы) инженерных систем ЦОД.

Разработка проектной документации.

Цель этого этапа заключается в документировании проектных решений. На этом этапе проводят разработку документации на отдельные части и системы инженерных систем ЦОД, согласование документации, утверждение документации, экспертизу проектной документации (Проектная документация на инженерные системы ЦОД, ее части и системы в общем случае разрабатывается в составе проектной документации на строительство или реконструкцию объекта капитального строительства. В ходе разработки проектной документации должны быть выданы задания для разработчиков смежных разделов.)

Разработка рабочей документации.

Разрабатываемая на этом этапе рабочая документация должна содержать все необходимые и достаточные сведения для обеспечения выполнения работ по выполнению строительно-монтажных работ, испытаниям и вводу систем в эксплуатацию.

И, на всех стадиях и этапах – борьба с «заинтересованными лицами». [ 9]

Первая крупная ошибка создания ЦОД ― то, что команду эксплуатационников не вовлекают в процесс проектирования. Вторая ошибка состоит в том, что они слишком слепо полагаются на проект дата-центра. Проектировщики должны полностью подготовить людей, которые будут заниматься эксплуатацией дата-центра с первого дня его работы. В этом вопросе человеческий фактор выходит на первый план.

Другие ошибки состоят в неспособности правильно подобрать специалистов, системно обучить людей и тестировать их уровень подготовки, организовать документирование процессов и процедур в дополнение к операционным программам.

Сюда же можно добавить и неспособность:

· выполнить соответствующие процедуры и процессы в проектируемом пространстве;

· разработать и внедрить системы проверки качества;

· использовать инструменты программ управления ― такие как системы контроля, помогающие отслеживать работу устройств через интеллектуальные измерительные устройства на постоянной основе.

Строительно-монтажные работы.

Цель этапа — обеспечение получения комплектующих изделий серийного и единичного производства, материалов и монтажных изделий в соответствии с установленными сроками и надлежащего качества, организуется входной контроль качества поставляемых изделий и материалов.

Выполняются работы по монтажу оборудования инженерных систем ЦОД, испытания смонтированного оборудования, сдачу оборудования для проведения пусконаладочных работ, наладка средств автоматизации отдельных систем ИИ ЦОД и всей инженерной инфраструктуры ЦОД.

Предварительные испытания.[11]

Проводятся испытания частей и систем на работоспособность и соответствие техническому заданию в соответствии с программой и методикой предварительных испытаний, устраняются замечания (При необходимости вносятся изменения в техническую документацию, в том числе эксплуатационную, в соответствии с протоколами испытаний).

Цель этапа заключается в определении соответствия реализованных технических решений как комплекса систем требованиям технического задания.

Итог: оформление акта о приемки в эксплуатацию.

Это обеспечение надежности на стадии проектирования и строительства. Вторая часть процесса – организация эксплуатации оборудования.

И вот, все ушли и Вы остались с этой грудой оборудования «один на один».

Типичный дата-центр состоит из:

• информационной инфраструктуры, включающей в себя серверное оборудование и обеспечивающей основные функции дата-центра — обработку и хранение информации;

• телекоммуникационной инфраструктуры, обеспечивающей взаимосвязь элементов дата-центра, а также передачу данных между дата-центром и пользователями;

• инженерной инфраструктуры, обеспечивающей нормальное функционирование основных систем дата-центра.

Команды квалифицированных специалистов круглосуточно производят мониторинг всех систем.

Нельзя построить ЦОД, запустить в работу инженерные системы и думать, что дальнейшая эксплуатация наладится сама собой. Если к этому моменту у вас не будет стройной системы управления эксплуатацией, велика вероятность, что негативные явления не заставят себя ждать.

Техническое обслуживание ЦОД.

Техническое обслуживание ЦОД (центра обработки данных, серверной) – это поддержание всех компонентов и систем ЦОД в рабочем состоянии, своевременное устранение неисправностей и предупреждение сбоев.

Обслуживание ЦОД (серверной) осуществляется в соответствии с разработанным и принятым Заказчиком регламентом технического обслуживания.

В состав работ по сервисному обслуживанию ЦОД входят контроль и техническое обслуживание оборудования инженерных систем ЦОД, а именно:

· Системы безопасности: пожарная сигнализация, система пожаротушения, охранная сигнализация, система контроля доступа, видеонаблюдение (СБ).

· Система вентиляции и кондиционирование технологических помещений (СКТП).

· Система электроснабжения в составе систем гарантированного и бесперебойного электропитания (СЭ).

· Структурированная кабельная система (СКС).

· Система мониторинга оборудования и параметров среды (СМ).

Надо заметить, что способность организовать профилактический ремонт – т. е. выполнить ремонт до возникновения неисправности – занятие сродни искусству. В это деле серьезную помощь техническому персоналу оказывает грамотно организованный мониторинг технических параметров всех систем. Возможность удаленно контролировать основные параметры работы ЦОД в режиме реального времени позволяет оперативно реагировать на возникающие сбои и предугадать их.

Работы по техническому обслуживанию ЦОД:

· техническое обслуживание;

· плановый текущий ремонт;

· плановый капитальный ремонт;

· внеплановый ремонт;

· наблюдение за правильной работой оборудования;

· периодический осмотр и контроль за техническим состоянием оборудования;

· устранение обнаруженных дефектов;

· регулировка;

· настройка;

· опробование и поверка.

Как организовать эффективное выполнение этих объемов работ?

Система управления эксплуатацией центра обработки данных состоит из нескольких связанных друг с другом больших разделов:

· управление персоналом;

· поддержание документации в актуальном состоянии;

· управление договорами;

· техническое обслуживание и ремонт;

· управление движением расходных материалов и запасных частей;

· мониторинг состояния систем и организация оперативного управления.

Персонал. Служба эксплуатации может комплектоваться как собственным персоналом, так и привлеченным из сторонних компаний, которые на аутсорсинговой основе выполняют какие-либо работы. Наем собственного персонала – непростая задача для HR — служб, так как для большинства позиций требуется достаточно высокая квалификация. Если в крупных городах среди соискателей приходится проводить конкурс, то в удаленных регионах, где в последнее время стали появляться ЦОДы, отделу кадров бывает нелегко найти хотя бы одного кандидата, отвечающего всем требованиям.

Документация. Перечислим типы документации, без которых невозможна правильная эксплуатация дата-центра:

• проектная и исполнительная документация по всем разделам, начиная с генплана и заканчивая специальными разделами проектов;

• инструкции по эксплуатации каждой инженерной системы;

• инструкции по эксплуатации оборудования в инженерных системах;

• паспорта на системы, оборудование;

• сертификаты;

• гарантийная документация;

• акты испытаний, поверки и т. д.;

• карты технического обслуживания оборудования, регламенты проведения работ;

• список запасных частей и расходных материалов для каждой инженерной системы;

• журналы проведения инструктажей по технике безопасности и пожарной безопасности;

• карточки учета средств индивидуальной защиты и спецодежды;

• должностные инструкции;

• инструкции по действиям в нештатных ситуациях;

• инструкции по правилам поведения в дата-центре для посетителей;

• договоры с внешними организациями (поставки топлива, аренды, уборки и т. п.).

ЦОД – «живая» система, в которой постоянно что-то модернизируется, налаживается или демонтируется. Все эти изменения должны надлежащим образом отображаться в исполнительной документации и соответствующих инструкциях.

Техническое обслуживание и ремонт. Важнейшая часть эксплуатации ЦОД – поддержание всех инженерных систем в работоспособном состоянии. Эта задача решается путем проведения планового технического обслуживания оборудования и систем на основании регламентов, а также ремонта или замены оборудования, вышедшего из строя. Служба эксплуатации дата-центра своими силами или с помощью подрядчиков должна разработать регламенты технического обслуживания всех систем. В регламенты включаются сведения об оборудовании, периодичности или сроках проведения ТО, описание операций по обслуживанию, информация о необходимом инструменте, расходных материалах и запасных частях. На основании регламентов составляются перечни материалов и запчастей, которые передаются в службы закупки. Поставки комплектов расходников должны осуществляться в строго оговоренные сроки. Для быстрого восстановления работоспособности оборудования в дата-центре должен храниться комплект запчастей. Перечень ЗИП для ремонта инженерных систем обычно разрабатывается с участием поставщиков (вендоров), а также исходя из практического опыта эксплуатации и статистики выхода из строя элементов систем. Актуальная информация о ЗИП должна быть доступна ремонтным службам. Система хранения должна обеспечивать быстрый поиск необходимой детали и ее выдачу. По мере расходования комплекта ЗИП его необходимо пополнять, обеспечивая некий неснижаемый остаток (запас).

Существуют три основных подхода к техническому обслуживанию и ремонту:

• выполнение работ собственными силами;

• выполнение работ сотрудниками сторонних организаций;

• выполнение работ как собственными силами, так и сотрудниками сторонних организаций.

В большинстве российских дата-центров практикуется смешанный вариант. Это позволяет минимизировать затраты и гарантировать качество работ. Как правило, на аутсорсинг отдаются сложные работы, требующие высокой квалификации работников и специализированного инструмента.

Контракты со сторонними организациями.[12] Сторонние организации привлекаются не только для технического обслуживания оборудования. Поставка электроэнергии и дизельного топлива, вывоз мусора, утилизация отработанных масел и технических жидкостей, уборка помещений – полный список всех договоров крупного дата-центра может содержать несколько десятков пунктов. Они имеют разную значимость для функционирования ЦОД, но ни об одном из них не следует забывать.

Мониторинг инженерных систем дата-центра. Постоянный мониторинг существенно облегчает контроль состояния систем, позволяет быстро выявлять различные неисправности или прогнозировать их развитие. Система мониторинга – это сложная инженерная система, поэтому для нормального функционирования она требует технического обслуживания, замены неисправных элементов, обновления ПО.

Учет инцидентов. Важную информацию о реальном состоянии инженерных систем дата-центра можно получить при скрупулезном учете всех происходящих в нем инцидентов. Должна быть описана причина возникновения инцидента. Если же назвать точную причину возникновения сбоя сразу невозможно, то в графе «причина» записывается «выход из строя по неизвестной причине», и такие случаи рассматриваются с особой тщательностью. Следующий важный параметр, который должен фиксироваться, – это степень влияния инцидента на работу ЦОД.

Все события можно разбить на три группы:

• практически не влияющие на работу;

• снижающие проектную избыточность инженерных систем;

• влияющие на работу серверных, вплоть до полной остановки дата-центра.

Анализируя данные об инцидентах, можно выявить некоторые тенденции в состоянии инженерных систем и получить статистические данные. Всё это служит материалом для дальнейшего улучшения системы эксплуатации ЦОД.

Помимо этих технических аспектов на службах и отделах эксплуатации инженерных систем лежит ответственность за обеспечение соблюдения организационных и технических способов обеспечения безопасности труда, а это и создание система распределения ответственности, и назначение ответственного за электрохозяйство, и организация работ и допуска к работам.

Организация системы эксплуатации инженерных систем ЦОД процесс сложный и многогранный и только внимательный, комплексный подход ко всем вопросам, внимание к мелочам, может обеспечить достижение приемлемого результата.

Итак, Вы решаете все делать сами.

Где взять стандарты, на что опереться?

Вот список некоторых действующих и будущих стандартов и технических документов, связанных с отказоустойчивостью дата-центров. Они актуальны для проектирования, строительства и эксплуатации ЦОД.

Серия стандартов компании « CENELEC « EN 50600 определяет минимальные требования для инфраструктуры дата-центров всех форм и размеров. Они включают в себя защиту от природных катаклизмов, падений и несанкционированного доступа, включая внутренние и внешние экологические события. В стандарте EN 50600-3-1 рассматриваются измерения, контроль и учет энергопотребления в определенных локациях. При правильном применении этого стандарта он может помочь оценить работу дата-центра, используя разделы из серии стандартов EN 50600-4 и его KPI ( Key Performance Indicators. ключевые показатели эффективности). Стандарт EN 50600-4 напрямую управляет факторами эффективности, такими как PUE и REF .

ETSI ES 205 200 определяет так называемые Global KPIs (Глобальные ключевые показатели эффективности), обеспечивая контроль энергоуправления информационно коммуникационных технологий (ИКТ). Этот стандарт предлагает единый глобальный KPI – энергетическое управление обработки данных и коммуникаций –, который определяет четыре целевых KPI. потребление энергии, эффективность выполнения задач, использование возобновляемых источников энергии и повторное использование энергии. Это позволяет определять энергетическую эффективность ИКТ всего предприятия.

ITU TL .1300 от « ITU T Study Group 5″ в значительной степени основан на инициативе ЕС по уменьшению воздействия на ЦОДы ( EU CoC Best Practices V 4.0.5) и включает 23 дополнительных пункта. Различия касаются, в частности, предпочтением » ITU — T » ссылаться на диапазон изменения окружающей среды, поддержанный серией стандартов ETSI EN 300 019, нежели на диапазон, указанный в документе Евросоюза.

DIS ISO / IEC 30134. описывающие KPI дата-центра, уже находятся в открытом доступе, но они отражают стандарты JTC 1/ SC 39 WG 1 – новая работа от CENELEC. Во избежание дублирования документов рассматривается их включение в Европейский набор стандартов. Международная электротехническая комиссия IEC также рассматривает разработку технического отчета, который бы содержал рекомендации по проектированию дата-центров применительно к управлению ресурсами.

Согласно стандарту энергоэффективного EthernetIEEE 802.3 az от » IEEE 802.3 Working Group «, сетевые устройства и интерфейсы представляют более 10% всего годового потребления энергии, достигая десятков Тераватт. Если смотреть далеко в будущее и предположить, насколько поднимется планка потребностей общества, все лишь усложняется. Пропускная способность увеличивается, количество сетевых соединений увеличивается, количество устройств с возможностью подключения к Wi — Fi увеличивается, спрос на более гибкую инфраструктуру для удовлетворения этих потребностей также увеличивается. В 2010 была представления технология Energy Efficient Ethernet ( EEE. энергоэффективный Ethernet ) с целью создания механизма и стандарта для уменьшения энергопотребления сетевых интерфейсов без ущерба для их функционала. Несмотря на то что эта технология – новая и есть еще много моментов, которые нужно проработать, лабораторные исследования Cisco и Intel показали, что она может предложить, к примеру, 15% экономии на Cisco 4500 Switch. Сочетая EEE с Wake — on — LAN ( WoL ) можно добиться экономии до 50%.

Стандарт энергетического управления ISO 50001:2011 предоставляет организациям концепцию для интеграции энергоэффективности в процесс управления. Среди прочего, он включает в себя установку базовых линий, которые измеряются, контролируются и корректируются для обеспечения контроля управления, используя эти данные в качестве базы для текущего прогнозирования, улучшения операций по энергоэффективности, приобретения и повсеместного размещения эффективного низкоэнергетического оборудования.

Стандарт экологического управления ISO 14001:2015 предлагает концепцию обеспечения тщательного контроля интерфейса, чтобы избежать или минимизировать какой-либо негативный экологический эффект. По стандарту ISO 14001 требуется инициативное управление экологическими рисками для поддержки долгосрочных экологических и экономических целей.

Как все организовать?

В статье от 21 января 2014 г. «Классификация подходов к организации эксплуатации инженерной инфраструктуры ЦОД» Заурбек Алехин, Дмитрий Басистый обрисовали идеальную модель организации технического сопровождения, назвав её Тип A «Усовершенствованный». [13]

Это некий идеальный вариант, и в настоящее время ему не соответствует ни один реальный российский ЦОД. Требования к могут быть определены следующим образом:

«ОРГАНИЗАЦИОННАЯ СТРУКТУРА

Выделенное подразделение существует, его задачи определены и формализованы (главная задача – обеспечение надежного и устойчивого функционирования инженерной инфраструктуры ЦОД в краткосрочной и долгосрочной перспективе). Назначены ответственные за реализацию отдельных групп эксплуатационных мероприятий (по всем имеющимся группам мероприятий). Осуществляется мониторинг соответствия процедур взаимодействия организационной структуре, предпринимаются меры по устранению конфликтов и несоответствий.

БИЗНЕС-ПРОЦЕССЫ

– Процессы управления и взаимодействия. Управление инцидентами демонстрирует высокий уровень зрелости, работает эффективно. Осуществляется мониторинг тенденций и проактивное совершенствование процесса. Диспетчерская служба построена в соответствии с передовыми практиками, функционирует исправно и эффективно, мотивирована на самосовершенствование. Соглашения об уровне услуг ( SLA ) разработаны и применяются для всех систем, параметры соглашений соответствуют реальным требованиям, обеспечен контроль их соблюдения. Организован регулярный пересмотр SLA с учетом прогноза потребностей и изменения эффективности процедур обслуживания. Процедуры взаимодействия документированы и реализованы, функционируют эффективно, организована периодическая их актуализация. Управление проблемами реализовано в полном объеме, включая как обеспечение эффективного реагирования на возникающие инциденты, так и упреждающее выявление потенциальных инцидентов и принятие мер по противодействию им. Качество реализации процессов управления и взаимодействия и их полнота подтверждены независимой сертификацией.

– Процессы обслуживания. Существует качественно реализованный процесс управления обслуживанием, охватывающий все системы инженерной инфраструктуры. Ремонт и обслуживание систем осуществляется в соответствии с рекомендациями производителей. Осуществляется плановая замена оборудования по всем системам в соответствии с рекомендациями производителей и текущим состоянием. Построен и функционирует процесс управления жизненным циклом систем. Осуществляется управление эффективностью обслуживания на основании мониторинга текущего технического состояния систем и отдельных единиц оборудования. Качество реализации процессов обслуживания и их полнота подтверждены независимой сертификацией.

– Обеспечивающие процессы. Осуществляется полномасштабный контроль качества реализации всех эксплуатационных процессов. Своевременно планируются мощностные потребности по критичным системам. Осуществляется планирование и прогнозирование загрузки площадей ЦОД.

РЕСУРСЫ

– Персонал. Наличие квалифицированного персонала по всем системам в достаточном количестве. Достаточный уровень квалификации для устранения аварий и обслуживания систем собственными силами и/или путем привлечения заранее согласованных ресурсов внешних подрядчиков. Осуществляется поддержание квалификации персонала путем регулярного обучения всех сотрудников исполнению процедур обслуживания, регламентов и инструкций. Подготовка и развитие персонала осуществляется планомерно, в рамках единой программы, с учетом текущих и перспективных потребностей, действующих и перспективных технологий. Осуществляется планирование и подготовка кадрового резерва. Квалификация персонала и достаточность его численности подтверждены независимой сертификацией объекта.

– Технологии и инструменты. Обеспечение ЗИП осуществляется в полном объеме в соответствии с требованиями и рекомендациями производителей систем и оборудования. Существует и эффективно функционирует электронная система доступа к документации по оборудованию, включая описание конфигураций, порядка обслуживания и иных регламентных и типовых процедур. Построена и функционирует единая централизованная система управления обслуживанием, реализующая функционал следующих автоматизированных систем:

· мониторинг параметров систем и оборудования;

· управление системами и оборудованием;

· управление инцидентами;

· управление проблемами;

· управление обслуживанием;

· учет оборудования и систем, их текущего состояния и иных эксплуатационных параметров.

Внедрена и используется в повседневной деятельности электронная база данных, обеспечивающая ведение и доступ к нормативной и иной документации по инженерным системам, исполняемым процессам и процедурам и др. Анализ текущего и перспективного состояния инженерных систем ЦОД осуществляется с применением системы моделирования.

– Информация. Имеется и в любое время доступна персоналу эксплуатации документация по всем системам и оборудованию.

– Финансы. Финансирование осуществляется в необходимых объемах в форме выделенного бюджета на эксплуатацию ЦОД, с учетом текущих и перспективных задач и потребностей.

Обслуживание данного типа (по состоянию отрасли на текущий момент) – некоторый идеальный, эталонный вариант, учитывающий в том числе, и перспективные задачи и потребности. Недостатков, как и полагается идеалу, у этого типа нет.

ЦОД воспринимается руководством как важный и критичный элемент функционирования компании в настоящее время и на перспективу. Подход обеспечивает абсолютные гарантии надежности функционирования и доступности инженерной инфраструктуры ЦОД с учетом нынешних и будущих потребностей.»

Вы видите, что организовать подобное содержание оборудования и отношение к нему очень сложно и затратно. Кроме того, инженерное оборудование ЦОД. как правило, очень надежно. И, как следствие, ваш высокопрофессиональный персонал большую часть времени загружен работой не будет.

Для обеспечения требуемой надёжности в составе ЦОД требуется структура обеспечения эксплуатации инженерных систем. Сколько это стоит? Проиллюстрируем на примере [ 14 ] :

Функции структуры :

· осуществляет контроль за работой инженерных систем;

· восстанавливает работоспособности инженерных систем при сбоях и выходах из строя;

· проводит работы по техническому обслуживанию инженерных систем;

· ведёт техническую документацию;

· разрабатывает технические задания (далее – ТЗ) по созданию и развитию инженерных систем;

· организует взаимодействие с ресурсоснабжающими организациями по эксплуатации инженерных систем здания.

Можно обеспечить надёжность функционирования систем обеспечивается путём организации круглосуточного дежурства диспетчерского и технического персонала на объекте.

Сложность эксплуатируемых систем и высокие требования к обеспечению надёжности определяют узкую специализацию работников, предъявляя повышенные требования к слаженности при выполнении работ по техническому обслуживанию и при устранении неисправностей.

Диктуемая рынком труда величина оплаты услуг технических специалистов составляет (по данным одной из уважаемых компаний). Единица инженер (инженер-механик, инженер-электрик). Сумма затрат предприятия составляет 908 856.00 руб./год (75 738,00 руб./мес.) из расчёта:

оклад 39 600,00 руб.;

премия 50% 19 800,00 руб.;

ПФ 20% 11 880,00 руб.;

Соц. стр. 2,9% 1722,60 руб.;

Мед. стр. 2%+1,1% 1 841,40 руб.;

Стр. от несч. сл. 1,5% 594,00 руб.

Инженерные системы ЦОД, как устройства, находящийся под электрическим напряжением, могут обслуживаться только двумя работниками с группами допуска по электробезопасности IV и III (п. п. 4.2.4. 4.2.5.). Следовательно, количество дежурных специалистов, обслуживающих любую установку не может быть меньше двух. При уходе на больничный или в отпуск одного из работников – работы останавливаются, следовательно, необходим резерв персонала.

Необходимость специализации персонала увеличивает его количество в четыре раза. Получаем смену из девяти человек (четыре направления специализации).

5 смен по 9 человек – 45 человек. Прибавим начальника отдела – 46 человек. Нехитрый примерный расчёт позволяет получить цифру:

46 человек х 908 856.00 руб./год = 41 807 376,00 руб./год

Это суммарные годовые затраты предприятия на персонал отдела инженерных систем. Это серьёзная сумма даже для крупного предприятия.

Можно ли реструктурировать эту эксплуатационную структуру предприятия? Какие есть для этого пути и чем оправдано их применение?

Функционал распределяется по пяти направлениям:

· система диспетчеризации оборудования;

· система гарантированного электроснабжения;

· система кондиционирования и охлаждения;

· система охраны и контроля доступа;

· дизель-генераторная установка (система резервного электроснабжения).

Соответственно формируется пять секторов в составе отдела инженерных систем.

Особенность работы данного персонала (обеспечивающего эксплуатацию) заключается в его эпизодической загруженности: специалисты службы эксплуатации задействованы только в период выполнения регламентированных работ по техническому обслуживанию и устранении неисправностей, поэтому вопрос обеспечения эксплуатации можно в максимально сжатые сроки решить путем использования аутсорсинговых схем взаимодействия с поставщиками услуг и работ.

Для ответа на вопрос «делать самому или покупать?» надо оценить:

· стратегические перспективы рассматриваемой бизнес – операции;

· ее возможную конкурентоспособность;

· стоимость услуг внутренних и внешних исполнителей;

· возможные риски.

Главная, и самая объективная оценка применимости аутсорсинга — это определение его экономической эффективности. Итак, что делать самим, а что отдать «на сторону»? Как это рассчитать?

Для расчета потребуется сравнить:

Стоимость данной работы (услуги), если она будет выполняться своими силами, что повлечет расходы, которые можно предварительно подсчитать, это: стоимость аренды офисной (или иной необходимой) площади; стоимость и размеры оборудования, используемого для выполнения данной функции; фонд оплаты труда необходимого для данного объема работ персонала.

Стоимость этой работы (услуги), если она будет предоставлена специализированной компанией. Для точного расчета будут нужны расценки на оказываемые услуги у нескольких фирм-поставщиков каждой из этих услуг.

Как же можно провести расчёт эффективности договора технического сопровождения? Рассмотрим этот анализ на примере организации эксплуатации системы гарантированного электроснабжения на базе дизель-генераторной установки F. G. Wilson Р1000 Е1.

В результате такого расчета можно будет сделать вывод, выгоден аутсорсинг или нет.

Существует некий перечень профилактических работ на объекте, определяемый изготовителем и особенностями условий эксплуатации.

Для дизельного генератора большой мощности он выглядит примерно так:

· Проверка уровня охлаждающей жидкости в радиаторе

· Проверка состояния приводного ремня

· Проверка наличия воды в фильтре предварительной очистки топлива

· Замена фильтрующего элемента топливного фильтра (ов)

· Проверка давления масла с помощью внешнего манометра и сравнение результатов с показаниями указателя давления масла в двигателе ДГУ

· Проверка и, при необходимости, регулировка блока AVR

· Проверка плотности затяжки соединений

· Замена моторного масла

· Замена масляного фильтра (ов)

· Проверка системы отвода картерных газов

· Очистка воздушного фильтра, удаление пыли из пылесборника

· Замена воздушного фильтра (ов)

· Проверка работоспособности генератора подзарядки АКБ, стартера

· Замена антифриза через каждые 3000 м/ч или 1 раз в год

Есть два пути, по которым можно пойти при организации выполнения этих работ: создать специализированное подразделение и привлечь стороннюю организацию.

Сравним экономически эти два варианта:

Сравнительный анализ затрат на эксплуатацию ДЭС.

проектирование инженерных систем что это такое

что такое специализированные инженерные системы

инженерные системы цод что это

This entry was posted in Инженерные системы цод что это and tagged , , . Bookmark the <a href="http://blagodarstroy.ru/inzhenernye-sistemy-cod/" title="Permalink to Инженерные системы ЦОД" rel="bookmark">permalink</a>.

Comments are closed.