Смартсорсинг.ру

Сообщество руководителей ИТ-компаний, ИТ-подразделений и сервисных центров

Статьи в блогах Вопросы и ответы Темы в лентах ITSM 365 Пользователи Компании Лента заказов Курс по ITSM

Мониторинг в ЦОДах: сбросить "лоскутное одеяло" (часть 2)

Мониторинг в ЦОДах: сбросить "лоскутное одеяло" (часть 2)

В первой части статьи мы рассматривали возможности организации эффективной системы мониторинга дата-центров. В продолжении - рассказ о подходе к мониторингу различных систем и пример решения для этой задачи. 

Электричество как приоритет

Безусловно, все системы дата-центра важны, но системе электроснабжения в "ТрастИнфо" уделяют особое внимание, так как от ее работы зависит и обеспечение охлаждения, и пожаротушение, и контроль доступа, а также работа трансформаторной подстанции. Обеспечение бесперебойного энергоснабжения включает в себя постоянный мониторинг множества параметров, в том числе – реальный объем и структуру мощностей, задействованных на текущий момент, возможное время автономной работы, которое может быть обеспечено резервными энергомощностями, и многие другие.

В случае перебоев внешнего энергоснабжения необходимо обеспечить быстрый и безболезненный переход на резервные источники (ДГУ). Тех, что используются в «ТрастИнфо», хватает на 36 часов автономной работы дата-центра с полной нагрузкой. При этом, пока запускается ДГУ, система будет работать от батарей – это может занять несколько секунд или даже меньше, но момент критически важный, и система мониторинга обязательно должна оповещать о нем инженеров дата-центра.

Труднее всего создавать систему мониторинга работы трансформаторной подстанции, потому что это звено представляет собой критически важный в плане времени реагирования на сбои элемент – все остальные системы ЦОДа питаются током. 

Так, здесь компания даже не рассматривает возможность внедрения здесь средств дистанционного управления – слишком важный участок. Трансформаторная подстанция оборудована системой оповещения, а в случае переключения с одного трансформатора на другой (по причине перегрева или выхода из строя) дежурные инженеры дата-центра получают оповещение и действуют в соответствии с возможными сценариями, в зависимости от того, носит ли переключение штатный характер, произошло ли оно автоматически или необходимо задействовать сценарий отработки внештатной ситуации.

Что касается системы охлаждения, то мониторинг здесь помогает распределять нагрузку, обеспечивая ротацию кондиционеров и продлевая срок их «активной жизни». Температурные графики создаются автоматически – за это отвечает специализированное программное обеспечение, показывая динамическую картину изменений этого показателя по каждому машинному залу. В режиме реального времени за счет использования мнемосхемы можно определить причину скачка температуры, увидеть конкретные теплообменники, насосную группу и другие элементы – сбой можно будет четко локализовать, что позволит устранить его быстрее.

В составе каждой системы современного дата-центра есть блок сбора и хранения аналитической информации, но он не всегда оказывается востребован – просто потому, что он-лайн мониторинг нужнее и представляет возможность предотвращать аварийные ситуации.

Функции службы мониторинга в нашем дата-центре возложены на оперативный персонал, который в режиме реального времени контролирует работу инженерных систем ЦОД с помощью специализированных систем. В связи с тем, что подсистемы СМ построены на различных платформах – необходимо знать и уметь опознавать события, предшествующие нештатным и уметь их правильно и быстро локализовать.

Больше ЦОД – нужнее мониторинг

Требования заказчиков растут, а вместе с ними увеличивается сложность оборудования, растет его мощность. На провайдеров услуг ЦОДов и на ИТ-специалистов, обслуживающих корпоративные дата-центры, возлагается больше ответственности. В то же время, риск человеческого фактора усиливается: цена ошибки или промедления в принятии решения может быть очень высокой и привести не только к финансовым и репутационным издержкам, но и к серьезным экологических последствиям. Поэтому в дата-центрах все чаще отдают предпочтение автоматическим решениям для мониторинга и реагирования на нештатные ситуации.

При небольших мощностях инженерных систем и их простой конфигурации для задач мониторинга часто используется программное обеспечение, поставляемое вместе с ИБП. Однако для крупных дата-центров таких мер недостаточно: там необходимо использовать отдельную систему управления технологическим процессом – АСУТП, которая позволит комплексно отслеживать работу оборудования и систем ЦОДа.

«ТрастИнфо» - один из крупнейших дата-центров России, и обеспечить надежный проактивный комплексный мониторинг здесь решили с помощью системы enterprise-класса: начато внедрение решения Data Center Expert от Schneider Electric.

Это ПО, объединяющее все инженерные системы на единой платформе, упрощая управление и обслуживание. В  данный момент в новой системе поддерживается мониторинг 2 из 5 систем бесперебойного электроснабжения,  контроля температуры и влажности в одном машинном зале, управления доступом в одной зоне. Ведется своего рода пилотный проект: специалисты «ТрастИнфо» оценивают эффективность решения и его реальные преимущества при работе в условиях действующего ЦОДа.

В ходе внедрения будут также подключены механизмы оперативного информирования (почта, SMS) для ускорения процесса принятия оптимального решения.  Затем добавится система мониторинга кондиционеров (сейчас ею охвачено 24 из 79 установленных в ЦОДе), система холодоснабжения, создадим обновленную мнемосхему. Преимуществом решения Data Center Expert являются широкие аналитические возможности и наглядная, гибкая в настройке отчетность. Оценить эффект мы сможем примерно через 6 месяцев.

Data Center Expert как унификационная платформа, созданная Schneider Electric – одним из ведущих мировых поставщиков инженерных решений, ПО и оборудования для дата-центров, обеспечивает качес твенное ресурсное сопровождение, сокращая время реагирования и затраты на мониторинг. При этом внедрение системы не требует глобальных изменений в работе ЦОДа –  произойдет постепенный апгрейд на новое решение, так как приоритетом в работе ЦОДа является качественная и бесперебойная работа для заказчиков.

Комментарии (3)