• Илья Горбунов, CIO, Санкт-Петербургский государственный университет: «Виртуализация в помощь ЦОД. Опыт СПбГУ»
20.06.2011

Илья Горбунов, CIO, Санкт-Петербургский государственный университет: «Виртуализация в помощь ЦОД. Опыт СПбГУ»

20 Июня 2011 года

Илья Горбунов, CIO, Санкт-Петербургский государственный университет: «Виртуализация в помощь ЦОД. Опыт СПбГУ»

Поддержание статуса одного из лучших вузов невозможно без улучшения технологической и информационной составляющих инфраструктуры Университета, поэтому сейчас в СПбГУ реализуются крупные проекты, которые позволят старейшему вузу России сохранить и преумножить свой вклад в исследовательскую деятельность, продолжить активное развитие и новаторство, а также поднять свой рейтинг в мировом сообществе.

В частности, сейчас в СПбГУ создается современный Центр обработки данных для предоставления информационных услуг как внутри Университета, так и внешним пользователям. Основная его цель — построение ИТ-инфраструктуры, предназначенной как для решения вычислительных задач учебно-научного характера, так и для функционирования приложений, поддерживающих административно-хозяйственный и учебный процесс отдельных факультетов и вуза в целом. Создаваемый ЦОД будет, с одной стороны, обладать современной вычислительной мощностью и большой емкостью систем хранения данных, а с другой — обеспечит возможность гибкого перераспределения этих ресурсов для решения различных задач в соответствии с требованиями факультетов и Университета.

Для организации и поддержки современной, надежной, динамичной и быстро перенастраиваемой ИТ-инфраструктуры предлагается применять технологии виртуализации и объединения вычислительных ресурсов. Такое решение на первом этапе позволит эффективно использовать уже имеющиеся в Университете средства для выполнения различных ИТ-задач, а в будущем иметь возможность последовательно наращивать вычислительные мощности в соответствии с возникающими потребностями. Суть проекта заключается в создании единой виртуальной сервис-ориентированной ИТ-инфраструктуры из отдельных масштабируемых многопроцессорных серверов. В отличие от традиционных суперкомпьютеров и суперкомпьютерных центров, предназначенных для решения задач одного типа, новый вычислительный центр СПбГУ обеспечит выполнение большого числа самых разных задач, существенно оптимизирует серверную (вычислительную) инфраструктуру Университета и, по сути, будет являться такой же неотъемлемой ее частью, как и телекоммуникационная сеть.

Принципы построения ЦОД

При построении ЦОД СПбГУ используется подход, обеспечивающий линейное масштабирование оборудования, что позволит плавно наращивать мощность и переводить на него все большее количество информационных и вычислительных сервисов как в масштабах Университета, так и в рамках отдельных факультетов. На первом этапе планируется объединить в один виртуальный центр наиболее производительные вычислительные системы. Консолидирование аппаратной платформы серверов, устройств хранения данных, программного обеспечения в рамках единого Центра существенно сократит стоимость владения ИТ-инфраструктурой, повысит ее надежность, доступность и гибкость. Такой подход облегчит решение задач, связанных с обслуживанием и поддержкой, значительно сократит затраты на покупку и сопровождение аппаратного и программного обеспечения, обеспечит качественный уровень сервиса, быстрый ввод в эксплуатацию требуемых дополнительных вычислительных мощностей и программных систем.

Предлагаемые принципы построения ЦОД, а именно — реализация единой гибкой сервис-ориентированной ИТ-инфраструктуры, которая может адаптироваться для решения задач разнообразного характера — весьма близко соответствуют концепциям «облачных» (cloud) вычислений. Эта концепция предусматривает использование консолидированной инфраструктуры с единым управлением для предоставления конечным пользователям сервисов различного уровня. Такое решение включает в себя единую точку администрирования всех подсистем вычислительного центра СПбГУ. Главные достоинства такого построения — скорость ввода новых сервисов в эксплуатацию, простота подключения новых пользователей к уже внедренным сервисам, доступность, сокращение затрат на лицензии, возможность гибкого перераспределения ресурсов, возможность масштабирования платформы, миграции сервиса в другие окружения по мере изменения нагрузки на него.

Возможности вычислительного центра многообразны: централизация управления; контроль за использованием и эффективное перераспределение мощности между разными ИТ-задачами; организация системы обеспечения бесперебойной работы; обеспечение безопасности ИТ-инфраструктуры в целом; организация надежной системы для обработки и хранения данных и многие другие.

Перед вычислительным центром СПбГУ ставятся следующие основные задачи:

• Предоставление высокопроизводительных и распределенных вычислительных ресурсов разного типа по заявкам.
• Обеспечение бесперебойной работы оборудования, системного и прикладного программного обеспечения.
• Распределение ресурсов центра между пользователями с целью максимально эффективного выполнения научно-образовательных работ.
• Постоянный мониторинг и сбор статистики использования ресурсов.
• Обновление и предоставление документации и инструкций для пользователей.
• Оперативная поддержка пользователей, как непосредственно, так и дистанционно (через Интернет, по электронной почте).

Требования к аппаратному и программному обеспечению

В качестве аппаратной серверной платформы основного оборудования нового ВЦ СПбГУ предлагается применить модульную архитектуру на основе блейд-решений (Blade). Блейд-решение подразумевает использование в качестве строительных блоков инфраструктуры корзин или полок, в которые интегрируются серверы, системы питания и охлаждения, средства коммуникаций и система управления. В связи с большим объемом данных, использующихся в научных, учебных и административно-хозяйственных процессах СПбГУ и большой степенью разнородности этих данных (разные объемы, разная степень критичности), целесообразно в ЦОД СПбГУ иметь несколько систем хранения.

Серверная составляющая вычислительного центра должна соответствовать следующим критериям: компактность; управляемость; легкость обслуживания; минимальное энергопотребление и тепловыделение.

Наиболее оптимальными для использования в ВЦ было признано использовать следующие сетевые решения: локальную вычислительную сеть общего назначения; высокоскоростную сеть передачи сообщений; сеть хранения данных; управляющую сеть.
Система хранения данных должна состоять из следующих блоков:

• Дисковые системы хранения (разделяемые блочные устройства университетского уровня с максимальной надежностью, функциональностью и высокой производительностью), необходимые для хранения загрузочных образов серверов, данных бизнес-критичных приложений (с ними непосредственно работают блейд-серверы и виртуальные машины).

• Системы хранения статичных данных (файловые системы хранения большого объема с доступом через сетевую инфраструктуру), предназначенные для долговременного хранения справочной, ссылочной и иной подобной информации, с доступом по стандартным сетевым протоколам со стороны большого числа пользователей; это хранилище планируется использовать для пользовательских данных.

• Параллельная система хранения данных (максимальная производительность для прикладных пакетов, работающих в параллельном режиме), предназначенная для высокопроизводительного масштабируемого хранилища данных для приложений, работающих в параллельном режиме на узлах кластера ВЦ СПбГУ, и ориентированная на оптимизацию критерия «цена/производительность».

• Системы резервного копирования и восстановления (резервное копирование информации), предназначенные для создания резервных копий, их поддержания в актуальном состоянии и восстановления информации, для долговременного хранения резервных и архивных копий информации с основных систем хранения данных, с возможностью перемещения на другие системы.

Система высокоуровневого ПО

Вычислительный центр СПбГУ будет представлять собой гибкую эффективную переконфигурируемую систему, построенную на базе управляющего программного обеспечения. Работу ресурсного центра обеспечат операционные системы, среда виртуализации, системы управления, почтовые системы, ПО фирм Novell, Microsoft, VMWare. В состав консолидированной системы управления инфраструктурой должны входить средства расширенного управления, осуществляющие должный контроль, мониторинг, конфигурирование, управление, планирование. В целом, система высокоуровневого программного обеспечения должна базироваться на следующих принципах:

• консолидированное управление множеством гипервизоров VMware’s (vSphere, ESX и ESXi), Xen и Hyper V;
• автоматизированное самообслуживание;
• веб-службы;
• обеспечение масштабируемости ресурсов согласно потребностям университета;
• гибкое формирование вычислительных ресурсов;
• легкость модернизации;
• взаимодействие с AWS (включая EC2 и S3).

Масштабирование вычислительного центра возможно как путем установки нескольких вычислительных модулей и объединения их в единую сетевую инфраструктуру, так и путем выделения отдельных подсистем и их независимого масштабирования.

Первые результаты работы ВЦ СПбГУ

Работа с вычислительным модулем HP началась с середины января 2011 г. В процессе эксплуатации выяснились основные проблемы работы вычислительного модуля с использованием быстрого интерфейса Infiniband. Были проведены тестовые испытания оборудования разных вендоров и выбрано наиболее оптимальное для работы в среде виртуальных машин. Для получения максимального быстродействия выполнения вычислительных задач проведено испытание системы хранения данных в разных режимах. В связи с необходимостью использования нескольких операционных систем, потребовалось согласовать протоколы обмена информацией. Принято решение дополнить систему хранения более мощными серверами управления, которые позволят обеспечить необходимый уровень быстродействия передачи данных и расширят число сервисов обмена данными. Для выполнения больших объемов вычислений принято решение дополнить вычислительный комплекс гибридным кластером на основе графических ускорителей. Это связано с тем, что выполнение расчетов на существующем оборудовании показало необходимость увеличения размерности исследуемых моделей.

Время выполнения заданий колеблется от нескольких минут до нескольких недель. Выяснилось, что процесс выполнения расчетов зависит не только от доступности ресурса, но и от его технической возможности. Мы можем обеспечить выполнение большого числа небольших или средних задач (по использованному ресурсу). А выполнение более ресурсоемких задач требует значительного увеличения производительности. Поэтому принято решение увеличить вычислительные ресурсы до 50–60 ТФлопс.

Активно осваивают работы с виртуальными машинами сотрудники, в основном, естественных факультетов. Общее число пользователей больше 250. На виртуальных машинах проводятся расчеты по программам квантовой химии, электрофизики, механики, прикладной математики. Предоставлены ресурсы под хранение больших объемов данных для информационных систем Ректората.

В перспективе, практически все серверные ресурсы (включая суперкомпьютерные) должны быть сосредоточены в вычислительном центре СПбГУ. Таким образом, комплекс оборудования заменит тысячи компьютеров, сотни высокопроизводительных серверов, и, по экспертной оценке ведущих специалистов, сбережет до 70% электроэнергии, более чем в 20 раз повысит эффективность использования программно-аппаратных ресурсов, упростит управление использованием ресурсов и существенно облегчит работу по обеспечению необходимого уровня безопасности.

О необходимости создания современного вычислительного центра говорили в университете давно: актуальным научным исследованиям и разработкам, в частности, в области нанотехнологий, необходим инструментарий, обеспечивающий точность и быстроту расчетов. Создаваемый вычислительный центр позволит существенно сократить время ожидания получения результатов расчетов. А значит, можно надеяться, что уже в недалеком будущем СПбГУ еще больше преумножит свой вклад в российскую науку. Возможности ВЦ таковы, что мы рассчитываем и на его широкое использование в процессе обучения студентов, в подготовке высококлассных специалистов, владеющих как современными методами проведения вычислений, так и знакомых не понаслышке с современными программами.

Кроме того, наличие суперкомпьютеров и мощных вычислительных ресурсов позволят Университету стать полноправным участником кластерных объединений, использующих вычислительные возможности всех входящих в объединение вузов. А это немаловажно для поднятия и поддержания статуса ведущего прогрессивного вуза.