В преддверии развертывания Frontier в этом году, 1.5 Cabinet «Crusher» служит науке
Тиффани Трейдер
28 марта 2022 г.
Суперкомпьютер Frontier был установлен в Национальной лаборатории Ок-Ридж Министерства энергетики в 2021 году, а последний шкаф был установлен на место в октябре. В то время как встряска полной пиковой системы с производительностью 2 эксафлопс продолжается (мы неофициально слышали о проблемах с технологией межсоединений), проект Frontier работает с меньшей испытательной системой с той же базовой конструкцией.
«Crusher» представляет собой полуторакорпусную версию суперкомпьютера Cray EX Frontier с пиковой производительностью около 40 петафлопс двойной точности. Crusher будет обслуживать первых научных пользователей, в то время как интеграция и тестирование полной системы Frontier из 74 шкафов продолжаются. По данным Окриджской национальной лаборатории, система Frontier станет первой экзафлопсной системой в США где-то в этом году и начнет полноценную пользовательскую эксплуатацию 1 января 2023 года.
Crusher состоит из 192 узлов HPE Cray EX, каждый из которых оснащен одним процессором AMD Trento 7A53 Epyc и четырьмя графическими процессорами AMD Instinct MI250X (всего 768 графических процессоров). Тренто использует те же ядра Zen-3, что и Милан, оптимизированные для повышения эффективности памяти. Узлы соединены межсетевым соединением HPE Slingshot-11. Каждый узел оснащен 512 ГиБ памяти DDR4 на ЦП и 512 ГиБ HMB2e (128 ГиБ на каждый графический процессор) с когерентной памятью по всему узлу.
Напротив, полноразмерный Frontier должен обеспечивать пиковую производительность двойной точности 2 эксафлопс в 74 шкафах при мощности 29 МВт. Занимая площадь 372 м2 в Oak Ridge Leadership Computing Facility (OLCF), Frontier охватывает 9408 узлов, объединяющих 9,2 петабайта памяти (4,6 петабайта DDR4 и 4,6 петабайта HBM2e). Общее количество графических процессоров: 37 632. Имеется 37 петабайт локального хранилища узла и доступ к 716 петабайтам общецентрового хранилища.
Стойки HPE Olympus, используемые в архитектуре Frontier, полностью охлаждаются жидкостью, включая модули DIMM и сетевые адаптеры. Каждый шкаф (в сухом состоянии) весит 3630 килограммов. Полная система Frontier имеет в общей сложности 81 000 кабелей.
Крашер, по словам Ок-Риджа, готов «сокрушить» науку, хотя мы подозреваем, что это имя также может быть отсылкой к главному врачу из телесериала «Звездный путь: Следующее поколение». В более широком смысле, полная конфигурация будет «Последним рубежом».
Коды четырех проектов уже успешно оптимизированы для Crusher и, следовательно, для Frontier. Это проект распределенной обучающей среды CANcer или CANDLE; проект «Вычислительная гидродинамика на ∥ (параллельных) архитектурах» или «Чолла»; проект «Локально самосогласованное множественное рассеяние» или LSMS; и проект ядерных связанных кластеров в Ок-Ридже, или NuCCOR. Некоторые из этих кодов восходят к первой системе с гибридной архитектурой OLCF — выведенному из эксплуатации суперкомпьютеру Cray XK7 Titan с производительностью 27 петафлопс, который также использовал узлы CPU+GPU и который был запущен в эксплуатацию в 2012 году.
Основные первые результаты:
«Crusher — это последняя из длинной линейки систем тестирования и разработки, которые мы развернули для первых пользователей платформ OLCF, и, несомненно, самая мощная из всех, которые мы когда-либо предоставляли», — сказал Бронсон Мессер из ORNL, научный директор OLCF. «Результаты, которые эти команды программистов реализуют на машине, очень обнадеживают, поскольку мы смотрим на зарю эры экзафлопса с Frontier».
«Занимая всего 44 квадратных фута площади, Crusher составляет 1/100 размера предыдущего суперкомпьютера Titan, но быстрее, чем вся система площадью 4352 квадратных фута, обладая огромной вычислительной мощностью для своего небольшого размера», — далее сообщается в сообщении. Объявление в Ок-Ридже.
Первоначально Frontier планировалось развернуть во второй половине 2021 года и принять в 2022 году. Те или иные задержки типичны для суперкомпьютерных систем такого масштаба, и Frontier, кроме того, является первой реализацией архитектуры AMD A+A. стать одной из первых в мире экзафлопсных машин. Еще неизвестно, будет ли Frontier готов к составлению списка Top500 в конце мая (а не в июне этого года), как этого многие ожидали (учитывая, что система была полностью установлена до публикации списка в ноябре 2021 года). Ок-Ридж не назвал точных сроков развертывания и приемки Frontier, за исключением заявления, что это произойдет в 2022 году, а полноценные операции начнутся 1 января 2023 года.