Оптимизация сетевого программного обеспечения для продвижения научных открытий

Высокопроизводительные вычисления (HPC). использование суперкомпьютеров и методов параллельной обработки для решения больших вычислительных задач. широко используются в научном сообществе. Например, ученые из Брукхейвенской национальной лаборатории Министерства энергетики США (HP) используют HPC для анализа данных, которые они собирают на крупномасштабных экспериментальных установках на месте, и для моделирования сложных процессов, которые было бы слишком дорого или невозможно продемонстрировать экспериментально.

Современные научные приложения, такие как моделирование взаимодействия частиц, часто требуют сочетания совокупной вычислительной мощности, высокоскоростных сетей для передачи данных, большого объема памяти и возможностей хранения большой емкости. Достижения в области аппаратного и программного обеспечения HPC необходимы для удовлетворения этих требований. Ученые в области компьютерных и вычислительных технологий и математики из Инициативы по вычислительной науке (CSI) Брукхейвенской лаборатории сотрудничают с физиками, биологами и другими учеными в области, чтобы понять их потребности в анализе данных и предоставить решения для ускорения процесса научных открытий.

Лидер отрасли HPC

В течение десятилетий корпорация Intel была одним из лидеров в разработке технологий высокопроизводительных вычислений. В 2016 году компания выпустила процессоры Intel Xeon PhiTM (ранее носившие кодовое название Knights Landing). архитектуру HPC второго поколения, которая объединяет множество процессорных блоков (ядер) на чип. В том же году Intel выпустила высокоскоростную сеть связи Intel Omni-Path Architecture. Чтобы 5000–100 000 отдельных компьютеров или узлов в современных суперкомпьютерах работали вместе для решения проблемы, они должны иметь возможность быстро обмениваться данными друг с другом, сводя к минимуму задержки в сети.

Вскоре после этих выпусков Brookhaven Lab и RIKEN, крупнейшее в Японии комплексное исследовательское учреждение, объединили свои ресурсы для покупки небольшого параллельного компьютера с 144 узлами, построенного из процессоров Xeon Phi и двух независимых сетевых подключений или рельсов, с использованием архитектуры Intel Omni-Path. Компьютер был установлен в Научно-вычислительном центре Brookhaven Lab, который является частью CSI.

Похожие записи

Лучшее бесплатное программное обеспечение для рисо... Нужна бесплатная альтернатива Adobe Illustrator? Вот наши фавориты Хотя есть способы попробовать Adobe Photoshop бесплатно, его использование в долго...
Google не является компанией, производящей аппарат... Последний аппаратный снимок от Google. часть стремления «будущего игр» к Stadia Google как компания по производству оборудования Бывший инженер Bo...

Завершив установку, физик Чулву Юнг и ученый CSI Мейфен Лин из Брукхейвенской лаборатории; физик-теоретик Кристоф Ленер, совместное назначенец в Брукхейвенской лаборатории и Регенсбургском университете в Германии; Норман Крист, профессор вычислительной теоретической физики в Колумбийском университете им. Эфраима Гилдора; и физик-теоретик частиц Питер Бойл из Эдинбургского университета работал в тесном сотрудничестве с инженерами-программистами Intel над оптимизацией сетевого программного обеспечения для двух научных приложений: физики элементарных частиц и машинного обучения.

По словам Линя, CSI очень интересовался архитектурой Intel Omni-Path с момента ее анонса в 2015 году. Опыт инженеров Intel имел решающее значение для реализации программных оптимизаций, которые позволили нам в полной мере использовать преимущества этой высокопроизводительной сети связи для наших конкретных потребностей приложений.

Требования к сети для научных приложений

Для многих научных приложений запуск одного ранга (значение, которое отличает один процесс от другого) или, возможно, нескольких рангов на узел на параллельном компьютере, намного эффективнее, чем запуск нескольких рангов на узел. Каждый ранг обычно выполняется как независимый процесс, который связывается с другими рангами с использованием стандартного протокола, известного как Интерфейс передачи сообщений (MPI).

Например, физики, стремящиеся понять, как образовалась ранняя вселенная, проводят сложные численные моделирования взаимодействий частиц на основе теории квантовой хромодинамики (КХД). Эта теория объясняет, как элементарные частицы, называемые кварками и глюонами, взаимодействуют с образованием частиц, которые мы непосредственно наблюдаем, таких как протоны и нейтроны. Физики моделируют эти взаимодействия, используя суперкомпьютеры, которые представляют три измерения пространства и измерение времени в четырехмерной (4-D) решетке с одинаково расположенными точками, подобными кристаллу. Решетка разбита на меньшие идентичные подобъемы. Для расчетов КХД с решеткой необходимо обмениваться данными на границах между различными подобъемами. Если существует несколько рангов на узел, каждый ранг размещает свой отдельный 4-D субтом. Таким образом, разделение вложенных томов создает больше границ, где необходимо обмениваться данными, и, следовательно, ненужные передачи данных, которые замедляют вычисления.

Оптимизация программного обеспечения для развития науки

Чтобы оптимизировать сетевое программное обеспечение для такого сложного в вычислительном отношении научного приложения, команда сосредоточилась на повышении скорости одного ранга.

Похожие записи

Лучшее бесплатное программное обеспечение для рисо... Нужна бесплатная альтернатива Adobe Illustrator? Вот наши фавориты Хотя есть способы попробовать Adobe Photoshop бесплатно, его использование в долго...
Google не является компанией, производящей аппарат... Последний аппаратный снимок от Google. часть стремления «будущего игр» к Stadia Google как компания по производству оборудования Бывший инженер Bo...

Мы сделали так, чтобы код для одного ранга MPI выполнялся быстрее, чтобы не требовалось увеличение числа рангов MPI для обработки большой коммуникационной нагрузки, присутствующей для каждого узла, пояснил Христос.

Программное обеспечение в ранге MPI использует многопоточный параллелизм, доступный на узлах Xeon Phi. Поточный параллелизм относится к одновременному выполнению нескольких процессов или потоков, которые следуют одним и тем же инструкциям при совместном использовании некоторых вычислительных ресурсов. Благодаря оптимизированному программному обеспечению команда смогла создать несколько каналов связи на одном уровне и управлять этими каналами, используя разные потоки.

Программное обеспечение MPI теперь было настроено для более быстрого запуска научных приложений и использования всех преимуществ коммуникационного оборудования Intel Omni-Path. Но после внедрения программного обеспечения члены команды столкнулись с другой проблемой: при каждом запуске несколько узлов неизбежно связывались бы медленно и сдерживали другие.

Они проследили эту проблему до способа, которым Linux. операционная система, используемая большинством платформ HPC. управляет памятью. В режиме по умолчанию Linux делит память на небольшие куски, называемые страницами. Переконфигурировав Linux для использования больших (огромных) страниц памяти, они решили проблему. Увеличение размера страницы означает, что для сопоставления виртуального адресного пространства, используемого приложением, требуется меньше страниц. В результате к памяти можно получить доступ намного быстрее.

С помощью усовершенствований программного обеспечения члены группы проанализировали производительность процессоров Intel Omni-Path Architecture и процессоров Intel Xeon Phi, установленных на кластере Diamond с двумя рельсами Intel, и кластера распределенных исследований с использованием современных вычислений (DiRAC) в США. Королевство. Для их анализа они использовали два разных класса научных приложений: физика элементарных частиц и машинное обучение. Для обоих прикладных кодов они достигли скорости, близкой к скорости передачи. теоретической максимальной скорости передачи данных. Это улучшение представляет собой увеличение производительности сети в четыре-десять раз по сравнению с исходными кодами.

Из-за тесного сотрудничества между Брукхейвеном, Эдинбургом и Intel эти оптимизации стали доступны во всем мире в новой версии реализации Intel Omni-Path MPI и протоколе наилучшей практики для настройки управления памятью в Linux, сказал Христос. Фактор ускорения выполнения физического кода на компьютере Xeon Phi в лаборатории Брукхейвена. и на новом, еще более крупном 800-узловом компьютере с гиперкубами Hewlett Packard Enterprise. в настоящее время находит хорошее применение в текущих исследованиях. фундаментальных вопросов физики элементарных частиц.

Оптимизация сетевого программного обеспечения для продвижения научных открытий

Похожие записи

Google не является компанией, производящей аппарат... Последний аппаратный снимок от Google. часть стремления «будущего игр» к Stadia Google как компания по производству оборудования Бывший инженер Bo...
Лучшее бесплатное программное обеспечение для рисо... Нужна бесплатная альтернатива Adobe Illustrator? Вот наши фавориты Хотя есть способы попробовать Adobe Photoshop бесплатно, его использование в долго...