아르곤 국립 연구소의 아우로라 슈퍼컴퓨터가 이제 완전 가동 상태에 들어갔으며, 과학 공동체가 접근할 수 있게 되어 수년간의 지연 끝에 중요한 이정표를 세웠습니다. 2015년에 발표된 아우로라는 시뮬레이션 작업을 위해 1 FP64 ExaFLOPS 이상의 성능을 제공하며, 인공지능(AI) 및 머신러닝 애플리케이션을 위해서는 11.6 혼합 정밀 ExaFLOPS의 인상적인 성능을 자랑합니다. 이러한 성능은 아우로라를 AI 분야의 선도적인 슈퍼컴퓨터로 자리매김하게 하지만, FP64 성능은 일부 경쟁자들보다 약간 낮습니다.
이 프로젝트는 인텔의 Xeon Phi 프로세서 단종과 7nm 공정 기술의 지연 등 여러 차질을 겪었으며, 이로 인해 완공이 2018년에서 2023년으로 미뤄졌습니다. 2023년 6월 하드웨어 설치 후, 완전 가동 상태와 엑사스케일 성능을 달성하기까지 몇 달이 걸렸으며, 이는 2024년 5월에 최종적으로 이루어졌습니다. 초기에는 일부 연구자들만 접근할 수 있었으나, 현재는 더 넓은 과학적 사용을 위해 개방되었습니다.
아우로라는 인간 순환계와 초신성 폭발과 같은 복잡한 시스템의 상세한 시뮬레이션을 포함한 야심찬 연구 프로젝트를 지원하도록 설계되었습니다. 또한, 과학적 응용을 위한 대형 언어 모델 훈련을 촉진할 것으로 기대되며, 이는 과학 지향의 기초 모델을 만들기 위한 아우로라GPT 프로젝트로 구체화됩니다.
하드웨어 측면에서 아우로라는 10,624개의 블레이드가 장착된 166개의 랙으로 구성되어 있으며, 각 블레이드는 두 개의 Xeon Max 프로세서와 여섯 개의 인텔 데이터 센터 맥스 'Ponte Vecchio' GPU를 갖추고 있습니다. 이 시스템은 21,248개의 CPU와 110만 개 이상의 x86 코어, 19.9PB의 DDR5 메모리, 1.36PB의 HBM2E 메모리를 자랑합니다. 또한, AI에 최적화된 63,744개의 GPU와 8.16PB의 HBM2E 메모리를 특징으로 하며, HPE의 Shasta 아키텍처와 Slingshot 인터커넥트를 활용하여 총 220PB의 저장 용량과 31TB/s의 대역폭을 제공합니다.
전반적으로 아우로라의 능력은 과학적 발견을 가속화하고 복잡한 물리적 시스템에 대한 이해를 향상시킬 것으로 기대되며, 다양한 분야의 연구자들에게 중요한 도구가 될 것입니다.
* 이 글은
tomshardware.com의 기사를 요약한 것입니다. 전체 기사의 내용은
이곳에서 확인하실 수 있습니다.