엔비디아는 오픈 컴퓨트 프로젝트(Open Compute Project, OCP)에 GB200 NVL72 랙 및 컴퓨트/스위치 트레이 디자인을 공유함으로써 중요한 기여를 했습니다. 이를 통해 OCP 회원들은 엔비디아의 Blackwell GPU를 기반으로 맞춤형 디자인을 만들 수 있습니다. 이 이니셔티브는 엔비디아의 차세대 전력 집약적인 GPU와 엔비디아 네트워킹을 지원할 수 있는 오픈 데이터 센터 플랫폼 개발을 가속화하는 것을 목표로 하고 있습니다.
GB200 NVL72 시스템은 최대 72개의 GB100 또는 GB200 GPU를 수용할 수 있으며, 엔비디아의 MGX 아키텍처를 기반으로 한 모듈형 디자인을 특징으로 합니다. 이 시스템은 36개의 Grace CPU와 72개의 Blackwell GPU를 랙 규모 구성으로 연결합니다. 이 설정은 72-GPU NVLink 도메인을 생성하여 시스템이 대규모 단일 GPU처럼 작동할 수 있게 합니다.
OCP 행사에서 엔비디아는 고밀도 컴퓨트 데이터 센터를 위한 전력 및 냉각 솔루션의 선두주자인 Vertiv와 협력하여 개발한 GB200 NVL72의 새로운 공동 참조 디자인을 공개했습니다. 이 참조 디자인은 클라우드 서비스 제공업체(Cloud Service Providers, CSP)와 엔비디아 Blackwell 플랫폼을 채택한 데이터 센터의 배포 시간을 크게 단축시켜, 7MW GB200 NVL72 클러스터의 글로벌 배포를 더 빠르게 할 수 있도록 하며, 구현 시간을 최대 50%까지 줄일 수 있습니다.
엔비디아의 기여는 하드웨어에 그치지 않으며, 회사는 스펙트럼-X(Spectrum-X) 이더넷 네트워킹 플랫폼을 통해 OCP 표준에 대한 지원을 강화하고 있습니다. 커뮤니티에서 개발된 사양과의 일치를 통해 AI 데이터 센터의 연결성을 개선하고 조직의 소프트웨어 일관성을 보장하는 것을 목표로 하고 있습니다.
ConnectX-8 슈퍼닉(SuperNIC)은 내년 OCP 3.0에 제공될 예정이며, 최대 800Gb/s의 데이터 속도를 지원하고 대규모 AI 작업 부하에 최적화된 프로그래머블 패킷 처리를 특징으로 합니다. 40개 이상의 전자 제조업체가 엔비디아와 협력하여 Blackwell 플랫폼을 개발하고 있으며, OCP 창립자인 Meta는 GB200 NVL72 시스템을 기반으로 한 Catalina AI 랙 아키텍처를 기여할 계획입니다.
엔비디아의 OCP와의 지속적인 협력은 데이터 센터 산업 전반에 걸쳐 널리 채택되는 사양과 디자인을 형성하는 데 기여하며, 조직이 가속화된 컴퓨팅의 잠재력을 최대한 활용하고 미래의 AI 공장을 구축할 수 있도록 돕고 있습니다.
* 이 글은
tomshardware.com의 기사를 요약한 것입니다. 전체 기사의 내용은
이곳에서 확인하실 수 있습니다.