엔비디아는 GTC 2025에서 Blackwell Ultra 아키텍처를 공개하며 기존 Blackwell 아키텍처를 50% 증가한 최대 288 GB HBM3e 메모리로 강화했습니다. 이 업그레이드는 AI 추론 모델의 높은 추론 능력 요구에 맞춘 데이터 센터 솔루션을 준비하기 위한 것입니다.
B300 GPU는 지난해 Blackwell 아키텍처를 도입한 B200 GPU의 후속 모델로, Blackwell Ultra는 두 개의 다이를 Die-to-Die 링크로 연결한 동일한 아키텍처를 유지합니다.
AI 추론 모델의 높은 요구를 충족하기 위해 설계된 Blackwell Ultra는 요청당 수십만 개의 토큰을 처리하고 출력할 수 있으며, 이는 증가된 계산 능력을 필요로 합니다.
192 GB에서 288 GB HBM3e로의 메모리 확장은 50% 더 큰 고대역폭 메모리를 8개의 스택에 분산 배치하여 이루어지며, 각 스택에는 이제 8개의 DRAM 칩 대신 12개의 DRAM 칩이 포함되어 동일한 면적에서 메모리 밀도가 50% 증가했습니다.
엔비디아는 Blackwell Ultra가 원래 Blackwell 대비 FP4 추론 성능을 1.5배 향상시켜, 희소성 가속 없이 FP4 Dense에서 15 PetaFLOPS를 달성할 수 있으며, 이는 30 PetaFLOPS에 이를 수 있다고 주장합니다. 원래 Blackwell GPU의 성능은 10 PetaFLOPS였습니다.
72개의 GPU와 1.1 ExaFLOPS(FP4 성능)를 갖춘 GB300 NVL72는 2025년 하반기에 출시될 예정입니다. 이 시스템은 72개의 Blackwell GPU와 36개의 Grace CPU를 수냉식 서버 랙에 결합하여 구성됩니다. 또한 20 TB의 HBM3e와 40 TB의 LPDDR5X가 Grace CPU에 제공되며, 이전 GB200 NVL72 랙에 비해 효율성 개선이 이루어질 예정입니다.
시스템의 핵심은 5세대 NVLink로, GPU당 1.8 TB/s의 대역폭과 총 130 TB/s의 대역폭을 제공합니다. NVLink는 이제 다중 노드 상호 연결 기능도 지원하여 이전 인피니밴드 솔루션 대비 18배 성능 향상을 제공합니다.
또한 엔비디아는 Grace CPU를 포함하지 않고 AMD 또는 Intel의 x86 프로세서와 NVLink로 연결된 16개의 B300 GPU를 활용하는 HGX B300 NVL16을 소개했습니다.
시스코, 델, AWS, 구글 클라우드 등 주요 서버 제공업체와 클라우드 서비스 제공업체들이 Blackwell Ultra 제품군을 제공할 예정이며, 이는 이 새로운 아키텍처에 대한 강한 시장 관심과 지원을 나타냅니다.
ComputerBase는 샌호세, 캘리포니아에서 열린 행사 중 엔비디아로부터 NDA 하에 이 기사의 정보를 받았으며, 제조업체가 보도에 영향을 미치지 않았습니다.
* 이 글은
computerbase.de의 기사를 요약한 것입니다. 전체 기사의 내용은
이곳에서 확인하실 수 있습니다.