텐서웨이브(TensorWave)는 8,192개의 AMD Instinct MI325X GPU를 특징으로 하는 대규모 AI 훈련 클러스터를 출시하여 북미에서 가장 큰 AMD 기반 설치를 기록했습니다. 이 시스템은 이 규모에서 처음으로 직접 액체 냉각을 사용하며, 현재 완전히 운영 중입니다. MI325X는 지난해 말에 출시되었으며, 256GB의 HBM3e 메모리를 자랑하고 6TB/s의 대역폭과 2.6 PFLOPS의 FP8 연산 성능을 제공합니다. NVIDIA의 H200과 경쟁하지만, 가격이 더 저렴한 대신 클러스터당 8개의 GPU로 제한되어 있어 NVIDIA의 72개에 비해 채택이 저조한 상황입니다. 텐서웨이브의 전략은 노드 규모보다 열 관리와 랙 밀도를 강조하며, 각 GPU의 냉각판을 통해 냉각수를 순환시키는 독자적인 액체 냉각 시스템을 사용합니다. 전체 클러스터는 2 페타바이트/s 이상의 메모리 대역폭과 21 엑사FLOPS의 FP8 처리량을 달성할 것으로 예상되지만, 실제 성능은 모델 병렬성과 상호 연결 설계에 따라 달라질 것입니다. 이번 배포는 1억 달러 규모의 시리즈 A 자금 조달 이후 이루어졌으며, 이는 AMD의 ROCm 플랫폼에 대한 강력한 지원을 나타냅니다. 텐서웨이브는 이제 이 플랫폼이 광범위한 모델 훈련에 충분히 성숙했다고 믿고 있습니다. 향후 계획에는 FP4 및 FP6 정밀도와 더 높은 전력 요구 사항을 지원하는 AMD의 MI350X 통합이 포함되어 있어 성능을 향상시킬 것입니다. 전반적으로 이번 배포는 AI 분야에서 AMD의 중요한 진전을 의미하며, NVIDIA와 경쟁할 수 있는 잠재력을 보여줍니다.
* 이 글은
tomshardware.com의 기사를 요약한 것입니다. 전체 기사의 내용은
이곳에서 확인하실 수 있습니다.