화웨이는 384개의 Ascend 910C 프로세서를 활용한 랙 규모의 AI 시스템인 AI CloudMatrix 384를 소개했습니다. 이 시스템은 이중 칩렛 설계와 광학 인터커넥션을 사용하여 높은 집합 통신 대역폭을 제공합니다. CloudMatrix 384는 약 300 PFLOPs의 밀집 BF16 연산 성능을 제공하며, 이는 약 180 BF16 PFLOPs를 제공하는 엔비디아의 GB200 NVL72의 처리량을 거의 두 배로 증가시킵니다. 그러나 CloudMatrix 384는 FLOP당 전력 효율성이 2.3배 낮고, 약 559 kW의 전력을 소모하는 반면, 엔비디아는 145 kW를 소비합니다.
이 시스템은 16개의 랙으로 구성되어 있으며, 12개의 컴퓨트 랙에는 각각 32개의 가속기가 장착되어 있고, 4개의 네트워킹 랙은 6,912개의 800G LPO 광 트랜시버를 사용합니다. 이러한 설계는 총 내부 대역폭이 5.5 Pbps를 초과하도록 합니다. 성능상의 이점에도 불구하고, CloudMatrix 384의 전력 효율성은 큰 단점으로, 메모리 대역폭 TB/s당 1.8배, HBM 메모리 TB당 1.1배 낮은 효율성을 보입니다.
CloudMatrix를 구동하는 하이실리콘 Ascend 910C 프로세서는 780 BF16 TFLOPS를 제공하며, 이는 엔비디아의 B200 AI GPU보다 우수합니다. 그러나 화웨이는 더 많은 수의 프로세서에 의존하여 개별 칩 성능의 저하를 보완하고 있습니다. Ascend 910C는 고급 EDA 도구를 사용하여 생산되며, 주로 TSMC에서 제조되며, 일부 부품은 미국 수출 제한을 피하기 위해 대리인을 통해 조달됩니다.
CloudMatrix 384의 전력 소비는 일부 사용자에게는 부담이 될 수 있지만, 중국의 전기 요금 하락은 현지 기업들에게 유효한 옵션이 될 수 있습니다. 화웨이가 생산을 확대하고 소프트웨어 지원을 개선함에 따라, CloudMatrix 384는 특히 엔비디아 기술 접근이 제한된 지역에서 AI 훈련 시장의 중요한 플레이어가 될 수 있습니다.
* 이 글은
tomshardware.com의 기사를 요약한 것입니다. 전체 기사의 내용은
이곳에서 확인하실 수 있습니다.