화웨이의 CloudMatrix AI 클러스터가 SiliconFlow와의 협력으로 발표된 기술 문서에 따르면, DeepSeek의 R1 LLM을 실행하는 데 있어 엔비디아의 H800 및 H100 칩을 능가한 것으로 보고되었습니다. CloudMatrix 384 클러스터는 384개의 듀얼 칩렛 HiSilicon Ascend 910C NPU와 16개의 서버 랙에 걸쳐 192개의 CPU를 활용하며, 빠른 서버 간 및 서버 내 통신을 위해 광 연결을 사용합니다.
CloudMatrix 384는 300 PFLOPs의 BF16 연산 성능을 제공하며, 이는 180 BF15 PFLOPs를 제공하는 엔비디아의 GB200 NVL72 시스템을 초월합니다. 또한, CloudMatrix-Infer LLM 솔루션은 TFLOPs당 초당 4.45 토큰의 프롬프트를 생성하고, TFLOPs당 초당 1.29 토큰의 응답을 생성한다고 주장하며, 이는 엔비디아의 SGLang 프레임워크를 능가하는 것으로 알려져 있습니다.
그러나 CloudMatrix 384는 엔비디아의 솔루션보다 효율성이 떨어지며, NVL72의 145 kW에 비해 559 kW를 소비하여 약 2.3배 덜 효율적입니다. 이러한 단점에도 불구하고, CloudMatrix는 최근 중국 본토의 전기 요금이 하락한 점을 고려할 때, 엔비디아 기반 AI 클러스터에 접근할 수 없는 중국 고객들에게 매력적입니다.
엔비디아의 CEO는 자사의 기술이 화웨이보다 한 세대 앞서 있다고 밝혔지만, 화웨이의 강력한 접근 방식은 특히 고성능 LLM 기능을 원하는 고객들에게 효과적으로 경쟁할 수 있게 해줍니다.
* 이 글은
tomshardware.com의 기사를 요약한 것입니다. 전체 기사의 내용은
이곳에서 확인하실 수 있습니다.