2019년에 소개된 Ascend 910 프로세서의 변형인 화웨이의 HiSilicon Ascend 910C가 DeepSeek의 연구에 따르면 Nvidia의 H100 추론 성능의 60%를 제공하는 것으로 보고되었습니다. Ascend 910C는 시장에서 최고의 성능을 자랑하지는 않지만, 중국의 Nvidia GPU 의존도를 줄이는 데 중요한 진전을 나타냅니다.
DeepSeek의 테스트 결과, Ascend 910C는 추론 성능에서 기대를 초과했으며, CUNN 커널의 수동 최적화를 통해 효율성을 더욱 향상시킬 수 있습니다. 화웨이의 하드웨어는 DeepSeek의 Ascend 프로세서에 대한 네이티브 지원과 PyTorch 저장소 덕분에 AI 워크플로우에 쉽게 통합될 수 있으며, CUDA에서 CUNN으로의 변환이 용이합니다.
미국의 제재와 TSMC의 첨단 공정 기술에 대한 제한된 접근에도 불구하고, 화웨이와 SMIC는 칩 생산에서 진전을 이루어 Nvidia의 A100 및 H100 프로세서에 대한 경쟁 대안을 만들어냈습니다. 그러나 Ascend 910C는 AI 훈련에는 적합하지 않으며, 이 분야에서는 여전히 Nvidia가 지배적입니다.
중요한 약점으로는 중국 프로세서의 장기 훈련 신뢰성이 지적되며, 이는 Nvidia가 20년 이상 개발해온 잘 확립된 하드웨어 및 소프트웨어 생태계에 기인합니다. 추론 성능은 최적화할 수 있지만, 지속적인 훈련 작업은 화웨이 기술의 추가 발전이 필요합니다.
Ascend 910C 칩은 칩렛 패키징을 사용하며, 약 530억 개의 트랜지스터를 포함하고 있으며, SMIC의 2세대 7nm급 공정 기술인 N+2를 사용하여 제조되었습니다. 전문가들은 AI 모델이 점점 더 Transformer 아키텍처를 채택함에 따라 Nvidia의 소프트웨어 생태계의 중요성이 감소할 수 있다고 제안합니다. DeepSeek의 하드웨어 및 소프트웨어 최적화 전문성은 AI 기업들에게 특히 추론 작업에 있어 보다 비용 효율적인 대안을 제공할 수 있습니다. 그러나 중국이 글로벌 경쟁에서 이기기 위해서는 훈련 안정성을 해결하고 AI 컴퓨팅 인프라를 강화해야 합니다.
* 이 글은
tomshardware.com의 기사를 요약한 것입니다. 전체 기사의 내용은
이곳에서 확인하실 수 있습니다.