DeepSeek의 차세대 R2 모델 개발은 중국 내 엔비디아 H20 프로세서의 부족으로 인해 상당한 지연을 겪고 있습니다. 이 회사는 이전에 R1 모델을 훈련하기 위해 50,000개의 Hopper GPU 클러스터를 활용했으며, 여기에는 30,000개의 H20, 10,000개의 H800, 10,000개의 H100이 포함되었습니다. CEO 리앙 웬펑(梁文峰)은 현재의 성능에 불만을 표명했으며, R2 모델이 완전히 사전 훈련되었는지는 불확실합니다.
R1 모델은 스타트업, 대기업, 정부 관련 그룹 등 다양한 사용자들 사이에서 빠르게 채택되었으며, 주로 엔비디아의 H20 프로세서에서 운영되었습니다. 최근 H20 선적에 대한 제한이 R1의 사용에 영향을 미치기 시작했으며, R2 출시 준비를 복잡하게 만들고 있습니다. R2가 기존의 오픈 대안보다 뛰어난 성능을 발휘할 경우, 중국 클라우드 플랫폼의 용량을 초과할 수 있습니다.
미국 정부는 4월 중순에 AI 훈련 및 추론을 위한 엔비디아 H20 프로세서 판매에 제한을 두었습니다. H20는 H100 GPU의 축소판이지만, 엔비디아의 CUDA 소프트웨어 스택에 의존하는 중국 AI 기업들 사이에서 인기를 얻었습니다. DeepSeek의 AI 소프트웨어는 엔비디아 하드웨어에 최적화되어 있어, 이 회사는 미국 정책 변화에 특히 취약합니다. OpenAI와 같은 미국 경쟁사보다 적은 자원을 사용한다고 주장했음에도 불구하고, 수출 제한은 중국의 주요 AI 기업들이 여전히 미국 기술에 크게 의존하고 있다는 중요한 취약점을 드러냅니다. 또한 OpenAI는 비공식적으로 DeepSeek가 R1 개발 중 자사의 독점 모델을 사용했다고 주장했으나, DeepSeek는 이에 대해 공개적으로 언급하지 않았습니다.
* 이 글은
tomshardware.com의 기사를 요약한 것입니다. 전체 기사의 내용은
이곳에서 확인하실 수 있습니다.