무어 스레드(Moore Threads)는 DeepSeek의 오픈 소스 AI 모델, 특히 DeepSeek V3 및 R1 모델을 실행할 때 GPU에서 상당한 성능을 달성했다고 보고했습니다. 이 모델들은 라즈베리 파이(Raspberry Pi)와 같은 상대적으로 저렴한 하드웨어에서 작동할 수 있어, 중국에서 Nvidia 하드웨어에 대한 의존도를 줄일 수 있습니다.
회사는 MTT S80 클라이언트 그래픽 카드와 MTT S4000 데이터센터급 그래픽 카드에서 DeepSeek-R1-Distill-Qwen-7B 증류 모델을 성공적으로 배포했다고 주장합니다. 이는 다양한 운영 체제에서 대형 언어 모델을 로컬에서 실행할 수 있도록 하는 올라마(Ollama) 경량 프레임워크를 사용하여 최적화된 추론 엔진을 통해 높은 성능을 달성했습니다.
그러나 보고서에는 구체적인 성능 지표나 다른 하드웨어와의 비교가 부족하여 주장의 유효성을 평가하기 어렵습니다. 또한 MTT S80의 중국 외부에서의 제한된 가용성은 검증 작업을 복잡하게 만듭니다.
올라마는 Llama 3.3 및 Mistral을 포함한 다양한 모델을 지원하며, 클라우드 의존 없이 효율적인 로컬 실행을 위해 설계되었습니다. 올라마는 공식적으로 무어 스레드 GPU를 지원하지 않지만, 회사는 자사의 GPU가 CUDA로 컴파일된 코드를 실행할 수 있다고 주장하며, 특히 중국어 애플리케이션에서 AI 작업 부하에 대한 호환성을 확인했습니다.
성능 향상을 위해 무어 스레드는 맞춤형 최적화 및 개선된 메모리 관리를 포함하는 독자적인 추론 엔진을 개발했으며, 이는 컴퓨팅 성능과 자원 효율성을 높이는 것으로 보고됩니다. 그러나 현재 테스트가 증류 모델을 포함하고 있어 AMD, Apple 또는 Nvidia 솔루션과의 직접적인 성능 비교는 결론을 내리기 어렵습니다.
* 이 글은
tomshardware.com의 기사를 요약한 것입니다. 전체 기사의 내용은
이곳에서 확인하실 수 있습니다.