DeepSeek의 AI 혁신, 업계 표준 CUDA를 우회하고 Nvidia의 어셈블리 유사 PTX 프로그래밍을 사용하다

전문: https://www.tomshardware.com/tech-industry/artificial-intelligence/...

원저자: Anton Shilov | 작성일: 2025-01-28 17:39
사이트 내 게시일: 2025-01-28 22:28
DeepSeek는 6710억 개의 매개변수를 자랑하는 Mixture-of-Experts (MoE) 언어 모델을 훈련시키며 AI 분야에서 중요한 발전을 이루었습니다. 이 과정에서 2,048개의 Nvidia H800 GPU 클러스터를 약 두 달간 활용하여, Meta와 같은 업계 선두주자들에 비해 10배의 효율성 향상을 보여주었습니다.

이 혁신의 핵심은 DeepSeek가 Nvidia의 어셈블리 유사 PTX(Parallel Thread Execution) 프로그래밍을 사용한 데 있습니다. PTX는 표준 CUDA가 제공할 수 없는 세밀한 최적화를 가능하게 하는 중간 명령어 집합 아키텍처로, 더 나은 레지스터 할당과 스레드 수준 조정을 촉진합니다.

예를 들어, V3 모델 훈련 중 DeepSeek는 132개의 스트리밍 멀티프로세서 중 20개를 서버 간 통신에 전용하여 H800 GPU를 최적화하여 데이터 처리 및 거래 속도를 향상시켰습니다. 또한, 세심한 스레드 및 웜프 수준 조정을 통해 성능을 더욱 향상시키기 위해 고급 파이프라인 알고리즘이 구현되었습니다.

이러한 최적화는 매우 효과적이지만 복잡하고 유지 관리가 어려워 DeepSeek의 엔지니어링 팀의 뛰어난 전문성을 보여줍니다. 미국의 제재로 인해 심화된 글로벌 GPU 부족 현상은 DeepSeek와 같은 기업들이 혁신하도록 이끌었고, 이로 인해 이번 혁신이 이루어졌습니다.

그러나 이러한 발전을 위한 재정적 투자는 여전히 불확실합니다. 시장 반응은 엇갈리고 있으며, 일부 투자자들은 AI에서 고성능 하드웨어에 대한 수요가 감소할 수 있다고 추측하고 있어 Nvidia의 판매에 영향을 미칠 수 있습니다. 반면, 인텔의 팻 겔싱어와 같은 업계 전문가들은 AI 애플리케이션이 모든 가용 컴퓨팅 파워를 계속 활용할 것이라고 주장하며, DeepSeek의 혁신이 더 많은 저렴한 장치에서 AI 접근성을 민주화할 수 있을 것이라고 제안합니다.

* 이 글은 tomshardware.com의 기사를 요약한 것입니다. 전체 기사의 내용은 이곳에서 확인하실 수 있습니다.
카테고리: AI
태그: Nvidia (1549) AI (937) GPU (318) Performance Optimization (205) Machine Learning (165) technology innovation (104) DeepSeek (32) Mixture-of-Experts (2) PTX (1)

댓글

댓글을 쓰기 위해서는 로그인을 해 주세요.