중국 AI 기업, 11배 적은 컴퓨팅으로 최첨단 AI 모델 개발 — DeepSeek의 최적화가 미국 제재의 한계를 부각시킬 수 있다

전문: https://www.tomshardware.com/tech-industry/artificial-intelligence/...

원저자: Anton Shilov | 작성일: 2024-12-27 15:23
사이트 내 게시일: 2024-12-27 22:27
중국 AI 스타트업 DeepSeek가 OpenAI, 메타, 앤트로픽과 같은 주요 기업들과 경쟁할 수 있는 AI 모델을 개발했다고 발표했습니다. 이 모델은 GPU 컴퓨팅 자원과 관련 비용을 11배 줄이는 데 성공했습니다. 이러한 주장은 아직 완전히 검증되지 않았지만, 미국의 제재로 인해 중국에서 AI 하드웨어 접근이 제한된 상황에서도 가용 자원으로 성능을 극대화하기 위한 혁신적인 접근 방식이 사용되고 있음을 나타냅니다.

DeepSeek-V3 혼합 전문가(Mixture-of-Experts, MoE) 언어 모델은 6710억 개의 매개변수로 구성되어 있으며, 2048개의 엔비디아 H800 GPU 클러스터를 사용하여 두 달 동안 총 280만 GPU 시간을 소요하여 훈련되었습니다. 반면, 메타의 라마 3는 4050억 개의 매개변수를 가지고 있으며, 3080만 GPU 시간을 필요로 하고 16,384개의 H100 GPU 클러스터를 54일 동안 사용해야 했습니다. 이는 DeepSeek의 효율성을 강조합니다.

DeepSeek의 최적화에는 고급 파이프라인 알고리즘, 최적화된 통신 프레임워크, FP8 저정밀 계산의 사용이 포함됩니다. DualPipe 알고리즘이 구현되어 계산과 통신 단계의 겹침을 향상시켜 파이프라인 비효율성을 효과적으로 줄였습니다. 또한, 각 토큰을 최대 4개의 노드로 제한하여 통신 트래픽을 최소화하고 작업의 겹침을 개선했습니다. FP8 혼합 정밀도 프레임워크는 메모리 사용량을 줄이면서도 수치적 안정성을 희생하지 않고 계산 속도를 더욱 가속화했습니다.

성능 면에서 DeepSeek는 자사의 모델이 사용된 벤치마크에 따라 GPT-4x, Claude-3.5-Sonnet, Llama-3.1과 동등하거나 우수하다고 주장합니다. 모델과 그 가중치는 오픈 소스화되어 독립적인 테스트와 검증이 가능해졌습니다.

그러나 DeepSeek-V3 모델의 배포는 고급 하드웨어와 프리필링(prefilling) 및 디코딩(decoding) 단계를 분리하는 특정 배포 전략을 필요로 하며, 이는 소규모 기업에 도전 과제가 될 수 있습니다. 모델은 강력한 성능과 비용 효율성을 보여주지만, 엔드 투 엔드 생성 속도에서 개선의 여지가 남아 있으며, 회사는 향후 하드웨어 발전을 통해 이를 해결할 계획입니다.

* 이 글은 tomshardware.com의 기사를 요약한 것입니다. 전체 기사의 내용은 이곳에서 확인하실 수 있습니다.
카테고리: AI
태그: open-source (139) Machine Learning (115) performance benchmarks (63) US sanctions (26) GPU Optimization (7) AI model (2) DeepSeek (1) Mixture-of-Experts (1) Nvidia H800 (1) FP8 computation (1)

댓글

댓글을 쓰기 위해서는 로그인을 해 주세요.