중국의 AI 모델 DeepSeek는 GPT-4o, o1, Claude 3.5 Sonnet과 같은 최고 모델들과 경쟁하고 있다고 보고되고 있으며, 그 훈련 비용은 약 550만 달러에 불과하다고 전해집니다. 그러나 실제 개발에는 훨씬 더 많은 자원이 필요했습니다. 550만 달러의 훈련 비용은 2024년 12월에 발표된 DeepSeek의 공식 논문에서 V3 모델에 대한 것으로, 2,048개의 엔비디아 H800 GPU 클러스터에서 훈련되었습니다. DeepSeek는 H800의 시간당 운영 비용을 2달러로 추정하여, 총 2,788,000 GPU 시간(약 두 달의 훈련)을 소요하여 총 비용이 5,576,000달러에 이릅니다.
이 수치는 벤치마크 결과와 함께 새로운 최고 모델을 훨씬 적은 자원으로 개발할 수 있다는 가능성에 대한 기대를 불러일으켰고, 이는 현재 대형 기술 기업들이 AI 인프라에 할당하는 기록적인 지출에 대한 의구심을 불러일으켰습니다. 이로 인해 주가가 하락했으며, 특히 반도체 기업들이 영향을 받았고, 엔비디아는 일시적으로 17%의 손실을 경험했습니다.
그러나 이러한 시장 반응의 타당성도 의문입니다. DeepSeek V3의 개발 비용은 언급된 훈련 비용보다 훨씬 더 비쌌습니다. V3 논문에서는 언급된 비용이 DeepSeek-V3의 공식 훈련만 포함하고 있으며, 이전 연구, 아블레이션 실험, 아키텍처, 알고리즘 또는 데이터와 관련된 비용은 제외되었다고 명시하고 있습니다. 따라서 550만 달러라는 수치는 DeepSeek V3의 전체 개발 비용, 즉 인건비와 이전 모델 개발 비용을 포함하지 않습니다.
추측에 따르면 DeepSeek는 2,048개의 H800 GPU보다 훨씬 더 많은 자원을 사용했으며, 50,000개 이상의 호퍼 GPU에 대한 논의도 있었습니다. Stratechery에 따르면, 이 숫자는 2024년 11월 Semianalysis의 저자 Dylan Patel에 의해 공유되었으나 출처는 인용되지 않았습니다. Scale-AI의 CEO Alexander Wang은 이들이 H100 GPU일 수 있다고 언급했으며, DeepSeek는 미국의 수출 제한으로 인해 이를 공식적으로 공개할 수 없습니다. Stratechery는 이들이 중국용 H800 변형일 수 있으며, 상호 연결 대역폭이 제한되어 있다고 추측했습니다.
DeepSeek는 2023년 Liang Wenfeng에 의해 설립되었으며, 그는 이전에 헤지펀드에서 성공을 거두었습니다. 초기에는 AI 개발을 부수적인 프로젝트로 보았습니다. Liang은 2021년에 GPU를 구매하기 시작했으며, 10,000개의 칩으로 클러스터를 구축한 것으로 알려져 있습니다. DeepSeek는 10,000개의 H100 칩으로 시작했으며, 모델 개발에 100명에서 140명 사이의 인력을 고용하고, 총 인력은 200명에서 300명 사이입니다. 급여는 중국 AI 분야 내에서 경쟁력이 있으며, TikTok의 모회사인 ByteDance와 비슷하다고 전해집니다.
DeepSeek의 개발은 수출 제한의 영향을 크게 받았으며, 이는 효율성에 중점을 두게 만들었습니다. 이 회사는 Mixture of Experts 접근 방식을 최적화하여 단일 대형 모델 대신 여러 전문 모델을 활용했습니다. DeepSeek V3는 6710억 개의 매개변수를 가지고 있으며, 그 중 370억 개만 활성화되어 있어 관련 모델 부분에서만 토큰 계산이 가능합니다. Multi-head Latent Attention (MLA)와 같은 기술을 통해 입력 효율성을 높이는 추가 발전이 이루어졌습니다. 이러한 최적화 중 많은 부분은 새로운 아이디어는 아니지만, 이를 혁신적인 모델로 성공적으로 결합한 것은 주목할 만한 성과로 평가됩니다.
비교하자면, Meta의 라마 3.1 405B는 16,000개의 H100 GPU 클러스터에서 100일 동안 훈련되었으며, 비용은 약 6천만 달러로 추정됩니다. GPT-4의 훈련 비용은 약 1억 달러로 추정됩니다.
업계 반응은 일반적으로 긍정적이지만 신중합니다. OpenAI의 수석 과학자 Mark Chen은 DeepSeek의 논문이 개발자들이 OpenAI가 o1 개발에 사용한 일부 핵심 개념을 독립적으로 발견했음을 보여준다고 언급했습니다. 그러나 DeepSeek에 대한 과대 광고에 대한 회의론이 존재하며, 특히 비용과 효율성에 대한 우려가 있습니다. 훈련 비용은 개발 비용의 일부에 불과하며, 모델 및 AI 서비스의 운영 비용이 중요한 요소입니다. Meta의 AI 책임자 Yann LeCun은 많은 기술 기업들이 이 분야에 막대한 투자를 하고 있으며, DeepSeek가 모델 운영에 사용하는 자원은 여전히 불확실하다고 지적했습니다. 이러한 맥락에서 LeCun은 시장 반응이 전혀 정당화되지 않는다고 평가했습니다.
* 이 글은
computerbase.de의 기사를 요약한 것입니다. 전체 기사의 내용은
이곳에서 확인하실 수 있습니다.