중국 AI 모델 DeepSeek는 뛰어난 성능과 비용 효율성 덕분에 AI 개발자들 사이에서 큰 주목을 받고 있습니다. 이 모델은 Anthropic Claude 3 및 OpenAI의 GPT-4o와 o1과 경쟁하며, 오픈 소스 형태로 개발되어 비용이 훨씬 적게 들었습니다.
CNBC에 따르면, DeepSeek는 단 두 달 만에 600만 달러 이하의 비용으로 개발되었습니다. 훈련에는 성능이 제한된 Nvidia H800 GPU가 사용되었습니다.
DeepSeek는 두 가지 모델 시리즈를 출시했습니다: DeepSeek V3는 Claude 3.5 Sonnet 및 GPT-4o의 성능에 필적하며, DeepSeek R1은 일부 계산을 추론 단계로 이동시키는 추론 모델입니다. 이를 통해 프롬프트 입력 후 올바른 솔루션을 검색하고 여러 경로를 검증할 수 있으며, OpenAI는 이를 '사고'라고 부릅니다. 특히 DeepSeek R1은 특정 벤치마크에서 o1과 동등하거나 이를 초과할 수 있는 성능을 보여주며, 자원 효율성에서 두각을 나타냅니다. OpenAI는 이후 o3를 출시했으며, 이는 o1보다 상당히 뛰어난 성능을 보이지만 더 많은 컴퓨팅 파워를 요구합니다.
DeepSeek의 모델은 오픈 소스 라이선스 하에 제공되어 사용자가 자유롭게 다운로드, 활용 및 수정할 수 있습니다. 주요 사양으로는 DeepSeek R1이 6710억 개의 매개변수를 가지고 있으며, 370억 개의 활성 매개변수와 128,000 토큰의 컨텍스트 길이를 갖추고 있습니다.
DeepSeek의 출현은 미국과 중국의 AI 능력 간의 격차가 이전에 생각했던 것만큼 크지 않을 수 있음을 시사합니다. iFlytek의 창립자인 리우 칭펑은 이 격차가 많은 사람들이 생각하는 것보다 작다고 언급했습니다. DeepSeek의 출시는 변동성이 큰 AI 시장에 영향을 미치고 있으며, 유사한 모델을 개발하는 데 필요한 자원이 크게 줄어들어 기술 기업, 특히 반도체 산업의 주가가 하락하고 있으며, Nvidia는 거의 10%의 하락을 경험했습니다.
미디어에서는 DeepSeek가 미국 공급업체의 지배에 도전하는지에 대한 논의가 계속되고 있으며, 이는 미중 간의 긴장 속에서 지정학적 의미를 갖습니다. 그러나 메타의 AI 책임자인 얀 르쿤은 진정한 경쟁은 오픈 소스 모델과 독점 모델 간의 경쟁이라고 주장하며, 오픈 개발 문화의 이점을 강조합니다. 그는 DeepSeek의 성공이 다른 사람들의 작업을 기반으로 하여 커뮤니티에 더 넓은 혜택을 제공하는 오픈 연구와 오픈 소스의 힘을 증명한다고 믿고 있습니다.
* 이 글은
computerbase.de의 기사를 요약한 것입니다. 전체 기사의 내용은
이곳에서 확인하실 수 있습니다.