캘리포니아 대학교 버클리 캠퍼스의 연구팀이 박사 과정 학생인 지아이 판(Jiayi Pan)의 주도로 DeepSeek의 R1-Zero 모델의 핵심 기술을 단 30달러에 성공적으로 재현했습니다. 이 성과는 고급 AI 모델이 상당히 낮은 비용으로 구현될 수 있는 가능성을 강조합니다.
R1-Zero 모델은 30억 개의 매개변수를 포함하고 있으며, 강화 학습을 통해 인상적인 문제 해결 능력을 보여주었습니다. 초기에는 더미 출력을 생성했지만, 스스로 검증하고 반복 수정하는 전술을 개발하여 올바른 답변에 도달하는 방식으로 발전했습니다. 예를 들어, 카운트다운 게임에서 모델은 답변을 제안하고 그 정확성을 검증한 후 여러 번의 반복을 통해 이를 다듬었습니다.
카운트다운 게임 외에도, 모델은 곱셈 작업에서도 테스트되었으며, 분배 법칙을 활용하여 문제를 단계별로 나누어 해결하는 방식으로 인간의 사고 전략을 모방했습니다.
버클리 팀은 5억 개의 매개변수를 기본으로 시작하여 다양한 모델 크기를 실험했으며, 이 기본 모델은 단순히 해결책을 추측하는 수준에 그쳤습니다. 그러나 기본을 15억 개의 매개변수로 늘리자 모델은 성능을 향상시키는 기술을 배우기 시작했습니다. 30억에서 70억 개의 매개변수를 가진 모델은 더 적은 단계에서 올바른 답변을 찾을 수 있었습니다.
이 프로젝트의 비용 효율성은 특히 주목할 만하며, OpenAI의 가격과 비교할 때 더욱 두드러집니다. OpenAI는 입력 토큰 100만 개당 15달러를 청구하는 반면, DeepSeek-R1은 100만 개당 0.55달러로 27배 이상 비쌉니다. 지아이 판은 이 프로젝트가 비용을 크게 낮추어 강화 학습 연구에 대한 접근을 민주화하는 것을 목표로 하고 있다고 강조했습니다.
이러한 성과에도 불구하고, 머신러닝 전문가인 네이선 램버트(Nathan Lambert)는 DeepSeek의 훈련과 관련된 실제 비용에 대한 우려를 제기했습니다. 그는 인력 및 인프라와 같은 추가 비용을 고려할 때 연간 5억 달러에서 10억 달러 사이로 추정하고 있습니다. 그럼에도 불구하고 버클리 팀의 성과는 특히 경쟁하는 미국 AI 모델들이 연간 약 100억 달러를 AI 프로젝트에 지출하고 있다는 점에서 두드러집니다.
* 이 글은
tomshardware.com의 기사를 요약한 것입니다. 전체 기사의 내용은
이곳에서 확인하실 수 있습니다.