AMD, 강력한 추론 기능을 갖춘 첫 번째 10억 매개변수 LLM인 AMD OLMo 공개

AMD는 다양한 응용 프로그램을 위해 설계된 첫 번째 완전 오픈 소스 10억 매개변수 대형 언어 모델(LLM) 시리즈인 AMD OLMo를 출시했습니다. 이 모델은 AMD의 Instinct MI250 GPU에서 사전 훈련되었으며, 강력한 추론, 지시 따르기 및 채팅 기능을 제공하도록 설계되었습니다. OLMo 모델은 16개의 노드에서 1.3조 개의 토큰으로 구성된 방대한 데이터셋으로 훈련되었으며, 각 노드는 4개의 MI250 GPU로 구성되어 총 64개의 프로세서가 사용되었습니다. 훈련 과정은 세 단계로 진행되었으며, 초기 모델은 다음 토큰 예측에 중점을 두었고, 이후 다양한 데이터셋에서 지시 따르기 능력을 향상시키기 위한 감독된 미세 조정이 이루어졌으며, 마지막으로 Direct Preference Optimization(DPO)을 사용하여 인간의 선호에 맞게 조정되었습니다. 성능 테스트 결과, AMD OLMo 모델은 TinyLlama-1.1B 및 MobiLlama-1B와 같은 유사한 크기의 오픈 소스 모델보다 표준 벤치마크에서 우수한 성능을 보였습니다. 특히, 두 단계의 감독된 미세 조정이 정확도 향상에 크게 기여하여 MMLU 점수가 5.09% 상승하고 GSM8k 점수가 15.32% 증가했습니다. 최종 SFT DPO 모델은 다른 채팅 모델보다 평균 2.60% 더 높은 성능을 기록했습니다. 지시 조정 평가에서 AMD OLMo 모델은 AlpacaEval 2에서 경쟁 모델보다 +3.41%의 승률을 기록했으며, 다중 턴 채팅 기능에 대한 MT-Bench 테스트에서 +0.97%의 향상을 보였습니다. 또한, AMD의 모델은 책임 있는 AI 벤치마크에서도 유사한 성능을 보여 윤리적 AI 작업에서의 효과성을 입증했습니다. 전반적으로 AMD OLMo는 오픈 소스 LLM의 중요한 발전을 나타내며, 개발자들이 AMD의 하드웨어 기능을 활용하여 혁신할 수 있는 도구를 제공합니다.

* 이 글은 tomshardware.com의 기사를 요약한 것입니다. 전체 기사의 내용은 이곳에서 확인하실 수 있습니다.

AMD, 강력한 추론 기능을 갖춘 첫 번째 10억 매개변수 LLM인 AMD OLMo 공개

댓글