엔비디아와 미스트랄 AI의 초정밀 소형 언어 모델, 노트북과 PC에서 작동

전문: https://www.tomshardware.com/pc-components/gpus/nvidia-and-mistral-...

원저자: Aaron Klotz | 작성일: 2024-08-22 18:13
사이트 내 게시일: 2024-08-22 18:20
엔비디아와 미스트랄 AI는 최신 정확도를 자랑하는 소형 언어 모델인 Mistral-NemMo-Minitron 8B를 소개했습니다. 이 모델은 12억 개의 매개변수에서 8억 개로 축소된 NeMo 12B의 축소 버전입니다. 최적화 과정에서는 두 가지 주요 방법이 사용되었습니다: 덜 중요한 모델 가중치를 제거하는 가지치기(pruning)와, 가지치기된 모델을 더 작은 데이터셋으로 재훈련하여 정확도를 향상시키는 증류(distillation)입니다.

이러한 기술 덕분에 개발자들은 원래 데이터셋의 일부만을 사용하여 모델을 훈련할 수 있었으며, 최대 40배의 비용 절감 효과를 달성했습니다. Mistral-NemMo-Minitron 8B는 유사한 크기의 모델들과 비교하여 아홉 가지 언어 기반 벤치마크에서 뛰어난 성능을 보입니다. 이 모델은 노트북과 워크스테이션 PC에서 로컬로 실행될 수 있도록 설계되어, 클라우드 기반 서비스보다 더 빠르고 안전한 작업을 제공합니다.

엔비디아는 소비자 하드웨어에 맞춰 미니트론 8B를 조정하였으며, 저지연에 최적화된 엔비디아 NIM 마이크로서비스로 패키징하여 응답 시간을 향상시켰습니다. 또한, 엔비디아의 AI Foundry 서비스는 스마트폰과 같은 성능이 낮은 시스템에 모델을 적응시킬 수 있지만, 이 경우 정확도와 성능이 감소합니다. 가지치기와 증류의 발전은 AI 성능 최적화에 있어 중요한 진전을 나타내며, 이러한 방법들이 현재의 모든 언어 모델, 특히 AI 가속 서버 팜에 의존하는 모델들을 향상시키는 데 적용될 수 있음을 시사합니다.

* 이 글은 tomshardware.com의 기사를 요약한 것입니다. 전체 기사의 내용은 이곳에서 확인하실 수 있습니다.
카테고리: AI
태그: Nvidia (852) benchmarking (191) Language Model (6) AI optimization (5) Mistral AI (1) pruning (1) distillation (1) Mistral-NemMo-Minitron 8B (1) consumer hardware (1)

댓글

댓글을 쓰기 위해서는 로그인을 해 주세요.