NVIDIA, 디코딩 알고리즘 “메두사”로 Llama 3.1 성능 1.9배 향상

전문: https://wccftech.com/nvidia-boosts-llama-3-1-by-1-9x-with-decoding-...

원저자: Muhammad Zuhair | 작성일: 2024-09-08 09:00
사이트 내 게시일: 2024-09-08 09:22
NVIDIA는 독자적인 디코딩 알고리즘인 메두사를 도입하여 Llama 3.1 추론 성능을 크게 향상시켰으며, HGX H200 AI 가속기에서 최대 1.9배 빠른 토큰 생성을 달성했습니다. 이 발전은 대형 언어 모델(LLM)이 점점 더 복잡해짐에 따라 실시간 생성 AI 애플리케이션의 요구를 충족하기 위해 다중 GPU 컴퓨팅이 필요해지는 상황에서 매우 중요합니다.

성능 향상은 여러 GPU가 단일 강력한 유닛으로 작동할 수 있는 능력에 달려 있으며, 초고속 GPU 간 통신과 고급 소프트웨어를 활용합니다. 텐서 병렬 처리(tensor parallelism)와 추측적 디코딩(speculative decoding)과 같은 기술이 토큰 생성 지연 시간을 줄이는 데 사용되어 사용자 상호작용을 향상시킵니다.

Llama 3.1의 최적의 저지연 서비스 제공을 위해 클라우드 서비스는 여덟 개의 H200 텐서 코어 GPU와 네 개의 NVLink 스위치 칩을 포함하는 전체 NVIDIA HGX H200 서버를 배포할 수 있습니다. 이 구성은 GPU 간 900 GB/s의 높은 대역폭 통신을 가능하게 하여 다중 GPU 시나리오에서 병목 현상을 방지합니다.

메두사 알고리즘은 여러 토큰을 동시에 예측하는 초안 모델 접근 방식을 활용하여 토큰 생성 처리량을 특별히 향상시킵니다. 이 방법은 GPU 자원의 보다 효율적인 사용을 가능하게 하여 Llama 3.1 70B의 경우 초당 268개의 토큰, Llama 3.1 405B의 경우 초당 108개의 토큰을 생성하는 성능을 달성하며, 이전 방법에 비해 각각 1.5배 및 1.9배의 향상을 기록했습니다.

메두사의 구현은 즉각적인 다음 토큰을 넘어 후보 토큰을 예측하는 추가 디코딩 헤드를 포함하여 생성 과정을 간소화합니다. 이러한 메두사 헤드의 훈련은 기본 모델과의 일관된 정확성을 보장하여 알고리즘의 효과성을 더욱 강화합니다.

NVIDIA는 칩, 시스템, 소프트웨어 라이브러리 및 알고리즘을 포함한 기술 스택 전반에 걸쳐 혁신을 지속하고 있으며, 사용자 경험을 향상시키고 추론 비용을 줄이는 것을 목표로 하고 있습니다. NVIDIA의 플랫폼과 LLM 생태계가 발전함에 따라 저지연 추론 성능에 대한 향후 업데이트가 기대됩니다.

* 이 글은 wccftech.com의 기사를 요약한 것입니다. 전체 기사의 내용은 이곳에서 확인하실 수 있습니다.
카테고리: AI
태그: Nvidia (852) Performance Optimization (144) AI accelerators (24) Multi-GPU (11) Medusa (4) Llama 3.1 (3) speculative decoding (3) TensorRT (2) real-time AI (1)

댓글

댓글을 쓰기 위해서는 로그인을 해 주세요.