FuriosaAI의 RNGD, Hot Chips 2024에서 AI 가속화를 위한 더 유연한 프리미티브 공개

전문: https://chipsandcheese.com/2024/09/11/furiosaais-rngd-at-hot-chips-...

원저자: chlamchowder | 작성일: 2024-09-11 18:44
사이트 내 게시일: 2024-09-11 18:46
FuriosaAI는 Hot Chips 2024에서 150W TDP의 AI 가속기인 RNGD 칩을 공개했습니다. 이 칩은 전력 효율성에서 GPU를 초월하며 추론 작업을 처리하도록 설계되었습니다. RNGD는 48GB의 HBM3 메모리를 갖추고 있으며 PCIe 카드에 구현되어 기존의 공랭식 데이터 센터에 쉽게 통합할 수 있습니다. 이 칩의 아키텍처는 높은 연산 대 메모리 대역폭 비율을 강조하며, TDP는 Nvidia의 H100 PCIe의 350W에 비해 상당히 낮습니다.

TSMC의 5nm 공정으로 제조된 RNGD는 보수적인 1GHz에서 작동하며, 메모리 용량과 효율성을 극대화하기 위해 2.5D 패키징을 사용합니다. FuriosaAI는 RNGD가 초당 약 1000개의 토큰을 처리하며, Nvidia의 L40S에 비해 와트당 40% 더 높은 성능을 제공한다고 주장합니다. 또한 RNGD의 성능은 실리콘 반환 후 단 3개월 만에 달성되었으며, 이는 추가 최적화의 가능성을 나타냅니다.

RNGD의 주요 혁신 중 하나는 텐서 수축(tensor contraction)을 기본 연산으로 사용하는 것으로, 이는 Google의 TPU 및 Nvidia의 텐서 코어와 같은 경쟁사들이 사용하는 행렬 곱셈(matrix multiplication) 접근 방식보다 더 유연합니다. 이러한 유연성 덕분에 RNGD는 추론 작업에서 다양한 배치 크기에 더 잘 적응할 수 있으며, 소프트웨어 최적화를 통해 성능 향상을 이끌어낼 수 있습니다.

RNGD의 아키텍처는 독립적으로 또는 그룹으로 작동할 수 있는 처리 요소(Processing Elements, PEs)로 구성되어 있으며, 각 PE는 효율적인 데이터 이동을 위한 CPU 코어와 텐서 DMA 유닛을 갖추고 있습니다. RNGD 내의 텐서 유닛(Tensor Units, TUs)은 높은 처리량을 위해 설계되었으며, 각각 512KB의 SRAM을 갖춘 64개의 슬라이스(Slices)를 포함하여 TU당 총 32MB의 SRAM을 제공합니다. 이 설계는 대역폭보다 용량을 우선시하여 머신 러닝 작업에서 일반적으로 나타나는 예측 가능한 접근 패턴에 유리합니다.

그럼에도 불구하고 RNGD는 최대 메모리 용량이 48GB로, Nvidia의 H100 및 AMD의 MI300X와 같은 경쟁사들보다 낮다는 한계가 있습니다. 또한 RNGD는 카드 간 통신을 위해 PCIe 5.0 x16 링크에 의존하고 있어, 높은 메모리 용량과 대역폭을 요구하는 대형 모델의 성능에 제약을 줄 수 있습니다. FuriosaAI는 RNGD의 가격을 약 10,000달러로 추정하고 있으며, 이는 경쟁사들에 비해 더 저렴한 옵션입니다.

전반적으로 RNGD의 낮은 전력 소비와 혁신적인 아키텍처는 AI 가속기 시장에서 매력적인 대안으로 자리 잡고 있지만, 메모리 한계와 표준 PCIe 링크에 대한 의존은 대형 모델과의 확장성에 도전 과제가 될 수 있습니다.

* 이 글은 chipsandcheese.com의 기사를 요약한 것입니다. 전체 기사의 내용은 이곳에서 확인하실 수 있습니다.
카테고리: AI
태그: AMD (1335) Nvidia (852) Machine Learning (106) Power Efficiency (92) AI accelerator (27) Hot Chips 2024 (18) HBM3 (6) FuriosaAI (3) Tensor Contraction (2) RNGD (1)

댓글

댓글을 쓰기 위해서는 로그인을 해 주세요.