세레브라스(Cerebras)는 AI 추론 작업에서 NVIDIA의 H100 GPU를 크게 능가하는 혁신적인 웨이퍼 크기 AI 칩을 소개했습니다. 2024년 Hot Chips 행사에서 이 회사는 44GB의 SRAM을 갖춘 자사의 칩이 전체 모델을 직접 칩 내에서 처리할 수 있어 오프 칩 HBM의 필요성을 없애는 능력을 선보였습니다. 이러한 설계는 더 빠른 처리 속도를 가능하게 하며, 세레브라스는 Llama3.1-8B 모델에서 NVIDIA H100을 사용하는 클라우드 서비스에 비해 20배 더 빠르다고 주장하고 있습니다.
세레브라스의 칩 아키텍처는 전통적인 GPU 설정과 관련된 전력 제약 없이 높은 메모리 대역폭을 유지할 수 있도록 설계되었습니다. 모든 것을 칩 내에서 처리함으로써, 세레브라스는 다중 GPU 구성에서 흔히 발생하는 고속 직렬 링크와 오프 다이 통신으로 인한 지연을 피할 수 있습니다. 이로 인해 배치 크기 1에서 실행할 수 있는 더 효율적인 시스템이 만들어져 실시간 추론 능력이 향상됩니다.
세레브라스의 AI 추론 접근 방식은 서로 통신하는 여러 AI 에이전트가 포함된 시나리오에서 특히 유리하며, 이 경우 속도가 매우 중요합니다. 이 회사는 또한 더 큰 모델을 위해 여러 웨이퍼에 걸쳐 기술을 확장할 수 있는 능력을 입증했으며, 최소한의 지연으로 성능을 유지할 수 있습니다.
전반적으로 세레브라스의 AI 칩 설계 및 아키텍처 혁신은 NVIDIA에 대한 강력한 경쟁자로 자리매김하게 하며, 특히 AI 추론 분야에서 속도와 효율성이 가장 중요합니다. 이 회사는 향후 Llama-405B 모델을 포함한 개발에 대해 낙관적인 전망을 가지고 있으며, 이는 자사의 제품을 더욱 향상시킬 것으로 기대됩니다.
* 이 글은
servethehome.com의 기사를 요약한 것입니다. 전체 기사의 내용은
이곳에서 확인하실 수 있습니다.