AMD는 MLPerf 추론 v4.1 벤치마크에서 인스팅트 MI300X AI 가속기를 소개하며, 차세대 EPYC '투린' CPU와 함께 성능을 선보였습니다. 이는 MI300X의 MLPerf 첫 제출로, AI 작업에서의 능력을 강조합니다.
벤치마크는 8개의 MI300X 가속기와 2개의 EPYC 9374F (제노아) CPU로 구성된 설정을 포함하며, 4세대 인텔 제온 CPU를 사용할 때 FP8 정밀도에서 NVIDIA의 DGX H100과 2-3%의 성능 차이를 보였습니다. 다가오는 EPYC '투린' CPU와의 미리보기 제출에서는 서버 시나리오에서 NVIDIA DGX H100보다 약간의 성능 향상을 보여주었으며, 오프라인 시나리오에서는 유사한 성능을 유지했습니다.
단일 MI300X 가속기는 192GB 메모리 덕분에 전체 LLaMA2-70B 모델을 효율적으로 실행할 수 있었으며, 이는 여러 GPU에 모델을 분할하는 오버헤드를 피할 수 있게 해줍니다. 성능 결과에 따르면, MI300X는 제노아 CPU에서 서버 시나리오에서 21,028 토큰/초, 오프라인 시나리오에서 23,514 토큰/초를 달성했으며, 투린 CPU에서는 각각 22,021 토큰/초와 24,110 토큰/초로 향상되어 4.7% 및 2.5%의 개선을 보였습니다.
MI300X는 서버 성능에서 NVIDIA H100보다 약간 느리지만, 대형 언어 모델을 처리하는 데 중요한 더 나은 메모리 용량을 보여줍니다. AMD의 제출에는 Dell의 PowerEdge XE9680 서버에서의 결과도 포함되어 있어 MI300X의 실제 애플리케이션에서의 성능을 검증했습니다.
전반적으로 MI300X의 메모리 장점과 새로운 EPYC '투린' CPU와의 성능 향상은 AMD를 AI 가속기 시장에서 경쟁력 있게 자리매김하게 하며, 특히 대규모 AI 작업에 적합합니다.
* 이 글은
wccftech.com의 기사를 요약한 것입니다. 전체 기사의 내용은
이곳에서 확인하실 수 있습니다.