AMD가 AI 및 고성능 컴퓨팅(HPC)을 목표로 하는 Instinct MI300X 가속기에 대한 첫 공식 MLPerf 결과를 발표했습니다. MI300X의 성능은 생성 AI를 위한 Llama 2 70B 모델로 테스트했을 때 Nvidia의 이전 세대 H100 GPU와 유사합니다. 그러나 MI300X는 Nvidia의 최신 H200 버전과 곧 출시될 B200 모델에 비해 뒤처집니다.
MLPerf 4.1 생성 AI 벤치마크에서, 8개의 MI300X 프로세서를 장착한 시스템은 오프라인에서 초당 23,512 토큰을 기록했으며, 이는 8개의 Nvidia H100 SXM3 프로세서를 장착한 시스템의 24,323 토큰/초보다 약간 느린 수치입니다. 실제 서버 벤치마크에서는 MI300X가 H100을 초과하여 초당 21,028 토큰을 기록했으며, H100은 20,605 토큰/초를 기록했습니다.
MI300X는 2.6 POPs(구조적 희소성을 고려할 경우 5.22 POPs)의 최대 성능을 자랑하며, H100은 1.98 FP8/INT8 TFLOPS/TOPS(희소성을 고려할 경우 3.96 TFLOPS/TOPS)입니다. MI300X는 192GB의 HBM3 메모리와 5.3 TB/s의 최대 대역폭을 갖추고 있어, H100의 80GB HBM3 메모리와 3.35 TB/s 대역폭을 크게 초과합니다. 이론적으로 MI300X는 생성 AI 추론 작업에서 성능 우위를 제공할 수 있어야 합니다.
하드웨어적 장점에도 불구하고, MI300X는 소프트웨어 최적화 문제로 인해 그 능력을 완전히 활용하지 못하고 있습니다. 결과적으로 AMD의 MI300X는 Nvidia의 H100과 경쟁력이 있지만, 오프라인 추론 벤치마크에서는 여전히 부족한 성과를 보이고 있습니다. MI300X는 최대 8개의 GPU에서 유망한 확장 결과를 보였지만, 더 큰 구성에서의 성능은 불확실합니다.
Nvidia의 최신 H200과 비교했을 때, MI300X는 메모리 용량과 대역폭이 향상된 H200에 비해 상당히 느립니다. 곧 출시될 B200 프로세서는 MLPerf 4.1 벤치마크에서 성능 지표를 더욱 향상시킬 것으로 예상됩니다. AMD의 다음 단계는 Llama 2 70B 모델을 포함한 9개의 표준화된 벤치마크를 모두 포함하는 전체 MLPerf 4.1 보고서를 제출하는 것입니다.
* 이 글은
tomshardware.com의 기사를 요약한 것입니다. 전체 기사의 내용은
이곳에서 확인하실 수 있습니다.