엔비디아가 블랙웰 B200 프로세서의 MLPerf 4.1 첫 결과를 발표하며, 호퍼 아키텍처 기반의 H100 GPU에 비해 최대 4배의 성능 향상을 보여주었습니다. 블랙웰 B200 GPU는 단일 GPU 서버 추론 테스트에서 초당 10,755 토큰을, 오프라인 참조 테스트에서 초당 11,264 토큰을 달성했습니다. 이러한 성능 향상은 블랙웰의 5세대 텐서 코어가 지원하는 FP4 정밀도 사용 덕분으로, H100에서 사용된 FP8에 비해 처리량이 두 배로 증가했습니다.
그러나 단일 블랙웰 B200과 4-way 호퍼 H100 설정 간의 비교는 성능 주장에 대한 유효성에 의문을 제기합니다. 엔비디아는 B200이 약 3.7배에서 4배 빠르다고 주장하지만, 단일 H200 GPU는 초당 4,488 토큰을 달성하여 특정 시나리오에서 B200이 단지 2.5배 빠르다는 것을 나타냅니다. 또한 메모리 용량과 대역폭 차이도 상당하여, B200은 180GB의 HBM3E 메모리를 갖추고 있는 반면, H100은 80GB(일부 구성에서는 최대 96GB)이며 H200은 96GB에서 144GB 옵션을 제공합니다.
이러한 숫자 형식, GPU 수 및 메모리 구성의 차이는 성능 지표에 기여하며, 블랙웰 B200은 새로운 아키텍처의 이점을 누리고 있습니다. H200은 데이터 센터 카테고리의 다양한 테스트에서 특히 생성적 AI 벤치마크에서 뛰어난 성능을 보였으며, 이는 더 큰 메모리 용량 덕분입니다.
현재 엔비디아는 Llama 2 70B 모델을 사용한 MLPerf 4.1 생성적 AI 벤치마크에서 B200의 성능만 공개했으며, MLPerf 4.1의 다른 핵심 분야에서의 성능에 대한 불확실성이 남아 있습니다. 이러한 제한된 공개는 블랙웰 B200에 대한 지속적인 조정 또는 최적화 작업을 시사할 수 있습니다.
* 이 글은
tomshardware.com의 기사를 요약한 것입니다. 전체 기사의 내용은
이곳에서 확인하실 수 있습니다.