엔비디아의 최신 그래픽 아키텍처인 블랙웰은 대형 GPU를 생산하는 회사의 전통을 이어가고 있으며, GB202 다이는 750mm²로 가장 크고 922억 개의 트랜지스터를 포함하고 있습니다. RTX PRO 6000 블랙웰은 188개의 스트리밍 멀티프로세서(SM)와 28 Gbps의 GDDR7 VRAM 96 GB를 갖춘 대규모 메모리 서브시스템을 자랑하며, 이는 RTX 5090의 32 GB 및 AMD의 RX 9070의 16 GB보다 훨씬 높은 수치입니다.
성능 측면에서 RTX PRO 6000의 최대 클럭 속도는 2.85 GHz인 반면, RTX 5090은 2.91 GHz, RX 9070은 3.2 GHz에 도달합니다. RTX PRO 6000과 RTX 5090의 이론적 VRAM 대역폭은 1.8 TB/s인 반면, RX 9070은 640 GB/s입니다. RTX PRO 6000의 전력 목표는 600W로, RX 9070의 220W보다 훨씬 높습니다.
블랙웰의 아키텍처는 1:16 SM 대 GPC 비율을 특징으로 하여 추가 GPC 하드웨어 없이도 계산 처리량을 증가시킬 수 있습니다. 그러나 이 설계는 짧은 기간의 작업에서 성능을 제한할 수 있습니다. 반면, AMD의 RDNA4 아키텍처는 1:8 SE:WGP 비율을 사용하여 작은 작업에 더 효율적일 수 있습니다.
엔비디아는 블랙웰에서 명령어 캐싱을 개선하여 높은 대역폭 요구 사항에서 성능을 향상시키는 두 단계의 설정을 도입했습니다. L1 명령어 캐시는 약 128 KB로, 이전 세대보다 더 나은 처리량을 제공합니다. 블랙웰은 또한 레이 트라이앵글 교차 테스트 비율을 두 배로 늘려 레이 트레이싱 기능을 향상시킵니다.
그러나 블랙웰의 L2 대기 시간은 130 ns 이상으로 증가하여 이전 아키텍처보다 높아졌습니다. L2 대역폭은 약 8.7 TB/s로 RX 9070의 8.4 TB/s를 약간 초과합니다. 그러나 엔비디아의 대규모 SM 수는 전체 성능에서 상당한 우위를 제공하며, RTX PRO 6000은 60 TB/s 이상의 대역폭을 달성합니다.
FluidX3D와 같은 계산 성능 테스트에서 RTX PRO 6000은 RX 9070을 지속적으로 초과 성능을 보이며 아키텍처의 효과를 입증합니다. 전반적으로 블랙웰은 L2 성능과 효율성에서 도전에 직면해 있지만, 고급 GPU 시장에서 여전히 지배적인 힘을 발휘하며 소비자 GPU 설계의 한계를 밀어붙이고 있습니다.
* 이 글은
old.chipsandcheese.com의 기사를 요약한 것입니다. 전체 기사의 내용은
이곳에서 확인하실 수 있습니다.