구글 클라우드가 엔비디아의 GB200 기반 NVL72 머신을 탑재한 A4X 가상 머신을 공개했습니다. 이 시스템은 72개의 B200 GPU와 36개의 Grace CPU를 특징으로 하며, 대규모 AI 작업 부하, 대형 언어 모델 및 대량 동시 처리가 필요한 시나리오에 맞춰 설계되었습니다.
A4X VM은 72개의 B200 GPU와 36개의 72코어 Grace CPU를 갖춘 엔비디아의 NVL72 머신을 활용하며, 이 CPU는 2,596개의 Armv9 기반 Neovers V2 코어로 구성되어 NVLinks를 통해 상호 연결됩니다. 이 아키텍처는 모든 GPU 간의 메모리 공유를 원활하게 하여 응답 시간과 추론 정확성을 향상시키며, 다중 모드 AI 애플리케이션을 위한 동시 추론 요청을 지원합니다.
성능 측면에서 A4X VM은 이전 A3 VM보다 훈련 효율성이 4배 향상되었습니다. 구글 클라우드는 GB200 NVL72 시스템당 '1 ExaFLOPS 이상의' 컴퓨팅 파워를 제공한다고 주장하며, 최대 1440 FP8/INT8/FP6 페타플롭스 성능을 제공하여 동시 작업 부하에 대한 훈련 및 추론에 이상적입니다.
A4X VM은 엔비디아의 ConnectX-7 NIC를 기반으로 한 Titanium ML 네트워크 어댑터를 장착하여, RoCE를 사용하여 28.8 테라비트의 저지연 GPU 간 트래픽을 통해 빠르고 안전하며 확장 가능한 ML 성능을 제공합니다. 구글 클라우드의 Jupiter 네트워크 패브릭은 NVL72 도메인을 연결하여 비차단 클러스터에서 수만 개의 Blackwell GPU로 원활하게 확장할 수 있도록 합니다.
또한 A4X VM은 구글 클라우드 서비스와 매끄럽게 통합되어, Cloud Storage FUSE를 통해 훈련 데이터 처리량을 2.9배 향상시키고, Hyperdisk ML을 통해 모델 로드 시간을 11.9배 단축시킵니다.
구글 클라우드는 이제 A4와 A4X VM을 모두 제공하며, 각각의 AI 작업 부하에 최적화되어 있습니다. GB200 NVL72 시스템을 기반으로 한 A4X는 대규모 AI 및 고동시성 애플리케이션을 위해 설계된 반면, B200 GPU와 미지정 프로세서를 사용하는 A4는 일반 AI 훈련 및 미세 조정에 더 적합합니다.
* 이 글은
tomshardware.com의 기사를 요약한 것입니다. 전체 기사의 내용은
이곳에서 확인하실 수 있습니다.