엔비디아의 스펙트럼-X 이더넷, 세계 최대 AI 슈퍼컴퓨터 구현 — 20만 개 호퍼 GPU

전문: https://www.tomshardware.com/tech-industry/artificial-intelligence/...

원저자: Anton Shilov | 작성일: 2024-10-29 14:54
사이트 내 게시일: 2024-10-29 15:18
엔비디아는 고급 AI 데이터 센터 구축의 도전 과제를 해결하기 위해 스펙트럼-X 이더넷 플랫폼을 도입했습니다. 이 플랫폼은 서버를 연결하고 수만 개의 GPU를 운영하는 데 필수적입니다. 현재 10만 개의 엔비디아 호퍼 프로세서로 구성된 xAI 콜로서스 슈퍼컴퓨터는 스펙트럼-X 이더넷을 활용하여 20만 개의 H100 및 H200 GPU로 확장될 예정입니다.

스펙트럼-X 플랫폼은 최대 800 Gb/s의 포트 속도를 지원하는 스펙트럼 SN5600 이더넷 스위치를 특징으로 하며, 이는 고급 스펙트럼-4 스위치 ASIC을 기반으로 합니다. 이 네트워크 솔루션은 엔비디아의 블루필드-3 슈퍼닉과 함께 작동하여 AI 훈련에 필요한 대량의 데이터 흐름을 위한 고속 및 효율적인 데이터 전송을 보장합니다. 콜로서스는 95%의 놀라운 데이터 처리량을 자랑하며, 이는 대규모 운영에서 필수적인 네트워크 지연 및 패킷 손실을 효과적으로 제거합니다.

반면, 전통적인 이더넷 시스템은 유사한 조건에서 어려움을 겪으며, 종종 혼잡과 데이터 처리량 감소를 초래합니다. 스펙트럼-X의 혁신적인 기술인 적응형 라우팅, 혼잡 제어 및 성능 격리는 미션 크리티컬 AI 애플리케이션에 필요한 안정적이고 고성능의 환경을 제공합니다.

엔비디아의 네트워킹 수석 부사장인 길라드 샤이너는 AI 작업에서 성능, 보안, 확장성 및 비용 효율성의 중요성을 강조했습니다. 스펙트럼-X 이더넷 플랫폼은 AI 작업의 처리, 분석 및 실행을 향상시켜 AI 솔루션의 개발 및 배포를 가속화하도록 설계되었습니다.

현재 구성으로 콜로서스는 이미 가장 강력한 AI 슈퍼컴퓨터 중 하나로, 단 122일 만에 구축되었습니다. 추가 10만 개의 호퍼 GPU 설치 일정은 불확실하지만, 마이크로소프트와 오라클과 같은 경쟁업체가 블랙웰 기반 시스템을 출시할 때까지 세계에서 가장 강력한 AI 슈퍼컴퓨터로서의 지위를 유지할 것으로 예상됩니다. 일론 머스크는 이 성과를 칭찬하며 xAI, 엔비디아 및 그 파트너 간의 협력을 강조했습니다.

* 이 글은 tomshardware.com의 기사를 요약한 것입니다. 전체 기사의 내용은 이곳에서 확인하실 수 있습니다.
카테고리: AI
태그: Nvidia (852) Data Center (156) Elon Musk (64) Networking (58) supercomputing (22) AI Supercomputer (9) Hopper GPUs (5) Spectrum-X (4) BlueField-3 (3)

댓글

댓글을 쓰기 위해서는 로그인을 해 주세요.