엘론 머스크와 xAI 팀은 단 19일 만에 100,000개의 Nvidia H200 Blackwell GPU로 구성된 슈퍼클러스터를 설치하는 놀라운 성과를 달성했습니다. 이 과정은 일반적으로 약 4년이 소요됩니다. Nvidia CEO인 Jensen Huang은 머스크의 효율성을 칭찬하며 이 노력을 '초인적'이라고 표현했습니다. 신속한 배치는 개념 단계에서 운영 상태로의 전환을 포함하며, 새로운 슈퍼클러스터에서 첫 번째 AI 훈련 실행으로 이어졌습니다.
설치 과정에서는 대규모 공장을 건설하고, 200,000개의 GPU를 지원하기 위한 액체 냉각 및 전력 시스템을 갖추었으며, Nvidia와 머스크의 엔지니어링 팀 간의 물류 조정을 수행했습니다. Huang은 Nvidia 하드웨어의 네트워킹 복잡성을 강조하며, 이는 전통적인 데이터 센터 서버와는 크게 다르며, 광범위한 배선이 필요하다고 언급했습니다.
맥락을 위해 Huang은 평균 데이터 센터가 계획에만 3년을 소요하고, 그 후 장비 배송, 설치 및 구성에 추가로 1년이 더 걸린다고 지적했습니다. 머스크가 100,000개의 H200 GPU를 통합한 성과는 전례가 없으며, 가까운 미래에 다른 회사가 이를 재현하기는 어려울 것으로 보입니다.
* 이 글은
tomshardware.com의 기사를 요약한 것입니다. 전체 기사의 내용은
이곳에서 확인하실 수 있습니다.