엘론 머스크, 19일 만에 100,000개의 Nvidia H200 GPUs 설치; 일반적으로 4년 소요

전문: https://www.tomshardware.com/pc-components/gpus/elon-musk-took-19-d...

원저자: Aaron Klotz | 작성일: 2024-10-14 20:17
사이트 내 게시일: 2024-10-14 20:48
엘론 머스크와 xAI 팀은 단 19일 만에 100,000개의 Nvidia H200 Blackwell GPU로 구성된 슈퍼클러스터를 설치하는 놀라운 성과를 달성했습니다. 이 과정은 일반적으로 약 4년이 소요됩니다. Nvidia CEO인 Jensen Huang은 머스크의 효율성을 칭찬하며 이 노력을 '초인적'이라고 표현했습니다. 신속한 배치는 개념 단계에서 운영 상태로의 전환을 포함하며, 새로운 슈퍼클러스터에서 첫 번째 AI 훈련 실행으로 이어졌습니다.

설치 과정에서는 대규모 공장을 건설하고, 200,000개의 GPU를 지원하기 위한 액체 냉각 및 전력 시스템을 갖추었으며, Nvidia와 머스크의 엔지니어링 팀 간의 물류 조정을 수행했습니다. Huang은 Nvidia 하드웨어의 네트워킹 복잡성을 강조하며, 이는 전통적인 데이터 센터 서버와는 크게 다르며, 광범위한 배선이 필요하다고 언급했습니다.

맥락을 위해 Huang은 평균 데이터 센터가 계획에만 3년을 소요하고, 그 후 장비 배송, 설치 및 구성에 추가로 1년이 더 걸린다고 지적했습니다. 머스크가 100,000개의 H200 GPU를 통합한 성과는 전례가 없으며, 가까운 미래에 다른 회사가 이를 재현하기는 어려울 것으로 보입니다.

* 이 글은 tomshardware.com의 기사를 요약한 것입니다. 전체 기사의 내용은 이곳에서 확인하실 수 있습니다.
카테고리: GPU
태그: Nvidia (1354) technology (1079) Data Center (183) Elon Musk (76) AI training (30) xAI (29) engineering (10) supercluster (2) H200 GPUs (1)

댓글

댓글을 쓰기 위해서는 로그인을 해 주세요.