엘론 머스크의 X(구 트위터)가 10만 개의 엔비디아 H100 GPU를 활용한 콜로서스 슈퍼컴퓨터를 가동했습니다. 이는 세계에서 가장 강력한 AI 훈련 시스템으로 자리 잡았습니다. 이 시스템은 향후 20만 개의 GPU로 확장될 계획이며, 추가로 5만 개의 H100과 5만 개의 H200 GPU가 포함될 예정입니다.
콜로서스 시스템은 단 122일 만에 가동되었으며, 이는 조립을 담당한 델(Dell)의 신속한 배치 능력을 보여줍니다. 이 개발은 머스크의 다른 기업들로부터의 중요한 발표와 함께 이루어졌으며, 여기에는 5만 개의 H100 GPU를 탑재한 테슬라의 코르텍스 AI 클러스터와 10만 개의 H100 GPU를 갖춘 멤피스 슈퍼클러스터가 포함됩니다.
이러한 슈퍼컴퓨터들이 운영되고 있지만, 완전한 기능을 발휘하는 데는 여러 가지 도전 과제가 있습니다. 시스템의 디버깅 및 최적화에는 시간이 소요되며, 전력 공급이 중요한 문제로 남아 있습니다. 예를 들어, 멤피스 슈퍼컴퓨터는 최소 150MW의 전력이 필요하며, 10만 개의 H100 GPU는 약 70MW를 소모합니다. 전력 제약 문제를 해결하기 위해 X는 디젤 발전기를 사용하고 있지만, 이는 전체 시스템에 충분하지 않은 것으로 나타났습니다.
xAI의 그록(Grok) 버전 2 대형 언어 모델(LLM) 훈련에는 최대 2만 개의 H100 GPU가 사용되었으며, 향후 버전인 그록 3는 약 10만 개의 H100 프로세서를 요구할 것으로 예상됩니다. 이는 고급 AI 모델 훈련 및 추론 작업을 지원하기 위한 대규모 데이터 센터의 필요성이 증가하고 있음을 나타냅니다.
* 이 글은
tomshardware.com의 기사를 요약한 것입니다. 전체 기사의 내용은
이곳에서 확인하실 수 있습니다.