일론 머스크의 xAI는 향후 5년 내에 Nvidia의 H100에 해당하는 5천만 개의 AI GPU를 배치할 계획이며, AI 훈련을 위해 총 50 엑사플롭스(ExaFLOPS)를 목표로 하고 있습니다. 현재 xAI는 23만 개의 GPU를 운영 중이며, 이 중 20만 개는 H100 및 H200 가속기, 3만 개는 GB200 유닛입니다. 이러한 야심찬 목표는 GPU 성능 향상 추세를 고려할 때 실현 가능성이 있으며, 2028년까지 130만 개의 GPU가 목표를 달성할 수 있을 것으로 보이며, 2029년까지는 65만 개로 줄어들 수 있습니다.
Nvidia의 GPU는 성능이 크게 향상되었으며, Blackwell B200은 Pascal P100보다 20,000배 높은 추론 성능을 제공합니다. Blackwell Ultra 아키텍처는 이전 모델에 비해 FP4 성능이 50% 향상되었고, BF16 및 TF32 포맷의 성능은 두 배로 증가했습니다. 이러한 추세는 Nvidia가 매 세대마다 훈련 성능을 두 배로 늘릴 수 있음을 시사합니다.
그러나 이러한 대규모 배치의 전력 소비는 우려를 낳고 있습니다. 각 H100 GPU는 700W의 전력을 소모하며, 5천만 개의 GPU에 대해 예상되는 총 전력 요구량은 35기가와트(GW)로, 이는 35개의 원자력 발전소의 출력에 해당합니다. 효율성 향상에도 불구하고, 50 엑사플롭스(ExaFLOPS) 클러스터는 여전히 약 4.685GW의 전력을 필요로 할 수 있어 향후 몇 년간 전력 공급 및 지속 가능성에 큰 도전 과제가 될 것입니다.
* 이 글은
tomshardware.com의 기사를 요약한 것입니다. 전체 기사의 내용은
이곳에서 확인하실 수 있습니다.