NVIDIA는 대규모 AI 클러스터에서 GPU 전력 평활화 문제를 해결하기 위해 GB300 NVL72를 출시했습니다. AI 작업 부하는 일반적으로 피크 부하와 유휴 기간이 반복되는 패턴을 보이며, 이로 인해 전력 소비에 큰 변동이 발생합니다. 이러한 변동성은 전력 생성 시스템에 스트레스를 주어, 이러한 변화에 신속하게 대응해야 합니다. 이를 완화하기 위해 NVIDIA는 GPU를 활성 상태로 유지하여 부하를 평활화하는 GPU 번(GPU burn)과 같은 기술을 활용하여 보다 일관된 전력 출력을 유지하는 전략을 구현하고 있습니다. 또한, 전력 사용을 안정화하기 위해 용량을 증가시킨 전원 공급 장치를 개선하고 있습니다. GB200과 GB300 간의 비교 결과, 후자가 유사한 DC 출력을 유지하면서 더 평탄한 AC 입력을 제공하여 전력 관리가 개선되었음을 나타냅니다. 대규모 GPU 클러스터에서 전력 스파이크를 관리하는 지속적인 도전 과제는 AI 데이터 센터에 더 많은 배터리 시스템을 통합하여 전력 부하를 더욱 균형 있게 조정하려는 추세를 촉발하고 있습니다.
전반적으로, NVIDIA의 GB300 NVL72에 대한 발전은 AI 작업 부하의 전력 효율성을 최적화하는 데 중요한 진전을 나타내며, 이는 대규모 AI 운영의 지속 가능성에 필수적입니다.
* 이 글은
servethehome.com의 기사를 요약한 것입니다. 전체 기사의 내용은
이곳에서 확인하실 수 있습니다.