마이크로소프트 애저(Microsoft Azure) CTO, AI 훈련 분산 필요성 주장 - AI 데이터센터가 전력망 한계에 접근함에 따라

생성적 AI 모델의 급속한 확장은 현재 데이터센터 인프라의 한계를 초과하고 있으며, AI 데이터센터가 곧 전력망 한계에 도달할 가능성이 있습니다. AWS, 마이크로소프트, 오라클과 같은 주요 기업들은 데이터센터를 유지하기 위해 원자력 발전을 탐색하고 있습니다. 마이크로소프트 애저(Microsoft Azure)의 CTO인 마크 러시노비치(Mark Russinovich)는 현대 데이터센터가 최대 100,000개의 NVIDIA H100 또는 H200 GPU를 수용할 수 있기 때문에 고급 AI 모델 훈련을 위해 여러 데이터센터를 연결하는 것이 필요할 수 있다고 제안합니다.

프로세서 수의 증가와 그에 따른 높은 전력 소비, 냉각 요구 사항은 데이터센터가 수 기가와트의 전력을 소비하게 만들 수 있습니다. 미국의 에너지 그리드는 이미 높은 수요 기간 동안 압박을 받고 있으며, 미래의 수요를 충족할 수 있는 능력에 대한 우려가 커지고 있습니다.

마이크로소프트는 쓰리 마일 아일랜드 원자력 발전소 재개와 같은 에너지 인프라에 대규모로 투자하고 있지만, 이것만으로는 충분하지 않을 수 있습니다. 러시노비치는 데이터센터를 연결하는 것이 대규모로 정교한 AI 모델을 훈련하는 유일한 실현 가능한 방법일 수 있다고 강조합니다. 이러한 접근 방식은 전력망에 대한 압박을 완화할 수 있지만, 여러 사이트 간의 동기화 유지 및 높은 통신 속도와 같은 상당한 기술적 도전을 동반합니다.

섬유 광학 기술의 발전은 장거리 데이터 전송을 개선했지만, 분산된 데이터센터 간의 통신 관리는 여전히 복잡합니다. 러시노비치는 이러한 데이터센터가 문제를 완화하기 위해 상대적으로 가까이 있어야 한다고 언급합니다. 또한, 이 다중 데이터센터 전략을 구현하기 위해서는 마이크로소프트 내부와 OpenAI와 같은 파트너와의 협력이 필요합니다.

탈중앙화된 AI 훈련 방법은 고급 GPU와 대규모 데이터센터에 대한 의존도를 줄일 수 있으며, 이는 소규모 기업과 개인에게 장벽을 낮출 수 있습니다. 흥미롭게도, 중국 연구자들은 이미 여러 데이터센터에서 탈중앙화된 AI 훈련에서 돌파구를 마련했지만, 세부 사항은 제한적입니다.

* 이 글은 tomshardware.com의 기사를 요약한 것입니다. 전체 기사의 내용은 이곳에서 확인하실 수 있습니다.

마이크로소프트 애저(Microsoft Azure) CTO, AI 훈련 분산 필요성 주장 - AI 데이터센터가 전력망 한계에 접근함에 따라

댓글