Meta의 최근 연구 결과에 따르면, 54일간 진행된 Llama 3 405B 모델 학습 과정에서 Nvidia H100 80GB GPU 16,384대 클러스터에서 총 419건의 예상치 못한 구성 요소 장애가 발생했다. 이는 평균 3시간마다 한 번씩의 오류 발생률에 해당한다. 이 중 GPU와 HBM3 메모리가 전체 오류의 절반을 차지했다. 이는 높은 전력 소비(약 700W)로 인한 열 스트레스로 인해 고성능 GPU의 내재적 취약성이 드러난 것으로 볼 수 있다.
연구에 따르면, 예기치 않은 중단의 30.1%가 GPU 장애(NVLink 문제 포함)로 인한 것이었고, 17.2%는 HBM3 메모리 장애 때문이었다. 반면, 전체 학습 기간 동안 단 2건의 CPU 장애만 발생했다. 수만 개의 프로세서와 광범위한 케이블링으로 구성된 슈퍼컴퓨팅 환경의 복잡성으로 인해 장애 발생 가능성이 높아, 이를 해결하기 위한 강력한 시스템이 필요한 것으로 나타났다.
이러한 어려움에도 불구하고 Llama 3 팀은 90% 이상의 효과적인 학습 시간을 달성했다. 총 466건의 작업 중단 사례 중 419건이 예상치 못한 것이었으며, 이는 주로 하드웨어 문제 때문이었다. 다만 자동화가 이러한 중단 관리에 핵심적인 역할을 했고, 단 3건의 사례에만 수동 개입이 필요했다.
효율성 향상을 위해 Meta 팀은 작업 시작 및 체크포인팅 시간 단축, 자체 진단 도구 개발, PyTorch의 NCCL 비행 레코더 활용 등의 전략을 시행했다. NCCLX 통합은 NVLink 및 RoCE 관련 장애 탐지에 특히 효과적이었다.
온도 변동과 같은 환경 요인으로 인해 처리량이 1-2% 변동했고, GPU 전력 소비 변화로 인해 데이터 센터 전력망에 스트레스가 가해졌다. 이에 따라 대규모 클러스터의 전력 관리에 만전을 기해야 한다.
이번 연구 결과는 10만 대의 H100 GPU를 구축한 xAI의 사례와 같은 더 큰 규모의 클러스터에서 더 잦은 장애 발생 가능성을 보여준다.
* 이 글은
tomshardware.com의 기사를 요약한 것입니다. 전체 기사의 내용은
이곳에서 확인하실 수 있습니다.