알파벳의 고위 전문가에 따르면, 데이터센터 GPU는 사용률에 따라 1년에서 3년 사이의 짧은 수명을 가질 수 있습니다. AI 훈련 및 추론에 필수적인 이 GPU들은 지속적인 높은 부하로 인해 상당한 마모를 겪어 다른 부품에 비해 더 빠르게 열화됩니다. 클라우드 서비스 제공업체(CSP) 데이터센터에서 GPU의 일반적인 사용률은 60%에서 70% 사이로, 이로 인해 예상 수명은 1년에서 2년이며, 최대 3년으로 제한됩니다.
이 주장은 알파벳의 익명의 주요 생성 AI 건축가에게서 나온 것으로, 현대 데이터센터 GPU의 전력 소비가 700W를 초과할 수 있다는 점에서 신뢰할 수 있는 것으로 여겨집니다. 이러한 전력 소모 수준은 실리콘에 상당한 스트레스를 가해 짧은 수명에 기여합니다. 사용률을 줄이면 GPU의 수명을 연장할 수 있지만, 이는 자본 회수 속도를 늦추어 CSP들이 낮은 사용률로 운영하는 것을 덜 매력적으로 만듭니다.
또한, 메타의 연구는 GPU 신뢰성에 대한 문제를 강조했습니다. 16,384개의 엔비디아 H100 80GB GPU 클러스터에서 Llama 3 405B 모델을 훈련하는 동안 모델 플롭 활용률(MFU)은 약 38%였습니다. 54일의 사전 훈련 기간 동안 기록된 419건의 예기치 않은 중단 중 148건(30.1%)은 GPU 고장으로 인한 것이었고, 72건(17.2%)은 HBM3 메모리 문제로 인한 것이었습니다. 이러한 고장률이 지속된다면, 첫 해에 GPU의 연간 고장률은 약 9%에 이를 수 있으며, 3년 동안 약 27%에 달할 수 있어 높은 수요 환경에서 GPU 신뢰성에 대한 우려스러운 추세를 나타냅니다.
전반적으로 이러한 발견은 CSP들이 AI 처리 수요가 계속 증가함에 따라 GPU 투자에 대한 수명과 신뢰성을 고려해야 할 필요성을 강조합니다.
* 이 글은
tomshardware.com의 기사를 요약한 것입니다. 전체 기사의 내용은
이곳에서 확인하실 수 있습니다.