Meta의 최근 연구 결과에 따르면, 54일간 진행된 Llama 3 405B 모델 학습 과정에서 Nvidia H100 80GB GPU 16,384대 클러스터에서 총 419건의 예상치 못한 구성 요소 장애가 발생했다. 이는 평균 3시간마다 …