엔비디아의 데이터 센터 Blackwell GPU, 과열 문제로 랙 재설계 필요 및 고객 지연 초래

엔비디아의 차세대 Blackwell GPU가 고용량 서버 랙에 설치될 때 심각한 과열 문제를 겪고 있으며, 특히 72개의 프로세서를 수용할 수 있는 랙에서 최대 120kW의 전력을 소모하는 경우에 문제가 발생하고 있습니다. 이 과열 문제는 구글, 메타, 마이크로소프트와 같은 주요 고객들 사이에서 Blackwell 서버의 적시 배포에 대한 우려를 불러일으키며, 설계 변경과 지연을 초래하고 있습니다.

엔비디아는 이러한 과열 문제를 완화하기 위해 공급업체들에게 서버 냉각을 개선하기 위한 여러 설계 수정을 시행하도록 지시했습니다. 이러한 조정은 대규모 기술 출시에서 일반적이지만, GPU의 배송 일정에 추가적인 지연을 초래하고 있습니다.

이전에 엔비디아는 프로세서의 열 팽창 특성과 관련된 설계 결함으로 인해 Blackwell GPU의 생산 지연을 겪었습니다. Blackwell B100 및 B200 GPU는 TSMC의 CoWoS-L 패키징 기술을 사용하여 두 개의 칩렛을 연결하고 최대 10 TB/s의 데이터 전송 속도를 지원합니다. 그러나 GPU 칩렛, LSI 브리지, RDL 인터포저 및 메인보드 기판 간의 열 팽창 불일치로 인해 휘어짐과 시스템 실패가 발생했습니다. 엔비디아는 이후 GPU 실리콘의 상단 금속층과 범프 구조를 수정하여 생산 신뢰성을 향상시켰습니다.

Blackwell AI GPU의 지연은 특히 엔비디아의 고객들에게 큰 영향을 미치고 있으며, 이들은 이러한 GPU를 사용하여 고급 대형 언어 모델을 훈련시키기 때문에 제품 일정과 계획에 차질이 생기고 있습니다.

* 이 글은 tomshardware.com의 기사를 요약한 것입니다. 전체 기사의 내용은 이곳에서 확인하실 수 있습니다.

엔비디아의 데이터 센터 Blackwell GPU, 과열 문제로 랙 재설계 필요 및 고객 지연 초래

댓글