최근 보고서에 따르면, 엔비디아의 GB200 NVL72 서버 랙과 관련된 과열 문제는 과장된 것으로 나타났습니다. Semianalysis의 분석가들은 블랙웰 GPU의 냉각 설계 결함이 대부분 해결되었다고 밝혔으며, 수석 분석가인 딜런 파텔은 이러한 우려가 과도하다고 언급했습니다. 이전에 여러 공급업체에서 재작업을 촉발했던 냉각 시스템 문제는 반도체 산업을 모니터링하는 분석가들에 의해 '경미한' 변화로 간주되었습니다.
블랙웰 GPU는 특히 72개 칩 서버 랙 구성에서 높은 전력 소비로 인해 도전에 직면했으며, 최대 120kW에 달하는 전력을 소모합니다. 설계 결함으로 인해 엔비디아는 여러 차례 재평가를 해야 했고, 이로 인해 GB200 하드웨어의 배송 지연이 발생했습니다. GB200 슈퍼칩은 최대 2,700와트에 달하는 조정 가능한 열 설계 전력(TDP)을 자랑하며, 이는 표준 랙 장착 제약 내에서 전통적인 공기 냉각을 비현실적으로 만듭니다.
이러한 문제를 해결하기 위해 엔비디아는 최신 블랙웰 GPU에 액체 냉각을 의무화했으며, 데이터 센터는 이 냉각 방식을 지원하기 위해 인프라를 업그레이드해야 합니다. 엔비디아는 느린 공기 냉각 GPU를 선택할 수 있지만, 경쟁이 치열한 AI GPU 시장에서 높은 성능을 유지하는 데 집중하고 있습니다. 다행히도, 플래그십 72개 칩 서버 랙과 관련된 보고된 냉각 문제는 경미한 것으로 보이며, 대부분 해결된 것으로 나타나 엔비디아의 블랙웰 시리즈에 대한 긍정적인 전망을 시사합니다.
전반적으로, 초기의 과열 우려가 상당했지만, 이러한 문제에 대한 신속한 대응과 해결은 엔비디아가 AI GPU 분야에서 계속해서 선도할 수 있는 좋은 위치에 있음을 나타냅니다.
* 이 글은
tomshardware.com의 기사를 요약한 것입니다. 전체 기사의 내용은
이곳에서 확인하실 수 있습니다.