엔비디아의 블랙웰 데이터 센터 GPU의 테스트 기간이 호퍼 GPU보다 3배에서 4배 더 긴 것으로 보고되었습니다. 이는 어드밴테스트(Advantest)의 CEO인 더그 레피버(Doug Lefever)가 언급한 내용입니다. 각 블랙웰 유닛은 출하 전에 다양한 도구를 통해 광범위한 테스트를 요구하며, 이는 설계의 복잡성이 증가했음을 반영합니다.
블랙웰 B100/B200 GPU는 1,040억 개의 트랜지스터를 가진 두 개의 컴퓨트 칩렛과 여덟 개의 HBM3E 메모리 칩렛을 특징으로 하며, TSMC의 CoWoS-L 패키징 기술을 활용합니다. 반면, 호퍼 H100 GPU는 단일 800억 개 트랜지스터 칩렛과 여섯 개의 HBM3 메모리 스택으로 구성되어 있습니다.
트랜지스터 수가 증가함에 따라 테스트의 복잡성도 기하급수적으로 증가하여 더 많은 테스트 패턴과 연장된 테스트 기간이 필요합니다. 블랙웰의 테스트 프로토콜은 고속 인터커넥트, 스트레스 조건 및 열 조건을 다루어야 하며, 특히 극한의 열 조건에서 작동하는 B200 변형에 대해 더욱 중요합니다. 또한, 블랙웰은 FP4 지원을 도입하여 테스트 과정을 더욱 복잡하게 만듭니다.
TSMC가 사용하는 CoWoS-L 2.5D 패키징 기술은 컴퓨트 및 메모리 칩렛에 대한 별도의 테스트와 GPU가 RDL 인터포저에 통합될 때 여러 테스트를 포함하는 추가적인 테스트 요구 사항을 더합니다. 이 긴 테스트 과정은 AI 및 HPC GPU의 복잡성이 증가하고 있음을 강조하며, CPU, DPU 및 네트워크 인터페이스 카드와 같은 다른 구성 요소와 함께 다양한 데이터 센터 환경에서 성능과 신뢰성을 보장하기 위한 철저한 검증의 필요성을 부각시킵니다.
* 이 글은
tomshardware.com의 기사를 요약한 것입니다. 전체 기사의 내용은
이곳에서 확인하실 수 있습니다.