오라클이 2025년까지 멀티 제타플롭스 성능을 목표로 하는 AI 컴퓨팅 능력에 대한 야심찬 계획을 발표했습니다. 이는 인텔의 라자 코두리(Raja Koduri)의 일정보다 앞선 것입니다. 이 회사는 16,384개의 GPU로 확장 가능한 H100 GPU를 갖춘 OCI 슈퍼클러스터를 포함한 대규모 블랙웰 GPU 클러스터를 운영할 예정이며, 최대 65 엑사플롭스와 13Pb/s의 네트워크 처리량을 제공합니다. 올해 말에는 65,536개의 GPU로 확장 가능한 H200 GPU를 갖춘 OCI 슈퍼클러스터가 출시되어 260 엑사플롭스와 52Pb/s의 처리량을 달성할 것입니다. 특히 오라클은 최대 131,072개의 NVIDIA 블랙웰 GPU를 활용하여 2.4 제타플롭스의 피크 성능을 제공하는 클라우드 내 최대 AI 슈퍼컴퓨터에 대한 주문을 받고 있습니다.
이 아키텍처는 72개의 블랙웰 GPU가 129.6 TB/s의 집합 대역폭으로 통신할 수 있도록 하는 NVIDIA GB200 NVL72 액체 냉각 인스턴스를 활용합니다. 오라클의 수치에 따르면, 계획된 클러스터 전반에 걸쳐 총 212,992개의 GPU가 배치될 예정이며, 이는 고밀도 구성에 대한 상당한 집중을 나타냅니다. 이 회사는 또한 NVIDIA 퀀텀-2 및 ConnectX-7 NIC와 같은 고급 네트워킹 기술을 탐색하고 있지만, 이전 발표에도 불구하고 블루필드-3 DPU에 대한 언급은 없습니다.
오라클의 제타플롭스 규모 컴퓨팅 계획은 주목할 만하지만, 이는 더블 프리시전 FP64 FLOPS를 의미하지 않는다는 점을 명확히 할 필요가 있습니다. 발표에는 데이터 센터에 전력을 공급하기 위한 새로운 원자로 활용에 대한 논의도 포함되어 있으며, 이는 규제 문제에 직면할 수 있습니다. 100,000개 이상의 GPU 클러스터 목표를 달성하기 위해 오라클은 적절한 전력을 확보하고, 슈퍼마이크로 시스템 배치를 통해 입증된 고밀도 랙 구성 구현이 필요할 것입니다. 전반적으로 이러한 야심찬 계획의 실행은 앞으로 지켜봐야 할 사항입니다.
* 이 글은
servethehome.com의 기사를 요약한 것입니다. 전체 기사의 내용은
이곳에서 확인하실 수 있습니다.