오라클은 오라클 클라우드 인프라스트럭처(OCI)를 통해 AI 훈련을 위해 설계된 새로운 슈퍼컴퓨팅 클러스터를 도입한다고 발표했습니다. 이 클러스터 중 가장 강력한 모델은 엔비디아의 차세대 블랙웰 GPU를 활용하여 최대 2.4 제타플롭스의 인상적인 성능을 자랑하며, 이는 엘론 머스크가 최근 공개한 AI 클러스터의 성능을 초월합니다.
OCI 슈퍼클러스터는 엔비디아의 호퍼 또는 블랙웰 GPU로 구성할 수 있으며, 초저지연 RoCEv2 및 엔비디아의 퀀텀-2 인피니밴드 네트워크를 포함한 다양한 네트워킹 옵션을 제공합니다. 구성은 다음과 같습니다:
- **H100 GPU**: 최대 16,384개의 GPU를 지원하며, 65 FP8/INT8 엑사플롭스 및 13 Pb/s의 네트워크 처리량을 달성합니다.
- **H200 GPU**: 최대 65,536개의 GPU로 확장 가능하며, 260 FP8/INT8 엑사플롭스 및 52 Pb/s의 처리량을 제공합니다.
- **B200 GPU**: 최대 131,072개의 GPU로 확장 가능하며, 2.4 FP8/INT8 제타플롭스의 정점 성능을 제공합니다.
이 새로운 클러스터는 현재의 선도 시스템을 크게 초월하며, B200 기반의 OCI 슈퍼클러스터는 37,888개의 AMD 인스팅트 MI250X GPU를 사용하는 프론티어 슈퍼컴퓨터보다 세 배 이상 많은 GPU를 갖추고 있습니다. 오라클의 마헤시 티아가라잔은 AI 작업 부하에 대한 분산 클라우드 인프라의 유연성과 주권을 강조했습니다.
와이드랩스와 줌과 같은 기업들은 이미 이 고급 인프라를 활용하여 AI 개발을 강화하고 데이터 주권을 보장하고 있습니다. 엔비디아의 이안 벅은 전 세계적으로 AI 혁신을 위해 조직들이 경쟁하는 가운데 강력한 컴퓨팅 클러스터와 AI 소프트웨어의 필요성을 강조했습니다. 다가오는 OCI 슈퍼클러스터는 엔비디아의 GB200 NVL72 액체 냉각 캐비닛을 활용하여, 단일 NVLink 도메인에서 72개의 GPU와 129.6 TB/s의 총 대역폭을 제공합니다. 블랙웰 GPU는 2025년 상반기에 출시될 예정이지만, 완전 장착된 클러스터의 일정은 불확실합니다.
* 이 글은
tomshardware.com의 기사를 요약한 것입니다. 전체 기사의 내용은
이곳에서 확인하실 수 있습니다.