엘론 머스크를 위해 슈퍼마이크로가 구축한 100K GPU xAI 콜로서스 클러스터 내부

전문: https://www.servethehome.com/inside-100000-nvidia-gpu-xai-colossus-...

원저자: Patrick Kennedy | 작성일: 2024-10-28 15:00
사이트 내 게시일: 2024-10-28 15:21
단 122일 만에 구축된 xAI 콜로서스 슈퍼컴퓨터는 전례 없는 100,000개의 NVIDIA H100 GPU를 특징으로 하여 세계에서 가장 큰 AI 클러스터 중 하나로 자리 잡았습니다. 이 수십억 달러 규모의 프로젝트는 슈퍼마이크로의 고급 액체 냉각 랙을 선보이며, 각 랙에는 8개의 GPU가 장착된 4U 서버 8대가 들어 있어 랙당 총 64개의 GPU를 제공합니다. 시스템 설계는 서비스 용이성과 효율적인 냉각을 강조하며, 액체 냉각을 위한 빠른 분리 장치와 최적의 성능을 위한 독특한 메인보드 통합을 특징으로 합니다.

네트워킹 인프라는 400GbE 기술을 사용하여 GPU 서버당 약 3.6Tbps의 대역폭을 제공하며, 이는 전통적인 네트워킹 능력을 크게 초월합니다. 이 설정은 GPU와 CPU를 위한 별도의 네트워크를 포함하여 성능과 효율성을 향상시킵니다. 시설은 또한 변동하는 전력 수요를 관리하기 위해 테슬라 메가팩을 활용하여 운영 중 신뢰성을 보장합니다.

클러스터 내 저장 솔루션은 전통적인 디스크 기반 시스템보다 플래시를 선호하여 전력 소비와 성능을 최적화합니다. 시설은 액체 냉각 및 공기 냉각 장비 모두를 수용할 수 있도록 설계되어 고성능 컴퓨팅에 대한 다재다능한 접근 방식을 보여줍니다. 프로젝트가 계속 확장됨에 따라 xAI 팀은 이 방대한 계산 능력을 단순한 챗봇을 넘어선 고급 AI 애플리케이션에 활용할 계획이며, 이는 AI 기술과 인프라의 중요한 진전을 나타냅니다.

* 이 글은 servethehome.com의 기사를 요약한 것입니다. 전체 기사의 내용은 이곳에서 확인하실 수 있습니다.
카테고리: GPU
태그: Data Center (173) high-performance computing (162) liquid cooling (55) Supermicro (39) xAI (29) AI infrastructure (22) AI Supercomputer (13) Nvidia H100 (10) 400GbE Networking (1) Tesla Megapacks (1)

댓글

댓글을 쓰기 위해서는 로그인을 해 주세요.