일론 머스크, xAI 슈퍼컴퓨터를 백만 개 GPU로 확장 계획 — 현재 100,000개 이상의 H100 GPU 운영 중

전문: https://www.tomshardware.com/tech-industry/artificial-intelligence/...

원저자: Anton Shilov | 작성일: 2024-12-05 13:53
사이트 내 게시일: 2024-12-10 11:56
일론 머스크의 AI 회사인 xAI는 Colossus 슈퍼컴퓨터를 백만 개 이상의 GPU로 확장할 계획을 세우고 있으며, 현재 100,000개 이상의 엔비디아 H100 프로세서로 운영되고 있습니다. 이 확장은 세계에서 가장 강력한 슈퍼컴퓨터 중 하나를 만드는 것을 목표로 하고 있지만, 상당한 투자와 인프라가 필요합니다.

Colossus 슈퍼컴퓨터는 Grok의 대형 언어 모델 훈련에 사용되며, 곧 GPU 수를 두 배로 늘릴 예정으로, 단일 건물에 수용된 가장 큰 슈퍼컴퓨터가 될 가능성이 있습니다. xAI는 이 야심찬 프로젝트를 위해 엔비디아, Dell, Supermicro와 협력하고 있으며, 테네시주 멤피스에 전담 운영 팀을 구성했습니다.

xAI가 현재 세대의 Hopper GPU를 사용할지 아니면 차세대 Blackwell GPU를 사용할지는 불확실합니다. Blackwell 플랫폼은 더 나은 확장성을 제공할 것으로 예상되어 더 논리적인 선택이 될 수 있습니다. 그러나 필요한 80만에서 90만 개의 GPU를 확보하는 것은 엔비디아 제품에 대한 수요가 폭발적으로 증가하고 있어 상당한 도전 과제가 됩니다. 또한, 백만 개의 GPU로 최대 효율성을 달성하는 것은 복잡한 작업으로, Blackwell의 능력이 유리할 수 있습니다.

이 확장의 재정적 영향은 막대하며, GPU 비용이 각각 수만 달러에 달하고 전력 및 냉각을 위한 인프라 비용이 추가되어 수백억 달러의 투자를 초래할 수 있습니다. xAI는 올해 110억 달러를 모금했으며, 추가로 50억 달러를 확보하여 현재 450억 달러의 가치를 지니고 있습니다.

OpenAI가 Microsoft에 의존하고, Anthropic이 Amazon의 지원을 받는 것과 달리, xAI는 독립적으로 슈퍼컴퓨팅 능력을 구축하고 있습니다. 이 전략은 xAI가 고급 AI 하드웨어를 확보하는 데 경쟁력을 부여하여 머스크의 회사가 경쟁자들보다 우위를 점할 수 있게 합니다.

xAI는 빠른 발전에도 불구하고, 계획 허가를 우회하고 지역 전력망에 부담을 주었다는 비판에 직면했습니다. 이에 대해 회사는 전력 수요 관리를 위한 Tesla의 메가팩 기술 배치 등 전력망 안정성 조치를 강조했습니다.

xAI의 하드웨어 중심 접근 방식은 찬사를 받았지만, 상업적 제공은 여전히 제한적입니다. Grok은 ChatGPT 및 Google의 Gemini와 같은 선도 모델에 비해 정교함과 사용자 기반에서 뒤처지고 있는 것으로 보고되고 있습니다. 그럼에도 불구하고 투자자들은 Colossus 프로젝트를 중요한 성과로 보고 있으며, xAI가 최첨단 기술을 신속하게 배포할 수 있는 능력을 보여주고 있습니다.

* 이 글은 tomshardware.com의 기사를 요약한 것입니다. 전체 기사의 내용은 이곳에서 확인하실 수 있습니다.
카테고리: AI
태그: Nvidia (852) Blackwell (108) Elon Musk (64) investment (63) supercomputer (23) xAI (22) Hopper (21) AI hardware (14) Grok (5) Colossus (2)

댓글

댓글을 쓰기 위해서는 로그인을 해 주세요.