최근 Linux 패치 시리즈에서 AMD 엔지니어인 사무엘 장(Samuel Zhang)은 AMD Instinct 가속기가 장착된 Linux 서버에 영향을 미치는 중대한 문제를 보고했습니다. 최대 1.5TB의 VRAM을 가질 수 있는 이 서버는 여덟 개의 Instinct 카드 덕분에 하이버네이션 프로세스 중에 실패를 겪고 있습니다. 이 문제는 GPU의 수에서 비롯된 것이 아니라 Linux가 하이버네이션 중 GPU 메모리를 관리하는 방식에서 발생합니다. 하이버네이션이 시작되면 시스템은 모든 GPU 메모리를 시스템 RAM으로 오프로드하려고 시도하는데, 이로 인해 최대 3TB의 메모리 요구량이 발생하여 시스템 메모리가 2TB인 서버의 용량을 초과하게 되어 하이버네이션이 실패하게 됩니다.
이 문제를 해결하기 위해 장은 두 가지 주요 변경 사항을 제안했습니다. 첫 번째는 하이버네이션 중 필요한 시스템 메모리를 줄이는 것이지만, 이는 새로운 도전 과제를 도입합니다: 대용량 메모리로 인해 해동 과정이 거의 한 시간 가까이 걸릴 수 있습니다. 이를 완화하기 위해 세 번째 패치가 도입되어 해동 단계에서 특정 버퍼 객체를 복원하지 않도록 하여 재개 시간을 크게 단축시켰습니다.
고급 AI 서버에서 하이버네이션의 필요성은 주로 다운타임 동안 전력 소비를 줄이고 전력망을 안정화하기 위해서입니다. 대규모 데이터 센터의 막대한 전력 소비를 고려할 때, 이 관행은 최근 스페인에서 발생한 정전과 같은 상황을 예방하는 데 도움이 될 수 있습니다.
* 이 글은
tomshardware.com의 기사를 요약한 것입니다. 전체 기사의 내용은
이곳에서 확인하실 수 있습니다.