많은 VRAM을 갖춘 AMD Instinct 가속기가 리눅스 절전 모드 문제를 드러내다

전문: https://www.phoronix.com/news/AMD-Too-Much-vRAM-RAM-Hibernate

원저자: Michael Larabel | 작성일: 2025-06-30 11:07
사이트 내 게시일: 2025-06-30 22:38
이 기사는 대규모 VRAM을 장착한 AMD Instinct 가속기를 사용할 때 리눅스 절전 모드와 관련된 중요한 문제를 다루고 있으며, 특히 데이터 센터 환경에서 발생하는 문제를 설명합니다. 최신 데이터 센터의 dGPU는 최대 192GB의 VRAM을 가질 수 있으며, 여러 개의 GPU를 사용할 경우(최대 8개) 총 VRAM 용량이 1.536TB에 이를 수 있습니다. 이는 절전 모드 중 시스템 메모리(2TB)가 메모리 요구 사항을 처리하기에 부족해지는 문제를 야기합니다. 절전 모드 과정에서 모든 VRAM 메모리를 시스템 메모리로 복사하려고 시도하게 되며, 이로 인해 필요한 메모리가 사용 가능한 메모리를 초과하게 되어 절전 모드 실패로 이어집니다.

이 문제를 해결하기 위해, 기사는 리눅스 패치 시리즈에서 제안된 두 가지 주요 변경 사항을 설명합니다. 첫 번째 변경 사항은 VRAM을 퇴출한 후 그래픽 변환 테이블(GTT)을 공유 메모리(shmem)로 이동하여 GTT 페이지를 해제할 수 있도록 하는 것입니다. 두 번째 변경 사항은 shmem 페이지를 스왑 디스크에 기록하도록 강제하여 메모리를 추가로 해제하는 것입니다. 이러한 변경 사항은 절전 이미지에 복사해야 할 페이지 수를 크게 줄여 성공적인 절전 모드를 가능하게 합니다.

또한, 기사는 절전 모드 해제 단계에서 버퍼 객체(BO)를 복원하는 과정이 과도한 시간을 소요할 수 있으며, 8개의 dGPU를 가진 시스템에서는 최대 50분이 소요될 수 있다는 보고가 있음을 언급합니다. 이 지연을 완화하기 위해, 세 번째 패치가 제안되어 해제 단계에서 BO 복원을 건너뛰도록 하여 절전 모드 과정을 더욱 최적화할 수 있습니다.

* 이 글은 phoronix.com의 기사를 요약한 것입니다. 전체 기사의 내용은 이곳에서 확인하실 수 있습니다.
카테고리: GPU
태그: AMD (2575) Linux (1678) Performance (1400) Data Center (282) VRAM (99) patch (30) Instinct (23) dGPU (6) hibernation (2) system memory (1)

댓글

댓글을 쓰기 위해서는 로그인을 해 주세요.