알리바바의 엔지니어들이 AMD GPU의 일시 중지/재개 기능 문제를 조사하고 있으며, 이 과정에서 더블 버퍼 해제, 사용 후 해제, 불균형 IRQ 참조 수와 같은 여러 리소스 추적 버그를 확인했습니다. 이들은 이러한 문제를 사례별로 해결하려는 초기 시도가 효과적이지 않았으며, 특히 불균형 IRQ 참조 수 문제는 수정 후 새로운 문제가 발생하는 원인이 되었습니다. 소스 코드를 분석한 결과, 팀은 리소스 추적 메커니즘에 근본적인 구현 결함이 있다고 의심하고 있습니다.
이러한 문제를 해결하기 위해 엔지니어들은 현재 장치 관리 상태 기계에 두 가지 개선 사항을 제안하고 있습니다. 이들은 nbio와 ASIC부터 시작하여 새로운 설계에 맞게 하위 시스템을 정제하고 있습니다. 이 접근 방식은 아직 초기 단계에 있으며, 팀은 제안된 변경 사항이 효과적인지 확인하기 위해 커뮤니티의 피드백과 제안을 구하고 있습니다.
* 이 글은
phoronix.com의 기사를 요약한 것입니다. 전체 기사의 내용은
이곳에서 확인하실 수 있습니다.