인텔 oneDNN 3.8, CPU 및 GPU 성능 최적화 강화

전문: https://www.phoronix.com/news/Intel-oneDNN-3.8

원저자: Michael Larabel | 작성일: 2025-05-11 04:00
사이트 내 게시일: 2025-05-11 10:24
인텔이 oneDNN의 3.8 버전을 출시하며 CPU와 GPU 아키텍처 모두에 대한 성능 최적화를 대폭 강화했습니다. 이번 업데이트는 인텔 AMX 명령어 세트를 지원하는 프로세서에서 행렬 곱셈(matmul) 및 내적 프리미티브의 성능을 향상시켜 계산 효율성을 높입니다.

인텔 AVX2 명령어 세트를 사용하는 프로세서에서는 특히 int8 제로 포인트를 활용한 합성곱(convolution) 및 내적 성능에서 주목할 만한 개선이 이루어졌습니다. 또한, fp16 및 bf16 압축 가중치를 사용할 때 fp32 합성곱 성능이 향상되어 높은 정밀도와 효율성을 요구하는 애플리케이션에 필수적입니다.

깊이별 합성곱(depthwise convolution) 성능도 향상되었으며, 특히 fp32 바이어스 또는 합계 후처리 작업과 함께 fp16/bf16을 사용할 때 더욱 개선되었습니다. 더불어 bf16 풀링 역전파(backpropagation) 성능도 향상되었고, 이제 per_w 브로드캐스트를 지원하는 이진 후처리 작업도 개선되었습니다.

그래픽 측면에서는 Intel Arc 그래픽이 성능 향상을 받았으며, 특히 코드명 Panther Lake로 알려진 차세대 인텔 코어 울트라 프로세서에 최적화되었습니다. 이번 업데이트는 코어 울트라 시리즈 2 및 이전에 Battlemage로 알려진 B 시리즈 분리형 그래픽과 관련된 Intel Arc 그래픽의 합성곱 성능도 개선했습니다.

int8 matmul 성능은 소스 및 가중치 텐서에 대한 제로 포인트 지원으로 최적화되어 머신 러닝 작업 부하를 향상시킬 것으로 기대됩니다. 그 외에도 f4_e2m1 및 f4_e3m0 matmul 및 재정렬 작업의 성능이 개선되었습니다.

그래프 API(Graph API)도 업데이트되어, int4 및 int8 압축 키와 값, fp16/bf16 SDPA를 사용하는 fp32 중간 데이터 유형을 포함한 다양한 서브그래프에 대한 성능 향상이 이루어졌습니다. 이는 대규모 데이터 세트를 처리할 때 높은 처리량과 낮은 대기 시간을 요구하는 애플리케이션에 특히 유리합니다.

전반적으로 oneDNN 3.8 업데이트는 인텔의 CPU 및 GPU 성능 최적화에 있어 중요한 진전을 나타내며, 고성능 컴퓨팅 및 머신 러닝 분야의 개발자와 연구자들에게 유용한 도구가 될 것입니다.

* 이 글은 phoronix.com의 기사를 요약한 것입니다. 전체 기사의 내용은 이곳에서 확인하실 수 있습니다.
카테고리: GPU
태그: 인텔 (1948) GPU (372) Performance Optimization (266) Machine Learning (207) CPU (109) Deep Learning (20) Arc graphics (15) AVX2 (9) AMX (5) oneDNN (2)

댓글

댓글을 쓰기 위해서는 로그인을 해 주세요.