AMD의 RDNA4 아키텍처 (비디오)

전문: https://old.chipsandcheese.com/2025/03/05/amds-rdna4-architecture-v...

원저자: Cheese | 작성일: 2025-03-05 14:01
사이트 내 게시일: 2025-03-05 14:04
AMD는 RX 9000 시리즈, 특히 RX 9070 및 RX 9070 XT GPU에 적용된 새로운 RDNA4 아키텍처를 공개했습니다. 이 카드들은 GPU 시장의 중고급 세그먼트에 위치하며, 이전 RDNA 버전의 고급 모델과는 다른 방향성을 가지고 있습니다.

RX 9070 시리즈는 TSMC의 N4P 공정에서 제작되었으며, 356.5mm² 다이 안에 539억 개의 트랜지스터를 포함하고 있어, mm²당 약 1억 5120만 개의 트랜지스터 밀도를 달성했습니다. RX 9070과 RX 9070 XT는 주로 8개의 컴퓨트 유닛이 적고, 부스트 클럭이 약 450MHz 낮으며, RX 9070의 전력 한도가 84와트 낮다는 점에서 차이를 보입니다.

주요 아키텍처 개선 사항 중 하나는 L2 캐시 뱅크의 두 배 증가로, RX 9070 XT의 경우 각 셰이더 엔진당 L2 캐시가 8MB로 증가하여 각 L2 슬라이스의 대역폭이 두 배로 늘어났습니다. 특히 L1 캐시는 읽기/쓰기 병합 버퍼로 대체되었습니다.

컴퓨트 유닛은 업그레이드되어 RDNA3.5의 FP 연산을 유지하고, 명령어 처리를 향상시키는 Split Barriers가 있는 보다 효율적인 스케줄러를 도입했습니다. 매트릭스 유닛은 FP16/BF16 처리량을 두 배로 늘리고, INT8 및 INT4 처리량을 네 배로 증가시키는 등 상당한 개선이 이루어졌으며, FP8 및 BF8 형식에 대한 지원도 추가되었습니다.

레이 가속기는 두 번째 교차 엔진이 추가되어 레이-박스 및 레이-삼각형 교차를 두 배로 늘렸으며, BVH8 구조로 전환되어 비순차적 결과 저장이 가능해졌습니다.

RDNA4의 두드러진 특징 중 하나는 비순차적 메모리 접근의 도입으로, 컴퓨트 유닛이 Cortex-A510 CPU의 기능처럼 메모리 접근을 보다 유연하게 관리할 수 있게 되었습니다. 또한 동적 레지스터 할당이 구현되어 셰이더가 더 많은 레지스터를 요청할 수 있게 되어 동시 처리 웨이브 수를 증가시킬 수 있습니다.

성능 지표에 따르면, 154와트로 작동하는 RX 9070은 348와트에서 약 70%의 RX 9070 XT 성능을 달성하며, RX 9070은 59%의 성능 대비 전력 이점을 제공합니다.

결론적으로, RDNA4는 기계 학습 및 레이 트레이싱 기능에서 상당한 개선을 가져오며, 캐시 대역폭 및 지연 관리도 향상되었습니다. 그러나 더 넓은 메모리 버스를 가진 더 큰 RDNA4 다이의 잠재적 성능에 대한 추측이 있으며, 이는 AMD가 4090 또는 5090과 같은 고급 제품에 더 경쟁력 있게 자리 잡을 수 있었을 것입니다.

* 이 글은 old.chipsandcheese.com의 기사를 요약한 것입니다. 전체 기사의 내용은 이곳에서 확인하실 수 있습니다.
카테고리: GPU
태그: AMD (2167) ray tracing (276) Machine Learning (191) RDNA4 (86) GPU architecture (55) Performance Metrics (9) RX 9000 (9) Compute Units (7) cache improvements (3)

댓글

댓글을 쓰기 위해서는 로그인을 해 주세요.