핫 칩스 2024에서의 앰페어 컴퓨팅: 밀도 극대화

전문: https://chipsandcheese.com/2024/08/29/ampereone-at-hot-chips-2024-m...

원저자: chlamchowder | 작성일: 2024-08-29 17:40
사이트 내 게시일: 2024-08-29 17:47
앰페어 컴퓨팅(Ampere Computing)은 클라우드 네이티브 프로세서에 중점을 두고 있으며, 앰페어원(AmpereOne) 서버 CPU는 보안, 프라이버시, 그리고 프로세스 노드 스케일링에 의존하지 않는 일관된 성능을 강조합니다. 이 설계는 일관성을 저해하는 기능, 예를 들어 동시 멀티스레딩(SMT) 및 동적 클럭 속도 조정과 같은 기능을 피하고, 물리적 서버당 고객 서비스를 극대화하기 위해 밀도를 우선시합니다.

앰페어원 CPU는 최대 3.7 GHz에서 작동할 수 있는 맞춤형 코어 설계를 사용하며, 아마존의 그라비톤 4(Graviton 4) 및 엔비디아의 그레이스(Grace)와 같은 경쟁 제품들은 Arm의 라이센스된 네오버스(Neoverse) 코어를 사용합니다. 오라클(Oracle)은 앰페어원 클라우드 인스턴스를 제공하며, SKU는 최대 3 GHz에 도달합니다. 이 아키텍처는 성능에 중요한 대용량 L2 캐시를 특징으로 하며, AMD의 젠 4c 코어와 비교되는데, 젠 4c는 더 작은 L2 캐시를 가지고 있지만 더 넓은 파이프라인을 갖추고 있습니다.

프론트엔드 설계는 분기 예측을 위한 8테이블 TAGE 예측기를 사용하여, 어려운 작업 부하에서도 95% 이상의 정확도를 달성합니다. 예측기의 효율성은 분리된 페치 파이프라인과 16 KB의 작은 명령어 캐시로 향상되며, 이는 비전통적이지만 지연 시간을 줄이는 데 목표를 두고 있습니다. 디코드 단계에서는 사이클당 네 개의 마이크로 연산을 방출할 수 있어 명령어 융합을 최적화합니다.

백엔드에서는 앰페어원이 12개의 실행 파이프에 데이터를 공급하는 8개의 스케줄러를 특징으로 하며, 깊은 정수 및 부동 소수점 스케줄러를 갖추고 있습니다. 로드/스토어 유닛은 64 KB L1 데이터 캐시와 쓰기 통과(write-through) 설계를 가지고 있으며, 메모리 의존성을 처리하기 위한 고급 메커니즘을 포함하고 있습니다. 이 아키텍처는 메모리 태깅을 지원하여 보안을 강화하고 멜트다운(Meltdown)과 같은 취약점을 방지합니다.

앰페어원의 칩렛 아키텍처는 프로세스 노드의 유연성을 허용하며, 컴퓨트 칩렛은 TSMC의 5nm 공정으로 제작되고 다른 구성 요소는 7nm에서 제작됩니다. 이 설계는 최대 12채널 DDR5 설정을 지원하며, 고객 IP를 쉽게 통합할 수 있습니다. 성능 평가에 따르면, 앰페어원은 인텔의 스카이레이크(Skylake)와 비교할 수 있는 적절한 코어 성능을 제공하지만, 가장 높은 성능 지표를 달성하기보다는 더 많은 고객을 수용하는 데 중점을 두고 있습니다.

전반적으로 앰페어원은 밀도와 일관된 성능을 원초적인 속도보다 우선시하는 균형 잡힌 설계를 나타내며, 서버 배포에서 효율성을 극대화하려는 클라우드 서비스 제공업체에 적합합니다.

* 이 글은 chipsandcheese.com의 기사를 요약한 것입니다. 전체 기사의 내용은 이곳에서 확인하실 수 있습니다.
카테고리: CPU
태그: CPU architecture (86) AmpereOne (22) Branch Prediction (15) Chiplet Design (11) Performance Evaluation (2) Oracle Cloud (2) cloud-native processors (1) memory tagging (1) density optimization (1)

댓글

댓글을 쓰기 위해서는 로그인을 해 주세요.