테슬라, 결함이 있는 코어를 찾아내는 방법을 상세히 설명하다 — 단 하나의 오류가 수주간의 AI 훈련을 망칠 수 있다

전문: https://www.tomshardware.com/pc-components/cpus/tesla-details-how-i...

원저자: | 작성일: 2025-06-07 12:26
사이트 내 게시일: 2025-06-07 22:38
테슬라는 수백만 개의 코어로 구성된 Dojo 슈퍼컴퓨터에서 고장난 코어를 감지하기 위해 Stress 도구를 개발했습니다. 이 도구는 단 하나의 무음 데이터 오류가 수주간 걸리는 대규모 AI 훈련을 위태롭게 할 수 있기 때문에 매우 중요합니다.

Dojo 슈퍼컴퓨터는 전 세계에서 가장 큰 프로세서 중 하나로, 300mm 웨이퍼를 사용하여 웨이퍼 규모 프로세서당 최대 8,850개의 코어를 수용합니다. 각 코어는 1.25MB의 SRAM을 갖춘 맞춤형 64비트 RISC-V 설계로, 5×5 클러스터로 구성되어 있으며, 10TB/s의 대역폭으로 상호 연결되어 있습니다. 이 프로세서는 18,000암페어의 전류를 소모하고 15,000W의 전력을 방출하여, 무음 데이터 손상(SDC)을 감지하는 것이 특히 어렵습니다.

초기에는 테슬라가 차등 퍼징(differential fuzzing) 기법을 사용하여 코어 결함을 식별했으나, 통신 오버헤드로 인해 비효율적이었습니다. 이 방법은 코어가 내부적으로 페이로드를 교환할 수 있도록 개선되어 테스트 프로세스의 속도를 크게 높였습니다. 이 내부 통신 덕분에 약 4.4GB의 명령어를 짧은 시간 안에 테스트할 수 있어 감지 신뢰성이 향상되었습니다.

추가 개선 사항으로는 코어 상태를 재설정하지 않고 페이로드를 여러 번 실행하여 미세한 오류를 드러내는 방법이 포함되었습니다. 또한, XOR 연산을 사용하여 레지스터 값을 SRAM에 통합함으로써 결함이 있는 코어를 식별할 확률을 10배 증가시켰습니다.

Stress 도구는 개별 코어에서 전체 클러스터에 이르기까지 다양한 수준에서 작동하여 테슬라가 수백만 개의 코어 중에서 결함이 있는 코어를 식별할 수 있도록 합니다. 감지 시간은 다양하며, 대부분의 결함은 1GB에서 100GB의 명령어를 실행한 후 발견되며, 감지하기 어려운 결함은 1000GB 이상의 명령어가 필요할 수 있습니다.

이 도구는 설계 수준의 결함과 저수준 소프트웨어 문제도 드러내어 해결되었습니다. 테슬라는 Stress 도구의 데이터를 사용하여 시간에 따른 하드웨어 열화를 연구하고, 이를 사전 실리콘 테스트 단계로 확장할 계획입니다.

테슬라의 웨이퍼 규모 프로세서 발전은 Cerebras와 함께 이러한 기술 개발의 복잡성을 강조합니다. 결함이 있는 코어를 오프라인으로 전환하지 않고 식별하는 회사의 방법은 이 분야에서 중요한 진전을 나타내며, TSMC는 앞으로 더 많은 기업들이 웨이퍼 규모 설계를 채택할 것이라고 언급했습니다.

* 이 글은 tomshardware.com의 기사를 요약한 것입니다. 전체 기사의 내용은 이곳에서 확인하실 수 있습니다.
카테고리: AI
태그: TSMC (399) RISC-V (115) AI training (44) Tesla (44) supercomputers (17) hardware monitoring (9) DOJO (3) wafer-scale processors (2) silent data corruption (1)

댓글

댓글을 쓰기 위해서는 로그인을 해 주세요.