테슬라 DOJO 엑사스케일 손실 AI 네트워크: 이더넷을 통한 테슬라 전송 프로토콜(TTPoE)

전문: https://www.servethehome.com/tesla-dojo-exa-scale-lossy-ai-network-...

원저자: Patrick Kennedy | 작성일: 2024-08-27 18:37
사이트 내 게시일: 2024-08-27 18:54
2024년 핫 칩스 컨퍼런스에서 테슬라는 DOJO 슈퍼컴퓨터를 위해 설계된 맞춤형 네트워킹 프로토콜인 테슬라 전송 프로토콜(TTPoE)을 소개했습니다. 테슬라가 주장하는 전통적인 TCP/IP는 너무 느리기 때문에, TTPoE는 하드웨어에서 실행되는 피어 투 피어 전송 계층 프로토콜로 작동하여 전문 스위치 없이도 효율적인 패킷 전송을 가능하게 합니다. TTPoE는 패킷 손실을 처리하도록 설계되었으며, TCP와 유사하게 전송을 재시도하지만 높은 처리량에 중점을 두고 있습니다.

DOJO 슈퍼컴퓨터는 Mojo라는 100Gbps NIC(네트워크 인터페이스 카드)를 특징으로 하며, 20W 이하에서 작동하고 8GB의 DDR4 메모리와 Dojo DMA 엔진을 포함하고 있습니다. 아키텍처에는 32GB HBM Dojo 인터페이스 프로세서와 900GB/s의 내부 TTP 인터페이스가 포함되어 있으며, 모두 이더넷 프레임으로 포장되어 있습니다. 테슬라의 접근 방식은 링크 채널을 통한 지역 혼잡 관리가 가능하며, TTP는 서비스 품질(QoS)을 지원하지만 현재는 비활성화되어 있습니다.

테슬라의 DOJO 시스템은 4 ExaFLOPS의 성능을 달성하도록 설계되어 있으며, 40PB의 로컬 스토리지를 갖추고 있어 상당한 계산 능력을 보여줍니다. 회사는 스위치 기술을 위해 아리스타(Arista)와 협력하고 있으며, TTPoE는 기존 솔루션, 특히 NVLink에 비해 낮은 단방향 쓰기 지연 시간을 제공할 것으로 예상됩니다. 테슬라는 TTPoE를 UltraEthernet Consortium에 도입할 계획을 세우고 있어, DOJO 시스템을 넘어 더 넓은 응용 가능성을 시사합니다.

전반적으로 테슬라의 네트워킹 및 컴퓨팅 아키텍처 혁신은 AI 슈퍼컴퓨팅에서 중요한 진전을 보여주지만, 기술의 맞춤형 특성은 확장성과 더 넓은 산업 채택에 대한 의문을 제기합니다.

* 이 글은 servethehome.com의 기사를 요약한 것입니다. 전체 기사의 내용은 이곳에서 확인하실 수 있습니다.
카테고리: AI
태그: Tesla (36) AI Supercomputer (9) ExaFLOPS (4) DOJO (2) TTPoE (2) High Throughput (2) Networking Protocol (1) Arista (1) Custom NICs (1)

댓글

댓글을 쓰기 위해서는 로그인을 해 주세요.