테슬라의 TTPoE, 핫 칩스 2024에서 TCP를 대체하는 저지연 애플리케이션을 위한 프로토콜

전문: https://chipsandcheese.com/2024/08/27/teslas-ttpoe-at-hot-chips-202...

원저자: chlamchowder | 작성일: 2024-08-27 23:58
사이트 내 게시일: 2024-08-28 00:16
핫 칩스 2024에서 테슬라는 저지연 애플리케이션을 위해 TCP를 대체하도록 설계된 새로운 전송 프로토콜 TTPoE(Tesla Transport Protocol over Ethernet)를 공개했습니다. 특히 자동차 기계 학습에 중점을 둔 도조(Dojo) 슈퍼컴퓨터에서 사용됩니다. 도조 슈퍼컴퓨터는 모델 훈련을 위해 높은 IO 대역폭을 요구하며, 텐서 크기는 최대 1.7GB에 달합니다. 테슬라는 호스트 머신이 슈퍼컴퓨터로 데이터를 전송하는 속도가 처리량을 제한하고 있음을 확인하고, 보다 효율적인 네트워킹 솔루션의 필요성을 느꼈습니다.

테슬라는 전통적인 네트워킹 솔루션인 인피니밴드(Infiniband) 대신 TTPoE를 통해 이더넷을 조정하여 마이크로초 단위의 지연을 목표로 하고, 간단한 하드웨어 오프로드를 가능하게 했습니다. TTPoE는 TIME_WAIT 상태를 제거하여 연결 종료 프로세스를 단순화하고, 종료 시퀀스를 세 번의 전송에서 두 번으로 줄여 성능을 크게 향상시킵니다. 핸드셰이크 과정도 삼자 교환에서 이자 교환으로 최적화되어 지연을 더욱 줄였습니다.

혼잡 제어를 위해 TTPoE는 하드웨어가 SRAM 버퍼에서 추적하는 고정 혼잡 창을 활용하는 강제 방법을 사용하며, 전통적인 TCP의 슬라이딩 윈도우 접근 방식은 사용하지 않습니다. 이는 테슬라가 고품질의 슈퍼컴퓨터 내부 네트워크에 중점을 두고 있어 전통적인 TCP 혼잡 제어 알고리즘이 그들의 요구에 비해 너무 느리다고 판단했기 때문입니다.

TTPoE를 구현하는 TTP MAC는 비용을 낮추기 위해 '덤 NIC(Dumb-NIC)'으로 설계되어 다수의 호스트 노드를 배포할 수 있도록 합니다. TTP MAC이 포함된 각 모조(Mojo) 카드에는 PCIe Gen 3 x16 인터페이스와 8GB의 DDR4 메모리가 장착되어 있습니다. 이 설정은 추가 호스트 머신을 도조 슈퍼컴퓨터 아키텍처에 통합할 수 있어 확장 가능한 대역폭을 제공합니다.

전반적으로 TTPoE는 슈퍼컴퓨팅을 위한 네트워킹에서 중요한 혁신을 나타내며, 테슬라의 도조 슈퍼컴퓨터의 대역폭 요구를 충족하는 데 있어 인피니밴드와 같은 전통적인 방법을 능가할 수 있는 맞춤형 솔루션을 제공합니다. 그러나 고정 혼잡 창은 낮은 품질의 인터넷 링크에서 효과를 제한할 수 있어, 주로 고품질의 내부 네트워크에 적합합니다.

* 이 글은 chipsandcheese.com의 기사를 요약한 것입니다. 전체 기사의 내용은 이곳에서 확인하실 수 있습니다.
카테고리: AI
태그: Machine Learning (106) Networking (58) Tesla (36) supercomputing (22) low latency (7) Ethernet (6) TTPoE (2) Dojo supercomputer (1) congestion control (1)

댓글

댓글을 쓰기 위해서는 로그인을 해 주세요.